Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden af og sidenhen til at fastlægge en fornyelsesmodel for ankomstprocessen i et køsystem. Vi betragter et ikke nærmere specificeret køsystem, hvori {T n : n = 1,2,...} er en følge af ankomsttider (ankomstproces), og {U n : n N} er den tilhørende følge af interankomsttider, dvs. U 1 := T 1, U n := T n T n 1, n = 2,3,... I denne note skal vi udelukkende se på statistisk inferens for ankomstprocessen på baggrund af interankomsttider. Nærmere bestemt koncentrerer vi os i dette kursus om ankomstprocesser, som er fornyelsesprocesser, dvs. interankomsttider er uafhængige og identisk fordelte. I mindre tekniske termer kan disse antagelser formuleres som følger: 1. Hver kunde vælger sin ankomsttid uafhængig af de forudgående kunder. 2. Ankomstprocessen ser ens ud til alle tidspunkter, specielt er ankomstraten (gennemsnitligt antal ankomster per tidsenhed) er konstant over tid (stationaritet). Disse antagelser er typisk kun er grove approksimationer i dagligdags køsystemer. I et supermarked har folk tendens til at ankomme i klynger, alt imens ankomstraten varierer betydeligt i løbet af dagen; i et produktionssystem kan interankomsttiderne bedre antages uafhængige, men ofte vil ankomstraten variere i tid. På trods af den slags mangler, vil man ikke desto mindre ofte insistere på at anvende en fornyelsesmodel for ankomstprocessen, eksempelvis over tilpas små tidsrum, hvis der er tvivl om stationaritet. Begrundelsen er rimelig nok: fornyelsesmodellen er simplest mulige stokastiske model for ankomstprocessen i den forstand, at det er tilstrækkeligt at specificere interankomstfordelingen. Med en så simpel model er det 1
særligt let at simulere køsystemet mhp. at vurdere diverse performanceparametre. Endvidere rummer klassen af fornyelsesankomstprocesser den helt centrale stationære Poisson ankomstproces, under hvilken man i mange tilfælde kan udføre delvis eksakte analyser af køsystemet. Givet observationer fra en konkret ankomstproces er det derfor naturligt at undersøge vha. statistiske metoder, hvorvidt en fornyelsesmodel er en god model for ankomstprocessen og i bekræftende fald hvordan fornyelsesmodellen bør se ud i detaljer. Der skal tages stilling til følgende fire punkter: 1. Er stationaritetsantagelsen rimelig? 2. Er uafhængighedsantagelsen for interankomsttider rimelig? 3. Hvilken parametrisk klasse af fordelinger stammer interankomsttider fra? 4. Givet en rimelig parametrisk klasse af fordelinger, hvad er det bedste bud på parameterværdien for fordelingen af interankomsttider på baggrund af observationerne? I det følgende beskrives en række grundlæggende statistiske værktøjer til at håndtere hvert enkelt af ovenstående punkter. 1 Stationaritet Lad x 1,...,x n være observationer af en stokastisk proces {X n : n N}. En simpel men effektiv måde hvorpå man kan undersøge for stationaritet er ved at plotte observationer (i nærværende sammenhæng givet ved interankomsttider) mod deres indeks, dvs. plotte punkterne (i,x i ) for i = 1,...,n. Følgende er tegn på ikkestationaritet: 1. Trends eller skift i lokation over observationsnummer. 2. Skift i variation over observationsnummer. Hvis data er spredt jævnt omkring gennemsnittet uden af de ovenstående afvigelser, vil man typisk acceptere stationaritetsantagelsen. Se Figur 1 for eksempler. Man bør altid tage datakilden ind i overvejelserne, når man vurderer stationaritet. Ofte vil man på forhånd have en klar idé om, hvorvidt en ankomstproces er ikkestationær over et længere tidsinterval. Hvis det er tilfældet, bør man overveje at splitte datasættet af ankomsttider op i flere datasæt over mindre tidsintervaller, over hvilke man forventer stationaritet. Observationsfølgerne hørende til hvert tidsinterval kan derpå undersøges enkeltvis. 2
Stat. proces Ikkestat. proces Observation 0 1 2 3 4 5 6 7 Observation 0 5 10 15 20 25 0 20 40 60 80 100 Observationsnummer 0 20 40 60 80 100 Observationsnummer FIGUR 1. Eksempler på plot af observationer mod indeks i en stationær (venstre) og ikkestationær (højre) stokastisk proces. Processen til venstre udviser ingen tydelige tegn på skift i lokation eller variation. Processen til højre udviser derimod periodisk trend. Endvidere er der et skift i variation omkring de sidste 20 observationer. 2 Uafhængighed af interankomsttider Et udbredt mål for afhængigheden mellem stokastiske variable er deres korrelation. Vi genkalder os først, at variansen af en stokastisk variabel X, hhv. kovariansen for to stokastiske variable X,Y, defineres som Var(X) := E(X EX) 2 = E(X 2 ) (E(X)) 2 ; Cov(X,Y) := E ( (X E(X))(Y EY) ) = E(XY) E(X)E(Y). Korrelationen mellem X,Y er da defineret som følger: (1) ρ(x,y) := Cov(X,Y) Var(X)Var(Y). Det kan vises, at korrelationen besidder følgende egenskaber: 1. ρ(x,y) 1. 2. ρ(x,y) = 1 Y = ax + b for konstanter a > 0 og b R. 3. ρ(x,y) = 1 Y = ax + b for konstanter a < 0 og b R. Iht. punkt 2-3 måler korrelationen den lineære afhængighed mellem X og Y : jo større (numerisk) korrelation, jo nærmere perfekt lineær er sammenhængen mellem X og Y. Negativ korrelation betyder, at X og Y har negativ samvariation jo større værdi af X, jo mindre værdi af Y. Positiv korrelation betyder, at X og Y har positiv samvariation jo større værdi af X, jo større værdi af Y. Hvis ρ(x,y) = 0, kaldes X og Y ukorrelerede. 3
y1 4 6 8 10 12 y2 4 6 8 10 12 5 10 15 x1 5 10 15 x2 y3 4 6 8 10 12 y4 4 6 8 10 12 5 10 15 x3 5 10 15 x4 FIGUR 2. Figurerne viser plot af observationer af stokastiske vektorer (X,Y). I alle tilfælde er ρ(x,y) = 0.81. Kvalitativt forskellige former for afhængighed kan altså lede til samme korrelationskoefficient. Endvidere kan korrelationskoefficienten være stor, selvom afhængigheden er langt fra lineær (figuren nederst til højre) eller omvendt, korrelationskoefficienten kan være lille, selvom afhængigheden er meget tæt på lineær (figuren nederst til højre). Tommelfingerreglen at stor korrelation lineær sammenhæng bør anvendes varsomt i praksis. Som vist i Figur 2 kan andre og mere komplicerede sammenhænge end linearitet give anledning til stor korrelation. Bemærk at hvis X og Y er uafhængige, gælder E(XY) = E(X)E(Y) og dermed ρ(x,y) = 0 ifølge (1), dvs. X og Y er ukorrelerede. Det omvendte gælder ikke ukorrelerede variable er generelt ikke uafhængige (tjek selv ved at udregne korrelationen mellem stokastiske variable X og Y = X 2, når E(X) = 0). Til gengæld er korrelationen et meget parsimonisk mål for afhængighed (vi kan nøjes med ét tal), og giver sædvanligvis en rimelig idé om graden af afhængighed. Hvordan estimeres korrelationer ud fra data? Givet uafhængige observationer x 1,...,x n af en stokastisk variabel X kan variansen af X estimeres ved følgende: Var(X) = n 1 n (x i x i ) 2, x = n 1 n Hvis Y er en anden stokastisk variabel, fra hvilken vi har uafhængige observationer y 1,...,y n, kan kovariansen mellem X og Y estimeres ved Ĉov(X,Y) = n 1 n (x i x)(y i y), x = n 1 n Følgelig kan korrelationen mellem X og Y estimeres ved x i. x i, y = n 1 n y i. Ĉov(X,Y) n (2) ˆρ(X,Y) = = (x i x)(y i y) Var(X) Var(Y) n (x i x) 2 n (y i ȳ) 2. 4
Det kan vises, at ˆρ(X,Y) nærmer sig den sande korrelation ρ(x,y), når antallet af observationer går mod uendelig, dvs. ˆρ er en såkaldt konsistent estimator. Vi er interesserede i at anvende korrelationer til at vurdere afhængigheder i en følge af stokastisk variable, dvs. en stokastisk proces. Lad X := {X n : n N} være en sådan stokastisk proces. Til X knytter vi autokorrelationsfunktionen ρ(m,n) := ρ(x m,x n ), m,n N. Autokorrelationsfunktionen beskriver graden af afhængighed mellem givne observationer X m og X n i processen. Vi kan i princippet estimere ρ(m,n) ved estimatoren (2); det kræver imidlertid, at vi kan observere den stokastiske proces til samme tidspunkt mange gange, uafhængigt af hinanden. I praksis har man kun én observation for hvert tidspunkt, og man vil derfor typisk antage, at X er svagt stationær. Ved dette forstås, at E(X n ) og E(X n ) 2 er uafhængige af n. I så fald følger det af definitionen på korrelation og autokorrelation, at ρ(m, n) kun afhænger af differensen m n. Det kan så vises, at ρ(n) kan estimeres ved den empiriske autokorrelation givet ved (3) ˆρ(k) = n k (x i+k x)(x i x) n (x i x) 2, k = 0,1,...,n. Bemærk at ˆρ(0) = ρ(0) = 1 (en observation er altid perfekt korreleret med sig selv). Den uafhængige variabel k i (3) kaldes lag. Det gælder, at ˆρ(k) nærmer sig den sande lag-k autokorrelation ρ(k), når antallet af observationer n går mod uendelig. Bemærk at hvis lag k er tæt på antal observationer n, er der kun få observationer (n k sådanne) til at fastlægge ˆρ(k), jf. (3). De empiriske autokorrelationer for sådanne høje lags bør derfor tolkes varsomt. To eksempler på empiriske autokorrelationsfunktioner er givet i Figur 3. Når vi undersøger ankomstprocesser mhp. at opstille fornyelsesmodeller herfor, ønsker vi at vurdere, hvorvidt der er uafhængighed mellem interankomsttider. Generelt kan det vises, at hvis {X n : n N} er en (svagt stationær) stokastisk proces bestående af lutter uafhængige observationer, så gælder (4) n 1/2 ˆρ(k) approx N(0,1), for n stor, hvor N(0, 1) betegner standardnormalfordelingen. Denne normalapproksimation kan bruges til at konstruere konfidensgrænser for autokorrelationsfunktionen: givet n uafhængige observationer er et approksimativt (1 α)% konfidensinterval for ˆρ(k) givet ved [ z 1 α/2 n 1/2,z 1 α/2 n 1/2 ], hvor z a er a-fraktilen i standardnormalfordelingen, dvs. z a = Φ 1 (a), med Φ fordelingsfunktionen for standardnormalfordelingen. Af definitionen på et konfidensinterval (intervallet indeholder den sande parameter i (1 α) 100% af tilfældene) forventer vi i snit, at (1 α) 100% af de beregnede empiriske autokorrelationer ˆρ(k) for k > 0 ligger inden for konfidensgrænserne. Hvis det omtrentligt er tilfældet, vil vi typisk acceptere antagelsen om uafhængighed. 5
ACF IID obs ACF random walk ACF 0.2 0.2 0.6 1.0 ACF 0.2 0.2 0.6 1.0 0 5 10 15 20 Lag 0 5 10 15 20 Lag FIGUR 3. Figuren til venstre viser et plot af ρ(k), når X består af uafhængigt standardnormalfordelte observationer. Figuren til højre viser et plot af ρ(k) for den stokastiske proces fastlagt iid ved X 0 = 0, X n = X n 1 + ε n, n > 1, ε n N(0,1) (random walk). I begge tilfælde er 95% konfidensbånd angivet ved de stiplede linier, beregnet ud fra sammenhængen i (4). I figuren til venstre accepteres antagelsen om uafhængighed (én ud af 20 autokorrelationer, dvs. præcis 5%, overskrider konfidensgrænsen). I figuren til højre afvises antagelsen om uafhængighed; observationerne er tydeligvis positivt korrelerede. 3 Fordeling af interankomsttider Forudsat at ankomstprocessen er stationær, og følgen af interankomsttiderne er blevet fundet uafhængige, er næste skridt at bestemme en model for fordelingen af interankomsttiderne. Vi forestiller os, at vi blandt en række forskellige fordelingstyper (eksponentialfordelingen, Erlangfordelingen etc.) ønsker at bestemme den type, som matcher data bedst. Til dette formål er den simpleste og ofte også mest informative metode at benytte en eller anden form for grafisk kontrol. Et formelt statistisk test for fordelingstype (goodness-of-fit test) kan være nyttigt i tvivlstilfælde og diskuteres kort til sidst i dette afsnit. Lad Y være en stokastisk variabel med fordelingsfunktion F, dvs. F(y) = P(Y y). Antag for nemheds skyld, at F er en kontinuert funktion. Så er fraktilfunktionen for F defineret som Q(p) := F 1 (p) for p [0,1], dvs. Q(p) er den værdi af den uafhængige variabel, for hvilken F krydser p. En sammenligning af Q med den empiriske fraktilfunktion beregnet ud fra data kan bruges til at vurdere, om data stammer fra F. Lad x 1,...,x n være en samling af uafhængige observationer af en stokastisk variabel X. Den empiriske fraktilfunktion for observationerne er defineret som Q n (p) := min{x : p F n (x)}, 6
hvor F n (x) er den empiriske fordelingsfunktion for x 1,...,x n, dvs. (5) F n (x) := antal observationer mindre end eller lig x. I fald X har fordelingsfunktion F, kan det vises, at Q n (x) nærmer sig Q(x) for ethvert x når n. Dvs. for n tilstrækkelig stor gælder, at Q n (x) Q(x). Under antagelsen at X har fordelingsfunktion F, vil punkterne i et plot af Q n (x) mod Q(x) ligge på tæt på linien y = x, uden systematiske afvigelser. Et sådant plot kaldes et QQ-plot (Quantile-Quantile plot). Konkret konstrueres QQ-plottet som et plot af punkterne (Q(i/n),y i ) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. QQ plot Empiriske fraktiler 0 1 2 3 4 0 1 2 3 4 Teoretiske fraktiler FIGUR 4. Et eksempel på et QQ-plot af interankomsttider mod fraktilerne i en eksponentialfordeling. Punkterne ligger tæt op ad og jævnt spredt om linien y = x. Vi slutter, at en eksponentialfordeling er en acceptabel model for disse data. Almindeligvis kender vi ikke F eksakt, men kun op til en eller flere ukendte parametre (parameteren i en eksponentialfordeling, middelværdi og varians i en normalfordeling etc.). I den slags tilfælde er det generelt nødvendigt at estimere parametre ud fra data, før man konstruerer sit QQ-plot. Der er dog visse vigtige undtagelser. Antag nemlig at punkterne i QQ-plottet af Q n (x) mod Q ligger omkring en rette linie y = ax+b. Dette gælder, hvis X har fordelingsfunktion F((x b)/a), dvs. X er fordelt som F pånær et skift i lokation b og skala a. Resultatet kan bruges til at vurdere visse fordelingstyper, uden at man behøver at estimere ukendte parametre for F. Her er to vigtige eksempler: 1. Antag at X eksponentialfordelt med parameter a. Hvis F er fordelingsfunktionen for en eksponentialfordelt stokastisk variabel med parameter 1, så har X fordelingsfunktion F(ax). Dvs. punkterne i et plot af Q n mod fraktilerne for F ligger omkring linien y = x/a. 7
2. Antag at X er normalfordelt med middelværdi b og varians a 2. Hvis F betegner fordelingsfunktionen for en standardnormalt stokastisk variabel, så har X fordelingsfunktion F((x b)/a). Dvs. punkterne i et plot af Q n mod fraktilerne hørende til F vil ligge omkring linien y = ax+b. Resultatet kan også bruges til at undersøge for lognormalfordelte observationer her skal logaritmen til observationerne ligge omkring linien y = ax + b. Et alternativ til QQ-plots er PP-plots (Probability-Probability plots). Her plottes den empiriske fordelingsfunktion F n (x) mod en teoretisk fordelingsfunktion F, hvis parametre evt. er estimeret på baggrund af data. Også her skal punkterne ligge omtrentligt på linien y = x, såfremt X er fordelt som F. I praksis konstrueres PPplottet som et plot af punkterne (i/n,f(y i )) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. PP-plots diskriminerer bedst i områder, hvor der er meget sandsynlighedsmasse (dvs. omkring middelværdien) og dårligere i halen af fordelingen (hvor sandsynlighederne er meget tæt på 0 hhv. 1). QQ-plots diskriminerer derimod bedst i halerne af en fordeling og ringere i områder med høj sandsynlighedsmasse (hvor der er mange observationer klumpet sammen ). Valget af plot til at undersøge fordelingstype afhænger altså af, hvilket område af fordelingen, det er vigtigst at beskrive præcist. QQ plot PP plot Teoretiske fraktiler 0 1 2 3 4 Teoretisk sandsynlighed 0.2 0.4 0.6 0.8 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Empiriske fraktiler 0.0 0.2 0.4 0.6 0.8 1.0 Empirisk sandsynlighed FIGUR 5. QQ-plot og PP-plot af observationer fra en Erlangfordeling med formparameter 2 og skalaparameter 1/2 mod de teoretiske fraktiler/sandsynligheder i en eksponentialfordeling med parameter 1. Bemærk de systematiske afvigelser fra den rette linie y = x i begge plots observationerne er tydeligvis ikke eksponentialfordelte. Som et alternativ til QQ- og PP-plots, kan man udføre et formelt statistisk test for fordelingstype, et såkaldt goodness-of-fit test. Et sådant test kan være nyttigt i situationer, hvor det synes vanskeligt at afgøre fordelingstypen, eller hvor man ønsker præcis afklaring i form af en p-værdi snarere end mere løse overvejelser baseret på plots. I er formentlig stødt på dette test i et tidligere statistikkursus: givet 8
uafhængige observationer x 1,...,x n af en stokastisk variabel X ønsker vi at teste hypotesen H 0 mod alternativet H 1, hvor H 0 : observationerne stammer fra fordelingsfunktionen Fˆθ H 1 : observationerne stammer ikke fra Fˆθ. Her er Fˆθ en fordelingsfunktion, hvis parameter er estimeret ved ˆθ på baggrund af data, f.eks. ved maksimaliseringsestimation (se næste afsnit). Hypotesen H 0 kan undersøges ved først at definere intervaller [a j 1,a j ), j = 1,...,k, således at samtlige observationer er indeholdt i foreningsmængden af [a j 1,a j ) erne og derpå beregne det forventede antal observationer E i i hver [a j 1,a j ) under Fˆθ, dvs. E i = n ( Fˆθ (a j) Fˆθ (a j 1) ). Antag at parameteren for fordelingsfunktionen F har dimension c. Lad endvidere O j være antal observationer i intervallet [a j 1,a j ). Der gælder følgende X 2 := k (O i E i ) 2 approx χ 2 (k c 1), E i når n samt det forventede antal observationer per celle er tilstrækkelig stort. Teststørrelsen X 2 kaldes goodness-of-fit teststørrelsen. Som en tommelfingerregel kræves E i 5, for at ovenstående approksimation er gyldig. Ud fra teststørrelsen X 2 kan vi konstruere det ønskede test. Store værdier af X 2 er kritiske for H 0, dvs. med signifikansniveau α afvises hypotesen H 0, såfremt X 2 > χ 2 (α,k c 1), hvor χ 2 (α,k c 1) er (1 α) 100%-fraktilen i χ2 (k c 1)-fordelingen. Det er ikke muligt at angive generelt, hvor mange intervaller, som bør anvendes for at sikre den mest pålidelige testprocedure for goodness-of-fit testet. Tabel 1 er en oversigt over anbefalet størrelsesorden for antal intervaller for et givet antal observationer n. Tabellen er en gengivelse af tabellen p. 329 i Banks et. al. (2005), Discrete Event System Simulation, Prentice-Hall. Stikprøvestørrelse Antal intervaller 20 Brug ikke χ 2 -test 60 5-10 100 10-20 >100 n n/5 TABEL 1. Anbefalet antal intervaller til brug ifm. χ 2 -testet for fordelingstype. 9
4 Parameterestimation Lad os antage, at stationaritetsantagelsen samt uafhængighedsantagelsen for interankomster er afklaret, samt at man har besluttet sig for en klasse af fordelinger for interankomsttiderne, dvs. man har besluttet sig for en statistisk model. Antag at den statistiske model kan beskrives ved en klasse af tæthedsfunktioner { f θ : θ Θ}, hvor θ er en ukendt parameter (f.eks. raten i en eksponentialfordeling eller vektoren bestående af middelværdi og varians i en normalfordeling). Vi ønsker nu at estimere værdien af θ på baggrund af data. En særligt udbredt form for estimation er maksimaliseringsestimation (eng: maximum likelihood estimation). Givet uafhængige observationer x 1,x 2,...,x n af en stokastisk variabel X og en samling af tæthedsfunktioner { f θ : θ Θ} er likelihoodfunktionen for θ defineret som L(θ) := n f θ (t i ). Maksimaliseringsestimatet for θ er defineret som den værdi af θ, der maksimaliserer likehoodfunktionen for data under den givne statistiske model, dvs. ˆθ ML := arg maxl(θ). Maksimaliseringsestimatet er altså den værdi af θ, som tildeler størst sandsynlighed til de observerede data under modellen. Maksimaliseringsestimatorer er særligt pæne estimatorer. Det kan f.eks. vises, at de under ganske generelle betingelser er approksimativt normalfordelte når n (muliggør konstruktion af konfidensintervaller for en parameter). Desuden spiller maksimaliseringsestimatorer en helt central rolle i konstruktionen af de såkaldte likelihood ratio tests til sammenligning af delmodeller i en givet statistisk model. Tabel 2 er en liste over maksimaliseringsestimatorer 1 for en række fordelingstyper, som man typisk støder på ifm. analyse af ankomstprocesser. Generelt er det ikke muligt at opskrive maksimaliseringsestimatorer på lukket form, og man må i stedet anvende numeriske metoder til maksimering af likelihoodfunktionen. Dette er eksempelvis påkrævet for Erlangfordelingen med ukendt form- og skalaparameter. 5 Opsummering hvad skal I huske? Følgende er en trin-for-trin oversigt over analyser, I bør udføre, når I forsøger at fitte fornyelsesmodeller til ankomstprocesser. 1 Det bemærkes, at maksimaliseringsestimatoren for variansen σ 2 i en normalfordeling faktisk er givet ved ˆσ 2 ML = (n 1)/n ˆσ 2 ; denne estimator er imidlertid ikke middelværdiret, forstået således at E( ˆσ ML ) = (n 1)/nσ 2 σ 2. Estimatoren ˆσ 2 er derimod middelværdiret og er derfor at foretrække. 10
Fordeling Tæthed Param. Maksimaliseringsestimator Eksponentialfordeling f(x) = ae ax a â = 1/ x Erlangfordeling f(x) = β r /(n 1)!x r 1 e x/β β ˆβ = x/r (kendt formparam.) Normalfordeling f(x) = (σ 2π) 1 e (x µ)2 /(2σ 2 ) µ,σ 2 ˆµ = x ˆσ 2 = (n 1) 1 n (x i x) 2 Lognormalfordeling f(x) = (xσ 2π) 1 e (ln(x) µ)2 /(2σ 2 ) µ,σ 2 Som for normalfordelingen; efter at have taget ln af data. TABEL 2. Liste over maksimaliseringsestimatorer for fordelinger, man typisk anvender for interankomsttider 1. Tjek stationaritet ved at plotte observationer (dvs. interankomsttider) mod observationsnummer. Hvis der ej er synlige skift i lokation eller variation, accepteres normalt antagelsen om stationaritet. Hvis ankomstprocessen ikke er stationær over hele det betragtede tidsinterval, gennemgå da punkt 2-4 over et eller flere mindre tidsintervaller, hvor processen kan antages approksimativt stationær. 2. Tjek uafhængighed vha. autokorrelationsplot. Brug konfidensbånd til at vurdere uafhængighedsantagelsen. Hvis ca. 5% eller færre af de estimerede autokorrelationer for lag større end 0 overskrider konfidensgrænsen, accepteres normalt antagelsen om uafhængighed. 3. Undersøg fordelingstype for interankomsttider. Det er en god idé først at undersøge, om eksponentialfordelingen kan bruges, da det leder til en særligt simpel og let fortolkelig ankomstproces, den stationære Poissonproces. Brug QQ-plots (eller PP-plots) hertil. Hvis punkterne i QQ-plottet ligger tæt op ad en ret linie med skæring i 0 uden systematiske afvigelser, kan observationerne antages at stamme fra en eksponentialfordeling. Hvis en eksponentialfordeling passer dårligt på data, kan det undersøges hvorvidt Erlang-, lognormalfordelingen eller en normalfordeling passer med data. Evt. kan andre fordelingstyper undersøges om nødvendigt. 4. Estimér parametre i fordelingen, f.eks. vha. maksimaliseringsestimation. Når tjeklisten er vel overstået, kan I bruge den estimerede ankomstproces i simulationsøjemed eller i nogle tilfælde til eksakte beregninger, i fald I kan beskrive køsystemet i termer af en passende analytisk håndtérbar model. 6 Statistik for ankomstprocesser i R Hverken Excel eller Matlab er specielt velegnede til at udføre de statistiske beregninger, som er beskrevet i denne note. Selv om de beskrevne plots principielt 11
kan laves i disse to programmer, bliver parameterestimation i unødvendigt teknisk. Til slige problemer er statistikværktøjet R et både bedre og nemmere valg. I kan hente programmet gratis på hjemmesiden http://www.r-project.org. Dokumentation for hovedfunktionerne i R kan findes på f.eks. følgende adresse: http://www.ualberta.ca/cns/research/rdoc/r/library/base/html/00index.html Følgende er et eksempel på, hvordan man kan udføre de fleste af analyserne i denne note givet data i en tekstfil data.txt, hvor hver række indeholder netop én ankomsttid. # Indlæs datasæt ank <- read.table("data.txt") # Antal observationer n<-nrow(ank) # Beregn interankomsttider inter.ank <- c(ank[1,1], diff(ank[,1])) # Plot af observationer for undersøgelse af stationaritet plot(1:n,inter.ank,xlab="observationsnummer", ylab="observation",type="l") # Plot af autokorrelation (m. 95% konfidensbånd) acf(inter.ank) # QQ-plot mod eksponentialfordeling teo<-qexp((1:n)/n) plot(sort(inter.ank),teo,xlab="observerede fraktiler", ylab="teoretiske fraktiler") abline(0,1) # PP-plot mod eksponentialfordeling teo<-pexp(sort(inter.ank)) plot((1:n)/n,teo,xlab="observerede sandsynligheder", ylab="teoretiske sandsynligheder") abline(0,1) # Parameterestimation for eksponentialfordeling. # Kræver at I har installeret biblioteket MASS library(mass) fitdistr(inter.ank,"exponential") 12