Stokastiske processer og køteori

Relaterede dokumenter
Statistik for ankomstprocesser

Stokastiske processer og køteori

Matematisk model for køsystem

Tema. Dagens tema: Indfør centrale statistiske begreber.

Stokastiske processer og køteori

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Kvantitative Metoder 1 - Efterår Dagens program

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Produkt og marked - matematiske og statistiske metoder

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Uge 10 Teoretisk Statistik 1. marts 2004

Kvantitative Metoder 1 - Forår Dagens program

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Stokastiske processer og køteori

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Stokastiske processer og køteori

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Hvad er kønetværk? AGR/PSE (I17) VS7-8. minimodul 1 / 17

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Statistiske principper

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Kræver generelt at diverse ventetider er eksponentialfordelte. Faste rammer for serverdiscipliner mv. Svært at modellere ikke-standard køsystemer.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

1 Palm teori. Palm teori 1

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Stokastiske processer og køteori

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Estimation og konfidensintervaller

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

1 Hb SS Hb Sβ Hb SC = , (s = )

Hypotesetests, fejltyper og p-værdier

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Nanostatistik: Test af hypotese

Betingede sandsynligheder Aase D. Madsen

Teoretisk Statistik, 13 april, 2005

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Kvantitative Metoder 1 - Forår Dagens program

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Opgaver til kapitel 3

Nanostatistik: Opgavebesvarelser

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Elementær sandsynlighedsregning

Statistik og Sandsynlighedsregning 2

Kvantitative Metoder 1 - Forår Dagens program

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Note om Monte Carlo metoden

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Matematisk Modellering 1 Cheat Sheet

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Statistik II 4. Lektion. Logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

StatDataN: Test af hypotese

Konfidensintervaller og Hypotesetest

Notation for parallelforbundne ekspeditionssystemer

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Modeller for ankomstprocesser

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Statistik og Sandsynlighedsregning 2

En Introduktion til SAS. Kapitel 5.

DANMARKS TEKNISKE UNIVERSITET Side 1 af 18 sider. Skriftlig prøve, den: 16. december 2003 Kursus nr : (navn) (underskrift) (bord nr)

Løsning til eksaminen d. 29. maj 2009

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik og Sandsynlighedsregning 2

Produkt og marked - matematiske og statistiske metoder

Den lineære normale model

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Transkript:

Stokastiske processer og køteori 3. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1

SIDSTE GANG Ankomstproces T 1, T 2,... (ankomsttid per kunde) til køsystem. Modellér kumulativt antal ankomster (tælleproces) N(t) := max{n T 1 + + T n t}. Fuldst. tilfældige ankomster N en stationær Poissonproces antal ankomster i disjunkte tidsintervaller er uafhængige; N(t) Poisson(λt), λ > 0 intensitet. Mere generelt, fornyelsesprocesser for ankomstttider: T n = n U i, i=1 U i uafhængige og identisk fordelte. Hvordan tjekkes, om en ankomstproces er en fornyelsesproces? SIDSTE GANG 2

HVORFOR ER DET RELEVANT? I mange modelleringssituationer kan vi observere ankomstprocessen før selve modelkonstruktionen. Modeller for ankomstprocessen nødvendige ifm. Simulation valg af fordeling for interankomsttider? Teoretiske beregninger kan vi bruge simpel Markovmodel (dvs. er interankomsttider eksponentialfordelte)? Statistisk inferens hvordan ser ankomstprocessen ud? Det er generelt ikke nok blindt at antage eksponentialfordeling! HVORFOR ER DET RELEVANT? 3

FORNYELSESEGENSKABEN HVAD BETYDER DET? Fornyelsesmodel for ankomstproces interankomsttider uafhængige og identisk fordelte. I knap så tekniske termer 1. Hver kunde vælger ankomsttid uafh. af tidligere kunder. 2. Ankomstprocessen ser ens ud til alle tidspunkter. Specielt er ankomstraten konstant over tid (stationaritet). Givet observerede interankomsttider, tjek følgende: 1. Stationaritet af interankomsttider. 2. Uafhængighed af interankomsttider. 3. Hvilken klasse af fordelinger (eksponential, Erlang etc.) 4. Hvilke parametre i den givne klasse af fordelinger? FORNYELSESEGENSKABEN HVAD BETYDER DET? 4

ROUTER LØBENDE DATAEKSEMPEL Ankomsttider for pakker til New Zealandsk router. 1500 ankomster (del af 188 gb stort datasæt). Detaljer: http://wand.cs.waikato.ac.nz/wand/wits/auck/4/ Antal pakker 0 500 1000 1500 0 5 10 15 Tid/ms ROUTER LØBENDE DATAEKSEMPEL 5

STATIONARITET Stokastisk proces X = {X n : n N} stationær, hvis X ser ens ud, uanset hvornår man starter med at se på den. I praksis, tjek om middelværdi og varians uafhængige af t. Plot (i, x i ) for i = 1,...,n og se efter Trends/skift i gnsntl. værdi (plot fx løbende gennemsnit), Skift i variation. Stat. proces Ikkestat. proces Observation 0.0 1.0 2.0 3.0 Observation 2 2 6 10 0 20 40 60 80 100 Observationsnummer 0 20 40 60 80 100 Observationsnummer STATIONARITET 6

ROUTER STATIONARITET? Interankomsttid/ms 0.00 0.04 0.08 0 500 1000 1500 Pakkenummer R-kode: plot(int.ank,xlab="pakkenummer",ylab="interankomsttid/ms") lines(filter(int.ank,rep(1/50,50)),col=2,lwd=2) ROUTER STATIONARITET? 7

KORRELATION Korrelationen mellem stokastiske variable X og Y ρ(x, Y) := Cov(X, Y) Var(X)Var(Y). Der gælder følgende ρ(x, Y) > 0: positiv samvariation (X stor Y stor); ρ(x, Y) < 0: negativ samvariation (X stor Y lille); ρ(x, Y) = 1 Y = ax + b for konstanter a, b. Hvis X og Y er uafhængige, vil ρ(x, Y) = 0. Dvs. korrelationen er et mål for (lineær) afhængighed. KORRELATION 8

Advarsel: Korrelation er ikke det samme som uafhængighed. Tag fx X Unif[ 1, 1] og sæt Y = X 2. Så er ρ(x, Y) = 0. Problemet? Sammenhæng ml. X og Y ikke-lineær. Ligefordeling, [ 1,1] 1.0 0.0 0.5 1.0 Y=X^2 0.0 0.4 0.8 1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0 X (ligefordelt, [ 1,1]) Plot evt. observationer af X mod observationer af Y for at afsløre mere kompliceret sammenhæng end lineær. KORRELATION 9

KORRELATION FOR STOKASTISKE PROCESSER X = {X n : n N} er (svagt) stationær. Autokorrelationsfkt. ρ(k) := ρ(x n, X n+k ) (uafh. af n pga. stationaritet) k = 0, 1,... ρ(k) fortæller noget om afhængigheden mellem observationer, som er k tidsenheder fra hinanden. X n er uafhængige ρ(k) = 0 for k > 0 (bemærk, ρ(0) = 1). Estimér ρ(k) ved empirisk autokorrelation ^ρ(k) = n k i=1 (x i+k x)(x i x) n i=1 (x i x) 2, k = 0, 1,..., n. Ved uafhængighed skal ^ρ(k) være numerisk lille. Plot ^ρ(k) mod k og tjek det! KORRELATION FOR STOKASTISKE PROCESSER 10

approx Hvad betyder lille? Kan vise n 1/2^ρ(k) N(0, 1) for n stor. Dvs. et approksimativt 95%-konfidensinterval for ^ρ(k) er [ 1.96n 1/2, 1.96n 1/2 ], (1.96 er 97.5% fraktilen i N(0, 1)). Tommelfingerregel: Uafhængighed ρ(k) 2/ n for ca. 95% af k > 0. ACF IID obs ACF random walk ACF 0.2 0.2 0.6 1.0 ACF 0.2 0.2 0.6 1.0 0 5 10 15 20 Lag 0 5 10 15 20 Lag KORRELATION FOR STOKASTISKE PROCESSER 11

ROUTER UAFHÆNGIGHED? Autokorrelationsfunktion, interankomsttider ACF 0.0 0.4 0.8 0 5 10 15 20 25 30 Lag R-kode: acf(int.ank) ROUTER UAFHÆNGIGHED? 12

FORDELINGSTYPE PP-PLOT Uafhængige observationer x 1,...,x n fra en ukendt fordeling. Stammer disse fra (kendt) fordelingsfunktion F? Idé sammenlign teoretisk F m. empirisk fordelingsfunktion F n F n (x) := antal obs. mindre end eller lig x. Empirisk fordelingsfkt. Teoretisk fordelingsfkt. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 0 1 2 3 4 5 FORDELINGSTYPE PP-PLOT 13

Kan vise, at lim n F n (x) = F(x) med sandsynlighed 1 for alle x. Dvs. for n stor, plot af F n mod F ligger langs linien y = x. Kaldes et PP-plot (Probability-Probability plot). I praksis, plot (i/n, F(y i )) for i = 1,...,n (y i er ordnede x i er). Empiriske sandsynligheder 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Teoretiske sandsynligheder FORDELINGSTYPE PP-PLOT 14

FORDELINGSTYPE QQ-PLOT Problem: PP-plots viser afvigelser i områder med stor sandsynlighed. Hvad med opførslen i halen af fordelingen? Benyt QQ-plots: Fraktilfunktion for p [0, 1] Q(p) := F 1 (p) (teoretisk) Q n (p) := min{x : p F n (x)} (empirisk) Hvis obs. fra F, lim n Q n (p) = Q(p) m. sandsynlighed 1. Dvs. for n stor ligger plot af Q n (p) mod Q(p) langs linien y = x. Kaldes QQ-plot (Quantile-Quantile plot). I praksis, plot (y i, Q(i/n)), i = 1,...,n (y i er ordnede x i er). FORDELINGSTYPE QQ-PLOT 15

Empiriske fraktiler Teoretiske fraktiler 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Empiriske fraktiler 0 1 2 3 0 1 2 3 4 Teoretiske fraktiler FORDELINGSTYPE QQ-PLOT 16

MERE OM QQ-PLOTS Normalt kender vi kun F op til én eller flere parametre. Man kan estimere disse fra data og benytte QQ/PP-plots. Et alternativ: Antag at (Q(x), Q n (x)) ligger omkring en ret linie y = ax + b. Gælder hvis data stammer fra fordelingsfunktion F((x b)/a). Kan bruges til fordelingstjek m. QQ-plot uden estimation: Hvis data fra N(b, a 2 ), og F er fordelingsfunktion for N(0, 1), så har data fordelingsfunktion F((x b)/a). Hvis data fra Exp(a), og F er fordelingsfunktion for Exp(1), så har data fordelingsfunktion F(ax). Virker ikke for PP-plots og ikke med alle fordelinger. MERE OM QQ-PLOTS 17

ROUTER FORDELINGSTYPE Empiriske fraktiler 0.00 0.04 0.08 Empiriske sandsynligheder 0.0 0.2 0.4 0.6 0.8 1.0 R-kode: 0 2 4 6 Teoretiske fraktiler 0.0 0.2 0.4 0.6 0.8 1.0 Teoretiske sandsynligheder plot(qexp((1:n)/n),sort(int.ank),ylab="empiriske fraktiler", xlab="teoretiske fraktiler") abline(0,mean(int.ank)) plot(pexp(sort(int.ank),1/mean(int.ank)),(1:n)/n, ylab="empiriske sandsynligheder",xlab="teoretiske sandsynligheder") abline(0,1) ROUTER FORDELINGSTYPE 18

FORDELINGSTYPE GOODNESS-OF-FIT-TEST Benyt et formelt for test for hypotesen H 0 : Data stammer fra F. Opskrift på goodness-of-fit-test: 1. Inddel [min i x i, max i x i ] i intervaller (a i 1, a i ], i = 1,...,k. 2. Bestem forventet antal observationer i (a i 1, a i ] E i = n(f^θ (a i) F^θ (a i 1)), hvor F fordelingsfkt. med estimeret parameter ^θ (dimension c). 3. Udregn χ 2 -teststørrelse X 2 = k i=1 (E i O i ) 2 O i. 4. Hvis data fra F^θ, så gælder X2 χ 2 (k c 1) approksimativt. Med signifikansniveau (1 α) 100%, afvis H 0 hvis X 2 > χ 2 (α,k c 1) (hvor χ2 (α,k c 1) er 1 α fraktil i χ2 (k c 1)). FORDELINGSTYPE GOODNESS-OF-FIT-TEST 19

ANBEFALINGER, GOODNESS-OF-FIT-TEST Goodness-of-fit-test følsomt overfor valg af antal intervaller k. Ej muligt at vælge optimalt antal intervaller. Stikprøvestørrelse Antal intervaller 20 Brug ikke χ 2 -test 60 5-10 100 10-20 >100 n n/5 Tommelfingerregel: Antal obs./interval 5 for χ 2 -test. Repetition + opgaver næste gang eksempel på beregninger. Typisk er formelle tests for fordelingstype mest interessante i tvivlssituationer eller særlige beslutningssituationer. Overvejelser ud fra QQ-plots og PP-plots er at foretrække. ANBEFALINGER, GOODNESS-OF-FIT-TEST 20

ESTIMATION AF PARAMETRE Antag at vi har besluttet fordelingstype. Vi er givet 1. Uafh. observationer x 1,...,x n. 2. Parametrisk klasse F = {f θ : θ Θ} af tætheder. Hvad er bedste bud på θ, når vi tror på model i F? Maksimaliseringsestimation: Vælg et θ, som maksimerer likelihooden for at have observeret x 1,...,x n. ^θ = arg maxl(θ) = arg max n f θ (x i ) i=1 (maksimaliseringsestimat). Praksis; udregn og maksimér l(θ) = log L(θ) = n i=1 log f θ(x i ). Kan sommetider udregnes analytisk sommetider numerisk. Maksimaliseringsestimatorer har særligt pæne egenskaber. ESTIMATION AF PARAMETRE 21

EKSEMPLER PÅ MAKSIMALISERINGSESTIMATORER Fordeling Tæthed Param. Maksimaliseringsestimator Poisson e λ λ n /n! λ ^λ = x. Eksponential f(x) = ae ax a ^a = 1/ x Erlang (kendt r) β r /(n 1)!x r 1 e x/β β ^β = x/r Normal (σ 2π) 1 e (x µ)2 /(2σ 2 ) µ,σ 2 ^µ = x ^σ 2 = (n 1) 1 n i=1 (x i x) 2 Lognormal (xσ 2π) 1 e (ln(x) µ)2 /(2σ 2 ) µ,σ 2 Som for normalfordelingen; efter at have taget ln af data. Generelt er det nødvendigt at udregne estimater numerisk. R kan beregne maksimaliseringsestimater for mange univariate fordelinger m. kommando fitdistr i pakken MASS. EKSEMPLER PÅ MAKSIMALISERINGSESTIMATORER 22

ROUTER ESTIMAT I EKSPONENTIALFORDELINGEN Antag at interankomsttider er Exp(a)-fordelt (omend tvivlsomt). Vi finder, at ^a = 88.863. Standardfejl 2.29 (estim. varians på ^a). Approksimativt 95% konfidensinterval for ^a R-kode: [^a 1.96 ^ SE, ^a + 1.96 ^ SE] = [84.36441, 93.36159]. fitdistr(int.ank,"exponential") ROUTER ESTIMAT I EKSPONENTIALFORDELINGEN 23

I skal tjekke REKAPITULATION HVAD SKAL I HUSKE 1.... stationaritet, fx vha. plots (evt. glidende gennemsnit). 2.... uafhængighed, fx vha. autokorrelationsplots. 3.... fordelingstype, fx vha. QQ/PP-plots, evt. goodness-of-fit-test. Estimér dernæst parametre i den relevante fordeling. Et godt råd: Hvis den stationære Poissonproces (eksponentialfordelte interankomsttider) er en acceptabel model, hold jer til den. Det gør typisk fortolkning, teori og beregninger noget simplere. REKAPITULATION HVAD SKAL I HUSKE 24