Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 3: Kontinuerte stokastiske variable 3.1 Kontinuerte stokastiske variable........................... 1 3.1.1 Tæthedsfunktion............................... 1 3.1.2 Fordelingsfunktion.............................. 2 3.1.3 Middelværdi, varians og spredning..................... 3 3.2 Uafhængighed..................................... 4 3.3 Kendte kontinuerte fordelinger........................... 5 3.3.1 Den uniforme fordeling............................ 5 3.3.2 Eksponentialfordelingen........................... 6 3.3.3 Normalfordelingen.............................. 6 3.3.4 Weibullfordelingen.............................. 10 3.4 Den centrale grænseværdisætning.......................... 11 3.4.1 Approximationer til binomial- og Poissonfordelinger........... 14 3.5 Modelcheck...................................... 15 3.6 Transformationer................................... 17 3.1 Kontinuerte stokastiske variable Statistik er kunsten med præcise termer at fastslå det man ikke ved. William Kruskal 3.1.1 Tæthedsfunktion En funktion f : R [0, ) kaldes en tæthedsfunktion hvis 1. f er integrabel. 2. f (y) dy = 1. En stokastisk variabel Y kaldes for absolut kontinuert hvis der findes en tæthedsfunktion f Y så P (Y A) = f Y (y) dy for alle hændelser A R. A
3.1 Kontinuerte stokastiske variable 2 Bestemmer sandsynligheden for ethvert interval P (a < Y < b) = Terminologi: b a f Y (y) dy, for alle a b. 1. I daglig tale siger vi at Y er kontinuert. 2. f Y kaldes for Y s tæthedsfunktion, eller blot tætheden. 3. Engelsk: Probability density function (PDF) 4. Bemærk, at for ethvert y R gælder: P (Y = y) = f Y (t)dt = 0. 5. Bemærk at P (a < Y < b) = P (a Y b) = P (a Y < b) = P (a < Y b) 6. Den mindste lukkede hændelse A så P(Y A) = 1 kaldes for støtten for Y. Eksempel 3.1: Eksponentialfordelingen Y E (λ) med λ > 0 Defineret ud fra tæthedsfuntion f Y (y) = λe λy, y > 0 (0 ellers). Støtte R +, dvs. Y kan kun antage positive værdier. Bruges som ventetidsfordeling, f.eks. tiden mellem to jordskælv. {y}
3.1 Kontinuerte stokastiske variable 3 0.0 0.5 1.0 1.5 2.0 0 1 2 3 4 5 x Figur 3.1: Forskellige eksponentialfordelinger. 3.1.2 Fordelingsfunktion Fordelingsfunktionen F Y for Y er defineret ved F Y (y) = P (Y y) = y f Y (t) dt for y R. Engelsk: cumulative distribution function (CDF) Tæthedsfunktionen er givet ud fra F Y : f Y (y) = y F Y (y) (evt. på nær tælleligt mange punkter). Eksponentialfordelingen (fortsat) F Y (y) = 1 e λy, y > 0 (0 ellers). Differentiabel, på nær i 0. Generel definition (uanset om Y er diskret, kontinuert, eller generel): F Y (y) = P (Y y) Enhver fordelingsfunktion F Y opfylder: 1. F Y er svagt voksende.
3.1 Kontinuerte stokastiske variable 4 2. F Y er kontinuert fra højre. 3. F Y opfylder lim F (y) = 0 og lim F (y) = 1. y y Enhver F Y som opfylder 1. 3. er fordelingsfunktion for en stokastisk variabel Y. Det kontinuerte tilfælde kendes ved at F Y er (absolut) kontinuert. Det diskrete tilfælde kendes ved at 1. F Y er stykkevis konstant. 2. F Y springer med størrelsen P(Y = y) i y. Eksempel 3.2: binomialfordelingen Y b(n, p) har [y] ( ) n F Y (y) = p i (1 p) n i for y R. i i=0 3.1.3 Middelværdi, varians og spredning Middelværdi: Vægtet middel af mulige værdier hvis y f Y (y) dy <. Varians: hvis y2 f Y (y) dy <. Spredning (standardafvigelse): Regneregler, husk at µ Y = E(Y ) = y f Y (y) dy, σy 2 = Var(Y ) = (y µ Y ) 2 f Y (y) dy, σ Y = Var(Y ). 1. E(aY + b) = ae(y ) + b (specielt er E(b) = b) 2. Var(aY + b) = a 2 Var(Y ) 3. σ ay = a σ Y 4. E(X + Y ) = E(X) + E(Y ) 5. Var(Y ) = E ( Y 2) E 2 (Y )
3.2 Uafhængighed 5 Bevis for 5.: Var(Y ) = E {[Y E(Y )] 2} = E [ Y 2 + E 2 (Y ) 2Y E(Y ) ] = E ( Y 2) + E 2 (Y ) 2E(Y )E(Y ) = E ( Y 2) + E 2 (Y ) 2E 2 (Y ) = E ( Y 2) E 2 (Y ). 3.2 Uafhængighed Husk: n stokastiske variable Y 1, Y 2,...,Y n kaldes uafhængige hvis P (Y 1 y 1, Y 2 y 2,...,Y n y n ) = F Y1 (y 1 )F Y2 (y 2 ) F Yn (y n ). for alle y 1,y 2,...,y n R. Hvis X og Y er uafhængige gælder 1. E(XY ) = E(X) E(Y ) 2. Var(X + Y ) = Var(X) + Var(Y ) Bemærk at 1. og 2. er ækvivalente. Bevis: Lad os forudsætte at X og Y har middelværdi 0 (hvorfor er det nok?). Så fås Var(X + Y ) = E [ (X + Y ) 2] = E ( X 2 + Y 2 + 2XY ) = E ( X 2) + E ( Y 2) + 2E(XY ) = Var(X) + Var(Y ) + 2E(X) E(Y ) = Var(X) + Var(Y ) Definition: kovariansen mellem X og Y defineres ved Cov(X,Y ) = E(XY ) E(X) E(Y ) Hvis X og Y er uafhængige gælder Cov(X, Y ) = 0. Kovariansen måler hvor meget X og Y mangler i at være uafhængige. Bemærk at Cov(X,Y ) = 0 medfører ikke nødvendigvis at X og Y er uafhængige. Kovariansen studeres nærmere i Modul 6.
3.3 Kendte kontinuerte fordelinger 6 3.3 Kendte kontinuerte fordelinger 3.3.1 Den uniforme fordeling Y Uniform(a,b) med a < b Y har støtte (a, b). Alle værdier i (a,b) lige sandsynlige (?) Bedre: sandsynligheden for x < Y < y proportional med y x. Tæthed { 1/(b a) hvis y (a,b) f Y (y) = 0 ellers. Eksempel 3.3: Uniform roulette: Y Uniform(0, 2π). For Y Uniform(a, b) gælder Middelværdi: Varians: Spredning: E(Y ) = a + b 2 Var (Y ) = (b a)2 12 σ Y = b a 12 = 0.2887(b a) Vises i bog, se også Adams afsnit 7.8. 3.3.2 Eksponentialfordelingen Husk at for Y E (λ) er tæthedsfunktionen f Y (y) = λe λy, y > 0 Fordelingsfunktionen F Y (y) = { 1 e λy y > 0 0 y 0 Middelværdi: E(Y ) = 1 λ Varians: Var (Y ) = 1 λ 2
3.3 Kendte kontinuerte fordelinger 7 Spredning: σ Y = 1 λ. Eksempel 3.4: Tid mellem kraftige jordskælv Ventetiden (i dage) mellem kraftige jordskælv (over 7.5 på Richterskalaen) kan modelleres med en eksponentialfordeling med rate λ = 0.00229. Så er E(Y ) = 436.68 Var (Y ) = 190690 σ Y = 436.68. Udregn sandsynligheden for at der kommer et kraftigt jordskælv inden for 10 dage. Svar: P(Y < 10) = 1 exp ( 0.00229 10) = 0.02264 går mere end 100 dage til næste kraftige jordskælv. Svar P(Y > 100) = 1 [1 exp ( 0.00229 100)] = 0.7953 3.3.3 Normalfordelingen Normalfordeling: Y N ( µ,σ 2), parametre µ R og σ 2 > 0. Langt den vigtigste fordeling, både teoretisk og praktisk. Fremkommer når Y er en sum af uendeligt mange uendeligt små stød (næste afsnit). Kaldes også den Gaussiske fordeling, efter C.F. Gauss. Tæthedsfunktionen for N ( µ,σ 2) : f Y (y) = 1 2πσ 2 e 1 2σ 2 (y µ)2, y R. Fordelingen har en pæn klokkeformet tæthedsfunktion, se følgende grafer
3.3 Kendte kontinuerte fordelinger 8 0.0 0.2 0.4 0.6 0.8 4 2 0 2 4 x Figur 3.2: Forskellige normalfordelinger. Se også følgende histogrammer med indlagte tætheder. 25 simulerede N(0,1) 100 simulerede N(0,1) 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 4 2 0 2 4 1 4 2 0 2 4 2 1000 simulerede N(0,1) 10000 simulerede N(0,1) 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 4 2 0 2 4 3 4 2 0 2 4 4
3.3 Kendte kontinuerte fordelinger 9 Momenter for Y N ( µ,σ 2) : Figur 3.3: Simulation af normalfordelte data. Middelværdi: E(Y ) = µ, positionsparameter. Varians: Var(Y ) = σ 2 Spredning: σ, skalaparameter. Standard normalfordeling: Z N(0, 1) har tæthed ϕ(z) = 1 2π e z2 /2, z R. og fordelingsfunktion Φ (z) = z 1 2π e t2 /2 dt, z R. Bemærk at Φ er i familie med error function erf erf z = 2 π z 0 e t2 dt. (udled selv sammenhængen med Φ, brug at Φ (0) = 1 2 ). Fordelingsfunktionen Φ for N(0,1) er tabellagt (Appendix A.3 i bogen). Bemærk symmetri: og ϕ( z) = ϕ(z) Φ ( z) = 1 Φ (z). Tæthed og fordelingsfunktion for Y kan udtrykkes ved ϕ og Φ: f Y (y) = 1 ( ) y µ σ ϕ σ ( ) y µ F Y (y) = Φ σ Bemærk symmetri omkring µ. Bemærk at µ er positionsparameter og σ er skalaparameter. Udregning af sandsynligheder. Husk: for en generel fordeling gælder: P(a < Y b) = F Y (b) F Y (a).
3.3 Kendte kontinuerte fordelinger 10 For standard normalfordelingen Z N(0, 1): Generel normalfordeling Y N ( µ,σ 2) : P (a < Z b) = Φ (b) Φ (a). ( ) d µ P (c < Y d) = Φ Φ σ Giver samme resultat for alle kombinationer af < og. Bemærk: At Y N ( µ,σ 2) er ensbetydende med ( c µ σ ). Z = Y µ σ N(0,1). Eksempel 3.5 Studerendes højde Lad os antage, at en tilfældigt udtrukket studerendes højde har fordeling Y N ( 175,10 2). Udregn sandsynligheden for, at en tilfældigt udtrukket studerende er højere end 180 cm. Svar: P(Y > 180) = 1 P(Y 180) ( ) 180 175 = 1 P Z 10 = 1 P (Z 0.5) = 1 0.6915 (tabel A.3) = 0.3085 Find det tal y, så P(Y y) = 0.1. Svar: så er P(Y y) = 0.9, og 0.9 = P(Y y) ( = P Z y 175 ) 10 Fra tabel A.3 fås så y = 187.8. y 175 10 = 1.28 Lineære transformationer: Hvis Y N ( µ,σ 2) gælder ay + b N ( aµ + b,a 2 σ 2).
3.4 Den centrale grænseværdisætning 11 Specielt gælder Y N ( µ,σ 2). Summer af normalfordelte variable: Hvis Y 1 og Y 2 er uafhængige og Y 1 N ( µ 1,σ1 2 ) og Y 2 N ( µ 2,σ2) 2, så gælder Y 1 + Y 2 N ( µ 1 + µ 2,σ 2 1 + σ2 2). Denne egenskab gør det meget let at regne med normalfordelingen. 3.3.4 Weibullfordelingen Betegnes Y W(α, β), defineret ved f Y (y) = α β αyα 1 e (y/β)α for y > 0 (0 ellers). Fordelingsfunktion F Y (y) = 1 e (y/β)α for y > 0 (0 ellers). Bemærk: Y/β W(α, 1), så β er en skalaparameter. Bemærk: Y α = E(1/β α ). Bruges som model for min: Y = min {Y 1,...,Y n } (en kædes svageste led). 3.4 Den centrale grænseværdisætning Antag at Y 1,Y 2,...,Y n uafhængige, identisk fordelte stokastiske variable alle med middelværdi µ og varians σ 2. Definer: S n = Y 1 + Y 2 + + Y n Ȳ n = 1 n S n Z n = S n nµ σ n = Ȳn µ σ/ n For n stor er Z n en sum af mange små uafhængige variable.
3.4 Den centrale grænseværdisætning 12 Husk at og specielt E(S n ) = nµ (vi siger at Z er standardiseret). Så gælder for alle z R Var(S n ) = σ 2 n E(Ȳn) = µ Var(Ȳn) = σ 2 /n E(Z n ) = 0 Var(Z n ) = 1 F Zn (z) Φ (z) for n. Kaldes den centrale grænseværdisætning (CLT). Vi siger at Z n konvergerer mod N(0,1) i fordeling. Bemærk: Det eneste krav er at E(Y ) og Var(Y ) eksisterer! For n passende stor kan vi approximere F Zn (z) med Φ (z). Hvor stort et n kræves afhænger af F Y1. Fortolkning: For Z n gælder ( betyder approksimativt fordelt som). For S n gælder tilsvarende Z n N(0,1). S n = nµ + σ nz n N ( nµ,nσ 2). Tilsvarende for Ȳn Ȳ n = µ + σ/ nz n ) N (µ, σ2. n Følgende grafer illustrerer konvergensen i tre tilfælde.
3.4 Den centrale grænseværdisætning 13 Uniform(0,1) Gennemsnit af 2 Uniform(0,1) 0.0 0.2 0.4 0.6 0.8 0.0 0.4 0.8 3 2 1 0 1 2 3 3 2 1 0 1 2 3 Gennemsnit af 4 Uniform(0,1) Gennemsnit af 8 Uniform(0,1) 0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5 2.0 2 1 0 1 2 1.0 0.5 0.0 0.5 1.0 Figur 3.4: Normalapproksimation til gennemsnit af uniforme fordelinger.
3.4 Den centrale grænseværdisætning 14 Eksponential(1) Gennemsnit af 2 E(1) 0.0 0.4 0.8 0.0 0.4 0.8 2 0 2 4 2 0 2 4 Gennemsnit af 4 E(1) Gennemsnit af 16 E(1) 0.0 0.4 0.8 0.0 0.5 1.0 1.5 2.0 2 0 2 4 1 0 1 2 3 Figur 3.5: Normalapproksimation til gennemsnit af eksponentialfordelinger.
3.4 Den centrale grænseværdisætning 15 Binomial(15,0.9) Gennemsnit af 2 b(15,0.9) 0.0 0.4 0.8 0.0 0.2 0.4 0.6 8 10 12 14 16 18 8 10 12 14 16 18 Gennemsnit af 4 b(15,0.9) Gennemsnit af 30 b(15,0.9) 0.0 0.4 0.8 0.0 1.0 2.0 10 11 12 13 14 15 16 12.5 13.0 13.5 14.0 14.5 Figur 3.6: Normalapproksimation til gennemsnit af binomialfordelinger. 3.4.1 Approximationer til binomial- og Poissonfordelinger Binomialfordeling: Y b(n, p): Betingelse: n stor. I praksis skal np og n(1 p) begge være mindst 10. Approximation: Hvis y er et heltal mellem 0 og n, ( ) y np + 0.5 P(Y y) Φ np(1 p) Leddet +0.5 er den såkaldte kontinuitetskorrektion. Approximationen er baseret på CLT. Poissonfordelingen: Y Poisson(λ): Betingelse: λ stor. I praksis skal λ være mindst 10.
3.5 Modelcheck 16 Approximation: Hvis y er et heltal større end 0 ( ) y λ + 0.5 P(Y y) Φ λ Leddet +0.5 er den såkaldte kontinuitetskorrektion. Approximationen er baseret på CLT. 3.5 Modelcheck Passer modellen godt til data? Der er mindst tre måder at checke en model på for data y 1,...,y n : 1. Sammenlign tæthedshistogram med tæthedsfunktion. Problem: valg af inddeling. 2. Sammenligning af F Y med empirisk fordelingsfunktion: Problem: svær at vurdere. F n (y) = 1 n {y i y}. 3. QQ-plot, eller fraktilsammenligning, som vi ser på nu. Lad y (1) y (n) betegne de ordnede data. Bemærk at F n (y (i) ) = i n, dvs. y (i) er en slags empirisk i/n-fraktil. Af symmetrigrunde vedtager vi dog y (i) er den empiriske i 1 2 n -fraktil. Antag nu at data kommer fra N ( µ,σ 2). Den teoretiske i 1 2 n -fraktil er µ + σz i, hvor ( ) i z i = Φ 1 1 2 n QQ-plot: Tegn punkterne (z i,y (i) ) op for i = 1,...,n. Skal følge en ret linie med hældning σ gennem (0,µ). Formlen for de empiriske fraktilerne varierer mellem programpakkerne.
3.5 Modelcheck 17 SAS benytter f.eks. i stedet for ( ) i 0.375 z i = Φ 1 n + 0.250 ( ) i z i = Φ 1 1 2. n Gør kun mindre forskel. Eksempel 1.6 (fortsat): Flagermus på jagt Ordnede data: Ordnede data: y (1) y (2) y (3) y (4) y (5) y (6) y (7) y (8) y (9) y (10) y (11) 23 27 34 40 42 45 52 56 62 68 83 Teoretiske fraktiler for normalfordeling Φ ( ): Fraktiler: ( ) z 1 z 2 z 3 z 10 z 11 Φ 1 k 0.375 11+0.25 1.5932 1.0606 0.7279 1.0606 1.5932 Figurer Figur 3.8: QQ-plot af afstand mellem flagermus og bytte.
3.6 Transformationer 18 Normal Q Q Plot Normal Q Q Plot Sample Quantiles 2.0 1.0 0.0 1.0 Sample Quantiles 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Theoretical Quantiles Normal Q Q Plot Normal Q Q Plot Sample Quantiles 3 1 1 2 3 Sample Quantiles 4 2 0 2 3 1 0 1 2 3 4 2 0 2 4 Theoretical Quantiles Theoretical Quantiles Figur 3.7: QQ-plot af normalfordelte data. Afvigelserne fra den rette linie bliver mindre, jo større n er. De største afvigelser ses i halerne. Man bør se efter S-formede afvigelser eller krumning (opad eller nedad). Har man flere datasæt, bør man se efter systematiske afvigelser plottene. 3.6 Transformationer Hvis Y ikke er normalfordelt, kan man ofte finde en transformation H så X = H(Y ) er normal. Hvis Y er positiv benyttes ofte log Y eller Y c. Eksempel 3.6 Guldårer I 47 mulige guldårer blev målt mængden af udvindeligt guld i gram pr ton. (Figur 3.9)
3.6 Transformationer 19 Figur 3.9: Udvindeligt guld i guldårer. Figur 3.10: Log(Udvindeligt guld) i guldårer.