Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen mellem tæthed og fordelingsfunktion Middelværdi, varians og spredning integraler af funktioner med værdier i R definitioner og regneregler Paretofordelingen, med fokus på eksistens af middelværdi/varians Normalfordelingen: tæthed, middelværdi, varians SaSt (Uge 48, tirsdag) 1 / 26 Sandsynlighedstæthed og sandsynlighedsmål P er et kontinuert fordeling på I R hvis P(A) = 1 A (x)p(x)dx = I A p(x) dx for pæne delmængder A af I, hvor p er en (sandsynligheds)tæthed, dvs. p(x) 0 med I p(x)dx = 1. Fordelingsfunktion for en kontinuert fordeling P med tæthed p: F (x) = x p(y)dy, x R Hvis P er kontinuert gælder for a I og for x < y: SaSt (Uge 48, tirsdag) 2 / 26 Eksempler Eksponentialfordelingen med parameter λ > 0 { p(x) = λe λx 0, x 0 (x > 0), F (x) = 1 e λx, x > 0 Ligefordelingen på [a, b]: p(x) = 1 0 x < a x a (a x b) F (x) = b a b a, a x b 1 x > b P({a}) = 0 P([x,y]) = P((x,y]) = P([x,y)) = P((x,y)) = F (y) F (x) SaSt (Uge 48, tirsdag) 3 / 26 SaSt (Uge 48, tirsdag) 4 / 26
Eksempler Betafordelingen med parameter β > 0 (i simpel udgave): p(x) = βx β 1, 0 < x < 1 Er p overhovedet en tæthed? Og hvad er fordelingsfunktionen? Eksempel 5.1.3: X ligefordelt på [ 1, 1]. Definer og lad P være fordelingen af Y. Y = max(x,0) Hvad er P({0})? Er fordelingen af Y kontinuert? Og er fordelingsfunktionen kontinuert i 0? Fordelingsfunktionen beregnet i eksempel 5.1.3 læs selv! Kontinuert fordeling og kont. stokastisk variabel Hvis P er kontinuert med tæthed p, så: F (x) = x p(y)dy, x R Den omvendte vej: Lad F være fordelingsfunktionen for en fordeling P. Er P kontinuert? Og i givet fald, hvad er tætheden? Sætning 5.1.6 Hvis F kan skrives F (x) = x f (y)dy hvor f er ikke-negativ, så er P kontinuert med tæthed f. Sætning 5.1.7 Antag at P ( (a,b) ) = 1 og at F er kontinuert differentiabel på (a,b). Så er P kontinuert med tæthed { F p(x) = (x), x (a,b) 0, ellers Bemærk: a kan være, b kan være +. SaSt (Uge 48, tirsdag) 5 / 26 Middelværdi for SV med endeligt udfaldsrum SaSt (Uge 48, tirsdag) 6 / 26 Middelværdi for kontinuert fordeling Husk et øjeblik tilbage på tilfældet med endeligt udfaldsrum. X stokastisk variabel (SV) med udfaldsrum {a 1,...,a k } og sandsynlighedsfunktion p, dvs. P(X = a i ) = p(a i ). Husk middelværdi, varians og spredning/standardafvigelse fra s. 83 og 89: E(X ) = k i=1 a i p(a i ) ( [X ] ) 2 Var(X ) = E E(X ) = E(X 2 ) ( E(X ) ) 2 sd(x ) = Var(X ) X kontinuert stokastisk variabel med tæthed p. Kan antage at p er defineret på hele R men p er evt. 0 udenfor et interval. Definer middelværdien af X som xp(x) dx... når integralet vel at mærke er veldefineret! Bemærk at xp(x) kan være negativ, så der skal lidt mere til end hidtil! SaSt (Uge 48, tirsdag) 7 / 26 SaSt (Uge 48, tirsdag) 8 / 26
Integraler af funktioner med negative værdier Eksempler og majoranter Sidste gang: integraler af ikke-negative funktioner. Nu kan f være negativ. f : (, ) R kaldes integrabel hvis f er integrabel, dvs. hvis følgen I n konvergerer hvor I n = n n f (x) dx Hvis f er integrabel kan vi definere integralet som sidst uden problemer: n f (x)dx = lim f (x)dx n n Samme som differens mellem integral af positivdel og negativdel. Ellers skriver vi f (x) dx = + og siger at f ikke er integrabel. Eksempel D.1.5 f 1 (x) = x/(1+x 2 ) med stamfunkt. F 1 (x) = 1 2 log(1+x 2 ). Hvad er n n f 1(x)dx? Hvad er n n f 1(x) dx? Er f 1 integrabel? Eksempel D.1.6 f 2 (x) = x/(1 + x 2 ) 2 med stamfunkt. 1 F 2 (x) = 2(1 + x 2 ) Hvad er n n f 2(x)dx? Hvad er n n f 2(x) dx? Er f 2 integrabel? Følger også af sætning D.1.7. Sætning D.1.7 To funktioner f,g : I R. Hvis f (x) g(x) for alle x R og g er integrabel, så er f også integrabel. g kaldes en majorant. SaSt (Uge 48, tirsdag) 9 / 26 Middelværdi for kontinuert fordeling igen SaSt (Uge 48, tirsdag) 10 / 26 Eksempler X kontinuert stokastisk variabel med tæthed p. Kan antage at p er defineret på hele R men p er evt. 0 udenfor et interval. Vi siger at X har middelværdi hvis x p(x)dx < og definerer så middelværdien som E(X ) = xp(x)dx < Hvis x p(x)dx = siger vi at X ikke har middelværdi. Middelværdien er et gennemsnit af de mulige værdier hvor hvert punkt vægtes efter hvor meget sandsynlighed der ligger i omegnen af punktet. Hvis X er begrænset, dvs. X c for et c > 0 så har X middelværdi. X ligefordelt på [a, b]. X begrænset så middelværdien eksisterer og er lig (a + b)/2. Hvorfor er det rimeligt? Betafordelingen med parameter β. Eksisterer middelværdien? Og i givet fald, hvad er middelværdien? Eksponentialfordelingen med parameter λ. Eksisterer middelværdien? Og i givet fald, hvad er middelværdien? Husk fortolkningen som fordelingen af første ankomst: stort λ betegner intensiteten af ankomster. SaSt (Uge 48, tirsdag) 11 / 26 SaSt (Uge 48, tirsdag) 12 / 26
Middelværdi for transformeret stokastisk variabel Regneregler X kontinuert stokastisk variabel på I med tæthed p. Funktion t : I R. Transformeret stokastisk variabel Y = t(x ). Sætning 5.2.3 Y = t(x ) har middelværdi hvis og kun hvis t(x) p(x)dx < og middelværdien er så I E(Y ) = E(t(X )) = t(x)p(x) dx Kan altså beregne middelværdien af Y uden først at finde fordelingen af Y (som kan være diskret/kontinuert/ingen af delene). Sætningen bevises senere i et specialtilfælde. Hvad er E(X 2 ) hvis X er eksponentialfordelt? I Sætning 5.2.5 Hvis X har middelværdi, så har a + bx middelværdi for a,b R og E(a + bx ) = a + be(x ) Og mere generelt: Sætning 5.2.4 Hvis t 1 (X ) og t 2 (X ) har middelværdi så har Y = t 1 (X ) + t 2 (X ) også middelværdi og den er givet ved E ( t 1 (X ) + t 2 (X ) ) = E ( t 1 (X ) ) + E ( t 2 (X ) ) SaSt (Uge 48, tirsdag) 13 / 26 Varians og spredning SaSt (Uge 48, tirsdag) 14 / 26 Eksempler Vi siger at X har varians hvis x 2 p(x)dx < og definerer så variansen som ( [X ] ) 2 Var(X ) = E E(X ) Bemærkninger: x x 2 + 1 så hvis X har varians så har X middelværdi (så Var(X ) er veldefineret, heldigt nok). Var(X ) = E(X 2 ) [E(X )] 2. Næsten altid nemmere at bruge denne formel, dvs. regne E(X 2 ) ud først. Variansen måler den gennemsnitlige kvadratiske afvigelse fra middelværdien. Spredning/standardafvigelse, sd(x ) = Var(X ). Nemmere at fortolke end variansen da den er på samme skala som variablen selv. Eksponentialfordelingen med parameter λ: Ligefordelingen på [a, b]: Check selv! Var(X ) = E(X 2 ) [E(X )] 2 = 2 λ 2 1 λ 2 = 1 λ 2 Var(X ) = (b a)2 12 Betafordelingen med parameter β: Eksisterer variansen? Og i givet fald, hvad er den? SaSt (Uge 48, tirsdag) 15 / 26 SaSt (Uge 48, tirsdag) 16 / 26
Eksempel: Paretofordelingen Definer p(x) = x (+1), x > 1 Paretofordelingen med parameter > 0. Er p en sandsynlighedstæthed? For hvilke værdier af har fordelingen middelværdi? Og hvad er middelværdien? For hvilke værdier af har fordelingen varians? Og hvad er variansen? Eksempel: Paretofordelingen X er paretofordelt med parameter > 0 hvis X har tæthed p(x) = x (+1), x > 1 Er p overhovedet en sandsynlighedstæthed? n 1 [ p(x)dx = x ] n = 1 1 n 1, n så integralet 1 p(x)dx eksisterer og er lig 1. For hvilke værdier af har X middelværdi? Og hvad er så EX? ( n 1 1 n 1 ) 1 (, 1 < 0 xp(x)dx = 1 1 n 1 ), 1 > 0 1 log(n), = 1 X har middelværdi hvis og kun hvis > 1, og så er EX = /( 1). SaSt (Uge 48, tirsdag) 17 / 26 Paretofordelingen For hvilke værdier af har fordelingen varians? Og hvad er variansen? Pointer: På tilsvarende måde ses at E(X 2 ) < hvis og kun hvis > 2, og i så fald er E(X 2 ) = Dermed bliver 2 Var(X ) = E(X 2 ) (EX ) 2 = ( ) 2 2 = 1 ( 2)( 1) 2 Der findes altså fordelinger uden middelværdi og varians Eksistens af varians stærkere end eksistens af middelværdi Hvordan viser det sig at middelværdi og varians ikke eksisterer? SaSt (Uge 48, tirsdag) 18 / 26 Paretofordelingen Simulationer: træk n tilfældige tal fra paretofordelingen, og beregn empirisk middelværdi (gennemsnit) og empirisk varians, se side 99: x = 1 n n x i, s 2 = 1 i=1 n 1 n i=1 (x i x) 2 x og s 2 vil stabilisere sig omkring E(X ) og Var(X ) når n vokser hvis disse størrelser eksisterer. antal obs. x s 2 100 1.49 0.39 3.5 1000 1.42 0.38 10000 1.40 0.37 100 2988 10 8 0.5 1000 4025 10 10 10000 17040 10 12 Stabilitet omkring E(X ) = 1.4 hhv. Var(X ) = 0.37 Eksplosion! SaSt (Uge 48, tirsdag) 19 / 26 SaSt (Uge 48, tirsdag) 20 / 26
Normalfordelingen: hvad og hvorfor? Standard normalfordelingen Standardnormalfordelingen eller N(0, 1) er den kontinuerte fordeling på R med tæthed φ(x) = 1 e x2 /2, x R 2π Hvorfor er den så interessant? Mange pæne matematiske egenskaber kommer os til gode både når vi laver sandsynlighedsregning og statistik Forbavsende mange data kan beskrives vha. normalfordelingen Den centrale grænseværdisætning: summer af (næsten) hvad som helst er normalfordelt, når bare der er led nok i summen Lineære normalfordelingsmodeller: passer godt til mange data; eksakte fordelingsresultater for estimatorer, teststørrelser mm. Density (φ) 0.0 0.1 0.2 0.3 0.4 Tæthed 0.90 0.05 0.05 4 2 0 2 4 z Cdf (Φ) 0.0 0.2 0.4 0.6 0.8 1.0 Fordelingsfunktion 4 2 0 2 4 z SaSt (Uge 48, tirsdag) 21 / 26 Carl Friedriech Gauss, 1777 1855 SaSt (Uge 48, tirsdag) 22 / 26 Normalfordelingen Husk: φ(x) = 1 2π e x2 /2, x R Er φ overhovedet en tæthed? φ ikke-negativ Er φ integrabel på (, )? Er integralet lig 1? Se opgave 6.1. Momenter: E( X k ) < for alle k N idet K kan findes således at x k e x2 /2 < Ke x2 /4, x R Hvad er middelværdien, E(X )? Hvad er variansen, Var(X )? E(X 3 ) = 0 og E(X 4 ) = 3: opgave 5.12. SaSt (Uge 48, tirsdag) 23 / 26 SaSt (Uge 48, tirsdag) 24 / 26
Fordelingsfunktion Resumé Fordelingsfunktionen kaldes Φ: Φ(x) = x φ(y)dy Der findes ikke noget eksplicit udtryk for Φ. Funktionsværdier beregnes vha. computer, lommeregner eller slås op i tabeller. R: Brug funktionen pnorm. For eksempel > pnorm(1.96) [1] 0.9750021 > pnorm(0) [1] 0.5 Vigtige ting fra i dag: Sammenhæng mellem tæthed og fordelingsfunktion Middelværdi og varians, incl. eksistensproblemer Normalfordelingenen: tæthed, fordelingsfunktion, middelværdi, varians. I skal kunne regne på disse ting! På fredag: Normalfordelingenen: sammenhæng mellem N(0,1) og N(µ,σ 2 ). Tæthed for transformeret stokastisk variabel SaSt (Uge 48, tirsdag) 25 / 26 SaSt (Uge 48, tirsdag) 26 / 26