Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition (EH 0.) Billedmålet kaldes foldningen af µ og ν. µ ν = φ(µ ν) Lad Pr(R, B) være mængden af sandsnlighedsmål på (R, B). Som en algebraisk operation på Pr(R, B) er foldning,, kommutativ og associativ. Slide / Niels Richard Hansen MI forelæsninger 4. januar, 05 Sætning (EH 0.) Hvis X og Y er uafhængige er (X + Y )(P) = X (P) Y (P). Fordelingen af en sum af to uafhængige reelle stokastiske variable er altså foldningen af deres marginale fordelinger. Slide / Niels Richard Hansen MI forelæsninger 4. januar, 05 Foldning af tætheder Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og Korollar (EH 0.9) Hvis X og Y er uafhængige reelle stokastiske variable med P(X A) = f () d, P(Y B) = g() d A for A, B B, så har X + Y tæthed h m.h.t. m, hvor B X Γ(λ, β), Y Γ(µ, β) så er X + Y Γ(λ + µ, β). Det væsentlige: X + Y er Γ-fordelt. h() = f g() := f ( )g() d for R Ved induktion følger at hvis X i Γ(λ i, β) for i =,..., n er uafhængige, så er ( n n ) X i Γ λ i, β. i= i= Slide / Niels Richard Hansen MI forelæsninger 4. januar, 05 Slide 4/ Niels Richard Hansen MI forelæsninger 4. januar, 05
Betingning med en uafhængig variabel Sætning Hvis X er en reel stokastisk variabel med første moment og Y er en stokastisk variabel uafhængig af X, så er E(X Y ) = EX. Bevis: Observer at D σ(y ) har formen D = (Y B). Da X D er integrabel følger det af den abstrakte substitutionsformel og Fubinis sætning at X dp = B (Y )X dp = B ()d(x, Y )P(, ) D = dx (P)()dY (P)() B = EX dp. Se opgave.6 i etramaterialet. Slide 5/ Niels Richard Hansen MI forelæsninger 4. januar, 05 D Betinget varians Definition Hvis X har andet moment defineres den betingede varians Sætning Hvis X har andet moment er og V (X D) = E((X E(X D)) D). V (X D) = E(X D) ( E(X D) ) VX = E ( V (X D) ) + V ( E(X D) ). Observer at for D-målelige Y og Z med andet moment er Slide 6/ Niels Richard Hansen MI forelæsninger 4. januar, 05 V (Z + YX D) = Y V (X D) n.o. Udregninger med betinget middelværdi og varians Lad X være antallet af molekler (f.eks. et bestemt DNA fragment) i en prøve. Det er teknisk set kun muligt at tælle en stokastisk brøkdel, Y, og derfor observere Z = YX. Modelantagelser: E(X Y ) = ξ and V (X Y ) = σ. EZ = EYX = E ( E(YX Y ) ) = E ( YE(X Y ) ) = ξey n.o. VZ = E ( V (YX Y ) ) + V ( E(YX Y ) ) = E ( Y V (X Y ) ) + V ( YE(X Y ) ) = σ EY + ξ VY n.o. Betingning i den flerdimensionale normalfordeling Hvis er ( X Y ) N (( ξ µ ) ( Σ Σ, Σ Σ E(X Y ) = ξ + Σ Σ (Y µ). Se opgave.0. Et argument tilsvarende det i opgave.0 giver at V (X Y ) = Σ Σ Σ Σ. )) Slide 7/ Niels Richard Hansen MI forelæsninger 4. januar, 05 Slide 8/ Niels Richard Hansen MI forelæsninger 4. januar, 05
Normalfordelingsmodel af forurening Data En model for forureningskoncentrationen Z 0,..., Z n i ( 0, 0 ),..., ( n, n ) er givet på følgende måde: Simultanfordelingen er en normalfordeling. EZ i = µ (et baseline forureningsniveau). cov(z i, Z j ) = k(( i, i ), ( j, j )). Den. antagelse siger at kovariansen er givet som en funktion af de to positioner. Vi vil kun se på kovariansmodeller af formen for σ > 0 og ρ 0. k(( i, i ), ( j, j )) = σ ρ ( i, i ) ( j, j ) i i i Z i 0..0 5.00.00.00 0.00..0 4.00 4.00.00 89.00 5.0.0 57.00 og vi kan ud fra disse og modellen for Z(, ), Z,..., Z 5 beregne E(Z(, ) Z,..., Z 5 ). Udregningen afhænger af modelparametrene µ og ρ, men ikke af σ. Se R-kode for en implementering. Husk at = 4.6. Slide 9/ Niels Richard Hansen MI forelæsninger 4. januar, 05 Slide 0/ Niels Richard Hansen MI forelæsninger 4. januar, 05 E(Z(, ) Z,..., Z 5 ) for µ = 5 og ρ = 0. E(Z(, ) Z,..., Z 5 ) for µ = og ρ = 0. 0 0 0 0 4 4 ĉ = 0.0 ĉ = 5.6 Slide / Niels Richard Hansen MI forelæsninger 4. januar, 05 Slide / Niels Richard Hansen MI forelæsninger 4. januar, 05
E(Z(, ) Z,..., Z 5 ) for µ = 5 og ρ = 0.9 E(Z(, ) Z,..., Z 5 ) for µ = og ρ = 0.9 0 0 0 4 4 ĉ = 8. ĉ = 8.9 Slide / Niels Richard Hansen MI forelæsninger 4. januar, 05 Slide 4/ Niels Richard Hansen MI forelæsninger 4. januar, 05 Hvordan kommer vi på modellen og vælger µ og ρ? Ventetider og overlevelse Træning, hårdt arbejde, erfaring og mere hårdt arbejde. Ukendte parametre som ρ og µ kan bestemmes ved estimation fra andre datasæt og specialistviden. Men er det ikke bare en oversmart måde at lave et vægtet gennemsnit på? Det er smart at basere sine metoder på eksplicitte sandsnlighedsmodeller, der kan valideres, kritiseres og modificeres i lset af data! Og som rummer mulighed for at belse usikkerheden i konklusionerne. Tid til en begivenhed en ventetide modelleres ved en fordeling på (0, ). Hvis X er eksponentialfordelt har fordelingen af X /λ for λ > 0 tæthed f () = λe λ. Hvis λ > bliver ventetiden mindre, og hvis λ < bliver ventetiden større. Modeller for tid til død eller overlevelsestid bruges indenfor medicin, demografi og livsforsikring. Er eksponentialfordelingen en god model? Slide 5/ Niels Richard Hansen MI forelæsninger 4. januar, 05 Slide 6/ Niels Richard Hansen MI forelæsninger 4. januar, 05
Rater og intensiteter Ud af brøkdelen P(X > ) af individer, der overlever til tid, hvad er brøkdelen af individer, der dør i intervallet (, + δ]? p (δ) := P(X (, + δ]) P(X > ) = +δ f () d P(X > ). Observer at p (0) = 0 og (antag at f er kontinuert) Dvs. for δ > 0 lille er λ() := p (0) = p (δ) δλ(). f () P(X > ). Denne argumentation er baseret på frekvensfortolkningen. Slide 7/ Niels Richard Hansen MI forelæsninger 4. januar, 05 Rater og intensiteter Raten eller intensiteten for en begivenhed umiddelbart efter defineres som λ() = f () P(X > ). For eksponentialfordelingen er Dvs. P(X > ) = λe λ d = e λ. λ() = λe λ e λ = λ. For eksponentialfordelingen er raten konstant: Det faktum at vi er blevet gamle ændrer ikke vores risiko for at dø? Slide 8/ Niels Richard Hansen MI forelæsninger 4. januar, 05 Alternative overlevelsesfordelinger Opgave.5 Weibullfordelingen med formparameter c > 0 har tæthed intensitet f () = c c e c, > 0 λ() = c c. Gompertfordelingen med formparametre a > 0 og c > har tæthed f () = a log c e a c e ac, > 0 og intensitet λ() = a log c c. Vi indfører σ-algebraen D beståenden af mængderne af formen (X B) eller (X B) (X > ) for B (, ]..5 (a). D er faktisk en σ-algebra..5 (b). E(X D ) = X (X ) + ξ() (X >) n.o. hvor ξ() = P(X > ) f ()d. Begge fordelinger kan også udstres med en skalaparameter. Slide 9/ Niels Richard Hansen MI forelæsninger 4. januar, 05 Slide 0/ Niels Richard Hansen MI forelæsninger 4. januar, 05
Opgave.5.5 (c). Weibullfordelingen har tæthed f () = c c e c for > 0. Ved integration finder vi at ξ() = + e c e c d. For c = (eksponentialfordelingen) er ξ() = +. Generelt gælder der at for, så for har vi e c e c d c c ξ() for c > ξ() for c <. Slide / Niels Richard Hansen MI forelæsninger 4. januar, 05