Betingede sandsynligheder Aase D. Madsen

1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient Betingede sandsynligheder Aase D. Madsen Aase D. Madsen (DF) fra folketingets talerstol 16. november 1999 (ved 1. behandling af lov til biblioteksvirksomhed):... og dér står, at 39 pct. af den mandlige del af befolkningen aldrig kommer på bibliotekerne, og at 30 pct. af den kvindelige del af befolkningen, altså fordelt gennemsnitligt over alder, aldrig kommer der. Og når jeg lægger mænd og kvinder sammen det skal man være lidt forsigtig med, men på det her område tør jeg godt så giver 39 pct. af mændene og 30 pct. af kvinderne befolkningen tilsammen, og det må være 69 pct. Tager jeg fejl?

2 Definition af betingede sandsynligheder Udfaldsrum E: Hændelser A, B f E Betinget sandsynlighed for A givet B P(A B) P(A B) = P(B) Denne definition har kun mening, hvis P(B) > 0. Bruger B som "nyt udfaldsrum": P(B B) = 1. Loven om den totale sandsynlighed (sætning 4.3) Klassedeling af E: E = A 1 cþca m, hvor A i 1 A j = Ø (i j) For hændelse B f E: B = (A 1 1B) c (A 2 1B) cþc (A m 1B) Bevis : m P (B) = P(A B) = P(A )P(B A ) m j j1 = j1 = j j

3 Bayes' formel (sætning 4.4) Klassedeling af E: E = A 1 cþca m, hvor A i 1 A j = Ø (i j) For hændelse B med P(B) > 0: P(Ai B) P(B A i)p(a i) P(A i B) = = P(B) P(B) = P(B A )P(A ) m j1 = i P(B A )P(A ) j i j Eksempel: Aase D. Madsen E = {alle danskere}, A 1 = {kvinder}, A 2 = {mænd} B = {de der aldrig bruger bibliotekerne} Givne betingede sandsynligheder: P(B A 1 ) = 0.30, P(B A 2 ) = 0.39 Total sandsynlighed for B: P(B) = 0.30 @ 0.5 + 0.39 @ 0.5 = 0.345 0.69! Hvad hvis hun i stedet havde beregnet P(B c )?

4 (2) Eksempel: Aase D. Madsen En tilfældigt udvalgt person angiver at vedkommende ikke bruger biblioteket. Hvad er sandsynligheden for at det er en mand? P(B A 2)P(A 2) 0.39 0.5 P(A 2 B) = = = 0.57 P(B) 0.345 Teoretisk Statistik, 15. marts 2004 1) Betingede sandsynligheder 2) Betinget middelværdi og varians Definition Beregning af marginal mv. og var. ved hjælp af betingede værdier 3) Kovarians og korrelationskoeficient

5 Betinget middelværdi og varians X 1 og X 2 diskrete variable. For givet x 1 definerer P(X = x,x = x ) f (x x) P(X x X x), x S 1 1 2 2 2 2 1 = 2= 2 1= 1 = 2 2 P(X1= x 1) den betingede fordeling af X 2 givet X 1 = x 1. Man kan beregne middelværdi og varians i denne fordeling: [ ] EX X = x = xf(x x) 2 1 1 x2 S 2 2 1 2 2 2 1 1 x2 S 2 2 1 2 1 1 [ = ] = [ = ] var X X x x f (x x ) (E X X x ) (2) Betinget middelværdi og varians Tilsvarende for kontinuerte variable, X 1 og X 2. Betinget middelværdi og varians af X 2 givet X 1 = x 1 : [ ] EX X = x = xf(x x)dx, 2 1 1 2 2 1 2 2 2 [ 2 1= 1] = 2 2 1 2 [ 2 1= 1] var X X x x f (x x )dx (E X X x ) hvor f(x 2 x 1 )=f(x 1,x 2 )/f 1 (x 1 ) er den betingede tæthed. Betinget middelværdi og varians afhænger (typisk) af x 1!

6 (3) Betinget middelværdi og varians Den betinget middelværdi og varians af X 2 givet X 1 = x 1 afhænger (som oftest) af x 1, altså af den obs. værdi af X 1. De er altså funktioner af den stokastiske variabel X 1 og dermed selv stokastiske variable, E[X 2 X 1 ] og var[x 2 X 1 ], som har middelværdi og varians. Vigtige formler (sætning 4.5): E[X 2 ] = E[E[X 2 X 1 ]] var[x 2 ] = E[var[X 2 X 1 ]] + var[e[x 2 X 1 ]] Eksempel 1 (opg. 12.6, fortsat fra sidst) Husk modellen: X 1 ~ N(µ,_σ 2 ); (X 2 X 1 = x 1 ) ~ N(βx 1, τ 2 ). Altså E[X 2 X 1 = x 1 ] = βx 1, var[x 2 X 1 = x 1 ] = τ 2 Påstod at: X 2 ~ N(βµ, τ 2 + β 2 σ 2 ). Middelværdi og varians passer i hvert fald: E[X 2 ] = E[E[X 2 X 1 ]] = TβE[X 1 ] = βµ var[x 2 ] = E[var[X 2 X 1 ]] + var[e[x 2 X 1 ]] = τ 2 + β 2 var[x 1 ] = τ 2 + β 2 σ 2

7 (2) Eksempel 2: Quiz med to runder Første runde: quizdeltageren får n ja/nej -spørgsmål; sandsynligheden for korrekt svar er p 1 på hvert spørgsmål. X = antal korrekte svar i første runde. Anden runde: deltageren får X spørgsmål; og sandsynligheden for korrekt svar er p 2. Y = antal korrekte svar i anden runde. Hvad er middelværdi og varians for antal korrekte svar i anden runde, altså E[Y] og var[y]? (2) Eksempel 2: Quiz med to runder Under passende uafhængighedsantagelser: X ~ bin(n,p 1 ), (Y X) ~ bin(x,p 2 ) Hvis man skulle beregne f.eks. middelværdi "direkte": n n n x n x x y x y f(y) = f(x)f(y x) = p 1(1 p 1) p 2(1 p 2)??? x= y x= y x y = [ ] n EY= yf(y) =??? y= 0

8 (3) Eksempel 2: Quiz med to runder Meget nemmere: og E[Y] = E[E[Y X]] = E[Xp 2 ] = p 2 E[X] = np 1 p 2 var[y] = E[var[Y X]] + var[e[y X]] = E[Xp 2 (1 - p 2 )] + var[xp 2 ] 2 = np 1 p 2 (1 - p 2 ) + np 1 (1 p 1 )p 2 = n p 1 p 2 (1 p 1 p 2 ) Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient Mål for (lineær) sammenhæng mellem to variable Fortolkning af korrelationskoefficient Diverse regneregler for middelværdi og varians

9 Positiv/negativ afhængighed Ønsker mål for (lineær) sammenhæng/afhængighed mellem to stokastiske variable, X 1 og X 2. Positiv afhængighed: Når X 1 er stor (lille), så er X 2 det typisk også. Negativ afhængighed: Når X 1 er stor, er X 2 typisk lille; når X 1 er lille er X 2 typisk stor. Eksempler: Antal m 2 og pris på lejlighed (+) _ Alder på køkken og pris på lejlighed ()) Empirisk kovarians Eksempel: Opgave 12.6. Tn observationer af parrett (X 1,X 2 ): (x 11,x 21 ),,( x 1n, x 2n ). Empirisk kovarians n 1 s 12 = n 1 (x1i x 1)(x2i 2 x ) i = 1 s 12 numerisk stor og positiv: tegn på positiv afhængighed. s 12 numerisk stor og negativ: tegn på negativ afhængighed

_ 10 Teoretisk kovarians Definerer ny stokastisk variabel: (*) (X 1 E[X 1 ])(X 2 E[X 2 ] ) Ingen afhængighed: (*) lige ofte positiv og negativ. Positiv/negativ afhængighed: (*) er ofte positiv/negativ. Kovariansen mellem X 1 og X 2 : cov(x 1, X 2 ) = E[(X 1 -E[X 1 ])( X 2 E[X 2 ])) cov(x 1, X 2 ) numerisk stor: tegn på sammenhæng ml. X 1 og X 2. (2) Teoretisk kovarians Kovarians med sig selv : cov(x,x) = E[(X E[X] 2 ] = var[x] Middelværdi og varians af sum E[X 1 + X 2 ] = E[X 1 ] + E[X 2 ] var[x 1 + X 2 ] = E[(X 1 + X 2 (E[X 1 ] + E[X 2 ])) 2 ] = E[(X 1 E[X 1 ]) 2 + (X 2 - E[X 2 ]) 2 + 2(X 1 - E[X 1 ])(X 2 - E[X 2 ])] T= var[x 1 ] + var[x 2 ] + 2 cov(x 1,X 2 )

11 (3) Teoretisk kovarians Tilsvarende: var[x 1 X 2 ] = var[x 1 ] + var[x 2 ] 2 cov(x 1,X 2 ). Nyttig regneregel: cov(x 1,X 2 ) = E[(X 1 E[X 1 ]) (X 2 E[X 2 ])] = E[X 1 X 2 ] (E[X 1 ])(E[X 2 ]) Denne formel bruges ofte til beregning af kovariansen. (4) Teoretisk kovarians Altså: cov(x 1,X 2 ) = E[X 1 X 2 ] (E[X 1 ])(E[X 2 ]). X 1 X 2 er en funktion af den todimensionale s.v. (X 1,X 2 ) og dens middelværdi beregnes vha. den simultane fordeling: [ ] EXX 1 2 = xx f(x,x ) 1 2 1 2 1 2 x1 x2 x1x 2f (x 1,x 2)dx 1,dx 2 1 2 (X,X diskrete) (X,X kontinuerte) Eller via betingede middelværdier: E[X 1 X 2 ] = E[E[X 1 X 2 X 1 ]] = E[X 1 E[X 2 X 1 ]]

12 Eksempel: opgave 12.6 (fra sidst) Husk modellen: 2 2 1 2 1 1 1 2 2 2 2 X ~N( µσ, ); (X X = x ) ~N( βx, τ ) ; X ~N( βµτ, +βσ ) 1 2 1 1 2 NB: [ ] [ ] Vi får: 2 2 E[X ] = var X + (E X ) =σ +µ [ ] [ ] [ ] [ ] [ ] 1 2 1 2 1 2 2 2 EXX 1 2 = EXEX 1 2 X1 = E[X1β X] 1 =β( σ +µ ) 2 2 2 cov(x,x) = EXX (EX )(EX ) =β( σ +µ ) µβµ= βσ Empirisk kovarians: s 12 = 0.06. Er dette meget eller lidt? Korrelationskoefficient Kovariansen afhænger af hvilken skala der måles på (uheldigt!): cov(a1x1+ b 1,a2X2 + b 2) = a1a 2cov(X 1,X 2), Korrelationskoefficienten defineres ved Så er: ρ=ρ (X,X ) = 1 2 cov(x,x ) var X 1 2 [ ] var[ X ] 1 2 aa cov(x,x) ρ (a X + b,a X + b ) = =± ρ(x,x ) 12 1 2 11 1 2 2 2 1 2 2 2 avarx 1 [ 1] avarx 2 [ 2]

13 (2) Korrelationskoefficient Det gælder altid: - 1 #ρ(x 1,X 2 ) # 1 Bemærk at ρ(x,ax + b) = a cov(x,x) var X 2 [ ] a var[ X] + 1 (a > 0) = 1 (a < 0) Det modsatte gælder også (sætning 4.7): Hvis ρ(x 1,X 2 ) = 1 så findes a > 0 og b så X 2 = ax 1 + b. Hvis ρ(x 1,X 2 ) = - 1 så findes a < 0 og b så X 2 = ax 1 + b. (3) Korrelationskoefficient Korrelationskoefficienten måler lineær afhængighed! Vi siger, at X 1 og X 2 er ukorrelerede, hvis ρ( X 1 X,_ 2 ) = 0. Hvis X 1 og X 2 er uafhængige, er (sætning 4.7) E[ X 1, X 2 ] = ( E[X 1 ]) ( E[X 2 ]) cov(x 1, X 2 ) = ρ(x 1,X 2 ) = 0 var[x 1 ± X 2 ] = var[x 1 ] + var[x 2 ] Specielt altså: X 1 og X 2 uafhængige Y X 1 og X 2 ukorrelerede. Det modsatte gælder ikke (se f.eks. opgave HS.8)!

14 Eksempel: korrelation og stokastisk uafhængighed x f(x,y) y 1 2 3 4 f 2 (y) 1 0.06 0.03 0.06 0.15 0.30 2 0.08 0.04 0.08 0.20 0.40 3 0.06 0.03 0.06 0.15 0.30 f 1 (x) 0.20 0.10 0.20 0.50 1.00 Tabel 1 Bemærk at f 1 (x) = f(x y) og f 2 (y) = f(y x) <=> f 1 (x) f 2 (y) = f(x,y) dvs. X og Y er uafhængige x f(x,y) y 1 2 3 4 f 2 (y) 1 0.14 0.07 0.04 0.05 0.30 2 0.06 0.03 0.13 0.18 0.40 3 0.00 0.00 0.03 0.27 0.30 f 1 (x) 0.20 0.10 0.20 0.50 1.00 Bemærk at f 1 (x) f(x y) og f 2 (y) f(y x) <=> f 1 (x) f 2 (y) f(x,y) dvs. X og Y er afhængige. Tabel 2 Til karakteristik af de todimensionale fordelinger anvendes : E[X] = xf 1 (x) = 1 0.2 + 2 0.1 + 3 0.2 + 4 0.5 = 3.0 E[Y] = 2.0 (f 2 (y) er symmetrisk om y = 2) var[x] = x 2 f 1 (x) E 2 [X] = 1 0.2 + 4 0.1 + 9 0.2 + 16 0.5 9.0 = 1.4 var[y] = y 2 f 2 (y) E 2 [Y] = 1 0.3 + 4 0.4 + 9 0.3 4.0 = 0.6 og cov(x,y) = E[XY] E[X]E[Y] = 1 1 0.06 + + 3 4 0.15-3 2 = 0 for f(x,y) i tabel 1. For f(x,y) i tabel 2 fås på tilsvarende måde cov(x,y) = 6.57-3 2 = 0.57 Hvis X og Y er uafhængige er cov(x,y) = 0. Det omvendte gælder derimod ikke : cov(x,y) = 0 medfører ikke i almindelighed uafhængighed mellem X og Y, se tabel 3.

15 x f(x,y) y 1 2 3 f 2 (y) 1 0.00 0.30 0.00 0.30 2 0.20 0.00 0.20 0.40 3 0.00 0.30 0.00 0.30 f 1 (x) 0.20 0.60 0.20 1.00 Tabel 3 Bemærk at X og Y er ukorrelerede : E[XY] = 1 2 0.3+2 1 0.2+2 3 0.2+3 2 0.3 = 4.0 E[X] = E[Y] = 2 (pga. symmetri) dvs. cov(x,y) = 0 men X og Y er afhængige : f(x,y) f 1 (x)f 2 (y). Der er en cirkulær sammenhæng. (4) Korrelationskoefficient Empirisk korrelationskoefficient for n obs.(x 11,x 21 ),,(x 1n,x 2n ): r 12 = s ss 12 12 hvor n 1 s = (x x )(x 12 1i 1 2i 2 n 1i= 1 n 2 1 2 1 = 1i 1 n 1i= 1 n 2 1 2 2 = 2i 2 n 1i= 1 s (x x ) ; s (x x ) x )

16 Oversigt 1. Betingede sandsynligheder Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians Beregning af marginal middelværdi og varians ved hjælp af de betingede 3. Kovarians og korrelationskoefficient Fortolkning af korrelationskoefficient Diverse regneregler for middelværdi og varians