Betingede sandsynligheder Aase D. Madsen

Relaterede dokumenter
hvor a og b er konstanter. Ved middelværdidannelse fås videre

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Kvantitative Metoder 1 - Forår Dagens program

Repetition Stokastisk variabel

Statistik og Sandsynlighedsregning 2

3 Stokastiske variable 3.1 Diskrete variable

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kvantitative Metoder 1 - Efterår Dagens program

INSTITUT FOR MATEMATISKE FAG c

Kvantitative Metoder 1 - Forår Dagens program

StatDataN: Middelværdi og varians

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Uge 10 Teoretisk Statistik 1. marts 2004

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Kvantitative Metoder 1 - Efterår Dagens program

Produkt og marked - matematiske og statistiske metoder

Kvantitative Metoder 1 - Forår Dagens program

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Sandsynlighedsregning Oversigt over begreber og fordelinger

Opgaver i sandsynlighedsregning

Teoretisk Statistik, 16. februar Generel teori,repetition

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistik og Sandsynlighedsregning 2

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Kvantitative Metoder 1 - Efterår Dagens program

Statistik og Sandsynlighedsregning 2

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Sandsynlighedsregning Stokastisk variabel

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår 2007

Nanostatistik: Middelværdi og varians

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Kapitel 10 Simpel korrelation

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Mat2SS Vejledende besvarelse uge 11

Statistiske modeller

Indblik i statistik - for samfundsvidenskab

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Løsning til eksamen 16/

MM501 forelæsningsslides

Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

standard normalfordelingen på R 2.

Den todimensionale normalfordeling

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår 2007

Modul 6: Regression og kalibrering

Definition. Definitioner

Dagens program. Afsnit Diskrete stokastiske variable Sandsynlighedsfunktioner Simultane fordelinger Betingede sandsynligheder

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Tema. Dagens tema: Indfør centrale statistiske begreber.

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Nanostatistik: Stokastisk variabel

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

MM501/MM503 forelæsningsslides

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Statistik for ankomstprocesser

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

StatDataN: Plot af data

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Reeksamen 2014/2015 Mål- og integralteori

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Flerdimensionale fordelinger. Erik Michaelsen Nielsen

Forelæsning 11: Kapitel 11: Regressionsanalyse

Sandsynlighedsregning

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Transkript:

1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient Betingede sandsynligheder Aase D. Madsen Aase D. Madsen (DF) fra folketingets talerstol 16. november 1999 (ved 1. behandling af lov til biblioteksvirksomhed):... og dér står, at 39 pct. af den mandlige del af befolkningen aldrig kommer på bibliotekerne, og at 30 pct. af den kvindelige del af befolkningen, altså fordelt gennemsnitligt over alder, aldrig kommer der. Og når jeg lægger mænd og kvinder sammen det skal man være lidt forsigtig med, men på det her område tør jeg godt så giver 39 pct. af mændene og 30 pct. af kvinderne befolkningen tilsammen, og det må være 69 pct. Tager jeg fejl?

2 Definition af betingede sandsynligheder Udfaldsrum E: Hændelser A, B f E Betinget sandsynlighed for A givet B P(A B) P(A B) = P(B) Denne definition har kun mening, hvis P(B) > 0. Bruger B som "nyt udfaldsrum": P(B B) = 1. Loven om den totale sandsynlighed (sætning 4.3) Klassedeling af E: E = A 1 cþca m, hvor A i 1 A j = Ø (i j) For hændelse B f E: B = (A 1 1B) c (A 2 1B) cþc (A m 1B) Bevis : m P (B) = P(A B) = P(A )P(B A ) m j j1 = j1 = j j

3 Bayes' formel (sætning 4.4) Klassedeling af E: E = A 1 cþca m, hvor A i 1 A j = Ø (i j) For hændelse B med P(B) > 0: P(Ai B) P(B A i)p(a i) P(A i B) = = P(B) P(B) = P(B A )P(A ) m j1 = i P(B A )P(A ) j i j Eksempel: Aase D. Madsen E = {alle danskere}, A 1 = {kvinder}, A 2 = {mænd} B = {de der aldrig bruger bibliotekerne} Givne betingede sandsynligheder: P(B A 1 ) = 0.30, P(B A 2 ) = 0.39 Total sandsynlighed for B: P(B) = 0.30 @ 0.5 + 0.39 @ 0.5 = 0.345 0.69! Hvad hvis hun i stedet havde beregnet P(B c )?

4 (2) Eksempel: Aase D. Madsen En tilfældigt udvalgt person angiver at vedkommende ikke bruger biblioteket. Hvad er sandsynligheden for at det er en mand? P(B A 2)P(A 2) 0.39 0.5 P(A 2 B) = = = 0.57 P(B) 0.345 Teoretisk Statistik, 15. marts 2004 1) Betingede sandsynligheder 2) Betinget middelværdi og varians Definition Beregning af marginal mv. og var. ved hjælp af betingede værdier 3) Kovarians og korrelationskoeficient

5 Betinget middelværdi og varians X 1 og X 2 diskrete variable. For givet x 1 definerer P(X = x,x = x ) f (x x) P(X x X x), x S 1 1 2 2 2 2 1 = 2= 2 1= 1 = 2 2 P(X1= x 1) den betingede fordeling af X 2 givet X 1 = x 1. Man kan beregne middelværdi og varians i denne fordeling: [ ] EX X = x = xf(x x) 2 1 1 x2 S 2 2 1 2 2 2 1 1 x2 S 2 2 1 2 1 1 [ = ] = [ = ] var X X x x f (x x ) (E X X x ) (2) Betinget middelværdi og varians Tilsvarende for kontinuerte variable, X 1 og X 2. Betinget middelværdi og varians af X 2 givet X 1 = x 1 : [ ] EX X = x = xf(x x)dx, 2 1 1 2 2 1 2 2 2 [ 2 1= 1] = 2 2 1 2 [ 2 1= 1] var X X x x f (x x )dx (E X X x ) hvor f(x 2 x 1 )=f(x 1,x 2 )/f 1 (x 1 ) er den betingede tæthed. Betinget middelværdi og varians afhænger (typisk) af x 1!

6 (3) Betinget middelværdi og varians Den betinget middelværdi og varians af X 2 givet X 1 = x 1 afhænger (som oftest) af x 1, altså af den obs. værdi af X 1. De er altså funktioner af den stokastiske variabel X 1 og dermed selv stokastiske variable, E[X 2 X 1 ] og var[x 2 X 1 ], som har middelværdi og varians. Vigtige formler (sætning 4.5): E[X 2 ] = E[E[X 2 X 1 ]] var[x 2 ] = E[var[X 2 X 1 ]] + var[e[x 2 X 1 ]] Eksempel 1 (opg. 12.6, fortsat fra sidst) Husk modellen: X 1 ~ N(µ,_σ 2 ); (X 2 X 1 = x 1 ) ~ N(βx 1, τ 2 ). Altså E[X 2 X 1 = x 1 ] = βx 1, var[x 2 X 1 = x 1 ] = τ 2 Påstod at: X 2 ~ N(βµ, τ 2 + β 2 σ 2 ). Middelværdi og varians passer i hvert fald: E[X 2 ] = E[E[X 2 X 1 ]] = TβE[X 1 ] = βµ var[x 2 ] = E[var[X 2 X 1 ]] + var[e[x 2 X 1 ]] = τ 2 + β 2 var[x 1 ] = τ 2 + β 2 σ 2

7 (2) Eksempel 2: Quiz med to runder Første runde: quizdeltageren får n ja/nej -spørgsmål; sandsynligheden for korrekt svar er p 1 på hvert spørgsmål. X = antal korrekte svar i første runde. Anden runde: deltageren får X spørgsmål; og sandsynligheden for korrekt svar er p 2. Y = antal korrekte svar i anden runde. Hvad er middelværdi og varians for antal korrekte svar i anden runde, altså E[Y] og var[y]? (2) Eksempel 2: Quiz med to runder Under passende uafhængighedsantagelser: X ~ bin(n,p 1 ), (Y X) ~ bin(x,p 2 ) Hvis man skulle beregne f.eks. middelværdi "direkte": n n n x n x x y x y f(y) = f(x)f(y x) = p 1(1 p 1) p 2(1 p 2)??? x= y x= y x y = [ ] n EY= yf(y) =??? y= 0

8 (3) Eksempel 2: Quiz med to runder Meget nemmere: og E[Y] = E[E[Y X]] = E[Xp 2 ] = p 2 E[X] = np 1 p 2 var[y] = E[var[Y X]] + var[e[y X]] = E[Xp 2 (1 - p 2 )] + var[xp 2 ] 2 = np 1 p 2 (1 - p 2 ) + np 1 (1 p 1 )p 2 = n p 1 p 2 (1 p 1 p 2 ) Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient Mål for (lineær) sammenhæng mellem to variable Fortolkning af korrelationskoefficient Diverse regneregler for middelværdi og varians

9 Positiv/negativ afhængighed Ønsker mål for (lineær) sammenhæng/afhængighed mellem to stokastiske variable, X 1 og X 2. Positiv afhængighed: Når X 1 er stor (lille), så er X 2 det typisk også. Negativ afhængighed: Når X 1 er stor, er X 2 typisk lille; når X 1 er lille er X 2 typisk stor. Eksempler: Antal m 2 og pris på lejlighed (+) _ Alder på køkken og pris på lejlighed ()) Empirisk kovarians Eksempel: Opgave 12.6. Tn observationer af parrett (X 1,X 2 ): (x 11,x 21 ),,( x 1n, x 2n ). Empirisk kovarians n 1 s 12 = n 1 (x1i x 1)(x2i 2 x ) i = 1 s 12 numerisk stor og positiv: tegn på positiv afhængighed. s 12 numerisk stor og negativ: tegn på negativ afhængighed

_ 10 Teoretisk kovarians Definerer ny stokastisk variabel: (*) (X 1 E[X 1 ])(X 2 E[X 2 ] ) Ingen afhængighed: (*) lige ofte positiv og negativ. Positiv/negativ afhængighed: (*) er ofte positiv/negativ. Kovariansen mellem X 1 og X 2 : cov(x 1, X 2 ) = E[(X 1 -E[X 1 ])( X 2 E[X 2 ])) cov(x 1, X 2 ) numerisk stor: tegn på sammenhæng ml. X 1 og X 2. (2) Teoretisk kovarians Kovarians med sig selv : cov(x,x) = E[(X E[X] 2 ] = var[x] Middelværdi og varians af sum E[X 1 + X 2 ] = E[X 1 ] + E[X 2 ] var[x 1 + X 2 ] = E[(X 1 + X 2 (E[X 1 ] + E[X 2 ])) 2 ] = E[(X 1 E[X 1 ]) 2 + (X 2 - E[X 2 ]) 2 + 2(X 1 - E[X 1 ])(X 2 - E[X 2 ])] T= var[x 1 ] + var[x 2 ] + 2 cov(x 1,X 2 )

11 (3) Teoretisk kovarians Tilsvarende: var[x 1 X 2 ] = var[x 1 ] + var[x 2 ] 2 cov(x 1,X 2 ). Nyttig regneregel: cov(x 1,X 2 ) = E[(X 1 E[X 1 ]) (X 2 E[X 2 ])] = E[X 1 X 2 ] (E[X 1 ])(E[X 2 ]) Denne formel bruges ofte til beregning af kovariansen. (4) Teoretisk kovarians Altså: cov(x 1,X 2 ) = E[X 1 X 2 ] (E[X 1 ])(E[X 2 ]). X 1 X 2 er en funktion af den todimensionale s.v. (X 1,X 2 ) og dens middelværdi beregnes vha. den simultane fordeling: [ ] EXX 1 2 = xx f(x,x ) 1 2 1 2 1 2 x1 x2 x1x 2f (x 1,x 2)dx 1,dx 2 1 2 (X,X diskrete) (X,X kontinuerte) Eller via betingede middelværdier: E[X 1 X 2 ] = E[E[X 1 X 2 X 1 ]] = E[X 1 E[X 2 X 1 ]]

12 Eksempel: opgave 12.6 (fra sidst) Husk modellen: 2 2 1 2 1 1 1 2 2 2 2 X ~N( µσ, ); (X X = x ) ~N( βx, τ ) ; X ~N( βµτ, +βσ ) 1 2 1 1 2 NB: [ ] [ ] Vi får: 2 2 E[X ] = var X + (E X ) =σ +µ [ ] [ ] [ ] [ ] [ ] 1 2 1 2 1 2 2 2 EXX 1 2 = EXEX 1 2 X1 = E[X1β X] 1 =β( σ +µ ) 2 2 2 cov(x,x) = EXX (EX )(EX ) =β( σ +µ ) µβµ= βσ Empirisk kovarians: s 12 = 0.06. Er dette meget eller lidt? Korrelationskoefficient Kovariansen afhænger af hvilken skala der måles på (uheldigt!): cov(a1x1+ b 1,a2X2 + b 2) = a1a 2cov(X 1,X 2), Korrelationskoefficienten defineres ved Så er: ρ=ρ (X,X ) = 1 2 cov(x,x ) var X 1 2 [ ] var[ X ] 1 2 aa cov(x,x) ρ (a X + b,a X + b ) = =± ρ(x,x ) 12 1 2 11 1 2 2 2 1 2 2 2 avarx 1 [ 1] avarx 2 [ 2]

13 (2) Korrelationskoefficient Det gælder altid: - 1 #ρ(x 1,X 2 ) # 1 Bemærk at ρ(x,ax + b) = a cov(x,x) var X 2 [ ] a var[ X] + 1 (a > 0) = 1 (a < 0) Det modsatte gælder også (sætning 4.7): Hvis ρ(x 1,X 2 ) = 1 så findes a > 0 og b så X 2 = ax 1 + b. Hvis ρ(x 1,X 2 ) = - 1 så findes a < 0 og b så X 2 = ax 1 + b. (3) Korrelationskoefficient Korrelationskoefficienten måler lineær afhængighed! Vi siger, at X 1 og X 2 er ukorrelerede, hvis ρ( X 1 X,_ 2 ) = 0. Hvis X 1 og X 2 er uafhængige, er (sætning 4.7) E[ X 1, X 2 ] = ( E[X 1 ]) ( E[X 2 ]) cov(x 1, X 2 ) = ρ(x 1,X 2 ) = 0 var[x 1 ± X 2 ] = var[x 1 ] + var[x 2 ] Specielt altså: X 1 og X 2 uafhængige Y X 1 og X 2 ukorrelerede. Det modsatte gælder ikke (se f.eks. opgave HS.8)!

14 Eksempel: korrelation og stokastisk uafhængighed x f(x,y) y 1 2 3 4 f 2 (y) 1 0.06 0.03 0.06 0.15 0.30 2 0.08 0.04 0.08 0.20 0.40 3 0.06 0.03 0.06 0.15 0.30 f 1 (x) 0.20 0.10 0.20 0.50 1.00 Tabel 1 Bemærk at f 1 (x) = f(x y) og f 2 (y) = f(y x) <=> f 1 (x) f 2 (y) = f(x,y) dvs. X og Y er uafhængige x f(x,y) y 1 2 3 4 f 2 (y) 1 0.14 0.07 0.04 0.05 0.30 2 0.06 0.03 0.13 0.18 0.40 3 0.00 0.00 0.03 0.27 0.30 f 1 (x) 0.20 0.10 0.20 0.50 1.00 Bemærk at f 1 (x) f(x y) og f 2 (y) f(y x) <=> f 1 (x) f 2 (y) f(x,y) dvs. X og Y er afhængige. Tabel 2 Til karakteristik af de todimensionale fordelinger anvendes : E[X] = xf 1 (x) = 1 0.2 + 2 0.1 + 3 0.2 + 4 0.5 = 3.0 E[Y] = 2.0 (f 2 (y) er symmetrisk om y = 2) var[x] = x 2 f 1 (x) E 2 [X] = 1 0.2 + 4 0.1 + 9 0.2 + 16 0.5 9.0 = 1.4 var[y] = y 2 f 2 (y) E 2 [Y] = 1 0.3 + 4 0.4 + 9 0.3 4.0 = 0.6 og cov(x,y) = E[XY] E[X]E[Y] = 1 1 0.06 + + 3 4 0.15-3 2 = 0 for f(x,y) i tabel 1. For f(x,y) i tabel 2 fås på tilsvarende måde cov(x,y) = 6.57-3 2 = 0.57 Hvis X og Y er uafhængige er cov(x,y) = 0. Det omvendte gælder derimod ikke : cov(x,y) = 0 medfører ikke i almindelighed uafhængighed mellem X og Y, se tabel 3.

15 x f(x,y) y 1 2 3 f 2 (y) 1 0.00 0.30 0.00 0.30 2 0.20 0.00 0.20 0.40 3 0.00 0.30 0.00 0.30 f 1 (x) 0.20 0.60 0.20 1.00 Tabel 3 Bemærk at X og Y er ukorrelerede : E[XY] = 1 2 0.3+2 1 0.2+2 3 0.2+3 2 0.3 = 4.0 E[X] = E[Y] = 2 (pga. symmetri) dvs. cov(x,y) = 0 men X og Y er afhængige : f(x,y) f 1 (x)f 2 (y). Der er en cirkulær sammenhæng. (4) Korrelationskoefficient Empirisk korrelationskoefficient for n obs.(x 11,x 21 ),,(x 1n,x 2n ): r 12 = s ss 12 12 hvor n 1 s = (x x )(x 12 1i 1 2i 2 n 1i= 1 n 2 1 2 1 = 1i 1 n 1i= 1 n 2 1 2 2 = 2i 2 n 1i= 1 s (x x ) ; s (x x ) x )

16 Oversigt 1. Betingede sandsynligheder Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians Beregning af marginal middelværdi og varians ved hjælp af de betingede 3. Kovarians og korrelationskoefficient Fortolkning af korrelationskoefficient Diverse regneregler for middelværdi og varians