Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@imm.dtu.dk

Dagens nye emner afsnit 6.5 Den bivariate normalfordeling f(x,y) = Y = ρx + ρ 2 Z, 2π ρ 2e x 2 2ρxy+y 2 2( ρ 2 ) X,Z uafhængige standard NF V = µ V +σ V X, W = µ W +σ W Y er bivariat normalfordelt med E(V) = µ V, E(W) = µ W, Var(V) = σ 2 V, Var(W) = σ2 W, samt Cov(V,W) = ρσ V σ W. V = a i Z i, W = b i Z i med Z i normal(µ i,σi) 2 uafhængige i i ( V normal ai µ i, ) ( a 2 iσi 2,W normal bi µ i, ) b 2 iσi 2 Cov(V,W) = i a i b i σ 2 i (V,W) bivariat normalfordelte,

Bivariat NF - en lille forhistorie givet X med f X (x) = 2π e 2 x2 Vi indfører en stokastisk variabel Y der for givet X = x har E(Y X = x) = ρx, hvor < ρ < Var(Y X = x) = ρ 2 Y givet X = x normalfordelt. f Y (y X = x) = 2π ρ 2 e 2 (y ρx) 2 ρ 2 Bo Friis Nielsen /2 207 2. forelæsning 3

forhistorie fortsat Den simultane fordeling f(x, y) f(x,y) = 2π e 2 x2 2π ρ 2 e 2 (y ρx) 2 ρ 2 = 2π ρ 2e 2 x 2 2ρxy+y 2 ρ 2 Udtrykket er symmetrisk i x og y så Y er også standard normal fordelt. Bo Friis Nielsen /2 207 2. forelæsning 4

Et kapitel til i forhistorien Vi betragter nu Z = ρ Y ρx 2, og får E(Z) = 0 E(Z 2 ) = E ( Y 2 +ρ 2 X 2 2ρXY ρ 2 ). E(X 2 ) = E(Y 2 ) = E(XY) = E X (E Y (XY X)) = E X (ρx 2 ) = ρ Alt i alt: E(Z 2 ) =. Bo Friis Nielsen /2 207 2. forelæsning 5

Slut på forhistorie Fordelingen af (X,Z)? P(X dx,z dz) = g(x,z)dxdz Vi finder - noget heuristisk - f(x,y)dxdy = f(x,ρx+ ρ 2 z)dxdy ( dxdy = dx ρ(x+dx)+ ρ 2 (z +dz) (ρx+ ) ρ 2 z) = ρ 2 dxdz g(x,z)dxdz = f(x,y)dxdy = f = 2π ρ 2e 2 ( x,ρx+ ) ρ 2 z dx ρ 2 dz x 2 2ρx(ρx+ ρ 2 z)+(ρx+ ρ 2 ρ 2 z) 2 = 2π e 2 x2 2π e 2 z2 dxdz dx ρ 2 dz så X og Z er uafhængige standard normalfordelte og vi kan skrive Y = ρx + ρ 2 Z

På en passende normeret skala beskriver X og Y vægten af henholdsvis mørbraden og svinekammen hos slagtesvin. Man kan antage, at vægtene kan beskrives ved en standardiseret bivariat normalfordeling med korrelationskoefficient ρ = 3 5. Spørgsmål Bestem andelen af slagtesvin, hvor summen af de normerede vægte overstiger. ( Φ 5 6 2 Φ ( ) 2 2 ) 3 Φ( 2 4 Φ() 5 Φ 6 Ved ikke ( 7 8 ) )

Standardiseret bivariat normal fordeling Samtidig fordeling af to ikke-uafhængige (korrelerede størrelser) Højde og vægt af mennesker En lang række biologiske og tekniske målinger For to standardiserede normalfordelte variable finder vi f(x,y) = 2π ρ 2e x 2 2ρxy+y 2 2( ρ 2 ) Bo Friis Nielsen /2 207 2. forelæsning 8

Hvis X og Y er standardiseret bivariat normalfordelt med korellation ρ, kan vi skrive Y som Y = ρx + ρ 2 Z hvor X og Z er uafhængige standardiserede normalfordelte variable Bo Friis Nielsen /2 207 2. forelæsning 9

Betinget tæthed f X (x Y = y) = f(x,y) f Y (y) = 2π ρ 2 e 2 (x ρy) 2 ρ 2 De betingede tætheder i normalfordelingen er igen normale Bo Friis Nielsen /2 207 2. forelæsning 0

Generel bivariat normalfordeling U og V er bivariat normalfordelt hvis (X,Y) med X = U µ u σ U, Y = V µ V σ V er standardiseret bivariat normalfordelt Bo Friis Nielsen /2 207 2. forelæsning

Fædre og sønners højder Baseret på 078 par af engelske mænd og deres (voksne) sønner har man fundet, at den simultane fordeling af højderne kan beskrives ved en bivariat normalfordling. Lad U være en faders højde, og V være en søns højde. Eksperimentelt vides da, at E(U) = 72,5cm, E(V) = 75cm, SD(U) = SD(V) = 5cm samt ρ = 0.5. Man ønsker at bestemme den forventede højde af en søn, hvis fader er 85cm. Bo Friis Nielsen /2 207 2. forelæsning 2

Generel bivariat normalfordeling Vi danner (X,Y) ud fra U og V X = U 72,5cm 5cm U = 85cm X = 2.5 E(Y X = 2,5) = 0,5 2,5 =,25, Y = V 75cm 5cm E(V U = 85cm) = 75cm+,25 5cm = 8,25cm Regression towards the mean Bo Friis Nielsen /2 207 2. forelæsning 3

Følgende tabel angiver amerikanske studerendes resultater ved kvalifikationsprøver til college PSAT score gennemsnit:200 SD:00 SAT score gennemsnit:300 SD:90 korrelation: 0,6 Spørgsmål 2 Hvor stor en andel af de studerende, der fik 000 i PSAT score scorede samtidigt over gennemsnittet i SAT score? 0,9332 2 0,843 3 0,5 4 0,587 5 0,0668 6 Ved ikke

Linearkombinationer af uafhængige normal fordelte variable Z i normal(µ i,σ 2 i) uafhængige V = i a i Z i, W = i b i Z i Parret V, W er bivariat normalfordelt med µ V = i a i µ i µ W = i b i µ i σ 2 V = i a 2 iσ 2 i σ 2 W = i b 2 iσ 2 i Cov(V,W) = i a i b i σ 2 i Bo Friis Nielsen /2 207 2. forelæsning 5

Vi har Z normal(3,4) og Z 2 normal(,9). Vi danner V = Z +2Z 2 og W = 2Z Z 2. E(V) = 3+2 ( ) = E(W) = 2 3 ( ) = 7 Var(V) = 4+4 9 = 40 Var(W) = 4 4+9 = 25 Cov(V,W) = 2 4+2 ( ) 9 = 0 Corr(V,W) = 0 40 25 = 0 Bo Friis Nielsen /2 207 2. forelæsning 6

Ukorrelerede variable er uafhængige To linear kombinationer af V = i a iz i og W = i b iz i af uafhængige normal(µ i,σ 2 i) fordelte variable er uafhængige hvis og kun hvis de er ukorrelerede. Det vil sige hvis i a ib i σ 2 i = 0 Med Z i normal(0,) i =,2 og V = Z +Z 2 2, W = Z Z 2 2 vi Cov(V,W) = 2 + ( ) 2 2 2 = 0 får dvs. V og W er uafhængige Summen og differensen af to standardiserede normalfordelte variable er uafhængige Bo Friis Nielsen /2 207 2. forelæsning 7

Eksempel 2 side 457... Parret (X, Y) er bivariat standardiseret normalfordelt med korrelation ρ. Hvad er sandsynligheden for at punktet ligger i første kvadrant? P(X > 0,Y > 0) = P(X > 0,ρX + ( ) ρ 2 Z > 0) = P (X > 0,Z > ρ ρ 2X Herefter bruger vi rotationsinvariansen af den bivariate normal fordeling for uafhængige variable ( P(X > 0,Y > 0) = P = X > 0,Z > ( ) π +Arctan ρ 2 ρ 2 2π ) ρ X ρ 2

Den simultane fordeling af mødres og døtres højder kan beskrives ved en bivariat normalfordeling med korrelation 0.5. På passende standardiseret skala gælder for begge enkeltvariable, at middelværdien er 0 og standardafvigelsen er. Spørgsmål 3 Hvad er andelen af døtre, der er over gennemsnitshøjde og samtidigt mindre end deres mødre? 0 2 8 3 6 4 4 5 3 6 Ved ikke Bo Friis Nielsen /2 207 2. forelæsning 9

Afsnit 6.5 Den standardiserede bivariate normalfordeling f(x,y) = Y = ρx + ρ 2 Z, 2π ρ 2e x 2 2ρxy+y 2 2( ρ 2 ) X,Z uafhængige standard NF V = µ V +σ V X, W = µ W +σ W Y er bivariat normalfordelt med E(V) = µ V, E(W) = µ W, Var(V) = σ 2 V, Var(W) = σ2 W, samt Cov(V,W) = ρσ V σ W. V = a i Z i, W = b i Z i med Z i normal(µ i,σi) 2 uafhængige i i ( V normal ai µ i, ) ( a 2 iσi 2,W normal bi µ i, ) b 2 iσi 2 Cov(V,W) = i a i b i σ 2 i (V,W) bivariat normalfordelte,