Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den flerdimensionale normalfordeling Korrelation og uafhængighed, repetition Til karakteristik af fordelingen af (X,Y) benyttes µ x = E[X], µ y =E[Y] og σ x = var[x], σ y = var[y] samt kovariansen mellem X og Y : cov(x,y) = E[(X- µ x )(Y- µ y )] = E[XY] - µ x µ y = σ xy cov(x,x) = var[x] X,Y stokastisk uafhængige => cov(x,y) = 0, da E[(X- µ x )(Y- µ y )] = E[X- µ x ] E[Y- µ y ] = 0. Derimod cov(x,y) = 0 > stokastisk uafhængighed. Betragt identiteten [(ax + by) (a µ x + b µ y )] = a (X- µ x ) + b (Y- µ y ) + ab(x- µ x )(Y- µ y ) hvor a og b er konstanter. Ved middelværdidannelse fås videre
(*) var[ax+by] = a var[x] + b var[y] + ab cov(x,y) Sættes a = og b = ± i (*) fås var[x ± Y] = var[x] + var[y] ± cov(x,y) og hvis tillige X og Y er uafhængige haves var[x ± Y] = var[x] + var[y] Sættes b = i (*) fås var[ax+y] = var[x] a + cov(x,y) a + var[y], der kan opfattes som et andengradspolynomium i a med værdi 0. var[ax + Y] a toppunkt: cov(x,y) cov (X,Y) var[x]var[y] var[x], var[x] Diskriminanten må derfor være 0, dvs. cov (X,Y) var[x] var[y] <=> cov (X,Y) / var[x] var[y] <=>
- cov(x,y) / var[x] var[y] <=> - ρ 3 Korrelationskoefficienten ρ er derfor et mere egnet mål for afhængigheden mellem X og Y. ρ er kun lig, når der findes et a for hvilket var[ax + Y] = 0, dvs. når ax + Y for et eller andet fast a antager samme værdi i alle punkter (x,y), der har positiv sandsynlighed : ax + y = konstant. Fordelingen er da i virkeligheden ikke todimensional, idet alle i betragtning kommende punkter ligger på en ret linie. Endelig bemærkes, at cov(x,y) og ρ samtidig er 0. Er denne betingelse opfyldt, siger man, at X og Y er ukorrelerede i modsat fald er de korrelerede. Vi har da ovenfor indset, at to uafhængige variable altid er ukorrelerede; mens det omvendte ikke behøver at være tilfældet. Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge 4) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5. Den flerdimensionale normalfordeling
4 Eksempel fra sidst: Quiz med to runder Husk at X ~ bin(n,p ), (Y X = x) ~ bin(x,p ) Punktsandsynlighed for Y: n n n x n x x y x y f(y) = f(x)f(y X= x) = p ( p ) p ( p )??? x y = xy = xy = Det er nu ikke så svært endda at beregne denne sum... Det viser sig at Y ~ bin(n,p p ). Bevis: () Eksempel fra sidst: Quiz med to runder n y y x y n x x y x= y n! (n y)! f(y) = p p p ( p ) ( p ) y!(n y)! (n x)!(x y)! n y (n y) (x y) x y x= y n n y = (p p ) ( p ) (p ( p )) y x y n y (n y) u u u= 0 u n n y = (p p ) ( p ) (p ( p )) y
5 (3) Eksempel fra sidst: Quiz med to runder Benyt så at (-p ) + (p p p ) = - p p således at n y u= 0 (n y) u u n y p p ( p ) u pp pp = fordi det er summen af punktssh. i bin Dermed får vi som ønsket: p( p ) n y,. ( p p ) n y f(y) = (pp ) ( pp ) y n y Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix Definition Regneregler 4. Summer af stokastiske variable 5. Den flerdimensionale normalfordeling
6 Middelværdivektor m-dim. sv.(x,x,,x m ) som søjlevektor (m H ): Middelværdivektor (m H ): X X = X m [ ] EX µ= EX [ ] = EX [ m] Kovariansmatrix Varianser og kovarianser samles i kovariansmatricen (m H m): dvs. c i,j = cov(x i,x j ), i,j =,,m [ ] var X cov(x,x ) cov(x,x m) cov(x,x ) var [ X] cov(x,x m) C = cov(x,x m) cov ( X,Xm) var [ Xm]
7 () Kovariansmatrix m T C er symmetrisk og positiv semidefinit ( x :x Cx 0) C er en diagonalmatrix, hvis X'erne er parvis uafhængige C er singulær, hvis og kun hvis der findes en lineær relation mellem X'erne (a X +þa m X m + b = 0). [ ] [ ] m = : det C = (var X )(var X ) (cov(x,x )) [ ] [ ] ( ) = (var X )(var X ) ( ρ(x,x )) så C er singulær, hvis og kun hvis ρ (X,X ) = ", dvs. hvis og kun hvis X er en lineær funktion af X. Eksempel: opgave.6, igen-igen Model : X ~ N(µ,σ ), X ~ N(β µ,τ + β σ ), cov(x,x ) = β σ Altså [ ] EX µ σ βσ =, C=, det C= σ τ βµ βσ τ + β σ Korrelationsmatrix Vi kan også danne korrelationsmatricen (m H m): ρ(x,x ) ρ(x,xm) (X,X ) (X,X m) ρ ρ ρ(x,x m) ρ(x,x m)
8 Middelværdi og varians for lineær transformation af X Lad X være en m-dimensional sv. (m H ); A en k H m-matrix; B en k H -matrix (søjle). Så er Y = AX + B en k-dimensional stokastisk variabel med mid- delværdivektor E[Y] og kovariansmatrix betegnet var[y] givet ved [ ] [ ] EY= AEX+ B (k ) [ ] [ ] T T var Y = Avar X A = ACA (k k) Eksempel: Sum af stokastiske variable (lige om lidt) Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable Middelværdi og varians Punktsandsynligheder og tætheder 5. Den flerdimensionale normalfordeling
9 Middelværdi og varians for summer Fra sidst: Generelt: [ + ] = [ ] + [ ] [ ] [ ] [ ] EX X EX EX var X + X = var X + var X + cov(x,x ) [ + + ] = [ ] + + [ ] EX X EX EX m m m [ ] [ ] var X + + X = var X + cov(x,x ) m i i i = (i,j):i< j j () Middelværdi og varians for summer Bevis (for m = 3): [ + + 3] = [ + + 3] = E[ X + X ] + E[ X ] = E[ X ] + E[ X ] + E[ X ] EX X X E(X X) X [ ] [ 3 3 var X + X + X = var (X + X ) + X 3 = 3] (3) Middelværdi og varians for summer Bevis (for m =3): X X+ X + X 3 = () X= AX X 3 Dermed:
[ + + 3] [ ] = [ ] [ ] EX X X = AEX var X + X + X = Avar X A = ACA 3 T T 0 Fordeling af summer f er simultan punktssh. for (X,X ) med diskret udfaldsrum S. Punktsansynlighed for Y = X + X : g(y) = P(Y = y) = P((X,X ) A) = f(x,x ) (x,x ) A hvor A = {(x,x ),S x + x = y} = {( x,y-x ) x,s }. Altså: g(y) = f (x,y x ) x S () Fordeling af summer f er simultan tæthed for (X,X ) med kontinuert udfaldsrum S. Tæthed for Y = X + X : g(y) = f(x,y x )dx Når X og X er uafhængige fås specielt: g(y) = P(Y = y) = f (x )f (y x ) x S g(y) = f (x )f (y x )dx
(3) Fordeling af summer Antag at X og X er uafhængige sv. og lad Y = X + X. Poisson : X ~ Ps (λ ), X ~ Ps (λ ) Y Y ~ Ps ( λ + λ ). Binomial: X ~ bin(n,p),x ~ bin(n,p) Y Y ~ bin( n + n,p). NB: Samme p! Gamma: X ~ Γ(β, "),X ~ Γ(β, ") Y Y ~ Γ(β + β, "). NB: Samme "! Specialtilfælde: Exponential- og P -fordelingen. Exponential : X ~ ex(λ),x ~ ex(λ) Y Y ~ Γ(, 8) = Erl(, 8). P : X ~ P (f ),X ~ P (f ) Y Y ~ P (f +f ). Normal: X ~ N(µ,σ ), X ~ N(µ,σ ) Y Y ~ N(µ + µ,σ + σ ). Endda: Y ~ N(µ + µ,σ + σ + σ ), hvis cov (X,X ) = σ. (4) Fordeling af summer Eksempel/Bevis for normalfordelingen, (X,X ) ~ N(0,): x / (y x ) / f(y) = f (x )f (y x )dx = e e dx π Nu er + = + (x y/) y /4 / ( ) (x (y x ) )/ (x y/) y /4 så dvs. Y = X +X ~ N(0,). f(y) = e e dx π y /4 y /4 = e π / = e π π
(5) Fordeling af summer Sætning : E[ Z] = E[X +Y] = E[X] + E[Y]. Bevis : E[Z] = z g(z) dz = z f(x,z-x) dx dz = z f(x,z-x) dz dx = (x+y) f(x,y) dy dx = x f(x,y) dy dx + y f(x,y) dx dy = x f (x) dx + y f (y) dy = E[X] + E[Y] Eksempel : Addition af stokastiske variable I en industriel produktionsproces bearbejdes produkterne på to maskiner A og B, der arbejder uafhængigt af hinanden. Produkterne fremstillet på maskine A, hhv. B, er uafhængigt af hinanden defekte med sandsynlighed 0.007, hhv. o.o. Et parti indeholder 300 produkter fremstillet på maskine A og 00 produkter fra maskine B. Hvad er sandsynligheden for at et parti indeholder mere end 0 defekte produkter? Lad X A og X B være antal defekte produkter fra hhv. A og B. Da er X A ~ bin(300 ; 0.007) X B ~ bin(00 ; 0.0) Men da både p A og p B er mindre end 0. og n A, n B er store, gælder X Ps(.), X Ps(.0) X + X ~ Ps(4.). A B A B a a Den søgte sandsynlighed bliver derfor P(X A + X B > 0) = P(X A + X B 0) = - 0.9966 = 0.0034.
3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5. Den flerdimensionale normalfordeling Den to-dimensionale N-fordeling (eksempel: opg..6) Generel m-dimensional N-fordeling Lineær transformation Den flerdimensionale normalfordeling Ønsker tæthed for den simultane fordeling af m (marginalt) normalfordelte variable, der kan være indbyrdes afhængige. m = : Ønsker f(x,x ) hvor X,X er som ovenfor. Hvis X og X er uafhængige: f(x,x ) = exp ( x µ ) ( x µ ) πσσ σ σ hvor µ, µ er middelværdier og σ, σ er varianser. Hvad hvis X og X er afhængige?
4 Eksempel: opgave.6, igen-igen-igen Husk model: X ~ N(µ, σ ), (X X = x ) ~ N(βx, τ ), X ~ N(βµ, τ + β σ ). Simultan tæthed f (x,x ) = f(x )f(x x) = exp( q / ) π σ τ hvor q = (x µ ) + (x βx σ τ ) Kontroller at () Eksempel: opgave.6 igen-igen-igen som vi genkender som T x µ x x βµ x σ βσ µ q = βσ τ + β σ βµ T var X cov(x, X ) x E X [ ] [ ] [ ] [ ] x E X x E X cov(x,x ) var X x E X C
5 (3) Eksempel: opgave.6 igen-igen-igen Dermed: f(x,x ) = exp( q/) π σ τ T = exp (x ) C (x ) µ µ ( π) detc x hvor x =. x Den simultane tæthed for (X,X ) er altså fuldstændigt bestemt udfra middelværdivektor og kovariansmatrix for X. Den to-dimensionale normalfordeling Lad den -dimensionale stokastiske variabel (U,U ) have tæthedsfunktion (*) ϕ(u,u ) = e π -ρ - (u -ρuu +u ) (-ρ ) hvor ρ є (-,+). Den marginale tæthedsfunktion for U findes pr. definition som (u ρuu +u ) (-ρ ) ϕ - f(u)= (u,u )du = e du π -ρ Idet (u - ρu u +u ) = u (u -ρu ) (-ρ ) (-ρ ) følger
u (u ρu ) (-ρ ) f(u)= e e du π π -ρ - Indføres herefter substitutionen z = (u ρu )/ (- ρ ) fås videre u z u f(u)= e e dz= e - π π π 6 Altså er U ~ N(0,), og af symmetrigrunde er også U ~ (0,). Parameteren ρ i (*) er korrelationskoefficienten mellem U og U, se nedenfor, hvor samme substitution som ovenfor benyttes. ρ(u,u ) = [ ] [ ] [ ] [ ] [ ] EUU -EU EU = E U U = u u (u,u )du du [ ] var U var U ϕ u (u ρu ) (-ρ ) u e u e du d = - - π π -ρ u = u - ρe du =ρ π u Lad nu X = σ U + µ, X = σ U + µ, hvor (U,U ) har tæthedsfunktion (*). (X,X ) har da tæthedsfunktion x-µ x-µ f ( x,x ) = ϕ, σσ σ σ (**) = e πσ σ -ρ x -µ x -µ x -µ x -µ - ( ) - ρ +( ) -ρ σ σ σ σ ( )
Definition : Den stokastiske variabel (X,X ) siges at være normalfordelt med parametrene µ, µ, σ, σ, ρ,hvis tæthedsfunktionen er givet ved (**). Vi skriver (X,X ) ~ N(µ, µ, σ, σ, ρ). Af det ovenfor anførte fremgår at E[X ] = µ,e[x ] = µ, var[x ] = σ,var[x ] = σ, ρ(x, X ) = ρ Af (**) ses, at hvis (X,X ) har en -dimensional normalfordeling, og hvis X og X er ukorrelerede, så er X og X stokastisk uafhængige. Lad (X,X ) have tæthedsfunktionen (**). Den betingede tæthedsfunktion for X givet X = x er ( ) ( ) ( ) f x x = f x f x,x = e πσ -ρ = e πσ -ρ og vi ser, at x -µ x -µ x -µ x -µ x -µ - ( ) -ρ +( ) + -ρ σ σ σ σ σ ( ) ( ) σ x-µ -ρ (x -µ ) σ -ρ σ (X X = x ) ~ N(µ + ρ (x µ ), σ (- ρ )). σ Tilsvarende kan det vises, at σ σ (X X = x ) ~ N(µ + ρ (x µ ), σ (- ρ )). σ 7
8 () Den to-dimensionale normalfordeling Tæthed for normalfordeling med middelværdi og kovarians σ σ C = σ σ er givet ved µ µ= µ T f(x,x ) = exp (x ) C (x ) µ µ ( π) detc der på nær en konstant er lig (x µ ) (x µ ) ρ(x µ )(x µ ) exp + ( ρ ) σ σ σσ (3) Den to-dimensionale normalfordeling Pæne egenskaber: X og X uafhængige ] ρ = 0 ] X og X ukorrelerede X ~ N(µ,σ ) og X ~ N(µ, σ ) σ (X X =x ) ~ N µ +ρ (x -µ ),σ (-ρ ) σ Altså: Hvis (X,X ) er to-dimensional normalfordelt bliver både marginale og betingede fordelinger også normalfordelinger!
9 Den m-dimensionale normalfordeling m-dimensional sv. X (m H ) med mv. µ (m H ) og kovar. C(m H m). Simultan tæthed T - f(x,...,x m)= exp (x-µ) C (x-µ) m ( π) detc C singulær] det C = 0 ] der findes lineærkombination a X + a m X m = b, dvs. udfaldsrum for (X,..,X m ) er underrum af ú m. X,..,X m er indbyrdes uafhængige, hvis og kun hvis C er en diagonalmatrix. () Den m-dimensionale normalfordeling Antag at X,..,X m er uafhængige og alle N(µ,σ )-fordelt. Så er C lig mh m diagonalmatricen med σ i diagonalen og 0 udenfor. Simultan tæthed: m f(x,...,x m)= exp m - (xi-µ) /σ ( π) i= = exp - (x -µ) πσ detc σ m i i= som vi også vidste det skulle være
0 Lineær transformation Lad X være m-dimensionalt normalfordelt med middelværdivektor µ og kovariansmatrix C: X ~ N(µ,C) Hvis A er en k H m-matrix; og B en k H -matrix (søjle), så er Y = AX + B normalfordelt (k-dimensionalt) med middelværdivektor Aµ + B og kovariansmatrix ACA T : Y = AX + B ~ N(Aµ + B, ACA T ) NB: For A = (... ) og B = 0 fås fordelingen af X +þ+x m. () Lineær transformation Lad X, X, X 3 være uafhængige og marginalt N(0,)-fordelte Så er X X+3X +4 30 4 X +X 3+5 0 5 X 3 Y= = X + 4 0 ~ N, N(,C). 5 5 = µ