1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer af samme variabel. For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m. Simultan/marginal/betinget fordeling Marginale fordelinger: fordeling af X 1 og fordeling af X 2 (uden hensyntagen til den anden variabel). Simultan fordeling: Fordeling af parret (X 1, X 2 ). Tager hensyn til hvordan X 1 og X 2 varierer i forhold til hinanden. Betinget fordeling: Fordeling af X 2 givet X 1. Hvordan varierer X 2 når vi kender værdien af X 1 (eller omvendt)? Uafhængighed: Påvirker X 1 fordelingen af X 2 (og omvendt)?
2 Teoretisk Statistik, 8. marts 2004 1. Diskrete variable (Eksempel: Familiemønstre) (a) Simultan og marginal fordeling (b) Betinget fordeling (c) Uafhængighed 2. Kontinuerte variable (Eksempel: Index for løn og pris) (a) (c) Samme "program" som ovenfor. Eksempel. Familiemønstre Population: Norske kvinder med mindst to børn (1950 1984). Hvor mange vælger at få mere end de to børn? Køn af to første børn Flere børn Ikke flere børn Ialt 2 piger 48.866 60.700 109.566 1 dreng, 1 pige 91.124 138.987 230.111 2 drenge 54.849 67.037 121.886 I alt 194.839 266.724 461.563
3 (2) Eksempel: Familiemønstre X 1 = antal drenge blandt de to første børn. Udfaldsrummet for X 1 er {0,1,2} Marginal fordeling af X 1 : 109.566 f(0) 1 = P(X1= 0) = = 0.24 461.563 230.111 f(1) 1 = P(X1= 1) = = 0.50 461.563 121.886 f(2) 1 = P(X1= 2) = = 0.27 461.563 (3) Eksempel: Familiemønstre X 2 1 hvis flere børn = 0 ellers Udfaldsrummet for X 2 er {0,1}. Marginal fordeling af X 2 : 194.839 f 2(1) = P(X2 = 1) = = 0.42 461.563 266.724 f 2(0) = P(X2 = 0) = = 0.58 461.563
4 (4) Eksempel: Familiemønstre Disse marginale fordelinger / marginale punktsandsynligheder beskriver ikke hele strukturen i data. Skal også kende de simultane punktsandsynligheder f(x,x) 1 2 = P(X1= x,x 1 2= x), 2 x1= 0,1,2; x2= 0,1 For eksempel: 54.849 f(2,1) = P(X 1= 2,X 2= 1) = P(2drenge,får flere børn) = = 0.12 461.563 (5) Eksempel: Familiemønstre Køn af to første børn Flere børn Ikke flere børn Ialt 2 piger 0.11 0.13 0.24 1 dreng, 1 pige 0.20 0.30 0.50 2 drenge 0.12 0.15 0.27 I alt 0.43 0.58 1.01 De marginale sandsynligheder kan beregnes fra de simultane (men ikke omvendt ): f(x) = f(x,x ), f (x ) = f(x,x ) 1 1 1 2 2 2 1 2 x2= 0,1 x1= 0,1,2
5 Generel teori for diskrete variable Todimensional diskret stok. var. (X 1,X 2 ) med udfaldsrum S f ú 2. Simultan punktsandsynlighed f(x 1,x 2 ) = P(X 1 = x 1, X 2 = x 2 ), (x 1,x 2 ) S f(x,x ) 1. Punktsandsynlighederne summerer til 1: (x 1,x 2) S 1 2 = Sandsynlighed for hændelse A f S: P((X,X ) A) = f(x,x ) 1 2 1 2 (x 1,x 2) A (2) Generel teori for diskrete variable Marginale punktsandsynligheder f(x) = P(X = x) = f(x,x ), x S 1 1 1 1 1 2 1 1 x2 S2 f(x) = P(X = x) = f(x,x), x S 2 2 2 2 1 2 2 2 x1 S1 "Summerer den anden variabel ud."
6 (6) Eksempel: Familiemønstre Betinget fordeling af X 2 givet X 1. F.eks.: Givet at en kvinde har to drenge, hvad er så sandsynligheden for at hun vælger at få et barn til? P(X 2 = 1 X 1 = 2) =? Køn af to første børn Flere børn Ikke flere børn Ialt 2 piger 48.866 60.700 109.566 1 dreng, 1 pige 91.124 138.987 230.111 2 drenge 54.849 67.037 121.886 I alt 194.839 266.724 461.563 (7) Eksempel: Familiemønstre 54.849 / 461.563 P(X1 = 2,X2 = 1) P(X2 = 1 X1 = 2) = = = 0.45 121.886 / 461.563 P(X = 2) Tilsvarende P(X1 = 0,X2 = 1) P(X2 = 1 X1 = 0) = = 0.45 P(X = 0) 1 1 P(X1 = 1,X2 = 1) P(X2 = 1 X1 = 1) = = 0.40 P(X = 1) 1 Disse betingede ssh'er er ikke ens der er ikke uafhængighed
7 (3) Generel teori for diskrete variable Den betingede fordeling af X 2 givet X 1 = x 1 har punktsandsynligheder: P(X1= x 1,X2 = x 2) f (x 1,x 2) f 2(x 2 x) 1 = P(X2 = x 2 X1= x) 1 = = P(X = x ) f (x ) 1 1 1 1 NB: dette definerer faktisk en punktssh. (som funktion af x 2 ): f (x x ) 0, f (x x ) = 1 2 2 1 2 2 1 x2 S2 (4) Generel teori for diskrete variable X 1 og X 2 er uafhængige, hvis de betingede fordelinger af X 2 givet X 1 = x 1 er ens for alle værdier af x 1, dvs. hvis f(x 2 x 1 ) ikke afhænger af x 1. Altså: X 1 og X 2 er uafhængige, hvis information om X 1 ikke ændrer på vores forventning til eller viden om X 2. Simultan punktssh. "splitter op i et produkt" af de marginale: X 1 og X 2 uafhængige ] ] f(x 1,x 2 ) = f 1 (x 1 ) f 2 (x 2 )
8 Eksempel: data fra opgave 12.6 X = index for lønudgift per enhed; X 1 = log(x) Y = index for produktionsværdi per enhed; X 2 = log(y) 35 (uafhængige) observationer af parret (X 1, X 2 ). Både X 1 og X 2 ser nogenlunde ud til at være normalfordelt (histogrammer og normalfraktildiagrammer). SAS-program Men dette er ikke den fulde historie: plot obs. af X 2 mod obs. af X 1. Tydelig sammenhæng mellem X 1 og X 2. SAS-program Skal beskrive den simultane fordeling af (X 1, X 2 ). (2) Eksempel: data fra opgave 12.6 Eksempel på model for (X 1, X 2 ): X 1 er marginalt normalfordelt med middelværdi µ og varians σ 2 : 2 X N( µσ, ) Givet at værdien af X 1 er x 1, er den betingede fordeling af X 2 en normalfordeling med middelværdi βx 1 og varians τ : X X = x N( βx, τ ) 2 1 1 1 Simultan fordeling af (X 1, X 2 )? Marginal fordeling af X 2? 2 2
9 Generel teori for kontinuerte variable Todimensional kontinuert stok. variabel (X 1,X 2 ) med tilstandsrum S f ú 2. Simultan tæthed f med følgende fortolkning (for lille): 2 1 2 1 1 1 2 2 2 f(x,x ) P(x /2 X x + /2,x /2 X x + /2) Sandsynligheden for at (X 1, X 2 ) ligger i lille rektangel omkring (x 1,x 2 ) er proportional med f(x 1,x 2 ). Definer f(x 1,x 2 ) = 0 for (x 1,x 2 ) S. Sandsynlighed for hændelse A f ú 2 : P((X,X ) A) = f (x,x )dx dx 1 2 1 2 1 2 (x 1,x 2) A (2) Generel teori for kontinuerte variable Marginale tætheder: 1 1 = f(x,x 1 2)dx2 2 2 = f(x 1,x 2)dx1 f(x) f (x ) "Integrerer den anden variabel ud". Bevis. Hændelsen A = {X 1 # x 1 } = {X 1 # x 1, X 2 ú}, så x 1 ( ) = F (x ) f (z,z )dz dz 1 1 1 2 2 1
Pr. definition har vi imidlertid, at 10 x 1 1 1 - f 1(z 1)dz1 F (x )= hvoraf det ønskede resultat følger., (3) Generel teori for kontinuerte variable Betinget tæthed for X 2 givet X 1 = x 1 : f(x 1,x 2) f(x 2 x 1) = (*) f(x) 1 1 Giver kun mening når f 1 (x 1 ) > 0. (*) er en tæthed som fkt. af x 2. NB: Giver ikke mening at dividere med P(X 1 = x 1 ) = 0. X 1 og X 2 er uafhængige, hvis f(x 2 x 1 ) ikke afhænger af x 1, dvs. hvis den simultane tæthed splitter i et produkt: X 1 og X 2 uafhængige ] f(x 1, x 2 ) = f 1 (x 1 )f 2 (x 2 ).
11 (3) Eksempel: data fra opgave 12.6 Husk: X 1 ~ N(µ,σ 2 ) og X 2 X 1 = x 1 ~ N(βx 1, τ 2 ). f(x,x ) = f (x )f(x x ) 1 2 1 1 2 1 2 2 1 (x 1 µ ) 1 (x2 βx = exp exp 2 2 2 2 2πσ 2σ 2πτ 2τ 1 ) hvilket viser sig at være tætheden for en todimensional normalfordeling med middelværdivektor ξ og variansmatrix C,hvor 2 2 µ, C σ βσ ξ= = βµ 2 2 2 βσ τ + βσ (4) Eksempel: data fra opgave 12.6 Man kan indse at 2 1 (x2 βµ ) f (x 1,x 2)dx1 = exp 2 2 2 2 2 2 2 πτ ( +βσ) 2( τ +β σ ) således at X 2 ~ N(β µ, τ 2 + β 2 σ 2 ). Altså: X 1 og X 2 er begge marginalt normalfordelte, den betingede fordeling er en normalfordeling og den simultane fordeling er en normalfordeling endnu en pæn egenskab for normalfordelingen!
12 Opsamling Marginal fordeling for X 1 henholdsvis X 2. Simultan fordeling for (X 1,X 2 ). Betinget fordeling af X 2 givet X 1 = x 1 (eller omvendt). Uafhængighed af X 1 og X 2. I skal kunne jonglere rundt med marginale, simultane og betingede punktsandsynligheder og tætheder. (2) Opsamling Jeg gennemgik ikke: Flerdimensional fordelingsfunktion Den todimensionale rektangulære fordeling Det generelle m-dimensionale tilfælde Betingede sandsynligheder og Bayes' formel (side 137-144) lidt om dette næste gang