Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Den flerdimensionale normalfordeling, fordeling af ( X,SSD) Helle Sørensen Uge 9, mandag SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 1 / 16

Program Resultaterne fra denne uge skal bruges som arbejdsheste i projekt 1. I dag: Den flerdimensionale standardnormalfordeling Fordeling af ( X,SSD), hvor SSD = n i=1 (X i X ) 2 Onsdag: T -variablen og t-fordelingen Mere om χ 2 -fordelingen, Gamma-fordelingen. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 2 / 16

Hvorfor skulle dette nu være interessant... Eksempel 1: Hormonkonc. før og efter tilsætning af et stof til foderet: Cow 1 2 3 4 5 6 7 8 9 Initial (µg/ml) 207 196 217 210 202 201 214 223 190 Final (µg/ml) 216 199 256 234 203 214 225 255 182 Diff. (µg/ml) 9 3 39 24 1 13 11 32-8 Koncentrationen stiger for otte ud af de ni køer. Gennemsnitlig stigning er d = 1 n (d 1 +... + d n ) = 13.78 Er det nok til at slutte at stoffet påvirker hormonkoncentrationen? Empirisk varians og spredning, s 2 = SSD n 1 = 1 ( (d 1 n 1 d) 2 + (d n d) 2) = 232.19, s = 15.24 SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 3 / 16

Hvorfor skulle dette nu være interessant... Eksempel 2: Syv personers gæt på antallet af punkter i en en punktsky (gennemsnit af fire gæt) Person 1 2 3 4 5 6 7 Average guess 146 182 152.5 165 139.5 132 155 Empirisk middelværdi, varians og spredning: Det sande antal punkter er 161. ȳ = 153.14, s 2 = 276.89, s = 16.64 Kan man sige noget om hvorvidt man generelt over- eller underestimerer eller ingen af delene størrelsen af sådan en punktsky? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 4 / 16

Populationer og stikprøver Interesseret i middelværdien (og måske variansen) i en population: µ = EX og σ 2 = Var(X ). Har kun en stikprøve til rådighed: empirisk middelv. og varians: X og s 2. Vil bruge de empiriske størrelser som estimatorer for populationsstørrelserne: ˆµ = X, ˆσ 2 = s 2 Men hvilke egenskaber har estimatorerne? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 5 / 16

Foldning af normalfordelinger: repetition Sætning 6.3.12 Hvis X 1,...,X n er uafhængige og X i N(µ i,σi 2 ) så er summen X 1 + + X n normalfordelt med middelværdi µ 1 + + µ n og varians σ1 2 + + σ n 2. Første del af beviset gik ud på at vise følgende: Lemma U 1 og U 2 uafhængige N(0,1)-fordelte, α 2 + β 2 = 1. Definer ( ) ( )( ) V1 α β U1 = β α V 2 Så er V 1 og V 2 uafhængige og begge N(0,1)-fordelte. Det specielle ved matricen er at det er en ortonormal-/ortogonalmatrix: Søjlerne er ortogonale (vinkelrette) Søjlerne har norm 1 (længde 1) Specielt er det(a) = 1, A 1 = A t og Au = u. U 2 SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 6 / 16

Notation og ortonormale/ortogonale matricer Elementer i R n opfattes som søjler: x = Transponering: x t (række), A t. Indre produkt: x y = x 1 y 1 + x n y n Norm: x = x x = x1 2 + + x n 2 x 1. x n {e 1,...,e n } ortonormalbasis for R n hvis { 0, hvis i j e i e j = 1, hvis i = j SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 7 / 16

Notation og ortonormale/ortogonale matricer n n-matrix M er en ortonormalmatrix/ortogonalmatrix hvis M t M = I. M er en ortonormalbasis hvis og kun hvis dens søjler udgør en ortonormalbasis. For en ortonormalmatrix M gælder M er invertibel med M 1 = M t det(m) = 1 afbildningen x Mx bevarer indre produkt og norm: (Mx) (My) = x y og Mx = x SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 8 / 16

Standardnormalfordelingen i R n U 1,...,U n iid. N(0,1)-fordelte. iid = independent and identically distrubuted = uafh. og identisk fordelte. Den simultane fordeling af (U 1,...,U n ) kaldes den n-dimensionale standardnormalfordeling. Hvad er tætheden for (U 1,...,U n )? Sætning 8.3.1 Hvis U er standardnormalfordelt i R n og M er en n n-ortonormalmatrix, så er V = MU også standardnormalfordelt. Bevis: sætning 6.3.11. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 9 / 16

X og SSD X 1,...,X n iid. N(µ,σ 2 )-fordelte: X = 1 n (X 1 + + X n ), SSD = (X 1 X ) 2 + + (X n X ) 2 NB. s 2 = 1 n 1 SSD. Hvad er den simultane fordeling af ( X,SSD)? Kender faktisk allerede fordelingen af X... SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 10 / 16

Set-up Vil bruge sætning 8.3.1 fra før. Har brug for: U 1,...,U n iid. N(0,1)-fordelte En passende ortonormalmatrix Definer U i = (X i µ)/σ. Så er U 1,...,U n uafhængige hvorfor? U i N(0,1) de er jo netop standardiseret Ū = ( X µ)/σ 1/ n Definer desuden første søjle i M t som e 1 =. 1/ og supplér til n ortogonal matrix M t. Første række i M er konstant, 1/ n. Konklusion fra sætning 8.3.1: V 1,...,V n er iid. N(0,1) hvor V = MU. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 11 / 16

X Regn på V 1 og indse at V 1 = 1 σ n( X µ) Hvad siger det om fordelingen af X? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 12 / 16

SSD Husk at V 2 1 = nū2 V = U U i Ū = (X i X )/σ Regn på SSD og indse at SSD = σ 2 (V 2 2 + + V 2 n ) Altså er SSD/σ 2 summen af n 1 uafhængige kvadrerede N(0,1)-variable. Denne fordeling kaldes χ 2 -fordelingen med n 1 frihedsgrader. Vi siger så at SSD er σ 2 χ 2 -fordelt med n 1 frihedsgrader. Hvad kan vi sige om den simultane fordeling af ( X,SSD)? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 13 / 16

Fordeling af ( X,SSD) Har altså vist følgende meget vigtige sætning: Sætning 8.3.3 Hvis X 1,...,X n er iid. N(µ,σ 2 )-fordelte, så er X og SSD uafhængige X N(µ,σ 2 /n) SSD σ 2 χ 2 n 1 Sætningen ser desuden på den stokastiske variabel n( X µ) n( X µ) T = = SSD/(n 1) s... men den snakker vi om på onsdag. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 14 / 16

Tæthed for χ 2 -fordelingen Tæthed for χ 2 -fordelingen med hhv. 1, 3, 5, 8 frihedsgrader. 0.0 0.2 0.4 0 2 4 6 8 10 SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 15 / 16

Resume Vigtige ting fra i dag: Fordelingen af ( X, SSD) for uafhængige, identisk normalf. variable. Den er vigtige på alle mulige måder: fra et sandsynlighedsteoretisk perspektiv fra et statistisk perspektiv fra et projekt1-perspektiv... Onsdag: T -variablen og t-fordelingen Mere om χ 2 -fordelingen, Gamma-fordelingen. Eftermiddag: Mere R (Susanne) Fra næste uge: Statistik med Susanne! SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 16 / 16