Statistik og Sandsynlighedsregning 2

Relaterede dokumenter
Statistik og Sandsynlighedsregning 2

Konfidensinterval for µ (σ kendt)

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kapitel 3 Centraltendens og spredning

Modul 5: Test for én stikprøve

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Module 2: Beskrivende Statistik

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Module 12: Mere om variansanalyse

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Program. Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte. χ 2 -fordelingen

Modul 3: Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Signifikanstestet. usædvanlig godt godt

LinAlg Skriftlig prøve 20. januar 2009, 9 12 Vejledende besvarelse

Repetition Stokastisk variabel

Produkt og marked - matematiske og statistiske metoder

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Oversigt [LA] 6, 7, 8

Susanne Ditlevsen Institut for Matematiske Fag susanne

Note om Monte Carlo eksperimenter

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Opgaver til Kapitel 3

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

standard normalfordelingen på R 2.

Note til styrkefunktionen

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Tema. Dagens tema: Indfør centrale statistiske begreber.

Konfidensintervaller og Hypotesetest

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Konfidens intervaller

Statistiske modeller

En Introduktion til SAS. Kapitel 6.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kapitel 3 Centraltendens og spredning

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår 2007

DesignMat Egenværdier og Egenvektorer

Manual til TI-89. Af: Martin Kyhl og Andreas Kristansen. Med denne i hånden til eksamen burde de fleste opgaver kunne løses på få minutter.

Sandsynlighedsregning Stokastisk variabel

MODELLER I REMOTE SENSING

Sudoku. Jørgen Brandt. Sudoku 1

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Sandsynlighedsregning Oversigt over begreber og fordelinger

Trivsel og fravær i folkeskolen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Funktionalligninger - løsningsstrategier og opgaver

Afstandsformlerne i Rummet

Løsning eksamen d. 15. december 2008

Statistik og Sandsynlighedsregning 2

Transkript:

Statistik og Sandsynlighedsregning 2 Den flerdimensionale normalfordeling, fordeling af ( X,SSD) Helle Sørensen Uge 9, mandag SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 1 / 16

Program Resultaterne fra denne uge skal bruges som arbejdsheste i projekt 1. I dag: Den flerdimensionale standardnormalfordeling Fordeling af ( X,SSD), hvor SSD = n i=1 (X i X ) 2 Onsdag: T -variablen og t-fordelingen Mere om χ 2 -fordelingen, Gamma-fordelingen. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 2 / 16

Hvorfor skulle dette nu være interessant... Eksempel 1: Hormonkonc. før og efter tilsætning af et stof til foderet: Cow 1 2 3 4 5 6 7 8 9 Initial (µg/ml) 207 196 217 210 202 201 214 223 190 Final (µg/ml) 216 199 256 234 203 214 225 255 182 Diff. (µg/ml) 9 3 39 24 1 13 11 32-8 Koncentrationen stiger for otte ud af de ni køer. Gennemsnitlig stigning er d = 1 n (d 1 +... + d n ) = 13.78 Er det nok til at slutte at stoffet påvirker hormonkoncentrationen? Empirisk varians og spredning, s 2 = SSD n 1 = 1 ( (d 1 n 1 d) 2 + (d n d) 2) = 232.19, s = 15.24 SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 3 / 16

Hvorfor skulle dette nu være interessant... Eksempel 2: Syv personers gæt på antallet af punkter i en en punktsky (gennemsnit af fire gæt) Person 1 2 3 4 5 6 7 Average guess 146 182 152.5 165 139.5 132 155 Empirisk middelværdi, varians og spredning: Det sande antal punkter er 161. ȳ = 153.14, s 2 = 276.89, s = 16.64 Kan man sige noget om hvorvidt man generelt over- eller underestimerer eller ingen af delene størrelsen af sådan en punktsky? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 4 / 16

Populationer og stikprøver Interesseret i middelværdien (og måske variansen) i en population: µ = EX og σ 2 = Var(X ). Har kun en stikprøve til rådighed: empirisk middelv. og varians: X og s 2. Vil bruge de empiriske størrelser som estimatorer for populationsstørrelserne: ˆµ = X, ˆσ 2 = s 2 Men hvilke egenskaber har estimatorerne? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 5 / 16

Foldning af normalfordelinger: repetition Sætning 6.3.12 Hvis X 1,...,X n er uafhængige og X i N(µ i,σi 2 ) så er summen X 1 + + X n normalfordelt med middelværdi µ 1 + + µ n og varians σ1 2 + + σ n 2. Første del af beviset gik ud på at vise følgende: Lemma U 1 og U 2 uafhængige N(0,1)-fordelte, α 2 + β 2 = 1. Definer ( ) ( )( ) V1 α β U1 = β α V 2 Så er V 1 og V 2 uafhængige og begge N(0,1)-fordelte. Det specielle ved matricen er at det er en ortonormal-/ortogonalmatrix: Søjlerne er ortogonale (vinkelrette) Søjlerne har norm 1 (længde 1) Specielt er det(a) = 1, A 1 = A t og Au = u. U 2 SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 6 / 16

Notation og ortonormale/ortogonale matricer Elementer i R n opfattes som søjler: x = Transponering: x t (række), A t. Indre produkt: x y = x 1 y 1 + x n y n Norm: x = x x = x1 2 + + x n 2 x 1. x n {e 1,...,e n } ortonormalbasis for R n hvis { 0, hvis i j e i e j = 1, hvis i = j SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 7 / 16

Notation og ortonormale/ortogonale matricer n n-matrix M er en ortonormalmatrix/ortogonalmatrix hvis M t M = I. M er en ortonormalbasis hvis og kun hvis dens søjler udgør en ortonormalbasis. For en ortonormalmatrix M gælder M er invertibel med M 1 = M t det(m) = 1 afbildningen x Mx bevarer indre produkt og norm: (Mx) (My) = x y og Mx = x SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 8 / 16

Standardnormalfordelingen i R n U 1,...,U n iid. N(0,1)-fordelte. iid = independent and identically distrubuted = uafh. og identisk fordelte. Den simultane fordeling af (U 1,...,U n ) kaldes den n-dimensionale standardnormalfordeling. Hvad er tætheden for (U 1,...,U n )? Sætning 8.3.1 Hvis U er standardnormalfordelt i R n og M er en n n-ortonormalmatrix, så er V = MU også standardnormalfordelt. Bevis: sætning 6.3.11. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 9 / 16

X og SSD X 1,...,X n iid. N(µ,σ 2 )-fordelte: X = 1 n (X 1 + + X n ), SSD = (X 1 X ) 2 + + (X n X ) 2 NB. s 2 = 1 n 1 SSD. Hvad er den simultane fordeling af ( X,SSD)? Kender faktisk allerede fordelingen af X... SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 10 / 16

Set-up Vil bruge sætning 8.3.1 fra før. Har brug for: U 1,...,U n iid. N(0,1)-fordelte En passende ortonormalmatrix Definer U i = (X i µ)/σ. Så er U 1,...,U n uafhængige hvorfor? U i N(0,1) de er jo netop standardiseret Ū = ( X µ)/σ 1/ n Definer desuden første søjle i M t som e 1 =. 1/ og supplér til n ortogonal matrix M t. Første række i M er konstant, 1/ n. Konklusion fra sætning 8.3.1: V 1,...,V n er iid. N(0,1) hvor V = MU. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 11 / 16

X Regn på V 1 og indse at V 1 = 1 σ n( X µ) Hvad siger det om fordelingen af X? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 12 / 16

SSD Husk at V 2 1 = nū2 V = U U i Ū = (X i X )/σ Regn på SSD og indse at SSD = σ 2 (V 2 2 + + V 2 n ) Altså er SSD/σ 2 summen af n 1 uafhængige kvadrerede N(0,1)-variable. Denne fordeling kaldes χ 2 -fordelingen med n 1 frihedsgrader. Vi siger så at SSD er σ 2 χ 2 -fordelt med n 1 frihedsgrader. Hvad kan vi sige om den simultane fordeling af ( X,SSD)? SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 13 / 16

Fordeling af ( X,SSD) Har altså vist følgende meget vigtige sætning: Sætning 8.3.3 Hvis X 1,...,X n er iid. N(µ,σ 2 )-fordelte, så er X og SSD uafhængige X N(µ,σ 2 /n) SSD σ 2 χ 2 n 1 Sætningen ser desuden på den stokastiske variabel n( X µ) n( X µ) T = = SSD/(n 1) s... men den snakker vi om på onsdag. SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 14 / 16

Tæthed for χ 2 -fordelingen Tæthed for χ 2 -fordelingen med hhv. 1, 3, 5, 8 frihedsgrader. 0.0 0.2 0.4 0 2 4 6 8 10 SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 15 / 16

Resume Vigtige ting fra i dag: Fordelingen af ( X, SSD) for uafhængige, identisk normalf. variable. Den er vigtige på alle mulige måder: fra et sandsynlighedsteoretisk perspektiv fra et statistisk perspektiv fra et projekt1-perspektiv... Onsdag: T -variablen og t-fordelingen Mere om χ 2 -fordelingen, Gamma-fordelingen. Eftermiddag: Mere R (Susanne) Fra næste uge: Statistik med Susanne! SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 16 / 16