Lidt om fordelinger, afledt af normalfordelingen

Relaterede dokumenter
4 Oversigt over kapitel 4

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Statistik og Sandsynlighedsregning 2

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Kvantitative Metoder 1 - Forår Dagens program

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Efterår Dagens program

Uge 10 Teoretisk Statistik 1. marts 2004

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Elementær sandsynlighedsregning

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Statistik og Sandsynlighedsregning 2

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Statistik og Sandsynlighedsregning 2

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kvantitative Metoder 1 - Forår 2007

Normalfordelingen og Stikprøvefordelinger

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Elementær sandsynlighedsregning

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Reeksamen 2014/2015 Mål- og integralteori

Sandsynlighedsregning Oversigt over begreber og fordelinger

Karakteristiske funktioner og Den Centrale Grænseværdisætning

MM501 forelæsningsslides

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Løsning til eksaminen d. 29. maj 2009

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

MM501/MM503 forelæsningsslides

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Kapitel 4 Sandsynlighed og statistiske modeller

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Nanostatistik: Opgavebesvarelser

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistiske modeller

Betingning med en uafhængig variabel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

En Introduktion til SAS. Kapitel 5.

Løsning eksamen d. 15. december 2008

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Sandsynlighedsregning

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Den todimensionale normalfordeling

Nanostatistik: Konfidensinterval

Skriftlig eksamen Science statistik- ST501

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kapitel 4 Sandsynlighed og statistiske modeller

Løsning til prøveeksamen 1

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Definition. Definitioner

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Note om Monte Carlo metoden

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Statistik og Sandsynlighedsregning 2

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forelæsning 11: Kapitel 11: Regressionsanalyse

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

StatDataN: Middelværdi og varians

standard normalfordelingen på R 2.

Nanostatistik: Test af hypotese

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Preben Blæsild og Jens Ledet Jensen

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Produkt og marked - matematiske og statistiske metoder

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Løsninger til kapitel 6

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Transkript:

IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen, t-fordelingen, F-fordelingen og χ 2 -fordelingen. Denne note giver en kort introduktion til disse fordelinger og deres forbindelse med normalfordelingsmodeller. 2 χ 2 -fordelingen (Se også Petrucelli side 408) χ 2 - fordelingen er en familie af sandsynlighedsfordelinger på denpositive reelle akse med tæthedsfunktion p(x) = ( ) 1 x f/2 1 exp( x/2) for 0 <x< 2Γ(f/2) 2 hvor Γ( ) angiver Gammafunktionen (se nedenfor afsnit 5). Størrelsen f er en heltallig parameter, der fastlægger hvilken af de mange χ 2 -fordelinger, vi betragter. Parameteren f betegnes frihedsgraderne (degrees of freedom) for fordelingen. I anvendelser er frihedsgraderne sædvanligvis kendt. En stokastisk variabel, der følger en χ 2 -fordeling med f frihedsgrader symboliseres ofte ved χ 2 f. Lærebogens appendix A.5 indeholder tabeller over fraktiler (kritiske værdier) for χ 2 -fordelingen. 1

Makroen Nprobsrev giver mulighed for beregning af værdier for den kumulerede fordelingsfunktion for χ 2 -fordelingen. Tilsvarende kan makroen Invprobrev bruges til at beregne fraktiler for fordelingen. (χ 2 fordelingen er et specialtilfælde af en lidt større familie af fordelinger, de såkaldte gammafordelinger. 2.1 Fordelingens momenter Såfremt Y χ 2 f gælder 2.2 Relation til normalfordelingen E[Y ]=f; V[Y]=2f (1) χ 2 -fordelingen optræder naturligt i forbindelse med normalfordelingsmodeller. Der gælder således: Lad Y N(0, 1) og lad Z = Y 2.Dagælder Z χ 2 1 Sætningen vises ved brug af resultater vedrørende fordelingen af transformationer af stokastiske variable. Ved brug af dette resultat ser man, at hvis Y N(µ, σ 2 )dagælder (Y µ) 2 σ 2 χ 2 1 (2) Der gælder endvidere følgende 2

Lad Y 1,Y 2,...,Y n være uafhængige standardiserede normalt fordelte variable med Y i N(0, 1), og lad SS = Yi 2 SST = (Y i Y ) 2 Da gælder 1. SS χ 2 n 2. SST χ 2 n 1 3. ny 2 χ 2 1 4. SS = SST + ny 2,og SST og ny 2 er stokastisk uafhængige Bemærk, at opspaltningen -o- netop svarer til opspaltningen n SS = SST + ny 2 Y 2 i = n (Y i Y ) 2 + ny 2 som blev behandlet i noten om frihedsgrader. Det er ikke overraskende, at ny 2 χ 2 1, for der gælder jo, at Y N(0, 1/n) og så følger dette resultat af (2). Ovenstående resultat kan benyttes til at vise, at såfremt Y 1,Y 2,...,Y n er uafhængige normalt fordelte variable med Y i N(µ, σ 2 ), og man sætter Da gælder, at S 2 = 1 n 1 n (Y i Y ) 2 (3) E[S 2 ]=σ 2 3

jvf (1), hvilket begrunder at vi dividerer kvadratafvigelsessummen med dens frihedsgrader, n 1, og ikke med antallet, n, af observationer. Man finder endvidere af (1) at 3 t-fordelingen (Se også Petrucelli side 248) V[S 2 ]= 2(σ2 ) 2 n 1 t-fordelingen (undertiden betegnet Students t-fordeling) er en familie af sandsynlighedsfordelinger på den reelle akse med tæthedsfunktion p(t) = ( ) (f+1)/2 Γ((f +1)/2) 1+ t2 fπγ(f/2) f hvor Γ( ) angiver Gammafunktionen (se nedenfor afsnit 5). Størrelsen f er en heltallig parameter, der fastlægger hvilken af de mange t-fordelinger, vi betragter. Parameteren f betegnes frihedsgraderne (degrees of freedom) for fordelingen. I anvendelser er frihedsgraderne sædvanligvis kendt. En stokastisk variabel, der følger en t-fordeling med f frihedsgrader symboliseres ofte ved t f, Lærebogens appendix A.4 indeholder tabeller over fraktiler (kritiske værdier) for t-fordelingen. Makroen Nprobs (og Nprobsrev) giver mulighed for beregning af værdier for den kumulerede fordelingsfunktion for t-fordelingen. Tilsvarende kan makroen Invprobs (og Invprobrev) bruges til at beregne fraktiler for fordelingen. 4

3.1 Fordelingens momenter Lad Y t f. For f>1har fordelingen en middelværdi, og der gælder E[Y ] = 0 for f>1 For f>2har fordelingen en varians, og der gælder V[Y ]= f f 2 for f>2 3.2 Relation til normalfordelingen Lad U N(0, 1) og lad Z χ 2 f være uafhængige stokastiske variable. Da gælder, at den stokastiske variable T = U Z/f følger en t f -fordeling, dvs en t-fordeling med f frihedsgrader. Det er netop dette resultat, vi bruger i forbindelse med inferens i normalfordelingsmodeller. Lad nemlig Y 1,Y 2,...,Y n være uafhængige normalt fordelte variable med Y i N(µ, σ 2 ), og lad Y betegne gennemsnittet, og S 2 betegne den empiriske varians (3). Da gælder jo U = Y µ σ / N(0,1) n Z = f S 2 /σ 2 χ 2 f med f = n 1ogUog Z er netop stokastisk uafhængige jvf resultatet i afsnit 2.2. 5

Den sædvanlige t-størrelse kan jo netop udtrykkes som idet σ forkortes ud. T = U Z/f Resultatet viser også, at udtrykket for den sædvanlige t-størrelse for enstikprøvesituationen Z = Y µ 0 σ(y ) = Y µ 0 S/ n referer frihedsgraderne, f til estimatet for σ 2, mens størrelsen n refererer til antallet af observationer, der indgår i gennemsnittet Y. Dette benyttes blandt andet når man pooler variansestimater. (4) 4 F-fordelingen (Se også Petrucelli side 477 og 529) F-fordelingen er en familie af sandsynlighedsfordelinger på den positive reelle akse med tæthedsfunktion p(x) = ( ) Γ((n + m)/2) n n/2 x n/2 1 for 0 <x< Γ(n/2)Γ(m/2) m (1 + nx/m) (n+m)/2 hvor Γ( ) angiver Gammafunktionen (se nedenfor afsnit 5). Størrelserne n og m er heltallige parametre, der fastlægger hvilken af de mange F-fordelinger, vi betragter. Parametrene betegnes frihedsgraderne (degrees of freedom) for fordelingen. En stokastisk variabel, der følger en F-fordeling med (n, m) frihedsgrader symboliseres ofte ved F n,m. Lærebogens appendix A.6 indeholder tabeller over fraktiler (kritiske værdier) for F-fordelingen. 6

Makroen Nprobsrev giver mulighed for beregning af værdier for den kumulerede fordelingsfunktion for F-fordelingen. Tilsvarende kan makroen Invprobrev bruges til at beregne fraktiler for fordelingen. ved bestemmelse af fraktiler kan man undertiden have fordel af relationen 1 F n,m;q = (5) F m,n;1 q 4.1 Fordelingens momenter Lad t Y F n,m. For m>2 har fordelingen en middelværdi, og der gælder E[Y ]= m for m>2 m 2 For m>4 har fordelingen en varians, og der gælder V[Y ]= m2 (2n +2m 4) for m>4 (m 2) 2 (m 4)n 4.2 Relation til normalfordelingen F-fordelingen optræder naturligt i forbindelse med normalfordelingsmodeller. Der gælder således: Lad Y t f )ogladz=y 2.Dagælder Z F 1,f altså enf-fordelingmed(1,f) frihedsgrader. I forbindelse med lineære normalfordelingsmodeller benyttes ofte Lad Z 1 χ 2 n og Z 2 χ 2 m være stokastisk uafhængige, og lad Y = Z 1/n Z 2 /m 7

da gælder, at Y F n,m. F-fordelingen beskriver således fordelingen af forholdet mellem to uafhængige variansestimater under antagelse af at disse estimater begge beskriver den samme varians, σ 2. Ofte betegner man derfor parameteren n som frihedsgraderne for tælleren, og m som frihedsgraderne for nævneren. 5 Gammafunktionen Gammafunktionen, Γ( ) er en funktion af et reelt positivt argument givet ved Der gælder relationen Γ(x) = 0 t x 1 exp( t)dx xγ(x) =Γ(x+1) Specielt har man Γ(1) = 1 og Γ(1/2) = π. For heltallige værdier, n har man derfor Γ(n) = 1 2 3 (n 1) = (n 1)! Γ(n +1/2) = 1 3 5 (2n 1) π 2 n 8