Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Relaterede dokumenter
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Tema. Dagens tema: Indfør centrale statistiske begreber.

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Matematisk Modellering 1 Cheat Sheet

Normalfordelingen. Statistik og Sandsynlighedsregning 2

1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Nanostatistik: Lineær regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Perspektiver i Matematik-Økonomi: Linær regression

Eksamen i Statistik for biokemikere. Blok

Kapitel 12 Variansanalyse

Module 4: Ensidig variansanalyse

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

To samhørende variable

Kvantitative metoder 2

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Uge 10 Teoretisk Statistik 1. marts 2004

Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data Flerdimensionale normalfordelte data. Jørgen Granfeldt

Statistik Lektion 4. Variansanalyse Modelkontrol

En Introduktion til SAS. Kapitel 5.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Modul 11: Simpel lineær regression

Module 9: Residualanalyse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Multipel Lineær Regression

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Kapitel 12 Variansanalyse

Module 12: Mere om variansanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Økonometri: Lektion 6 Emne: Heteroskedasticitet

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Simpel Lineær Regression

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Modul 6: Regression og kalibrering

Produkt og marked - matematiske og statistiske metoder

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Løsning eksamen d. 15. december 2008

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Statistik Lektion 16 Multipel Lineær Regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Løsning til eksamen d.27 Maj 2010

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Konfidensintervaller og Hypotesetest

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Transkript:

Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af de ukendte parametre. Likelihood funktionen rangordner de forskellige mulige værdier af (µ,σ 2 ). En stor værdi af L(µ,σ 2 ) antyder, at (µ,σ 2 ) er gode bud på de sande værdier af parametrene. MLE p. 1/22 MLE - fortsat p. 2/22 Vi finder (ved at differentiere l og under forudsætning af at man kan differentiere x 1/x), at µ = x. N(µ,σ 2 /n) σ 2 = 1 (x i x.) 2 σ 2 χ 2 (n 1)/n n Bemærk at E[ σ 2 ] = n 1 n σ2 σ 2. Det middelværdirette variansskøn er s 2 = 1 n 1 (x i x. ) 2 σ 2 χ 2 (n 1)/(n 1). s 2 benyttes i nævneren af t-teststørrelsen. Konklusion : Vi benytter stadig s 2 som skøn over variansen. p. 3/22 p. 4/22

Hypotese: H 0 : µ = µ 0 LRT - fortsat Likelihood ratio teststørrelsen er Vi finder, at Q(x) = max under H 0 L(µ,σ 2 ) max under M L(µ,σ 2 ) = L(µ 0, n 1 n (x i µ 0 ) 2 ) 1 L( x n, n (x i x. ) 2 ) ]0, 1[ hvor Q(x) =... = ( ) n/2 1 + t2 (x) n 1 t(x) = x µ 0 s 2 /n p. 5/22 p. 6/22 LRT - fortsat Opsummering: Da afbildningen z (1 + z n 1 ) n/2 er strengt aftagende følger, at p obs (x) = P(Q(X) Q(x)) = P( t(x) t(x) ) = 2(1 F t(n 1) ( t(x) )) I en normalfordelt observationsrække er t-testet for µ = µ 0 ækvivalent med likelihood ratio testet. Dvs. om du gør det ene eller andet så fås samme testss. Tilsvarende kan man vise, at i to normalfordelte observationsrækker med samme varians er t-testet for µ 1 = µ 2 ækvivalent med LRT for denne hypotese. (Regne-regne-regne). Samme test som vi tidligere har benyttet! p. 7/22 p. 8/22

Opsummering - fortsat: Bemærkning til notationen Helt generelt: Alle (eksakte) t-test vi betragter er ækvivalente med LRT (se kapitel 4). Her er t-teststørrelsen for hypotesen H 0 : parameter = µ 0 beregnet som t = estimat µ 0 Std Error t(f) hvor numerisk store værdier er kritiske. f er frihedsgraderne for variansskønnet. notationen er reserveret til maksimum likelihood estimater. notationen kan benyttes til et vilkårligt estimat. I en normalfordelt observationsrække kan vi derfor skrive µ µ = x. N(µ,σ 2 /n) σ 2 σ 2 = SSD/n σ 2 χ 2 (n 1)/n σ 2 s 2 = SSD/(n 1) σ 2 χ 2 (n 1)/(n 1) Perspektiv: p. 9/22 Lineær regression-intro p. 10/22 I modeller, hvor det ikke er oplagt hvordan parametre skal estimeres, benyttes ML-estimater (dog stadig det middelværdirette variansskøn). I modeller, hvor det ikke er oplagt hvordan man skal teste, benyttes LRT. (Eksempel: Tre normalfordelte observationsrækker hvor man tester for ens middelværdi). Tager udgangspunkt i Ex. 3.4 hvor vi betragter alder og blodtryk. Betragt alder som ikke-stokastisk. Vi vil opstille en model, hvor blodtrykket stiger lineært med alderen; blodtryk α + β alder (Vi skal modellere variationen omkring linjen). I første omgang vil vi fokusere på journalister. Senere skal vi sammenligne blodtryk for journalister og universitetslærere. p. 11/22 p. 12/22

Lineær regression-intro Model: Vi har n = 13 observationer for journalister. x i angiver den ite journalists blodtryk, i = 1,...,n. t i angiver den ite journalists alder, i = 1,...,n. Data: Se Table 3.6. M 2 : X i N(α + βt i,σ 2 ) (Modellen M 1 omtales senere). Det vil sige: Det forventede blodtryk for en journalist, der er t år gammel er α + βt; Specielt har vi, at det forventede blodtryk stiger lineært med alderen; Variationen omkring linjen er normalfordelt; Variansen afhænger ikke af alderen. Bemærkninger p. 13/22 Vi skal nu lave flg.: p. 14/22 Vi taler om en lineær regression af x på t; t α + βt kaldes regressionslinjen; α kaldes afskæringen, positionen eller interceptet; β er hældningen på regressionslinjen; x kaldes den afhængige variabel eller responsen; t kaldes den uafhængige variabel eller den forklarende variable; Modelkontrol: diverse plots, residualer. (Side 119 120 samt lidt af 3.3.5). Notation. (Side 122 124; opsummering i Table 3.7 side 125). Finder α, β, det middelværdirette variansskøn (frihedsgrader n 2) De tilhørende fordelinger. (Side 122 123, Table 3.7 side 125). Test: t-test konstrueret efter de sædvanlige principper; 95%-ki. (Side 130). p. 15/22 Andre modeller hvor fx. α = 0 (Side 139 140). p. 16/22

Plot data (scatterplot). Modelkontrol: Se efter afvigelser. Fx. ikke-lineær sammenhæng; Lad ikke-konstant varians; r i = x i ( α + βt i ) Kaldes residualer. (måler afvigelsen fra den estimerede regressionslinje). Modelkontrol - fortsat: Bemærk at x i (α + βt i ) N(0,σ 2 ). Indsættes estimaterne fås r i N(0,σ 2 (1 h i )) (se def. af h i i (3.58)). Plot (t i,r i ) og se efter systematik. p. 17/22 p. 18/22 Standardiserede residualer Notation: De standardiserede residualer er r i = r i 1 hi N(0,σ 2 ). De standardiserede residualer er ikke uafhængige. Lav fraktildiagram for de standardiserede residualer Et fraktildiagram for x 1,...,x n siger intet om M 2. S x = USS t = SSD x = SP xt = x i S t = t 2 i USS x = (x i x. ) 2 SSD t = x i t i SPD xt = t i x 2 i (t i t. ) 2 (x i x. )(t i t. ) Vigtige Beregningsformler opsummeres i Table 3.7. p. 19/22 p. 20/22

Likelihood-funktionen MLE = L(α,β,σ 2 ) n 1 2πσ 2 e 1 2σ 2 (x i (α+βt i)) 2 Vi viser, at β = SPD xt SSD t α = x. β t. = ( 2πσ 2 ) n/2 e 1 2σ 2 P n (xi (α+βti))2 σ 2 = 1 n (x i ( α + βt i )) 2 og finder det middelværdirette variansskøn (erstat n med n 2 i nævneren. Frihedsgraderne er n 2). p. 21/22 p. 22/22