Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22



Relaterede dokumenter
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Tema. Dagens tema: Indfør centrale statistiske begreber.

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

To samhørende variable

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Perspektiver i Matematik-Økonomi: Linær regression

Simpel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Økonometri Lektion 1 Simpel Lineær Regression 1/31

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

1 Hb SS Hb Sβ Hb SC = , (s = )

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Eksamen i Statistik for biokemikere. Blok

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kvantitative metoder 2

Statistik Lektion 4. Variansanalyse Modelkontrol

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Nanostatistik: Lineær regression

Matematisk Modellering 1 Cheat Sheet

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

En Introduktion til SAS. Kapitel 5.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Kapitel 12 Variansanalyse

Statistiske principper

Produkt og marked - matematiske og statistiske metoder

Preben Blæsild og Jens Ledet Jensen

Nanostatistik: Test af hypotese

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Appendiks Økonometrisk teori... II

Module 4: Ensidig variansanalyse

Modul 11: Simpel lineær regression

Kvantitative Metoder 1 - Efterår Dagens program

Module 9: Residualanalyse

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

StatDataN: Test af hypotese

Multipel Lineær Regression

Schweynoch, Se eventuelt

Konfidensintervaller og Hypotesetest

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data Flerdimensionale normalfordelte data. Jørgen Granfeldt

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Bilag 7. SFA-modellen

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

2 Opgave i hierarkiske normalfordelingsmodeller

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Kapitel 11 Lineær regression

Den lineære normale model

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Kapitel 12 Variansanalyse

Statistik II 4. Lektion. Logistisk regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Uge 10 Teoretisk Statistik 1. marts 2004

k normalfordelte observationsrækker (ensidet variansanalyse)

Nanostatistik: Opgavebesvarelser

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Modul 6: Regression og kalibrering

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Transkript:

Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22

Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som funktion af de ukendte parametre. Likelihood funktionen rangordner de forskellige mulige værdier af (µ,σ 2 ). En stor værdi af L(µ,σ 2 ) antyder, at (µ,σ 2 ) er gode bud på de sande værdier af parametrene. p. 2/22

MLE Vi finder (ved at differentiere l og under forudsætning af at man kan differentiere x 1/x), at µ = x. N(µ,σ 2 /n) σ 2 = 1 n (x i x.) 2 σ 2 χ 2 (n 1)/n n p. 3/22

MLE - fortsat Bemærk at E[ σ 2 ] = n 1 n σ2 σ 2. Det middelværdirette variansskøn er s 2 = 1 n 1 n (x i x. ) 2 σ 2 χ 2 (n 1)/(n 1). s 2 benyttes i nævneren af t-teststørrelsen. Konklusion : Vi benytter stadig s 2 som skøn over variansen. p. 4/22

Hypotese: H 0 : µ = µ 0 Likelihood ratio teststørrelsen er Q(x) = max under H 0 L(µ,σ 2 ) max under M L(µ,σ 2 ) = L(µ 0, n 1 L( x., n 1 n (x i µ 0 ) 2 ) n (x i x. ) 2 ) ]0, 1] p. 5/22

LRT - fortsat Vi finder, at Q(x) =... = ( ) n/2 1 + t2 (x) n 1 hvor t(x) = x µ 0 s 2 /n p. 6/22

LRT - fortsat Da afbildningen z (1 + z n 1 ) n/2 er strengt aftagende følger, at p obs (x) = P(Q(X) Q(x)) = P( t(x) t(x) ) = 2(1 F t(n 1) ( t(x) )) Samme test som vi tidligere har benyttet! p. 7/22

Opsummering: I en normalfordelt observationsrække er t-testet for µ = µ 0 ækvivalent med likelihood ratio testet. Dvs. om du gør det ene eller andet så fås samme testss. Tilsvarende kan man vise, at i to normalfordelte observationsrækker med samme varians er t-testet for µ 1 = µ 2 ækvivalent med LRT for denne hypotese. (Regne-regne-regne). p. 8/22

Opsummering - fortsat: Helt generelt: Alle (eksakte) t-test vi betragter er ækvivalente med LRT (se kapitel 4). Her er t-teststørrelsen for hypotesen H 0 : parameter = µ 0 beregnet som t = estimat µ 0 Std Error t(f) hvor numerisk store værdier er kritiske. f er frihedsgraderne for variansskønnet. p. 9/22

Bemærkning til notationen notationen er reserveret til maksimum likelihood estimater. notationen kan benyttes til et vilkårligt estimat. I en normalfordelt observationsrække kan vi derfor skrive µ µ = x. N(µ,σ 2 /n) σ 2 σ 2 = SSD/n σ 2 χ 2 (n 1)/n σ 2 s 2 = SSD/(n 1) σ 2 χ 2 (n 1)/(n 1) p. 10/22

Perspektiv: I modeller, hvor det ikke er oplagt hvordan parametre skal estimeres, benyttes ML-estimater (dog stadig det middelværdirette variansskøn). I modeller, hvor det ikke er oplagt hvordan man skal teste, benyttes LRT. (Eksempel: Tre normalfordelte observationsrækker hvor man tester for ens middelværdi). p. 11/22

Lineær regression-intro Tager udgangspunkt i Ex. 3.4 hvor vi betragter alder og blodtryk. Betragt alder som ikke-stokastisk. Vi vil opstille en model, hvor blodtrykket stiger lineært med alderen; blodtryk α + β alder (Vi skal modellere variationen omkring linjen). p. 12/22

Lineær regression-intro Tager udgangspunkt i Ex. 3.4 hvor vi betragter alder og blodtryk. Betragt alder som ikke-stokastisk. Vi vil opstille en model, hvor blodtrykket stiger lineært med alderen; blodtryk α + β alder (Vi skal modellere variationen omkring linjen). I første omgang vil vi fokusere på journalister. Senere skal vi sammenligne blodtryk for journalister og universitetslærere. p. 12/22

Lineær regression-intro Vi har n = 13 observationer for journalister. x i angiver den ite journalists blodtryk, i = 1,...,n. t i angiver den ite journalists alder, i = 1,...,n. Data: Se Table 3.6. p. 13/22

Model: M 2 : X i N(α + βt i,σ 2 ) (Modellen M 1 omtales senere). Det vil sige: Det forventede blodtryk for en journalist, der er t år gammel er α + βt; Specielt har vi, at det forventede blodtryk stiger lineært med alderen; Variationen omkring linjen er normalfordelt; Variansen afhænger ikke af alderen. p. 14/22

Bemærkninger Vi taler om en lineær regression af x på t; t α + βt kaldes regressionslinjen; α kaldes afskæringen, positionen eller interceptet; β er hældningen på regressionslinjen; x kaldes den afhængige variabel eller responsen; t kaldes den uafhængige variabel eller den forklarende variable; p. 15/22

Vi skal nu lave flg.: Modelkontrol: diverse plots, residualer. (Side 119 120 samt lidt af 3.3.5). Notation. (Side 122 124; opsummering i Table 3.7 side 125). Finder α, β, det middelværdirette variansskøn (frihedsgrader n 2) De tilhørende fordelinger. (Side 122 123, Table 3.7 side 125). Test: t-test konstrueret efter de sædvanlige principper; 95%-ki. (Side 130). Andre modeller hvor fx. α = 0 (Side 139 140). p. 16/22

Modelkontrol: Plot data (scatterplot). Se efter afvigelser. Fx. ikke-lineær sammenhæng; Lad ikke-konstant varians; r i = x i ( α + βt i ) Kaldes residualer. (måler afvigelsen fra den estimerede regressionslinje). Plot (t i,r i ) og se efter systematik. p. 17/22

Modelkontrol - fortsat: Bemærk at x i (α + βt i ) N(0,σ 2 ). Indsættes estimaterne fås r i N(0,σ 2 (1 h i )) (se def. af h i i (3.58)). p. 18/22

Standardiserede residualer De standardiserede residualer er r i = r i 1 hi N(0,σ 2 ). De standardiserede residualer er ikke uafhængige. Lav fraktildiagram for de standardiserede residualer Et fraktildiagram for x 1,...,x n siger intet om M 2. p. 19/22

Notation: S x = USS x = SSD x = SP xt = n x i S t = n x 2 i USS t = n (x i x. ) 2 SSD t = n x i t i SPD xt = n n t i t 2 i n (t i t. ) 2 n (x i x. )(t i t. ) Vigtige Beregningsformler opsummeres i Table 3.7. p. 20/22

Likelihood-funktionen L(α,β,σ 2 ) = n 1 2πσ 2 e 1 2σ 2 (x i (α+βt i )) 2 = (2πσ 2 ) n/2 e 1 2σ 2 P n (x i (α+βt i )) 2 p. 21/22

MLE Vi viser, at β = SPD xt SSD t α = x. β t. σ 2 = 1 n n (x i ( α + βt i )) 2 og finder det middelværdirette variansskøn (erstat n med n 2 i nævneren. Frihedsgraderne er n 2). p. 22/22