Statistik Lektion 4. Variansanalyse Modelkontrol

Relaterede dokumenter
Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Generelle lineære modeller

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statikstik II 4. Lektion. Generelle Lineære Modeller

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

To-sidet variansanalyse

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistik II 4. Lektion. Logistisk regression

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Eksamen i Statistik og skalavalidering

Kvantitative metoder 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

To samhørende variable

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Synopsis til eksamen i Statistik

1 Regressionsproblemet 2

Økonometri: Lektion 6 Emne: Heteroskedasticitet

1 Multipel lineær regression

Simpel Lineær Regression: Model

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Løsninger til kapitel 14

Statistik Lektion 17 Multipel Lineær Regression

Simpel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

MPH specialmodul Epidemiologi og Biostatistik

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

1 Multipel lineær regression

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Modul 11: Simpel lineær regression

Modelkontrol i Faktor Modeller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Løsning eksamen d. 15. december 2008

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri 1. FunktioneI form i den lineære regressionsmodel 19. oktober Dagens program

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Kapitel 11 Lineær regression

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Perspektiver i Matematik-Økonomi: Linær regression

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Eksamen i Statistik for biokemikere. Blok

Program. 1. Flersidet variansanalyse 1/11

Lineær regression i SAS. Lineær regression i SAS p.1/20

Modul 6: Regression og kalibrering

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Module 12: Mere om variansanalyse

Appendiks Økonometrisk teori... II

Module 9: Residualanalyse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik & Skalavalidering

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kvantitative metoder 2

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Kvantitative metoder 2

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Module 4: Ensidig variansanalyse

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Note om Monte Carlo metoden

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Transkript:

Statistik Lektion 4 Variansanalyse Modelkontrol

Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede model: yˆ = 5,486 0. 290x R 2 = 0.467 Både skæring (α) og hældning (β 1 ) er signifikante! Fortolkning?

Eksempel nu med isolering! Y : Forbrug af gas, skala (gas) X Temp : Udetemperatur, skala (temp) X Isolering : {Før, Efter}, kategorisk (insulate) Omkod X Isolering til binær dummy variabel X Før X Før = 1 hvis X Isolering = Før X Før = 0 hvis X Isolering = Efter Model: Y = 0 Temp Temp Før Før β + β x + β x + ε

Fortolkning af model Når X Isolering = Før Y = α + β x + β 1+ ε = α + β Temp Før Når X Isolering = Efter Temp + β Temp x Før Temp + ε Y = α + β x + β 0 = α + β Temp Temp x Temp Temp + ε Før + ε To linjer med forskellig skæringspunkter! β Før angiver forskellen i skæringspunkt.

To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for X Før =1 α + β Før Linje for X Før =0 α X 1

Eksempel og SPSS SPSS: Som før, dog er Insulate tilføjet Fixed factor Som ventet er F-testet stadig signifikant. Som ventet er R 2 vokset med nye variable kan modellen aldrig forklare mindre end før. Bemærk at R 2 er meget større!

Eksempel og SPSS Estimater Estimeret model: yˆ = 4,986 0,337x Temp + 1, 565x Før Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7 o (x Temp = 7 og X Før =1): 4,986 0,337 7 + 1,565 1 = 4,192

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, X Temp og X Før er som før. Introducer: X Temp,Før = X Temp X Før Model Y = Temp Temp Før Før Temp, Før Temp, Før α + β x + β x + β x + ε ε ~ N(0, σ 2 )

Fortolkning Når X Isolering = Før: E Y x = α + Når X Isolering = Efter: E ( ) ( Y x) = β ( α + β ) ( ) Før + β Temp + β Temp, Før x Temp α + βtempxtemp + β Før 0 + βtemp, Før = x 0 = α + β Temp Temp x x Temp Temp + β Temp, Før xtemp 1 Temp β Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer. Før 1+ β

SPSS Hoved-effekt: Ensom variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under Model angiv hoved-effekter og interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot Estimater Estimeret model: yˆ = 4,724 + 0.278x Temp + 2,130x Før 0,115x Temp, Før

Variansanalyse (ANOVA Analysis of ) Variance Setup: Kun kategoriske forklarende variable Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X 1 : Shoppestil (Shopping style - style) Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O) Spørgsmål: Påvirker style forbruget?

Grafisk overblik

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: To binære dummy variable: X B og X W Style X B X W Biweekly 1 0 Weekly 0 1 Often 0 0 Bemærk: k kategorier omkodes til k-1 dummy variable Model: Y α + β x + β x + ε = B B W W

Hypotesen Model: Y = B B W W α + β x + β x + ε E[Y Style = B] = α + β B E[Y Style = W] = α + β W E[Y Style = O] = α Bemærk: β B og β W angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori. Hypotese: Middelværdien er den samme for alle styles: H 0 : β B = β W = 0 H 1 : β B 0 og/eller β W 0 Afgøres vha. et F-test.

SPSS α β B β W Fortolkning?

To-sidet Variansanalyse Ide: Tage højde for køn X 2 : Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: X M = 1 hvis X 2 = Mand Model: Y α + β x + β x + β x + ε = B B W W M M Tester to nul-hypoteser: H 0 : β B = β W = 0 (Ingen effekt af style) H 0 : β M = 0 (Ingen effekt af gender)

SPSS

Interaktion? Er der en vekselvirkning mellem gender og style?

Model med Interaktion Model: Y α + β x + β x + β x + β x x + β x x + ε = B B W W M M BM B M WM W M Hypotese: Ingen interaktion H 0 : β BM = β WM = 0 Hypotese: Ingen hovedeffekt af style H 0 : β B = β W = 0 Hypotese: Ingen hovedeffekt af gender H 0 : β M = 0 Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.

SPSS Bemærk: Hoved-effekter før interaktioner!

SPSS Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening. Konklusion?

Estimerede model Estimerede model er: ŷ = 405,727 + 2,048 X M 61,751 X B 44,006 X W + 67,042 X BM + 77,196 X WM

Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som Y = B B W W M M BM B M WM W M α + β x + β x + β x + β x x + β x x + ε Her er x B, x W og x M dummy variable. At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som Forbrug = Stil + Køn + Stil*Køn I forbindelse med analyse eller fortolkning af modelparametre er det stadig nyttigt at skrive den matematiske formel op.

Modelkontrol - Motivation Vores konklusioner om variables vigtighed baseres på p- værdi. p-værdien er en halesandsynlighed i en fordeling, fx F- fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet ε er normalfordelt og har konstant varians (homoskedastisk). Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!

Residual I den sande model har vi Det kan vi skrive om til Residualet, e i, er derfor et estimat af fejlleddet: Da ε i erne er normalfordelte bør e i erne også være det (hvis modellen da ellers er korrekt). ε ε β β α + = + + + + = ] [ 1 1 X E Y x x Y k k ] [ X = Y E Y ε i i i y y e ˆ =

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Antagelse: Middelværdi-strukturen i modellen er E( Y X ) = α + β x + + β Kan være svært at checke direkte, hvis vi har mange forklarende variable. Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af e i erne være ca. nul uanset værdien af. ŷ i erne eller x erne. Grafisk check: plot af af e i mod. 1 1 ŷ i k x k

Modelkontrol Antagelse: Fejlleddene ε 1,, ε n uafhænige? Der må ikke vær nogen systematisk sammenhæng mellem e i erne og ŷ i erne eller x erne. Grafisk check: Et plot at e i mod eller x. Antagelse: Fejlleddene ε 1,, ε n ~ N(0,σ 2 )? Hvis sandt regner vi med at e i erne er cirka normalfordelte. ŷ i Et plot at e i mod kan afsløre om variansen er konstant (homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om e i erne er normalfordelte ŷ i

Residualplot Residualer Residualer 0 x eller yˆ 0 x eller yˆ Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ŷ). Residualer Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer 0 Tid 0 x eller yˆ Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

Eksempel: Kriminalitet og Urbanisering Data for n = 67 distrikter i Florida. Model: y i = Crime rate x i = Urbanisering y i α + βx + ε = i Hvor ε i ~N(0,σ 2 )

Residualer i SPSS I Univariate vinduet vælges Save I Save vinduet vælges Unstandardized både under Reresiduals (e i erne) og ŷ i Predicted Values ( erne).

Efter endt regression skaber SPSS to nye søjler i Data Editor, der indeholder residualer ( RES_1 ) prædiktioner ( PRE_1 ). Derefter kan man fx lave scatter plots.

Scatter plot af residualer (e i erne) mod urbanisering (x i erne). residualer (e i erne) mod prædiktionerne ( erne). ŷ i Ser jo ganske usystematisk ud med jævn variation!

Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det ikke helt men det er ikke katestrofalt.