Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test



Relaterede dokumenter
Statistik Lektion 17 Multipel Lineær Regression

Module 12: Mere om variansanalyse

Multipel Lineær Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Statistik Lektion 16 Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Forelæsning 8: Inferens for varianser (kap 9)

Konfidensinterval for µ (σ kendt)

Generelle lineære modeller

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Kvantitative Metoder 1 - Forår 2007

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Modul 5: Test for én stikprøve

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Trivsel og fravær i folkeskolen

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Ligninger med reelle løsninger

En Introduktion til SAS. Kapitel 6.

Module 2: Beskrivende Statistik

OPGAVE 23 A (Robin Green) Spørgsmål 1

Økonometri Lektion 1 Simpel Lineær Regression 1/31

DATA PENELITIAN. No Tahun KODE DLTA DPNS ERTX GDYR HMSP ALMI INTP IPOL KBLM

Økonometri: Lektion 6 Emne: Heteroskedasticitet

02402 Løsning til testquiz02402f (Test VI)

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Logistisk Regression - fortsat

Ensidet variansanalyse

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Forelæsning 11: Kapitel 11: Regressionsanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

DesignMat Uge 11 Vektorrum

Bilag 12 Regressionsanalysens tabeller og forklaringer

Simpel Lineær Regression: Model

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Appendices. Appendix 2: Questionnaire in StudSurvey. Appendix 3: Text presenting the electronic questionnaire. Appendix 4: Outputs from regressions

Statistik Lektion 4. Variansanalyse Modelkontrol

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Simpel Lineær Regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kapitel 11 Lineær regression

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

To samhørende variable

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Signifikanstestet. usædvanlig godt godt

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Appendiks Økonometrisk teori... II

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kursus 02402/02323 Introducerende Statistik

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Funktionalligninger - løsningsstrategier og opgaver

Reestimation af eksportrelationerne april 2000

9. Chi-i-anden test, case-control data, logistisk regression.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Opgavebesvarelse, brain weight

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

KA 4.2 Kvantitative Forskningsmetoder Forår 2010

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Multipel regression 22. Maj, 2012

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

EVALUERINGSENHEDEN. Analyse af karaktereffekten af. deltagelse i manuduktion på HA 2. år. Copenhagen Business School

Kontrol af koefficienter i usercosthybriden

Forslag til løsning af Opgaver til ligningsløsning (side172)

Tekst Notation og layout Redegørelse og dokumentation Figurer Konklusion

Matematik B. Højere handelseksamen

Opgavebesvarelse, brain weight

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Vejledende Matematik B

Out-of-sample forecast samt reestimation af ADAMs lønligning

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Eksempel på logistisk vækst med TI-Nspire CAS

Transkript:

Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Multipel lineær regression x,x,,x k uafhængige variable (forklarende variable). Model: Y ε i i = β + β x Dagens spørgsmål 0 i + β x i.i.d. N(0, σ ), i + β x =, K, n + L+ β x Hvad kan man gøre hvis sammenhængen mellem Y og X ikke er beskrevet ved en ret linie? I tilfælde af heteroskedasdiske data hvad kan man da gøre? Er residualerne data auto-korreleret? i 3 3i k ki + ε i

Polynomiel regression Nogle gange er sammenhængen mellem Y og en enkelt forklarende variabel X utilstrækkeligt beskrevet ved en ret linie, men bedre ved et polynomie. I disse tilfælde bruger vi polynomiel regression, hvor modellen er på formen Y 3 m = β + β X + β X + β X + L+ β + ε 0 Modellen er stadig lineær!!! (Et m te grads polynomie) 3 m X ε ~ N(0, σ )

Polynomiel Regression: Illustration Y. grads polynomie 3. grads polynomie $y = b + $y = b bx 0 bx 0 + Y y$ = b + bx + b X 0 ( b < ) 0 $y = b + bx + b X + b X 0 3 3 X Brug kun polynomiel regression, hvis der er et godt argument for det fx relevant baggrundsviden. Brug helst ikke over. grads polynomie (dvs X ) og aldrig mere end 6. grads polynomie (dvs X 6 ). X

Polynomiel regression: Eksempel Body Mass Index: BMI=v/h, hvor v er vægten målt i kg og h er højden målt i meter. Omskrivning: v=bmi h. Model: Y = β 0 + βx + β X + ε ε ~ hvor Y er vægten og X er højden. I SPSS skabes en ny variabel X vha. Transform Compute N(0, σ )

Skabe X i SPSS På baggrund af variablen hojdeim hoejdeim=hojdeim*hojdeim

Scatterplot og estimater Et. grads polynomie tilpasset data Model a (Constant) hojdeim hojdeim D d t V i bl t Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 47,068 53,380,755,006-76,80 6,599 -,3 -,860,004 76,73 7,739,839 4,300,000

Model Model Regression Residual Total Sum of Squares df Mean Square F Sig. 9066, 95308,098 798,,000 a 3084,6 583 9,40 49907,8 585 a. Predictors: (Constant), hojdeim, hojdeim b. Dependent Variable: vægt Model Summary Adjusted Std. Error of R R Square R Square the Estimate,68 a,38,38 0,97 a. Predictors: (Constant), hojdeim, hojdeim Modellen forklarer kun ca 38% af variationen ikke imponerende. ANOVA b men modellen er stadig besværet værd.

Polynomiel regression med mere end en variabel Det er muligt at anvende polynomier bestående af mere end en variabel. Fx to variable X og X herved kan regressions fladen fx få form som en paraboloide. Y = 0 3 4 5 X β + β X + β X + β X + β X + β X + ε

Ikke-lineære modeller og transformation For nogle ikke-lineære modeller er det muligt at transformere modellen, så den bliver lineær. Vi skal se på den multiplikative model den eksponentielle model den reciprokke model

Den Multiplikative Model Den multiplikative model Y = β X hvor ε er et fejlled. β β β3 0 X X 3 Logaritme-transformation: Vi tager (den naturlige) logaritme på begge sider af ligningen: logy = logβ0 + βlogx + βlogx + β3logx 3 + logε Vi har nu en lineær model! Hvis logε ~ N(0,σ ) så kan vi udføre multipel lineær regression som sædvanligt! Vi skal bare logaritmetransformere vores variable først. ε

Den Multiplikative Model Den multiplikative model kan skrives som ~ Y ~ ~ ~ = β + β X + β X + β X ~ ε 0 3 3 + ~ ~ hvor Y = logy, X = logx osv. Eksempel: Vi kan omskrive BMI formlen (igen): v = BMI h Model: log v = log BMI + log h = β + β X + ε hvor Y=log v og X=log h. Er mon β 0 log(3) og β? Y 0

Resultat Model (Constant) lhojde a. Dependent Variable: lvagt Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 3,069,09 06,8,000,56,053,66 40,859,000 β 0 =3,069 Forventet β 0 =ln(3)=3,3 β =,56 Forventet β = Fortolkning: v = e 3,069 h,56 =.5 h,56

Den Eksponentielle Model Den eksponentielle model Y = β e En logaritme transformation senere: Vi antager logε ~ N(0,σ ) 0 βx+ β X logy = log β0 + βx + β X + logε Vi logaritme-transformerer kun Y, men ikke X og X! Derefter kan vi foretage almindelig multipel lineær regression. ε

Den Eksponentielle Model - fortolkning Antag vi har estimeret logy =.+.X + L+ 3. X k Fortolkning af b k =3.: Hvis x k stiger med (og alle andre x er holdes fast), så stiger Y med en faktor e 3..

Den Reciprokke Model Hvis så er Y Y = β + β X + L+ β + ε 0 k X k = 0 k X k β + β X + L+ β + ε Tag reciprokværdien af Y og lad X erne være. Kør derefter multipel lineære regression som sædvanligt.

Variansstabiliserende transformationer I tilfælde, hvor residualerne ser heteroskedastiske ud, kan man forsøge sig med følgende transformationer: Kvadratrods-transformation: Y god når variansen er proportional med middelværdien. Logaritme-transformation: logy god når variansen er proportional med middelværdien i. Reciprokke-transformation: Y god når variansen er proportional med middelværdien i 4. y x

Multikolinearitet To variable X og X er perfekt kolineare, hvis X = a + for to reelle tal a og b. bx Eksempel: X =Indkomst i kr. og X =Indkomst i $ Eksempel: Potentielt kolineare variable: X =Alder og X =Ancenitet

Konsekvenser af Multikolinearitet Variansen af regressions-koefficienterne eksploderer. Størrelsen på regressions koefficienterne kan afvige meget fra hvad man ville forvente. Tilføje/fjerne variable resulterer i store ændringer i regressions-koefficienterne. Fjerne et data-punkt kan resultere i store forandringer i regressions-koefficienterne. I nogle tilfælde er F-testet signifikant mens ingen t- test er.

Variance Inflation Factor (VIF) Antag vores regressionsmodel allerede indeholder variablene X,,X k. Hvor meget ekstra kolinearitet introduceres, hvis medtager en ekstra variabel X h? Foretag en multipel lineær regression med X h som afhængig variable og X,,X k som forklarende. Lad R h være den tilsvarende determinations koefficient. Da er VIF givet ved VIF( X ) = h R Jo mere X h er kolinear med X,,X k, jo højere R h og jo højere VIF. h

VIF: Eksempel Model: Y = 0 3X β + β X + β X + β + ε hvor X er højde og X er alder. I SPSS: I Linear Regression vælger man Statistics og der Colinearity diagnostics. Coefficients a Model (Constant) hojdeim hojdeim alder Unstandardized Coefficients Standardized Coefficients Collinearity Statistics B Std. Error Beta t Sig. Tolerance VIF 95,90 5,885,837,066-3,79 59,79 -,97 -,,07,00 769,93 65,943 7,07,589 3,83,000,00 768,44,60,0,3 3,689,000,97,079 X og X ser ud til at være (indbyrdes) kolineare, mens X (som forventet) ikke ser ud til at være det.

Multikolinearitet: Løsninger Fjern en kolinear variabel fra modellen.

Auto-korrelation Antag at X i svarer til i te måling af variabel X, fx temperaturen kl. på den i te, fx dag. Lag-k auto-korrelationen er defineret ved ρk = Corr ( X i, X i+ k ) dvs. korrelationen mellem temperaturer målt med k dages mellemrum. Husk: Vi har antaget at fejlledene er uafhængige, dvs. ρ k = 0 for alle k.

Auto-correlation: 0.6466 Eksempler på data, hvor residualerne udviser stærk auto-korrelation (øverst) og ringe auto-korrelation (nederst). y y -0 0 0-0 0 0 0 0 0 40 60 80 00 x e e -40-0 0 0 0 30-0 0 0 0 0 0 40 60 80 00 x Auto-correlation: -0.0393 0 0 40 60 80 00 0 0 40 60 80 00 x x

Durbin-Watson Test Test for om lag- auto-korrelationen er nul Teststørrelsen er Bemærk at d ikke er stikprøve-estimatet af lag- auto-korrelationen 0 : H 0 : H 0 = ρ ρ = = = n i i n i i i e e e d ) (

Kritiske værdier for Durbin-Watson Efter at have udregnet d finder vi d L og d U i Tabel 7 i Appendix C. Derefter sammenligner vi d med punkterne i skemaet nedenfor. Er d i det grønne område forkaster vi H 0. Positive Autocorrelation Test is Inconclusive No Autocorrelation Test is Inconclusive Negative Autocorrelation d 0 d L d U 4-d U 4-d L 4

Durbin-Watson: Eksempel For n=00 og k= giver tabelopslag d L =,65 og d U =,69. Positive Autocorrelation Test is Inconclusive No Autocorrelation Test is Inconclusive Negative Autocorrelation d Model a Model a 0 d L d U 4-d U 4-d L 4 P di t (C t t) Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,35 a,05,096 3.444,965 Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,030 a,00 -,009 0.4997,053 P di t (C t t),65,69,35,3 Her afviser vi H 0 dvs. ρ 0, altså auto-korrelation. Her accepterer vi H 0 dvs. igen auto-korrelation. e e -40-0 0 0 0 30-0 0 0 0 Auto-correlation: 0.6466 0 Auto-correlation: 0 40 60-0.0393 80 00 x 0 0 40 60 80 00 x