Statistik Lektion 17 Multipel Lineær Regression

Relaterede dokumenter
Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Generelle lineære modeller

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistik Lektion 4. Variansanalyse Modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 6 Emne: Heteroskedasticitet

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Forelæsning 11: Kapitel 11: Regressionsanalyse

Module 12: Mere om variansanalyse

Bilag 12 Regressionsanalysens tabeller og forklaringer

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kapitel 11 Lineær regression

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

To samhørende variable

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Simpel Lineær Regression: Model

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

DATA PENELITIAN. No Tahun KODE DLTA DPNS ERTX GDYR HMSP ALMI INTP IPOL KBLM

02402 Løsning til testquiz02402f (Test VI)

Logistisk Regression - fortsat

Simpel Lineær Regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Appendices. Appendix 2: Questionnaire in StudSurvey. Appendix 3: Text presenting the electronic questionnaire. Appendix 4: Outputs from regressions

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Eksempel på logistisk vækst med TI-Nspire CAS

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Kursus 02402/02323 Introducerende Statistik

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Reestimation af eksportrelationerne april 2000

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

To-sidet variansanalyse

Appendiks Økonometrisk teori... II

Basal Statistik - SPSS

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Opgavebesvarelse, brain weight

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

EVALUERINGSENHEDEN. Analyse af karaktereffekten af. deltagelse i manuduktion på HA 2. år. Copenhagen Business School

Multipel regression 22. Maj, 2012

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

KA 4.2 Kvantitative Forskningsmetoder Forår 2010

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Opgavebesvarelse, brain weight

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

9. Chi-i-anden test, case-control data, logistisk regression.

Module 3: Statistiske modeller

Lineær regression i SAS. Lineær regression i SAS p.1/20

Out-of-sample forecast samt reestimation af ADAMs lønligning

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Statistik II 4. Lektion. Logistisk regression

Skriftlig eksamen Science statistik- ST501

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Basal Statistik - SPSS

Basal Statistik - SPSS

To-sidet varians analyse

Basal Statistik - SPSS

Besvarelse af vitcap -opgaven

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Module 12: Mere om variansanalyse

Modul 11: Simpel lineær regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Løsning eksamen d. 15. december 2008

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Module 4: Ensidig variansanalyse

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Løsning til øvelsesopgaver dag 4 spg 5-9

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Transkript:

Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Multipel lineær regression x,x,,x k uafhængige variable (forklarende variable). Model: Y ε i i = β + β x Dagens spørgsmål 0 i + β x i.i.d. N(0, σ ), i + β x =, K, n + L+ β x Hvad kan man gøre hvis sammenhængen mellem Y og X ikke er beskrevet ved en ret linie? I tilfælde af heteroskedasdiske data hvad kan man da gøre? Er residualerne data auto-korrelerede? i 3 3i k ki + ε i

Polynomiel regression Nogle gange er sammenhængen mellem Y og en enkelt forklarende variabel X utilstrækkeligt beskrevet ved en ret linie, men bedre ved et polynomie. I disse tilfælde bruger vi polynomiel regression, hvor modellen er på formen Y 3 m = β + β X + β X + β X + L+ β + ε 0 Modellen er stadig lineær!!! (Et m te grads polynomie) 3 m X ε ~ N(0, σ )

Polynomiel Regression: Illustration Y. grads polynomie 3. grads polynomie Y ˆ = b + b x y 0 ˆ = b + b x y 0 y ˆ = b + b x + b 0 x ˆ y = b0 + b x + b x + b 3 x 3 X Brug kun polynomiel regression, hvis der er et godt argument for det fx relevant baggrundsviden. Brug helst ikke over. grads polynomie (dvs X ) og aldrig mere end 6. grads polynomie (dvs X 6 ). X

Polynomiel Regression som Modelkontrol Vi har en forventning om lineær sammenhængen mellem Y og X. Et simpelt tjek er at tilføje det kvadratiske led X til modellen. Hvis X ledet ikke er signifikant har vi lidt mere grund til at tro på antagelsen om lineær sammenhæng.

Polynomiel regression: Eksempel Body Mass Index: BMI = v hvor v er vægten målt i kg og h er højden målt i meter. Omskrivning: v=bmi h. h Model: Y i 0 ε, K, ε iid ε i = β + β X i i i + β X ~ i N(0, σ + ε ) i hvor Y er vægten og X er højden. I SPSS skabes en ny variabel X vha. Transform Compute

Skabe X i SPSS På baggrund af variablen hojdeim skabes hoejdeim = hojdeim*hojdeim

Scatterplot og estimater Et. grads polynomie tilpasset data Model a (Constant) hojdeim hojdeim D d t V i bl t Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 47,068 53,380,755,006-76,80 6,599 -,3 -,860,004 76,73 7,739,839 4,300,000

Model Model Regression Residual Total Sum of Squares df Mean Square F Sig. 9066, 95308,098 798,,000 a 3084,6 583 9,40 49907,8 585 a. Predictors: (Constant), hojdeim, hojdeim b. Dependent Variable: vægt Model Summary Adjusted Std. Error of R R Square R Square the Estimate,68 a,38,38 0,97 a. Predictors: (Constant), hojdeim, hojdeim Modellen forklarer kun ca 38% af variationen ikke imponerende. ANOVA b men modellen er stadig besværet værd.

Polynomiel regression med mere end en variabel Det er muligt at anvende polynomier bestående af mere end en variabel. Fx to variable X og X herved kan regressions fladen fx få form som en paraboloide. Y = 0 3 4 5 X β + β X + β X + β X + β X + β X + ε

Ikke-lineære modeller og transformation For nogle ikke-lineære modeller er det muligt at transformere modellen, så den bliver lineær. Vi skal se på Den multiplikative model Den eksponentielle model Den reciprokke model

Den Multiplikative Model Den multiplikative model Y = β X hvor ε er et fejlled. β β β3 0 X X 3 Logaritme-transformation: Vi tager (den naturlige) logaritme på begge sider af ligningen: logy = logβ0 + βlogx + βlogx + β3logx 3 + logε Vi har nu en lineær model! Hvis logε ~ N(0,σ ) så kan vi udføre multipel lineær regression som sædvanligt! Vi skal bare logaritmetransformere vores variable først. ε

Den Multiplikative Model Den multiplikative model kan skrives som ~ Y ~ ~ ~ = β + β X + β X + β X ~ ε 0 3 3 + ~ ~ hvor Y = logy, X osv. = logx Eksempel: Vi kan omskrive BMI formlen (igen): v = BMI h log v = log BMI + log h Model: Y = β + β X + ε hvor Y = log v og X = log h. Er mon β 0 log(3) og β? 0

Resultat β 0 = 3,069 Forventet β 0 = ln(3)=3,3 β =,56 Forventet β = Fortolkning: v = e 3,069 h,56 =.5 h,56 Bemærk: E(v h).5 h,56

Den Eksponentielle Model Den eksponentielle model Y = β e En logaritme transformation senere: Vi antager logε ~ N(0,σ ) 0 βx+ β X logy = log β0 + βx + β X + logε ε Vi logaritme-transformerer kun Y, men ikke X og X! Derefter kan vi foretage almindelig multipel lineær regression.

Den Eksponentielle Model - fortolkning Antag vi har estimeret logy =.+.X + L+ 3. X k Fortolkning af b k = 3.: Hvis x k stiger med (og alle andre x er holdes fast), så stiger Y med en faktor e 3..

Den Reciprokke Model Hvis så er Y Y = β + β X + L+ β + ε 0 k X k = X 0 k k β + β X + L+ β + ε Tag reciprokværdien af Y og lad X erne være. Kør derefter multipel lineære regression som sædvanligt.

Variansstabiliserende transformationer I tilfælde, hvor residualerne ser heteroskedastiske ud, kan man forsøge sig med følgende transformationer: Kvadratrods-transformation: Y god når variansen er proportional med middelværdien. Logaritme-transformation: logy god når variansen er proportional med middelværdien i. Reciprokke-transformation: Y god når variansen er proportional med middelværdien i 4. y x

Multikolinearitet To variable X og X er perfekt kolineære, hvis X = a + bx for to reelle tal a og b. Corr(X,X ) = (eller -) Eksempel: Perfekt kolinearitet (sjældent problem) X = Indkomst i kr. og X = Indkomst i $ Eksempel: Ret kolineære variable (reelt problem) X = Alder og X = Anciennitet

Konsekvenser af Multikolinearitet Variansen af regressions-koefficienterne (b j erne) eksploderer. Størrelsen på regressions-koefficienterne kan afvige meget fra hvad man ville forvente. Tilføje/fjerne variable resulterer i store ændringer i regressions-koefficienterne. Fjerne et data-punkt kan resultere i store forandringer i regressions-koefficienterne. I nogle tilfælde er F-testet signifikant mens ingen t- test er.

Variance Inflation Factor (VIF) Antag vores regressionsmodel allerede indeholder de forklarende variable X,,X k. Hvor meget ekstra kolinearitet introduceres, hvis medtager en ekstra forklarende variabel X h? Foretag en multipel lineær regression med X h som afhængig variable og X,,X k som forklarende. Lad R h være den tilsvarende determinations koefficient. Da er VIF givet ved VIF( X ) = h R Jo mere X h er kolinear med X,,X k, jo højere R h og jo højere VIF. h

VIF: Eksempel Model: Y = 0 3X β + β X + β X + β + ε hvor X er højde og X er alder. I SPSS: I Linear Regression vælger man Statistics og der Colinearity diagnostics. Coefficients a Model (Constant) hojdeim hojdeim alder Unstandardized Coefficients Standardized Coefficients Collinearity Statistics B Std. Error Beta t Sig. Tolerance VIF 95,90 5,885,837,066-3,79 59,79 -,97 -,,07,00 769,93 65,943 7,07,589 3,83,000,00 768,44,60,0,3 3,689,000,97,079 X og X ser ud til at være (indbyrdes) kolineare, mens X (som forventet) ikke ser ud til at være det.

VIF: Eksempel - fortsat X Scatter-plot af mod X

Multikolinearitet: Løsninger Fjern en kolineær variabel fra modellen.

Auto-korrelation Antag at X i svarer til i te måling af variabel X, fx temperaturen kl. på den i te, fx dag. Lag-h auto-korrelationen er defineret ved ρh = Corr ( X i, X i+ h) dvs. korrelationen mellem temperaturer målt med h dages mellemrum. Bemærk: Vi har antaget at fejlledene er uafhængige, dvs. ρ h = Corr(ε i, ε i+h ) = 0 for alle h. Dvs. vi forventer ρ h = Corr(e i, e i+h ) 0 for alle h.

0.459594577498763 0.4773456469 Eksempler hvor residualerne udviser Stærk autokorrelation (øverst) y 0 0 0 0 0 e 0 0 0 0 0 0 0 40 60 80 00 x Data 0.796760707673 0 0 40 60 80 00 x Residualer 0.096497067747 Ringe autokorrelation (nederst) y 30 0 0 0 0 30 e 5 0 5 0 5 0 5 0 0 40 60 80 00 x 0 0 40 60 80 00 x

Durbin-Watson Test Test for om lag- auto-korrelationen er nul H 0 : ρ = 0 H : ρ 0 Teststørrelsen er d n ( e e i= i i = n e i= i ) Bemærk at d ikke er et stikprøve-estimatet af lag- auto-korrelationen

Kritiske værdier for Durbin-Watson Efter at have udregnet d finder vi d L og d U i Tabel 7 i Appendix C. Derefter sammenligner vi d med punkterne i skemaet nedenfor. Er d i det grønne område forkaster vi H 0. Positiv Autokorrelation Test uden Konklusion Ingen Autokorrelation Test uden Konklusion Negativ Autokorrelation d 0 d L d U 4-d U 4-d L 4

Durbin-Watson: Eksempel For n=00 og h= giver tabelopslag d L =,65 og d U =,69. Positiv Autokorrelation Test uden Konklusion Ingen Autokorrelation Test uden Konklusion Negativ Autokorrelation d Model a Model a 0 d L d U 4-d U 4-d L 4 P di t (C t t) Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,35 a,05,096 3.444,965 Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,030 a,00 -,009 0.4997,053 P di t (C t t),65,69,35,3 Her afviser vi H 0 dvs. ρ 0, altså auto-korrelation. Her kan vi ikke afvise H 0 dvs. igen auto-korrelation. e e -40-0 0 0 0 30-0 0 0 0 Auto-correlation: 0.6466 0 Auto-correlation: 0 40 60-0.0393 80 00 x 0 0 40 60 80 00 x