Anvendt Statistik Lektion 8. Multipel Lineær Regression

Relaterede dokumenter
Anvendt Statistik Lektion 7. Simpel Lineær Regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik Lektion 4. Variansanalyse Modelkontrol

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Forelæsning 11: Kapitel 11: Regressionsanalyse

Simpel Lineær Regression

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Simpel Lineær Regression: Model

Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kapitel 11 Lineær regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

To samhørende variable

Statistik II 4. Lektion. Logistisk regression

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Modul 11: Simpel lineær regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik Lektion 17 Multipel Lineær Regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kvantitative metoder 2

Perspektiver i Matematik-Økonomi: Linær regression

Løsning eksamen d. 15. december 2008

Statistik II 1. Lektion. Analyse af kontingenstabeller

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

1 Multipel lineær regression

Kvantitative metoder 2

Modul 12: Regression og korrelation

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

1 Multipel lineær regression

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Modul 6: Regression og kalibrering

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Module 3: Statistiske modeller

Module 4: Ensidig variansanalyse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Løsning til eksaminen d. 14. december 2009

Kursus 02402/02323 Introducerende Statistik

Løsning til eksaminen d. 29. maj 2009

Generelle lineære modeller

Appendiks Økonometrisk teori... II

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Tema. Dagens tema: Indfør centrale statistiske begreber.

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Lineær regression i SAS. Lineær regression i SAS p.1/20

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Lineære normale modeller (4) udkast

Løsninger til kapitel 14

Konfidensintervaller og Hypotesetest

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

1 Hb SS Hb Sβ Hb SC = , (s = )

Module 12: Mere om variansanalyse

Eksamen i Statistik for biokemikere. Blok

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Transkript:

Anvendt Statistik Lektion 8 Multipel Lineær Regression 1

Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke præcist på regressionslinjen. Regressionsmodel: y i (x i,y i ) ε i α + βx y i = α + βx i + ε i Fejlleddet ε i angiver afvigelsen mellem punktet (x i,y i ) og linjen. Fejlledene er uafhængige og normalfordelte med middelværdi nul og standardafvigelse σ. x i x

Multipel Lineær Regression (MLR) Antag vi har y : afhængig variabel x 1 : første forklarende var. x : anden forklarende var. MLR model: Her: y i = α + β 1 x 1,i +β x,i +ε x 1,i er værdien af x 1 for i te person. Forventede værdi: E[y] = α + β 1 x 1 +β x Dvs. regressionsplanet angiver gennemsnittet for responsen y x,i x 1,i ε i y i α + β 1 x 1 +β x x x 1

Fortolkning af β i Antag vi har k forklarende variable: y i = α + β 1 x 1,i +β x,i + +β k x k,i +ε Fortolkningen af β j : Hvis x 1 øges med 1, så øges den forventede værdi af y med β 1, hvis x, x 3,, x k forbliver uændrede.

Prædiktion og Residual MLR model: y i = α + β 1 x 1,i +β x,i + +β k x k,i +ε i Prædiktionsligningen er ŷ i y ˆ = a + b x + b x + + b Dvs. er et estimat af E[y i ]. i 1 1 k x k Residual: e i = Dvs. residualet er et estimat af ε i. y i yˆ i

Mindste kvadraters metode Definer summen af de kvadrerede residualer SSE = ( y ˆ ) i i yi = e i i UK: Sum of Squared Errors SPSS: Sum of Squared Residuals Mindste kvadrater metode: Vi vælger a, b 1, b,, b k, så SSE er mindst mulig. Bemærk at SSE = ( y ( a + b x + b x + b x )) 1 1,, + i i i i k k, i

Eksempel: Kriminalitet i Florida Tre variable y : crime rate x1: education x: urbanization I første omgang: Kriminalitet og uddannelse

Eksempel: Kriminalitet i Florida (fortsat) En simpel lineær regression af crime rate (y) mod education (x): Prædiktionsligning yˆ = 51.8 + 1. 50 x Dvs. jo mere uddannelser, jo mere kriminalitet Effekten er statistisk signifikant.

Eksempel: Kriminalitet i Florida (fortsat) Teori: Jo mere urbaniseret, jo mere kriminalitet og jo flere med lang uddannelse. Multipel lineær regression af Crime rate (y) mod både Uddannelser (x 1 ) og Urbanisering (x ). Prædiktionsligning: yˆ = 56.8 0.54 x1 + 0. 673 x Bemærk at effekten af uddannelser nu er negativ og ikke længere er signifikant (P-værdi >> 5%). Crime rate Urbanization Education

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning: yˆ = 56.8 0.54 x1 + 0. 673 x Effekten af x 1 (uddannelse) er den samme for alle værdier af x (ubanisering). For hver ekstra procent-point uddannede falder crime rate med 0.54. y ˆ = 90.4 0.54 x ( x 1 = y ˆ = 83.7 0.54 x ( x 1 = Bemærk at effekten af x 1 (Uddannelse) ændrede sig markant, da vi tilføjede x (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x 1 og x. 50) 40)

Simpsons paradoks - igen Sammenhæng mellem crime rate og uddannelse Sort linje: SLR for alle data Blå linje: SLR kun for områder med høj grad af urbanisering. Grøn linje: SLR kun for områder med lav urbanisering. Bemærk hvor forskellig sammenhængen er i de to grupper.

Eksempel: Mentalt helbred Vi har tre variable: y : Mental impairment (funktionsnedsættelse), afhængig var. x 1 : Life events, første forklarende variabel. x : Socioøkonomisk status (SES), anden forklarende var. Multipel lineær regressionsmodel: y i = α + β 1 x 1,i +β x,i +ε i MLR antager en lineær sammenhæng mellem y og hvert x j. Vi starter med et scatter plot for hver par af variable.

Scatterplot Matrix Graphs Chart builder Scatter/Dot Scatterplot Matrix Ingen åbenlyse ikke-lineære sammenhænge. Ingen åbenbare sammenhænge i det hele taget Problem: Plot viser sammenhængen mellem y og fx. x 1, hvor vi ignorer værdien af x. Vi har set, at vi ikke kan ignorere effekten af x, når vi ser på sammenhængen mellem y og x.

Partielt plot Estimeret model (eksempel med tre forklarende variable) y a + b x + b x + b x + = 1 1 3 3 Estimeret del-model (uden x 1 ) ~ ~ y = a~ + b x + b x e~ 3 3 + Regression af x 1 mod x og x 3 (hvordan afhænger x 1 af x og x 3 ) x + * * * * 1 = a + b x + b3 x3 e Vi har to sæt residualer: (for y) og (for x 1 ). e ~ e Ide: plot mod. * e ~ e e *

Partielt plot (fortsat) SPSS: Analyze Regression Linear Plots Produce all partial plots. e ~ e a be ee ~ = ˆ + ˆ * + ˆ Regression af mod giver: b ˆ = b 1 Interessant: Dvs. at hældningen i det partielle plot er den samme som effekten i den fulde model! * Bonus: Check at residualerne varierer usystematisk og at variationen er den samme langs linjen.

SPSS output Simpel model kune en forklarende variabel Model med to forklarende variable:

Multipel korrelation Husk: Korrelation angiver hvor lineært afhængig to variable er. Multipel korrelation R for en lineær regression er korrelationen mellem de observerede og de prædikterede. Bemærk: Den multiple korrelation kan ikke være negativ. y ŷ

Multipel determinations koefficient Den totale variation i y erne: TSS = y ( ) i i y (Total Sum of Squares) Den uforklarede del af variationen i y erne: SSE = ( yi yˆ i ) = ei i Den forklarede del af variationen i y erne: TTS SSE Multipel determinnations koefficient R TSS SSE = TSS Fortolkning: Andelen af den totale variation, der er forklaret. i (Sum of Squared Errors)

Eksempel på R og R Lille model R = 0.139 y = α + β 1 x 1 +ε Dvs. 13.9% af variationen i mental impairment er forklaret af Life events. Stor model R = 0.339 y = α + β 1 x 1 +β x +ε Dvs. 33.9% af variationen i mental impairment er forklaret af Life events og SES. Bemærk at R er øget vi kan forklare mere med flere variable.

Egenskaber for R og R R er mellem 0 og 1 Jo højere R, jo bedre kan modellen prædiktere y. ^ R = 1 betyder at y = y og alle residualer er nul. R = 0 betyder at b 1 = b = = b k = 0. Når en variabel tilføjes modellen kan R ikke falde.

Hypotesetest for MLR: F-test MLR model: y = α + β 1 x 1 +β x + +β k x k +ε Er der mindst en af x j erne der har en lineær sammenhæng med y? Nul-hypotese: H 0 : β 1 = β = = β k = 0 Alternativ-hypotese: H a : Mindst et β j 0 Teststørrelse: F = R k ( 1 R ) ( n ( k + 1) ) y har ingen lineær sammenhæng med et eneste x j. y har en lineær sammenhæng med med mindst et af x j erne.

F-testet Hvis H 0 er sand, så følger F en F- fordeling. Som χ -fordelingen kan F- fordelingen kun tage positive værdier. Faconen på F-fordelingen er bestemt af to sæt frihedsgrader df 1 og df : P-værdi Obsereveret F df 1 = k = antal forklarende variable. df = n (k + 1) = n antal parametre i modellen

F-test: Eksempel Model for mentalt helbred: y = α + β 1 x 1 + β x + ε Fra SPSS har vi R = 0.339 Dvs. F-fordeling med hhv. og 47 frihedsgrader F = = R ( 1 R ) ( n ( k + 1) ) 0.339 k ( 1 0.339) ( 40 3) = 9.49 9.49 P-værdi P-værdien finder vi vha. SPSS (næste slide). Da P-værdien < 0.0005 afviser vi H 0, dvs. y har en lineær sammenhæng med mindst en af de to forklarende variable.

F-test i SPSS F-teststørrelsen kan omskrives: F = = R k ( 1 R ) ( n ( k + 1) ) ( 116.4 768.16) 768.16 ( 40 3) SSE = ( TSS SSE) k ( n ( k + 1) ) SSE = 9.495 P-værdi TSS

Hypotesetest af βj MLR model: y = α + β 1 x 1 +β x + +β k x k +ε Er der en lineær sammenhæng mellem y og x j? Nul-hypotese: H 0 : β j = 0 Alternativ-hypotese: H a : β j 0 Teststørrelse: t = b j se Udregnes af SPSS y har ingen lineær sammenhæng med x j. y har en lineær sammenhæng med x j. Hvis H 0 er sand, så følger t en t-fordeling med df = n-(k+1)

Hypotesetest af βj : Eksempel Model for mentalt helbred: y = α + β 1 x 1 + β x + ε Fra SPSS har vi b 1 = 0.103 og se = 0.03 t-fordeling med 37 frihedsgrader Dvs. t = 0.103/0.03 = 3.177 Da P-værdien < 0.05, kan vi afvise H 0 -hypotesen. Dvs. der er en lineær sammenhæng mellem y og x1. P-værdi 0.003-3.177 t = 3.177-3 - -1 0 1 3

Estimation af σ Generelt er vores MLR model y = α + β 1 x 1 +β x + +β k x k +ε Vi antaget at fejlledene er normalfordelte med standardafvigelse σ. Et estimat af σ er SSE s = n k +1 Eksempel: ( ) s = = 768.16 40 3 0.761 = 4.56

Vekselvirkning Der er vekselvirkning mellem to forklarende variable, x 1 og x, for y, hvis effekt af x 1 på y ændre sig når x ændre sig. Simpel vekselvirkningsmodel: y = α + β 1 x 1 + β x + β 3 x 1 x + ε Hvor kommer interaktionen ind i billedet? Omskriv modellen til y = (α + β x ) + (β 1 + β 3 x ) x 1 + ε Bemærk: Hældningen er β 1 + β 3 x, dvs. effekten af x 1 på y ændre sig, når x ændres.

Vekselvirkning: Eksempel Simpel vekselvirkningsmodel: y = α + β 1 x 1 + β x + β 3 x 1 x + ε Vha. Transform Compute variable skaber vi variablen x1x = x1*x Følgende test viser at interaktionen ikke er signifikant: Da vekselvirkningen ikke er signifikant, kan man vælge at fjerne den. Hvis vekselvirkningen er signifikant, beholder vi det. Desuden giver det ikke mening at teste de enkelte led (x 1 og x ).

Vekselvirkning: Eksempel (fortsat) Estimeret vekselvirkningsmodel: y = 6.037 + 0.156 x 1 0.060 x 0.01 x 1 x Fortolkning: Når vi øger x, så Reduceres skæringspunktet Reduceres hældningen. y ˆ = 6.037 + 0.156x ( x 1 = 0) y ˆ = 3.01 + 0.113x ( x 1 = 50) y ˆ = 19.987 + 0.069x ( x 1 = 100)