1 Multipel lineær regression

Relaterede dokumenter
1 Multipel lineær regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kapitel 12 Variansanalyse

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Kapitel 12 Variansanalyse

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Multipel Lineær Regression

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Statistik Lektion 4. Variansanalyse Modelkontrol

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

2 Logaritme- og eksponentialfunktion 6

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Eksamen i Statistik for biokemikere. Blok

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Module 4: Ensidig variansanalyse

1 Hb SS Hb Sβ Hb SC = , (s = )

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Besvarelse af juul2 -opgaven

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Module 3: Statistiske modeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Logistisk regression

Vejledende løsninger kapitel 9 opgaver

Module 12: Mere om variansanalyse

Simpel Lineær Regression: Model

Statistik Lektion 16 Multipel Lineær Regression

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Løsninger til kapitel 14

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Generelle lineære modeller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Løsning eksamen d. 15. december 2008

Besvarelse af vitcap -opgaven

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Modul 6: Regression og kalibrering

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Modul 11: Simpel lineær regression

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR

Kvantitative metoder 2

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Statistik II 1. Lektion. Analyse af kontingenstabeller

MPH specialmodul Epidemiologi og Biostatistik

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik II 4. Lektion. Logistisk regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Transkript:

1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet variansanalyse PSE (I17) FSV1 Statistik - 3. lektion 1 / 22

Regression med 2 eksponeringsvariable PeruLungeData Alder er en rimeligt god prediktor for FEV1. Vi kan aflæse en t-score på 15.17, dvs en klart signifikant sammenhæng, hvor FEV1 vokser med 0.218 liter/år. PSE (I17) FSV1 Statistik - 3. lektion 2 / 22

Regression med 2 eksponeringsvariable PeruLungeData Højde er en rimeligt god prediktor for FEV1. Vi kan aflæse en t-score på 20.84, dvs en klart signifikant sammenhæng, hvor FEV1 vokser med 0.031 liter/cm. PSE (I17) FSV1 Statistik - 3. lektion 3 / 22

Fortolkning og estimation Multipel regression Når vi har flere prediktorer/eksponeringsvariable som er associerede, så vil vi studere indvirkning af en given prediktor, når vi har korrigeret for indvirkning af de øvrige prediktorer. Eksempelvis har højde og alder en signifikant positiv korrelation på 0.595, så det er meningsfyldt at spørge: Hvad er korrelationen mellem FEV1 og alder, når vi har korrigeret for indvirkning af højde? Hvad er korrelationen mellem FEV1 og højde, når vi har korrigeret for indvirkning af alder? Dette besvares vha den multiple regressionsmodel: FEV1 = β 0 + β 1 alder + β 2 højde + ε hvor populationsresidualet ε har middeltal 0 og standardafvigelse σ. PSE (I17) FSV1 Statistik - 3. lektion 4 / 22

Fortolkning og estimation Multipel regression Multipel regressionsmodel: Populationsparametre: FEV1 = β 0 + β 1 alder + β 2 højde + ε β 0 liter: Volumen ved alder=højde=0. Modellen er dog kun relevant for alder 7-11 år og højde 100-150 cm. β 1 liter/år: Volumenændring når alderen vokser 1 år β 2 liter/cm: Volumenændring når højden vokser 1 cm σ liter: standardfejl på populationsresidualer. Givet en stikprøve, så bestemmes de tilsvarende estimater b 0, b 1, b 2 og deres tilhørende standardfejl ved at minimere kvadratsummen af residualer. PSE (I17) FSV1 Statistik - 3. lektion 5 / 22

Fortolkning og estimation Stata-analyse Analyze Regression Linear... og vælg Dependent: FEV1 Independent(s): Alder og højde Effekter efter korrektion for den anden variabel: Alder: b 1 =0.09 liter/år. Effekt uden korrektion var: 0.218 liter/år. Effekten er mindre, men er stadig signifikant (t=5.71). højde: b 2 =0.025 liter/cm. Effekt uden korrektion var: 0.031 liter/cm. Mindre men stadig signifikant effekt(t=13.77). PSE (I17) FSV1 Statistik - 3. lektion 6 / 22

AnovaTabel og multipel R 2 Kvadratsummer Lad os kalde responsen(fev1) y og prediktorerne(alder,højde) x 1 og x 2. Modellen y = β 0 + β 1 x 1 + β 2 x 2 + ε har prediktionsligningen: med tilhørende kvadratsummer y = b 0 + b 1 x 1 + b 2 x 2 Forskel på model og observationer: SS residual = (y y ) 2. Da vi estimer 3 parametre har denne df residual = n 3 frihedsgrader. Som tidligere: SS total = (y ȳ) 2, som har df = n 1 frihedsgrader. Som tidligere: SS regression = SS total SS residual, men nu med df regression = (n 1) (n 3) = 2, idet vi har 2 prediktorer. PSE (I17) FSV1 Statistik - 3. lektion 7 / 22

AnovaTabel og multipel R 2 Test for regressionseffekt Betragt hypotesen H 0 : β 1 = β 2 = 0 dvs ingen af prediktorerne korrelerer med responsen. HVIS H 0 er sand, så skal MS regression og MS residual være af samme størrelsesorden, dvs F-teststatistikken F = MS regression MS residual skal ligge i nærheden af 1. p-værdien er øvre halesandsynlighed for teststatistikken i en F-fordeling med (df regression, df residual ) frihedsgrader. PSE (I17) FSV1 Statistik - 3. lektion 8 / 22

AnovaTabel og multipel R 2 F-test og R 2 Exorbitant stor F-værdi, dvs klar effekt af prediktorerne. Vi kan aflæse R 2 = 0.4356, dvs alder og højde forklarer ca. 44% af totalvariationen i FEV1. PSE (I17) FSV1 Statistik - 3. lektion 9 / 22

Ensidet variansanalyse: Dummy kodning Eksempel Vi skal kigge på et datasæt vedrørende lungefunktionen hos arbejdere i cadmium industrien. Undersøgelsens resultater er rapporteret i P. Armitage and G. Berry (1987), Statistical Methods in Medical Research, 2nd ed., Blackwell. Ud over samhørende værdier af alder(år) og vitalkapacitet(liter) har man for hver person registreret graden af cadmiumeksponering, iht følgende ordinale skala A: Ingen eksponering B: Under 10 års eksponering C: Over 10 års eksponering Vi indfører tillige 2 såkaldte dummyvariable x 1 : Denne er lig med 1, hvis du er i gruppeb og ellers nul. x 2 : Denne er lig med 1, hvis du er i gruppec og ellers nul. PSE (I17) FSV1 Statistik - 3. lektion 10 / 22

Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse Idet y er vitalkapacitet skal vi først kigge på modellen y = β 0 + β 1 x 1 + β 2 x 2 + ε Ingen eksponering: x 1 = x 2 = 0, dvs y = β 0 + ε. Mao: β 0 er middeltallet for populationen af ikke eksponerede. Lav eksponering: x 1 = 1, x 2 = 0, dvs y = β 0 + β 1 + ε. Mao: β 1 er forskel mellem middeltal for de laveksponerede og ikkeeksponerede. Tilsvarende: β 2 er forskel mellem middeltal for de højeksponerede og ikkeeksponerede. PSE (I17) FSV1 Statistik - 3. lektion 11 / 22

Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse Analyze Regression Linear... Med en p-værdi på 9% er der - om nogen - kun svag overordnet signifikans af eksponering. Også manifesteret i en R 2 under 6%. Bemærk at Stata i Source-søjlen bruger termen Model i stedet for Regression. PSE (I17) FSV1 Statistik - 3. lektion 12 / 22

Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse IkkeEksponeringsgruppen( cons) har et middeltal på 4.462 liter. laveksponeret(x1): Forskellen på lav og ingen eksponering er 0.01 liter. IkkeSignifikant. højeksponeret(x2): Forskellen på høj og ingen eksponering er -0.513 liter, hvilket er signifikant med pværdi=3.7%. PSE (I17) FSV1 Statistik - 3. lektion 13 / 22

Kovariansanalyse og effektmodifikation Eksempel Det ser ud til at højeksponering giver et signifikant fald på 0.5 liter i vitalkapacitet. Men dette kunne vel nemt forklares ved, at de højeksponerede er gamle? I middel er de højeksponerede mere end 10 år ældre. PSE (I17) FSV1 Statistik - 3. lektion 14 / 22

Kovariansanalyse og effektmodifikation Eksempel Det kunne se ud til at de højeksponeredes vitalkapacitet aftager hurtigere med alderen. Hvilket måske kunne forklares med at alder er en proxy for antal års eksponering og at dette har en negativ indvirkning på vitalkapacitet. Vi vil undersøge om de 2 linier har signifikant forskellig hældning. PSE (I17) FSV1 Statistik - 3. lektion 15 / 22

Kovariansanalyse og effektmodifikation Kovariansmodel y = β 0 + β 1 alder + β 2 x 2 + β 3 x 2 alder + ε Ikke højeksponeret(x 2 = 0) giver linien y = β 0 + β 1 alder dvs ændringen i vitalkapacitet er β 1 liter/år for de ikke højeksponerede. HøjEksponeret(x 2 = 1) giver linien y = (β 0 + β 2 ) + (β 1 + β 3 ) alder dvs ændringen i vitalkapacitet er β 1 + β 3 liter/år for de højeksponerede. Dette betyder at β 3 er forskellen på de 2 liniers hældning. Vi vil så undersøge H 0 : β 3 = 0. PSE (I17) FSV1 Statistik - 3. lektion 16 / 22

Kovariansanalyse og effektmodifikation Kovariansanalyse Statistics Linear models... Linear... c. foran variabelnavnet fortæller Stata, at variablen skal opfattes som skalær(continuous) i forbindelse med vekselvirkning. ## fortæller Stata at vi vil inkludere vekselvirkning mellem de 2 variable. PSE (I17) FSV1 Statistik - 3. lektion 17 / 22

Kovariansanalyse og effektmodifikation Kovariansanalyse Effekt af alder for ikke højeksponeret(age): -0.035 liter/år. Effekt af alder for højeksponeret(age+c.age#c.x2): -0.085 liter/år. Forskel i alderseffekt(c.age#c.x2): -0.05 liter/år, ses at være signifikant med pværdi 1.7%. PSE (I17) FSV1 Statistik - 3. lektion 18 / 22

Tosidet variansanalyse PeruLungeData Variable Model: y: FEV1(liter). x 1 : Dummy for køn( dreng =1). x 2 : Dummy for respsymp( ja =1). Populationsparametre: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ε β 0 : Middeltal når x 1 = x 2 = 0, dvs piger uden respsymp. β 1 : Hovedeffekt af køn. Aktuelt forskel mellem drenge og piger uden symptomer. β 2 : Hovedeffekt af respsymp for piger. β 3 : Vekselvirkning mellem køn og respsymp. Aktuelt forskellen i respsympeffekt mellem dreng og pige. σ: Populationsresidualernes standardfejl. PSE (I17) FSV1 Statistik - 3. lektion 19 / 22

Tosidet variansanalyse Tosidet variansanalyse fev1 er afhængig variabel sex og respsymptoms er uafhængige variable, hvor ## betyder at vi inkluderer interaktion, dvs en kombineret effekt. PSE (I17) FSV1 Statistik - 3. lektion 20 / 22

Tosidet variansanalyse cons: Middeltal for piger uden symptomer: 1.583 liter. dreng: Effekt=0.095 liter. Drenge uden symp har et signifikant højere volumen end piger uden symp. ja: Effekt=-0.183 liter. Symptomer giver piger et signifikant lavere volumen. dreng#ja: Kombineret effekt=0.085 liter er IKKE signifikant. Dvs vi kan antage at effekten af symptomer er den samme for begge køn. PSE (I17) FSV1 Statistik - 3. lektion 21 / 22

Tosidet variansanalyse Der er ingen effektmodifikation af køn på respsym, dvs vi slutter med modellen, hvor der kun er hovedvirkninger. Piger uden respsym har et middelvolumen på 1.539-1.607(95% CI) liter. Drenges middelvolumen er 0.069-0.16(95% CI) liter højere end pigers. Effekten af respsym er i middel et volumentab på 0.09-0.199(95% CI) liter. PSE (I17) FSV1 Statistik - 3. lektion 22 / 22