1 Multipel lineær regression

Transkript

1 1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet variansanalyse PSE (I17) FSV1 Statistik - 3. lektion 1 / 22

2 Regression med 2 eksponeringsvariable PeruLungeData Alder er en rimeligt god prediktor for FEV1. Vi kan aflæse en t-score på 15.17, dvs en klart signifikant sammenhæng, hvor FEV1 vokser med liter/år. PSE (I17) FSV1 Statistik - 3. lektion 2 / 22

3 Regression med 2 eksponeringsvariable PeruLungeData Højde er en rimeligt god prediktor for FEV1. Vi kan aflæse en t-score på 20.84, dvs en klart signifikant sammenhæng, hvor FEV1 vokser med liter/cm. PSE (I17) FSV1 Statistik - 3. lektion 3 / 22

4 Fortolkning og estimation Multipel regression Når vi har flere prediktorer/eksponeringsvariable som er associerede, så vil vi studere indvirkning af en given prediktor, når vi har korrigeret for indvirkning af de øvrige prediktorer. Eksempelvis har højde og alder en signifikant positiv korrelation på 0.595, så det er meningsfyldt at spørge: Hvad er korrelationen mellem FEV1 og alder, når vi har korrigeret for indvirkning af højde? Hvad er korrelationen mellem FEV1 og højde, når vi har korrigeret for indvirkning af alder? Dette besvares vha den multiple regressionsmodel: FEV1 = β 0 + β 1 alder + β 2 højde + ε hvor populationsresidualet ε har middeltal 0 og standardafvigelse σ. PSE (I17) FSV1 Statistik - 3. lektion 4 / 22

5 Fortolkning og estimation Multipel regression Multipel regressionsmodel: Populationsparametre: FEV1 = β 0 + β 1 alder + β 2 højde + ε β 0 liter: Volumen ved alder=højde=0. Modellen er dog kun relevant for alder 7-11 år og højde cm. β 1 liter/år: Volumenændring når alderen vokser 1 år β 2 liter/cm: Volumenændring når højden vokser 1 cm σ liter: standardfejl på populationsresidualer. Givet en stikprøve, så bestemmes de tilsvarende estimater b 0, b 1, b 2 og deres tilhørende standardfejl ved at minimere kvadratsummen af residualer. PSE (I17) FSV1 Statistik - 3. lektion 5 / 22

6 Fortolkning og estimation Stata-analyse Analyze Regression Linear... og vælg Dependent: FEV1 Independent(s): Alder og højde Effekter efter korrektion for den anden variabel: Alder: b 1 =0.09 liter/år. Effekt uden korrektion var: liter/år. Effekten er mindre, men er stadig signifikant (t=5.71). højde: b 2 =0.025 liter/cm. Effekt uden korrektion var: liter/cm. Mindre men stadig signifikant effekt(t=13.77). PSE (I17) FSV1 Statistik - 3. lektion 6 / 22

7 AnovaTabel og multipel R 2 Kvadratsummer Lad os kalde responsen(fev1) y og prediktorerne(alder,højde) x 1 og x 2. Modellen y = β 0 + β 1 x 1 + β 2 x 2 + ε har prediktionsligningen: med tilhørende kvadratsummer y = b 0 + b 1 x 1 + b 2 x 2 Forskel på model og observationer: SS residual = (y y ) 2. Da vi estimer 3 parametre har denne df residual = n 3 frihedsgrader. Som tidligere: SS total = (y ȳ) 2, som har df = n 1 frihedsgrader. Som tidligere: SS regression = SS total SS residual, men nu med df regression = (n 1) (n 3) = 2, idet vi har 2 prediktorer. PSE (I17) FSV1 Statistik - 3. lektion 7 / 22

8 AnovaTabel og multipel R 2 Test for regressionseffekt Betragt hypotesen H 0 : β 1 = β 2 = 0 dvs ingen af prediktorerne korrelerer med responsen. HVIS H 0 er sand, så skal MS regression og MS residual være af samme størrelsesorden, dvs F-teststatistikken F = MS regression MS residual skal ligge i nærheden af 1. p-værdien er øvre halesandsynlighed for teststatistikken i en F-fordeling med (df regression, df residual ) frihedsgrader. PSE (I17) FSV1 Statistik - 3. lektion 8 / 22

9 AnovaTabel og multipel R 2 F-test og R 2 Exorbitant stor F-værdi, dvs klar effekt af prediktorerne. Vi kan aflæse R 2 = , dvs alder og højde forklarer ca. 44% af totalvariationen i FEV1. PSE (I17) FSV1 Statistik - 3. lektion 9 / 22

10 Ensidet variansanalyse: Dummy kodning Eksempel Vi skal kigge på et datasæt vedrørende lungefunktionen hos arbejdere i cadmium industrien. Undersøgelsens resultater er rapporteret i P. Armitage and G. Berry (1987), Statistical Methods in Medical Research, 2nd ed., Blackwell. Ud over samhørende værdier af alder(år) og vitalkapacitet(liter) har man for hver person registreret graden af cadmiumeksponering, iht følgende ordinale skala A: Ingen eksponering B: Under 10 års eksponering C: Over 10 års eksponering Vi indfører tillige 2 såkaldte dummyvariable x 1 : Denne er lig med 1, hvis du er i gruppeb og ellers nul. x 2 : Denne er lig med 1, hvis du er i gruppec og ellers nul. PSE (I17) FSV1 Statistik - 3. lektion 10 / 22

11 Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse Idet y er vitalkapacitet skal vi først kigge på modellen y = β 0 + β 1 x 1 + β 2 x 2 + ε Ingen eksponering: x 1 = x 2 = 0, dvs y = β 0 + ε. Mao: β 0 er middeltallet for populationen af ikke eksponerede. Lav eksponering: x 1 = 1, x 2 = 0, dvs y = β 0 + β 1 + ε. Mao: β 1 er forskel mellem middeltal for de laveksponerede og ikkeeksponerede. Tilsvarende: β 2 er forskel mellem middeltal for de højeksponerede og ikkeeksponerede. PSE (I17) FSV1 Statistik - 3. lektion 11 / 22

12 Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse Analyze Regression Linear... Med en p-værdi på 9% er der - om nogen - kun svag overordnet signifikans af eksponering. Også manifesteret i en R 2 under 6%. Bemærk at Stata i Source-søjlen bruger termen Model i stedet for Regression. PSE (I17) FSV1 Statistik - 3. lektion 12 / 22

13 Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse IkkeEksponeringsgruppen( cons) har et middeltal på liter. laveksponeret(x1): Forskellen på lav og ingen eksponering er 0.01 liter. IkkeSignifikant. højeksponeret(x2): Forskellen på høj og ingen eksponering er liter, hvilket er signifikant med pværdi=3.7%. PSE (I17) FSV1 Statistik - 3. lektion 13 / 22

14 Kovariansanalyse og effektmodifikation Eksempel Det ser ud til at højeksponering giver et signifikant fald på 0.5 liter i vitalkapacitet. Men dette kunne vel nemt forklares ved, at de højeksponerede er gamle? I middel er de højeksponerede mere end 10 år ældre. PSE (I17) FSV1 Statistik - 3. lektion 14 / 22

15 Kovariansanalyse og effektmodifikation Eksempel Det kunne se ud til at de højeksponeredes vitalkapacitet aftager hurtigere med alderen. Hvilket måske kunne forklares med at alder er en proxy for antal års eksponering og at dette har en negativ indvirkning på vitalkapacitet. Vi vil undersøge om de 2 linier har signifikant forskellig hældning. PSE (I17) FSV1 Statistik - 3. lektion 15 / 22

16 Kovariansanalyse og effektmodifikation Kovariansmodel y = β 0 + β 1 alder + β 2 x 2 + β 3 x 2 alder + ε Ikke højeksponeret(x 2 = 0) giver linien y = β 0 + β 1 alder dvs ændringen i vitalkapacitet er β 1 liter/år for de ikke højeksponerede. HøjEksponeret(x 2 = 1) giver linien y = (β 0 + β 2 ) + (β 1 + β 3 ) alder dvs ændringen i vitalkapacitet er β 1 + β 3 liter/år for de højeksponerede. Dette betyder at β 3 er forskellen på de 2 liniers hældning. Vi vil så undersøge H 0 : β 3 = 0. PSE (I17) FSV1 Statistik - 3. lektion 16 / 22

17 Kovariansanalyse og effektmodifikation Kovariansanalyse Statistics Linear models... Linear... c. foran variabelnavnet fortæller Stata, at variablen skal opfattes som skalær(continuous) i forbindelse med vekselvirkning. ## fortæller Stata at vi vil inkludere vekselvirkning mellem de 2 variable. PSE (I17) FSV1 Statistik - 3. lektion 17 / 22

18 Kovariansanalyse og effektmodifikation Kovariansanalyse Effekt af alder for ikke højeksponeret(age): liter/år. Effekt af alder for højeksponeret(age+c.age#c.x2): liter/år. Forskel i alderseffekt(c.age#c.x2): liter/år, ses at være signifikant med pværdi 1.7%. PSE (I17) FSV1 Statistik - 3. lektion 18 / 22

19 Tosidet variansanalyse PeruLungeData Variable Model: y: FEV1(liter). x 1 : Dummy for køn( dreng =1). x 2 : Dummy for respsymp( ja =1). Populationsparametre: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ε β 0 : Middeltal når x 1 = x 2 = 0, dvs piger uden respsymp. β 1 : Hovedeffekt af køn. Aktuelt forskel mellem drenge og piger uden symptomer. β 2 : Hovedeffekt af respsymp for piger. β 3 : Vekselvirkning mellem køn og respsymp. Aktuelt forskellen i respsympeffekt mellem dreng og pige. σ: Populationsresidualernes standardfejl. PSE (I17) FSV1 Statistik - 3. lektion 19 / 22

20 Tosidet variansanalyse Tosidet variansanalyse fev1 er afhængig variabel sex og respsymptoms er uafhængige variable, hvor ## betyder at vi inkluderer interaktion, dvs en kombineret effekt. PSE (I17) FSV1 Statistik - 3. lektion 20 / 22

21 Tosidet variansanalyse cons: Middeltal for piger uden symptomer: liter. dreng: Effekt=0.095 liter. Drenge uden symp har et signifikant højere volumen end piger uden symp. ja: Effekt= liter. Symptomer giver piger et signifikant lavere volumen. dreng#ja: Kombineret effekt=0.085 liter er IKKE signifikant. Dvs vi kan antage at effekten af symptomer er den samme for begge køn. PSE (I17) FSV1 Statistik - 3. lektion 21 / 22

22 Tosidet variansanalyse Der er ingen effektmodifikation af køn på respsym, dvs vi slutter med modellen, hvor der kun er hovedvirkninger. Piger uden respsym har et middelvolumen på (95% CI) liter. Drenges middelvolumen er (95% CI) liter højere end pigers. Effekten af respsym er i middel et volumentab på (95% CI) liter. PSE (I17) FSV1 Statistik - 3. lektion 22 / 22