Multipel regression 22. Maj, 2012



Relaterede dokumenter
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Løsning til øvelsesopgaver dag 4 spg 5-9

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistik Lektion 17 Multipel Lineær Regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Basal statistik. 30. oktober 2007

Generelle lineære modeller

Basal statistik. 30. oktober Den generelle lineære model

Basal statistik. 21. oktober 2008

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Besvarelse af juul2 -opgaven

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Appendiks Økonometrisk teori... II

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Besvarelse af vitcap -opgaven

Lineær og logistisk regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Opgavebesvarelse, brain weight

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

To-sidet variansanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Module 12: Mere om variansanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Modul 11: Simpel lineær regression

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Logistisk regression

9. Chi-i-anden test, case-control data, logistisk regression.

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Lineær regression i SAS. Lineær regression i SAS p.1/20

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Multipel Lineær Regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Basal statistik. 30. januar 2007

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

To samhørende variable

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Simpel og multipel logistisk regression

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Opgavebesvarelse, brain weight

Basal Statistik - SPSS

Logistisk Regression - fortsat

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Klasseøvelser dag 2 Opgave 1

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Løsning til opgave i logistisk regression

Statistik Lektion 16 Multipel Lineær Regression

Logistisk regression

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Besvarelse af opgave om Vital Capacity

Opgavebesvarelse, brain weight

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Besvarelse af opgavesættet ved Reeksamen forår 2008

Module 4: Ensidig variansanalyse

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Morten Frydenberg 14. marts 2006

Eksempel , opg. 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Basal Statistik - SPSS

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Opgavebesvarelse, brain weight

Morten Frydenberg 26. april 2004

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Opgavebesvarelse, logistisk regression

Basal Statistik - SPSS

Basal Statistik - SPSS

Transkript:

Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben Budtz-Jørgensen Biostatistisk Afdeling, Københavns Universitet

Grinde hvaler

Study Design EXPOSURE: 1. Cord Blood Mercury 2. Maternal Hair Mercury 3. Maternal Seafood Intake RESPONSE: Neuropsychological Tests Age: Calendar: Children: Birth 1986-87 1022 7 Years 1993-94 917

Neuropsykologisk Testing

Boston Naming Test

Scatterplots: Boston Naming vs Hg-koncentration hg1$bostot 10 20 30 40 hg1$bostot 10 20 30 40 0 50 100 150 200 250 300 350 hg1$bhg 1 2 5 10 20 50 100 200 hg1$bhg plot(hg1$bhg,hg1$bostot) plot(hg1$bhg,hg1$bostot,log="x") Svag sammenhæng mellem barnets score og Hg-eksponering Enkelte højt eksponerede bliver meget indflydelsesrige hvis jeg ikke bruger log-transformation.

Logaritme transformation eller ej? Jeg vil lave en regression af barnets score på eksponeringen. Men skal jeg logaritmetransformere Hg-koncentrationerne? To mulige modeller Model 1: bostot = α + βb-hg + ǫ Model 2: bostot = α + β log 10 (B-Hg) + ǫ

Hvilken model beskriver bedst sammenhængen i data? Modellerne beskriver data lige godt, men jeg vælger log-transformationen fordi jeg hermed undgår at enkelte højt eksponerede børn får meget stor indflydelse.

Fortolkning af regressionskoefficienten β Model: bostot = α + β log 10 (B-Hg) + ǫ where ǫ N(0, σ 2 ). β: ændring i respons når log 10 (B-Hg) vokser med 1. log 10 (B-Hg 1 ) log 10 (B-Hg 0 ) = log 10 ( B-Hg 1 B-Hg 0 ) = 1 B-Hg 1 B-Hg 0 = 10 1 = 10 β: ændring i respons når koncentrationen B-Hg 10-dobles

h <- lm(bostot ~ logbhg,hg1) summary(h) Regressionsanalyse i R Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 30.8615 0.7173 43.027 < 2e-16 *** logbhg -2.5458 0.5081-5.011 6.61e-07 *** Residual standard error: 5.455 on 847 degrees of freedom (68 observations deleted due to missingness) Multiple R-squared: 0.02879, Adjusted R-squared: 0.02764 F-statistic: 25.11 on 1 and 847 DF, p-value: 6.608e-07 Fortolkning af resultat: når logbhg vokser med 1 falder Boston Naming scoren med 2.55. Eller mere relevant: Når B-Hg 10-dobles falder Boston Naming scoren med 2.55. Effekten er stærkt signifikant (p<0.05).

Confounding Hg-eksponering Morens intelligens 1. intelligente mødre får intelligente børn Barnets score 2. børn med intelligente mødre har lavere Hg-eksponering I simpel lineær regression ignorerer vi confounderen maternel intelligens og over-estimerer Hg s skadelige effekt. Højt eksponerede børn klarer sig dårligt også fordi deres mødre er mindre intelligente. Ideelt, ville vi sammenligne børn med forskellig grad af eksponering, men med samme værdi af maternel intelligens.

Multipel regression analyse MEGET nyttig modelklasse som tillader at responsen kan afhænge af mere end en kovariat. Kovariaterne: kontinuerte eller gruppe-variable Responsen: skal være kontinuert. Næste gang: logistisk regression hvor responsen er 0/1.

Multipel regression analyse, II DATA: n individer, p forklarende variable + en respons: subject x 1...x p y 1 x 11...x 1p y 1 2 x 21...x 2p y 2 3 x 31...x 3p y 3........ n x n1...x np y n Den multiple lineære regressions model med p kovariater: y i = β 0 + β 1 x i1 + + β p x ip + ε i respons middelværdi funktion biologisk variation Parametre β 0 β 1,, β p intercept regressionskoefficienter

Multipel regression, 2 kontinuerte kovariater y i = β 0 + β 1 x i1 + β p x i2 + ε i, i = 1,, n Antagelse: ε i N(0, σ 2 ), uafhængige Estimation: Hvilket plan i rummet ligger tættest på data?

Fortolkning af regressionskoefficienterne β Model Y i = β 0 + β 1 X i1 + β 2 X i2 + ǫ hvor ǫ N(0, σ 2 ) Eks. Y: blodtryk X 1 : alder X 2 : vægt Betragt to individer: A har kovariatværdier (35,75); B har kovariatværdier (36,75) Forventet forskel i blodtryk (B A) β 0 + β 1 36 + β 2 75 [β 0 + β 1 35 + β 2 75] = β 1 β 1 : ændring i blodtryk når X 1 forøges med en enhed og de andre kovariater holdes uændret Bemærk, at effekten ikke afhænger af udgangspunktet for X 1 (her 35). Uanset hvor vi starter, er effekten af en forøgelse på en enhed den samme. Sammenhængen er lineær. Bemærk også, at effekten ikke afhænger af niveauet af X 2 (her 75). Effekten af en ændring i X 1 på en enhed er den samme for alle værdier af X 2. Dette kan ændres med et vekselvirkningsled.

Fortolkning af regression koefficienterne: Hg-effekten Simpel regression: Y = α + β log 10 (B-Hg) + ǫ β: forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg) på en, dvs hvor det en barn har en Hg-koncentration der er 10 gange større Multipel regression: Y = α + β log 10 (B-Hg) + β 1 X 1 +... + β p X p + ǫ β: forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg) på en, men som er ens på de øvrige kovariater (køn, maternel intelligens,...) Vi har justeret for effekten af de andre kovariater. Det er vigtigt at justere for variable der er associeret med både eksponering og respons.

Multipel regression i R > h <- lm(bostot ~ logbhg+ kon + age+ risk+ childcar+ mattrain+ pattrain+ + patempl +raven+town71,hg1) Det kunne ikke være lettere: kovariaterne skrives på højre-siden med plusser imellem.

R-output - Boston Naming Test > summary(h) Call: lm(formula = bostot ~ logbhg + kon + age + risk + childcar + mattrain + pattrain + patempl + raven + town71, data = hg1) Residuals: Min 1Q Median 3Q Max -18.4391-2.6519 0.1869 3.2275 15.8037

Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -6.06855 4.08034-1.487 0.137349 logbhg -1.69835 0.49644-3.421 0.000656 *** kon -0.70928 0.35080-2.022 0.043530 * age 4.35370 0.55633 7.826 1.64e-14 *** risk -1.70229 0.49913-3.411 0.000682 *** childcar 1.61980 0.37801 4.285 2.06e-05 *** mattrain 0.95720 0.38910 2.460 0.014108 * pattrain 0.99168 0.41436 2.393 0.016934 * patempl 0.83446 0.47609 1.753 0.080039. raven 0.08981 0.02308 3.892 0.000108 *** town71 0.98736 0.39414 2.505 0.012444 * Residual standard error: 4.907 on 780 degrees of freedom (126 observations deleted due to missingness) Multiple R-squared: 0.2112, Adjusted R-squared: 0.2011 F-statistic: 20.89 on 10 and 780 DF, p-value: < 2.2e-16

Var Hg-effekten virkelig signifikant? Eksponeringer blev grupperet og gennemsnittet af bostot beregnet i hver gruppe

> h <- lm(digwf ~ logbhg,hg1) > summary(h) Samme analyse - Digit Spans (digwf) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 4.2776 0.1890 22.635 <2e-16 *** logbhg -0.3328 0.1341-2.482 0.0133 * Også her ses en signifikant skadelig Hg-effekt

> h <- lm(digwf ~ logbhg+ kon + age+ risk+ childcar+ mattrain+ pattrain+ + patempl +raven+town71,hg1) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.429049 1.170661-0.367 0.7141 logbhg -0.208496 0.142175-1.466 0.1429 kon 0.426334 0.100271 4.252 2.37e-05 *** age 0.381959 0.159984 2.387 0.0172 * risk -0.190137 0.144468-1.316 0.1885 childcar 0.116431 0.107987 1.078 0.2813 mattrain 0.075268 0.110911 0.679 0.4976 pattrain 0.090527 0.118287 0.765 0.4443 patempl 0.108780 0.136872 0.795 0.4270 raven 0.021700 0.006572 3.302 0.0010 ** town71 0.139283 0.112358 1.240 0.2155 Efter korrektion forsvinder effekten

Prædiktion Estimeret model: bostot = 4.8 1.66 log 10 (B-Hg) i 0.70 SEX i +...+0.98 TOWN7 i +ǫ, ǫ N(0,4.9 2 ) Forventet respons for det første barn i data: bostot = 4.8 1.66 log 10 (92.2) 0.70 0 +... + 0.98 0 = 27.8 Observert bostot=21, Residual ǫ 1 =21 27.8 = 6.8 Prædiktionsusikkerhed: 95% prædiktionsinterval: forventet værdi ±1.96 4.9 = (18.2; 37.4) (her har vi ignoreret estimationsusikkerheden i regressionskoefficienterne)

Håndtering af gruppe-variable - brug factor > h <- lm(bostot ~ factor(grind),hg1) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 28.7679 0.4217 68.220 < 2e-16 *** factor(grind)1-1.3606 0.5462-2.491 0.01292 * factor(grind)2-1.5107 0.5658-2.670 0.00772 ** factor(grind)3-1.3100 0.7333-1.786 0.07438. factor(grind)4-2.4927 0.6151-4.053 5.52e-05 *** factor(grind)5-4.7679 3.1837-1.498 0.13461 factor(grind)6 3.2321 5.4820 0.590 0.55562 factor(grind)8-6.7679 2.7652-2.447 0.01458 * factor(grind)10-1.7679 3.8878-0.455 0.64943 Residual standard error: 5.466 on 859 degrees of freedom (49 observations deleted due to missingness) Multiple R-squared: 0.02582, Adjusted R-squared: 0.01674 F-statistic: 2.846 on 8 and 859 DF, p-value: 0.003997

Illustration af model med factor

Uden factor > h <- lm(bostot ~ grind,hg1) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 28.3203 0.2954 95.87 < 2e-16 *** grind -0.4969 0.1258-3.95 8.46e-05 *** Residual standard error: 5.466 on 866 degrees of freedom (49 observations deleted due to missingness) Multiple R-squared: 0.0177, Adjusted R-squared: 0.01656 F-statistic: 15.6 on 1 and 866 DF, p-value: 8.461e-05

Illustration: factor eller ej

Forskel på lungekapacitet i mænd og kvinder 32 patienter skal have foretaget hjerte/lunge transplantation tlc (Total Lung Capacity) bestemmes ved hjælp af helkrops plethysmografi Er der forskel på mænd og kvinder? sex age height tlc 1 35 149 3.40 1 11 138 3.41 2 12 148 3.80............ 1 20 162 8.05 2 25 180 8.10 2 22 173 8.70 2 25 171 9.45

Box plots total lung capacity 4 6 8 female male height 140 160 180 female male

> h <- lm(tlc ~ factor(sex),bone) > summary(h) Ujusteret sammenligning (t-test) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 5.1981 0.3428 15.164 1.31e-15 *** factor(sex)2 1.7787 0.4848 3.669 0.000939 *** Residual standard error: 1.371 on 30 degrees of freedom Multiple R-squared: 0.3098, Adjusted R-squared: 0.2868 F-statistic: 13.46 on 1 and 30 DF, p-value: 0.0009392

> h <- lm(height ~ factor(sex),bone) > summary(h) Mænd og kvinder er ikke lige høje Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 160.812 2.509 64.097 < 2e-16 *** factor(sex)2 13.250 3.548 3.734 0.000788 *** Residual standard error: 10.04 on 30 degrees of freedom Multiple R-squared: 0.3173, Adjusted R-squared: 0.2946 F-statistic: 13.95 on 1 and 30 DF, p-value: 0.0007879

Relation mellem tlc og height Højden er relateret til tlc og er derfor en confounder.

Model med både sex og height som kovariater MODEL: Y gi = α g + βx gi + ǫ gi g = 1,2; i = 1,..., n g Modellen tillader at responsen kan afhænge af både højde og køn. Modellen angiver altså to parallelle linjer (kovariansanalyse). Forskellen α 1 α 2 angiver forskellen i tlc mellem kvinder og mænd med samme højde (x).

Analyse i R > h <- lm(tlc ~ factor(sex)+height,bone) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -7.03443 3.40153-2.068 0.04766 * factor(sex)2 0.77086 0.49571 1.555 0.13078 height 0.07607 0.02108 3.609 0.00114 ** Efter korrektion for højde ligger mænd stadig over kvinder, men forskellen er ikke statistisk signifikant.

Hvem siger, at linjerne skal være parallelle? Vekselvirkning Mere generel model: y gi = α g + β g x gi + ǫ gi g = 1,2; i = 1,..., n g Når β 1 β 2, siger vi, at der er vekselvirkning, eller interaktion. Det betyder: Effekten af højde afhænger af kønnet Forskellen på kønnene afhænger af højden I tilfælde af vekselvirkning kan man altså ikke udtale sig om en generel effekt af højde eller om en generel kønsforskel. Ulla talte om vekselvirning i 2-sidet variansanalyse.

Vekselvirkning i R To mulighder >h <- lm(tlc ~ factor(sex)+height+factor(sex):height,bone) Vekselvirkningen modelleres altså ved at inddrage factor(sex):height > h <- lm(tlc ~ factor(sex)*height,bone) Vekselvirkningen modelleres altså ved at ersatte + med *

Vekselvirning - output > summary(h) Call: lm(formula = tlc ~ factor(sex) * height, data = bone) Residuals: Min 1Q Median 3Q Max -1.65193-0.82127-0.03884 0.62470 2.75770 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -7.555635 5.232018-1.444 0.1598 factor(sex)2 1.727664 7.221161 0.239 0.8127 height 0.079308 0.032483 2.442 0.0212 * factor(sex)2:height -0.005744 0.043242-0.133 0.8953 Residual standard error: 1.179 on 28 degrees of freedom Multiple R-squared: 0.524, Adjusted R-squared: 0.473 F-statistic: 10.28 on 3 and 28 DF, p-value: 9.896e-05

Hvor er de to linjer i outputtet? Som sædvanlig vælger R en reference gruppe (her sex=1, kvinder); for den gruppe kan linjen direkte aflæses tlc = 7.56 + 0.079 height der ses altså en positiv effekt af højde. Intercept og hældning for den anden gruppe (mænd) er angivet som forskelle til referencegruppen tlc = ( 7.56 + 1.72) + (0.079 0.006) height så her er effekten af højde mindre, men forskellen (0.006) ikke er statistisk signifikant (p=0.895) - hvilket betyder at effekten af højde kan antages at være ens i de to grupper - vekselvirkningen er ikke statistisk signifikant.

Scatterplot i R bone$tlc 4 5 6 7 8 9 female male 140 150 160 170 180 190 bone$height

R-kode til scatterplotet plot(bone$height,bone$tlc,pch=bone$sex) legend(locator(n=1),legend=c("female","male"),pch=1:2) female<-bone[bone$sex==1,] male<-bone[bone$sex==2,] f<-lm(tlc ~ height,female) m<-lm(tlc ~ height,male) abline(f) abline(m)

Mulige modeller

Om vekselvirkninger Involverer mindst 3 variable: effekten af x 1 på y afhænger af x 2 Ofte medtages disse led kun som modelkontrol: de testes og fjernes igen hvis de er insignifikante Råd til den uerfarne: medtag ikke for mange vekselvirkningsled. Start evt. med at lave en analyse uden vekselvirkning. Angiv og fortolk resultat. Herefter udvides modellen med relevante vekselvirkninger.

Færøske data: Afhænger Hg-effekten af PCB-niveauet? Fra tekst: The p-value for no effect modification was between 0.21 and 0.75, thus suggesting that no interaction occured. EBJ et al., Environmental health perspectives, 1999.

Illustration

Begrænsninger i multipel regression - kollinearitet Eks. O Neill et.al. (1983): Lungefunktion i 25 patienter med systisk fribrose

Hvilke forklarende variable har en marginal effekt på PE max? Nogle af disse effekter kan være artefakter opstået ved confounding. De kausale variable findes i en multipel model med alle kovariater

Model med alle kovariater lm(pemax~age+sex+height+weight+bmp+fev1+rv+frc+tlc,pemax) Parameter Standard Variable Estimate Error t Value Pr > t Intercept 176.05821 225.89116 0.78 0.4479 age -2.54196 4.80170-0.53 0.6043 sex -3.73678 15.45982-0.24 0.8123 height -0.44625 0.90335-0.49 0.6285 weight 2.99282 2.00796 1.49 0.1568 bmp -1.74494 1.15524-1.51 0.1517 fev1 1.08070 1.08095 1.00 0.3333 rv 0.19697 0.19621 1.00 0.3314 frc -0.30843 0.49239-0.63 0.5405 tlc 0.18860 0.49974 0.38 0.7112

Korrelerede kovariater Univariate analyser viste stærke effekter En multipel analyse fandt ingen effekter Hvordan kan det ske i de samme data? Når vi inkludere mange korrelerede kovariater i samme model, så falder styrken til at detektere effekter. For eksempel, vil der være begrænset information i data om effekten af en ændring i højde for fastholdt værdi af vægt, fordi når højden ændres vil vægten også have en tendens til at ændres. Højt korrelerede kovariater bør undgås. Dette fænomen kaldes kollinearitet

Illustration

Kollinearitet To eller flere kovariater er stærkt associeret. Konsekvenser: Nogle koefficienter har store standard errors R 2 er høj, men ingen af kovariaterne er signifikante Resultatet er ikke som forventet Resultatet ændres meget når en kovariat udelades Dårligt studie design. Nogle gange uundgåeligt.

Automatisk model-selektion Backward elimination start med at inkludere alle kovariaters, fjern kovariaten med den højeste p-værdi fit modellen igen fortsæt indtil alle variable er signifikante I eksemplet vælges: weight, bmp og fev1. Advarsel: Outputtet fra den valgte model tager ikke højde for modelusikkerheden. Effekten af de valgte kovariater overvurderes. Sådanne metoder bruges for ofte. F.eks ikke optimale til identifikation af confoundere (EBJ, 2007). Kan bruges til bestemmelse af en simpel model til prædiktion. Budtz-Jørgensen, E., Keiding, N., Grandjean, P., Weihe, P. Confounder Selection in Environmental Epidemiology: Assessment of Health Effects of Prenatal Mercury Exposure. Annals of Epidemiology 17, 27-35, 2007.

PCB-korrektion PCB koncentration målt i navlestreng men kun i halvdelen af børnene. (Median koncentration 2 ng/g). Hg and PCB er korrelerede: corr[log 10 (B-Hg), log 10 (PCB)] = 0.40, p < 0.0001 Respons: bostot Cord Blood Hg PCB β s.e. p β s.e. p 1.93 0.74 0.009 - - - - - - 1.55 0.71 0.029 1.54 0.83 0.063 0.89 0.80 0.27 Baseret på de separate analyser har begge variable en effekt. Hvis begge variable er inkluderet i samme model har ingen af variablene en effekt. Konklusion: mindst en af disse variable har en effekt, men det er svært at afgøre hvilken af dem det er. Dog ser det ud til at være Hg. I en backward eliminations procedure ville PCB blive udeladt. Det endelige resultat ville være givet ved 1. række.

Modelkontrol Model Y i = β 0 + β 1 X i1 + β 2 X i2 +... + β p X ip + ǫ where ǫ N(0, σ 2 ). Hvilke antagelser skal vi checke? linearitet varianshomogenitet i residualer normalfodelte residualer Bemærk: ingen krav om normalfordeling på kovariaterne

Residual plots Fittede værdier Ŷi = β 0 + β 1 X i1 + β 2 X i2 +... + β p X ip Residual ǫ i = Y i Ŷi Standardiserede residualer: standardiseret så variansen er 1 Plots (som for simpel lineær regression) : residualer vs kovariater: tester linearitet residualer vs fittede værdier: for at teste varianshomogenitet. En trompet-form indikerer en log-transformation [var{log(y )} var(y )/Y 2 ] Skal ikke vise nogen struktur

Boston Naming Test: Standardiseret residual vs fittet værdi

Boston Naming Test: Standardiseret residual vs Hg-koncentration

Test af linearitet: Polynomial regression Y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + ǫ Bemærk: relationen mellem X og Y er ikke lineær, men modellen er en multipel lineær regressionsmodel (Y er lineær i β-erne) Modellen kan fittes med lm. Man skal bare lave kovariaterne x 2, x 3. Test of linearitet: H 0 : β 2 = β 3 = 0 The model is tested against a more general (flexible) model. Modellen der antager en lineær sammenhæng mellem X og Y testes mod en mere generel model.

Test af linearitet Sammenhæng: prænatal Hg-eksponering og blodtryk Systolisk blodtryk (mmhg) regressers på barnets vægt (kg) og prænatal Hg-eksponering T for H0: Pr > T Std Error of Parameter Estimate Parameter=0 Estimate INTERCEPT 86.91645496 44.84 0.0001 1.93827135 WEIGHT 0.53336582 7.61 0.0001 0.07011630 LOGBHG 0.01320824 0.02 0.9856 0.73105266 Hg-effekt er klart insignifikant

Inklusion af led af højere orden h1 <- lm(bp1 ~ weight+logbhg+i(logbhg^2)+i(logbhg^3),hgbp) summary(h1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 71.95203 3.74180 19.229 < 2e-16 *** weight 0.55714 0.06971 7.992 4.23e-15 *** logbhg 34.15425 8.51041 4.013 6.51e-05 *** I(logbhg^2) -23.67909 7.07723-3.346 0.000856 *** I(logbhg^3) 4.91006 1.86543 2.632 0.008637 ** 2. og 3. gradsleddet er signifikante. Sammenhæng mellem bp1 og logbhg kan ikke antages at være lineær. Resultatet af den foregående analyse er derfor ugyldigt. Undersøg om problemet skyldes et enelte outliers. Lav en tegning af den estimerede relation: Beregn y = 34.2 logbhg 23.7 logbhg 2 + 4.9 logbhg 3 for hver person og plot y som en funktion of logbhg

Estimated dose-response function

Test for ingen Hg-effekt: anova h1 <- lm(bp1 ~ weight+logbhg+i(logbhg^2)+i(logbhg^3),hgbp) h2 <- lm(bp1 ~ weight,hgbp) anova(h2,h1) Model 1: bp1 ~ weight Model 2: bp1 ~ weight + logbhg + I(logbhg^2) + I(logbhg^3) Res.Df RSS Df Sum of Sq F Pr(>F) 1 867 55375 2 864 53891 3 1483.6 7.9286 3.211e-05 *** Bemærk: anova kan bruges til at teste flere kovariater væk på en gang. Her forkastets testet: Hg effekten er statistisk signifikant

Indflydelsesrige observationer Leverage i : måler hvor ekstremt kovariatværdierne for den i te observation er. (One covariate: h ii = 1/n + (x i x) 2 /Σ j (x j x) 2 ) Cooks D i : måler hvor meget all regresionskoefficenterne ændres hvis i te observation udelades dfbeta i : måler hvor meget en specifik regresionskoefficent ændres hvis i te observation udelades dfbeta i = [ β β (i) ]/s.e.( β) β (i) : coefficient without i th observation

Hvornår skal man transformere sine kovariater? Når relationen melle x and y ikke er lineær: transformer x (or y) Hvorfor blev B-Hg log-transformet når log-modellen ikke fitter meget bedre end den lineære model?

Leverage

dfbeta

Sammenfatning multipel regression: flere kovariater påvirker en kontinuert respons herved korrigeres for confounding specialtilfælde: t-test, ANOVA, simpel regression kollinearitet: kovariater er korrelerede styrken går ned vekselvirkning: en kovariats effekt på responsen afhænger at niveauet af en anden kovariat fint nok, men min respons er 0/1: så skal du bruge multipel logistisk regression. Susanne R næste gang.