Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben Budtz-Jørgensen Biostatistisk Afdeling, Københavns Universitet
Grinde hvaler
Study Design EXPOSURE: 1. Cord Blood Mercury 2. Maternal Hair Mercury 3. Maternal Seafood Intake RESPONSE: Neuropsychological Tests Age: Calendar: Children: Birth 1986-87 1022 7 Years 1993-94 917
Neuropsykologisk Testing
Boston Naming Test
Scatterplots: Boston Naming vs Hg-koncentration hg1$bostot 10 20 30 40 hg1$bostot 10 20 30 40 0 50 100 150 200 250 300 350 hg1$bhg 1 2 5 10 20 50 100 200 hg1$bhg plot(hg1$bhg,hg1$bostot) plot(hg1$bhg,hg1$bostot,log="x") Svag sammenhæng mellem barnets score og Hg-eksponering Enkelte højt eksponerede bliver meget indflydelsesrige hvis jeg ikke bruger log-transformation.
Logaritme transformation eller ej? Jeg vil lave en regression af barnets score på eksponeringen. Men skal jeg logaritmetransformere Hg-koncentrationerne? To mulige modeller Model 1: bostot = α + βb-hg + ǫ Model 2: bostot = α + β log 10 (B-Hg) + ǫ
Hvilken model beskriver bedst sammenhængen i data? Modellerne beskriver data lige godt, men jeg vælger log-transformationen fordi jeg hermed undgår at enkelte højt eksponerede børn får meget stor indflydelse.
Fortolkning af regressionskoefficienten β Model: bostot = α + β log 10 (B-Hg) + ǫ where ǫ N(0, σ 2 ). β: ændring i respons når log 10 (B-Hg) vokser med 1. log 10 (B-Hg 1 ) log 10 (B-Hg 0 ) = log 10 ( B-Hg 1 B-Hg 0 ) = 1 B-Hg 1 B-Hg 0 = 10 1 = 10 β: ændring i respons når koncentrationen B-Hg 10-dobles
h <- lm(bostot ~ logbhg,hg1) summary(h) Regressionsanalyse i R Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 30.8615 0.7173 43.027 < 2e-16 *** logbhg -2.5458 0.5081-5.011 6.61e-07 *** Residual standard error: 5.455 on 847 degrees of freedom (68 observations deleted due to missingness) Multiple R-squared: 0.02879, Adjusted R-squared: 0.02764 F-statistic: 25.11 on 1 and 847 DF, p-value: 6.608e-07 Fortolkning af resultat: når logbhg vokser med 1 falder Boston Naming scoren med 2.55. Eller mere relevant: Når B-Hg 10-dobles falder Boston Naming scoren med 2.55. Effekten er stærkt signifikant (p<0.05).
Confounding Hg-eksponering Morens intelligens 1. intelligente mødre får intelligente børn Barnets score 2. børn med intelligente mødre har lavere Hg-eksponering I simpel lineær regression ignorerer vi confounderen maternel intelligens og over-estimerer Hg s skadelige effekt. Højt eksponerede børn klarer sig dårligt også fordi deres mødre er mindre intelligente. Ideelt, ville vi sammenligne børn med forskellig grad af eksponering, men med samme værdi af maternel intelligens.
Multipel regression analyse MEGET nyttig modelklasse som tillader at responsen kan afhænge af mere end en kovariat. Kovariaterne: kontinuerte eller gruppe-variable Responsen: skal være kontinuert. Næste gang: logistisk regression hvor responsen er 0/1.
Multipel regression analyse, II DATA: n individer, p forklarende variable + en respons: subject x 1...x p y 1 x 11...x 1p y 1 2 x 21...x 2p y 2 3 x 31...x 3p y 3........ n x n1...x np y n Den multiple lineære regressions model med p kovariater: y i = β 0 + β 1 x i1 + + β p x ip + ε i respons middelværdi funktion biologisk variation Parametre β 0 β 1,, β p intercept regressionskoefficienter
Multipel regression, 2 kontinuerte kovariater y i = β 0 + β 1 x i1 + β p x i2 + ε i, i = 1,, n Antagelse: ε i N(0, σ 2 ), uafhængige Estimation: Hvilket plan i rummet ligger tættest på data?
Fortolkning af regressionskoefficienterne β Model Y i = β 0 + β 1 X i1 + β 2 X i2 + ǫ hvor ǫ N(0, σ 2 ) Eks. Y: blodtryk X 1 : alder X 2 : vægt Betragt to individer: A har kovariatværdier (35,75); B har kovariatværdier (36,75) Forventet forskel i blodtryk (B A) β 0 + β 1 36 + β 2 75 [β 0 + β 1 35 + β 2 75] = β 1 β 1 : ændring i blodtryk når X 1 forøges med en enhed og de andre kovariater holdes uændret Bemærk, at effekten ikke afhænger af udgangspunktet for X 1 (her 35). Uanset hvor vi starter, er effekten af en forøgelse på en enhed den samme. Sammenhængen er lineær. Bemærk også, at effekten ikke afhænger af niveauet af X 2 (her 75). Effekten af en ændring i X 1 på en enhed er den samme for alle værdier af X 2. Dette kan ændres med et vekselvirkningsled.
Fortolkning af regression koefficienterne: Hg-effekten Simpel regression: Y = α + β log 10 (B-Hg) + ǫ β: forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg) på en, dvs hvor det en barn har en Hg-koncentration der er 10 gange større Multipel regression: Y = α + β log 10 (B-Hg) + β 1 X 1 +... + β p X p + ǫ β: forventet forskel i neuro-score mellem to børn med en forskel i log 10 (B-Hg) på en, men som er ens på de øvrige kovariater (køn, maternel intelligens,...) Vi har justeret for effekten af de andre kovariater. Det er vigtigt at justere for variable der er associeret med både eksponering og respons.
Multipel regression i R > h <- lm(bostot ~ logbhg+ kon + age+ risk+ childcar+ mattrain+ pattrain+ + patempl +raven+town71,hg1) Det kunne ikke være lettere: kovariaterne skrives på højre-siden med plusser imellem.
R-output - Boston Naming Test > summary(h) Call: lm(formula = bostot ~ logbhg + kon + age + risk + childcar + mattrain + pattrain + patempl + raven + town71, data = hg1) Residuals: Min 1Q Median 3Q Max -18.4391-2.6519 0.1869 3.2275 15.8037
Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -6.06855 4.08034-1.487 0.137349 logbhg -1.69835 0.49644-3.421 0.000656 *** kon -0.70928 0.35080-2.022 0.043530 * age 4.35370 0.55633 7.826 1.64e-14 *** risk -1.70229 0.49913-3.411 0.000682 *** childcar 1.61980 0.37801 4.285 2.06e-05 *** mattrain 0.95720 0.38910 2.460 0.014108 * pattrain 0.99168 0.41436 2.393 0.016934 * patempl 0.83446 0.47609 1.753 0.080039. raven 0.08981 0.02308 3.892 0.000108 *** town71 0.98736 0.39414 2.505 0.012444 * Residual standard error: 4.907 on 780 degrees of freedom (126 observations deleted due to missingness) Multiple R-squared: 0.2112, Adjusted R-squared: 0.2011 F-statistic: 20.89 on 10 and 780 DF, p-value: < 2.2e-16
Var Hg-effekten virkelig signifikant? Eksponeringer blev grupperet og gennemsnittet af bostot beregnet i hver gruppe
> h <- lm(digwf ~ logbhg,hg1) > summary(h) Samme analyse - Digit Spans (digwf) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 4.2776 0.1890 22.635 <2e-16 *** logbhg -0.3328 0.1341-2.482 0.0133 * Også her ses en signifikant skadelig Hg-effekt
> h <- lm(digwf ~ logbhg+ kon + age+ risk+ childcar+ mattrain+ pattrain+ + patempl +raven+town71,hg1) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.429049 1.170661-0.367 0.7141 logbhg -0.208496 0.142175-1.466 0.1429 kon 0.426334 0.100271 4.252 2.37e-05 *** age 0.381959 0.159984 2.387 0.0172 * risk -0.190137 0.144468-1.316 0.1885 childcar 0.116431 0.107987 1.078 0.2813 mattrain 0.075268 0.110911 0.679 0.4976 pattrain 0.090527 0.118287 0.765 0.4443 patempl 0.108780 0.136872 0.795 0.4270 raven 0.021700 0.006572 3.302 0.0010 ** town71 0.139283 0.112358 1.240 0.2155 Efter korrektion forsvinder effekten
Prædiktion Estimeret model: bostot = 4.8 1.66 log 10 (B-Hg) i 0.70 SEX i +...+0.98 TOWN7 i +ǫ, ǫ N(0,4.9 2 ) Forventet respons for det første barn i data: bostot = 4.8 1.66 log 10 (92.2) 0.70 0 +... + 0.98 0 = 27.8 Observert bostot=21, Residual ǫ 1 =21 27.8 = 6.8 Prædiktionsusikkerhed: 95% prædiktionsinterval: forventet værdi ±1.96 4.9 = (18.2; 37.4) (her har vi ignoreret estimationsusikkerheden i regressionskoefficienterne)
Håndtering af gruppe-variable - brug factor > h <- lm(bostot ~ factor(grind),hg1) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 28.7679 0.4217 68.220 < 2e-16 *** factor(grind)1-1.3606 0.5462-2.491 0.01292 * factor(grind)2-1.5107 0.5658-2.670 0.00772 ** factor(grind)3-1.3100 0.7333-1.786 0.07438. factor(grind)4-2.4927 0.6151-4.053 5.52e-05 *** factor(grind)5-4.7679 3.1837-1.498 0.13461 factor(grind)6 3.2321 5.4820 0.590 0.55562 factor(grind)8-6.7679 2.7652-2.447 0.01458 * factor(grind)10-1.7679 3.8878-0.455 0.64943 Residual standard error: 5.466 on 859 degrees of freedom (49 observations deleted due to missingness) Multiple R-squared: 0.02582, Adjusted R-squared: 0.01674 F-statistic: 2.846 on 8 and 859 DF, p-value: 0.003997
Illustration af model med factor
Uden factor > h <- lm(bostot ~ grind,hg1) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 28.3203 0.2954 95.87 < 2e-16 *** grind -0.4969 0.1258-3.95 8.46e-05 *** Residual standard error: 5.466 on 866 degrees of freedom (49 observations deleted due to missingness) Multiple R-squared: 0.0177, Adjusted R-squared: 0.01656 F-statistic: 15.6 on 1 and 866 DF, p-value: 8.461e-05
Illustration: factor eller ej
Forskel på lungekapacitet i mænd og kvinder 32 patienter skal have foretaget hjerte/lunge transplantation tlc (Total Lung Capacity) bestemmes ved hjælp af helkrops plethysmografi Er der forskel på mænd og kvinder? sex age height tlc 1 35 149 3.40 1 11 138 3.41 2 12 148 3.80............ 1 20 162 8.05 2 25 180 8.10 2 22 173 8.70 2 25 171 9.45
Box plots total lung capacity 4 6 8 female male height 140 160 180 female male
> h <- lm(tlc ~ factor(sex),bone) > summary(h) Ujusteret sammenligning (t-test) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 5.1981 0.3428 15.164 1.31e-15 *** factor(sex)2 1.7787 0.4848 3.669 0.000939 *** Residual standard error: 1.371 on 30 degrees of freedom Multiple R-squared: 0.3098, Adjusted R-squared: 0.2868 F-statistic: 13.46 on 1 and 30 DF, p-value: 0.0009392
> h <- lm(height ~ factor(sex),bone) > summary(h) Mænd og kvinder er ikke lige høje Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 160.812 2.509 64.097 < 2e-16 *** factor(sex)2 13.250 3.548 3.734 0.000788 *** Residual standard error: 10.04 on 30 degrees of freedom Multiple R-squared: 0.3173, Adjusted R-squared: 0.2946 F-statistic: 13.95 on 1 and 30 DF, p-value: 0.0007879
Relation mellem tlc og height Højden er relateret til tlc og er derfor en confounder.
Model med både sex og height som kovariater MODEL: Y gi = α g + βx gi + ǫ gi g = 1,2; i = 1,..., n g Modellen tillader at responsen kan afhænge af både højde og køn. Modellen angiver altså to parallelle linjer (kovariansanalyse). Forskellen α 1 α 2 angiver forskellen i tlc mellem kvinder og mænd med samme højde (x).
Analyse i R > h <- lm(tlc ~ factor(sex)+height,bone) > summary(h) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -7.03443 3.40153-2.068 0.04766 * factor(sex)2 0.77086 0.49571 1.555 0.13078 height 0.07607 0.02108 3.609 0.00114 ** Efter korrektion for højde ligger mænd stadig over kvinder, men forskellen er ikke statistisk signifikant.
Hvem siger, at linjerne skal være parallelle? Vekselvirkning Mere generel model: y gi = α g + β g x gi + ǫ gi g = 1,2; i = 1,..., n g Når β 1 β 2, siger vi, at der er vekselvirkning, eller interaktion. Det betyder: Effekten af højde afhænger af kønnet Forskellen på kønnene afhænger af højden I tilfælde af vekselvirkning kan man altså ikke udtale sig om en generel effekt af højde eller om en generel kønsforskel. Ulla talte om vekselvirning i 2-sidet variansanalyse.
Vekselvirkning i R To mulighder >h <- lm(tlc ~ factor(sex)+height+factor(sex):height,bone) Vekselvirkningen modelleres altså ved at inddrage factor(sex):height > h <- lm(tlc ~ factor(sex)*height,bone) Vekselvirkningen modelleres altså ved at ersatte + med *
Vekselvirning - output > summary(h) Call: lm(formula = tlc ~ factor(sex) * height, data = bone) Residuals: Min 1Q Median 3Q Max -1.65193-0.82127-0.03884 0.62470 2.75770 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -7.555635 5.232018-1.444 0.1598 factor(sex)2 1.727664 7.221161 0.239 0.8127 height 0.079308 0.032483 2.442 0.0212 * factor(sex)2:height -0.005744 0.043242-0.133 0.8953 Residual standard error: 1.179 on 28 degrees of freedom Multiple R-squared: 0.524, Adjusted R-squared: 0.473 F-statistic: 10.28 on 3 and 28 DF, p-value: 9.896e-05
Hvor er de to linjer i outputtet? Som sædvanlig vælger R en reference gruppe (her sex=1, kvinder); for den gruppe kan linjen direkte aflæses tlc = 7.56 + 0.079 height der ses altså en positiv effekt af højde. Intercept og hældning for den anden gruppe (mænd) er angivet som forskelle til referencegruppen tlc = ( 7.56 + 1.72) + (0.079 0.006) height så her er effekten af højde mindre, men forskellen (0.006) ikke er statistisk signifikant (p=0.895) - hvilket betyder at effekten af højde kan antages at være ens i de to grupper - vekselvirkningen er ikke statistisk signifikant.
Scatterplot i R bone$tlc 4 5 6 7 8 9 female male 140 150 160 170 180 190 bone$height
R-kode til scatterplotet plot(bone$height,bone$tlc,pch=bone$sex) legend(locator(n=1),legend=c("female","male"),pch=1:2) female<-bone[bone$sex==1,] male<-bone[bone$sex==2,] f<-lm(tlc ~ height,female) m<-lm(tlc ~ height,male) abline(f) abline(m)
Mulige modeller
Om vekselvirkninger Involverer mindst 3 variable: effekten af x 1 på y afhænger af x 2 Ofte medtages disse led kun som modelkontrol: de testes og fjernes igen hvis de er insignifikante Råd til den uerfarne: medtag ikke for mange vekselvirkningsled. Start evt. med at lave en analyse uden vekselvirkning. Angiv og fortolk resultat. Herefter udvides modellen med relevante vekselvirkninger.
Færøske data: Afhænger Hg-effekten af PCB-niveauet? Fra tekst: The p-value for no effect modification was between 0.21 and 0.75, thus suggesting that no interaction occured. EBJ et al., Environmental health perspectives, 1999.
Illustration
Begrænsninger i multipel regression - kollinearitet Eks. O Neill et.al. (1983): Lungefunktion i 25 patienter med systisk fribrose
Hvilke forklarende variable har en marginal effekt på PE max? Nogle af disse effekter kan være artefakter opstået ved confounding. De kausale variable findes i en multipel model med alle kovariater
Model med alle kovariater lm(pemax~age+sex+height+weight+bmp+fev1+rv+frc+tlc,pemax) Parameter Standard Variable Estimate Error t Value Pr > t Intercept 176.05821 225.89116 0.78 0.4479 age -2.54196 4.80170-0.53 0.6043 sex -3.73678 15.45982-0.24 0.8123 height -0.44625 0.90335-0.49 0.6285 weight 2.99282 2.00796 1.49 0.1568 bmp -1.74494 1.15524-1.51 0.1517 fev1 1.08070 1.08095 1.00 0.3333 rv 0.19697 0.19621 1.00 0.3314 frc -0.30843 0.49239-0.63 0.5405 tlc 0.18860 0.49974 0.38 0.7112
Korrelerede kovariater Univariate analyser viste stærke effekter En multipel analyse fandt ingen effekter Hvordan kan det ske i de samme data? Når vi inkludere mange korrelerede kovariater i samme model, så falder styrken til at detektere effekter. For eksempel, vil der være begrænset information i data om effekten af en ændring i højde for fastholdt værdi af vægt, fordi når højden ændres vil vægten også have en tendens til at ændres. Højt korrelerede kovariater bør undgås. Dette fænomen kaldes kollinearitet
Illustration
Kollinearitet To eller flere kovariater er stærkt associeret. Konsekvenser: Nogle koefficienter har store standard errors R 2 er høj, men ingen af kovariaterne er signifikante Resultatet er ikke som forventet Resultatet ændres meget når en kovariat udelades Dårligt studie design. Nogle gange uundgåeligt.
Automatisk model-selektion Backward elimination start med at inkludere alle kovariaters, fjern kovariaten med den højeste p-værdi fit modellen igen fortsæt indtil alle variable er signifikante I eksemplet vælges: weight, bmp og fev1. Advarsel: Outputtet fra den valgte model tager ikke højde for modelusikkerheden. Effekten af de valgte kovariater overvurderes. Sådanne metoder bruges for ofte. F.eks ikke optimale til identifikation af confoundere (EBJ, 2007). Kan bruges til bestemmelse af en simpel model til prædiktion. Budtz-Jørgensen, E., Keiding, N., Grandjean, P., Weihe, P. Confounder Selection in Environmental Epidemiology: Assessment of Health Effects of Prenatal Mercury Exposure. Annals of Epidemiology 17, 27-35, 2007.
PCB-korrektion PCB koncentration målt i navlestreng men kun i halvdelen af børnene. (Median koncentration 2 ng/g). Hg and PCB er korrelerede: corr[log 10 (B-Hg), log 10 (PCB)] = 0.40, p < 0.0001 Respons: bostot Cord Blood Hg PCB β s.e. p β s.e. p 1.93 0.74 0.009 - - - - - - 1.55 0.71 0.029 1.54 0.83 0.063 0.89 0.80 0.27 Baseret på de separate analyser har begge variable en effekt. Hvis begge variable er inkluderet i samme model har ingen af variablene en effekt. Konklusion: mindst en af disse variable har en effekt, men det er svært at afgøre hvilken af dem det er. Dog ser det ud til at være Hg. I en backward eliminations procedure ville PCB blive udeladt. Det endelige resultat ville være givet ved 1. række.
Modelkontrol Model Y i = β 0 + β 1 X i1 + β 2 X i2 +... + β p X ip + ǫ where ǫ N(0, σ 2 ). Hvilke antagelser skal vi checke? linearitet varianshomogenitet i residualer normalfodelte residualer Bemærk: ingen krav om normalfordeling på kovariaterne
Residual plots Fittede værdier Ŷi = β 0 + β 1 X i1 + β 2 X i2 +... + β p X ip Residual ǫ i = Y i Ŷi Standardiserede residualer: standardiseret så variansen er 1 Plots (som for simpel lineær regression) : residualer vs kovariater: tester linearitet residualer vs fittede værdier: for at teste varianshomogenitet. En trompet-form indikerer en log-transformation [var{log(y )} var(y )/Y 2 ] Skal ikke vise nogen struktur
Boston Naming Test: Standardiseret residual vs fittet værdi
Boston Naming Test: Standardiseret residual vs Hg-koncentration
Test af linearitet: Polynomial regression Y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + ǫ Bemærk: relationen mellem X og Y er ikke lineær, men modellen er en multipel lineær regressionsmodel (Y er lineær i β-erne) Modellen kan fittes med lm. Man skal bare lave kovariaterne x 2, x 3. Test of linearitet: H 0 : β 2 = β 3 = 0 The model is tested against a more general (flexible) model. Modellen der antager en lineær sammenhæng mellem X og Y testes mod en mere generel model.
Test af linearitet Sammenhæng: prænatal Hg-eksponering og blodtryk Systolisk blodtryk (mmhg) regressers på barnets vægt (kg) og prænatal Hg-eksponering T for H0: Pr > T Std Error of Parameter Estimate Parameter=0 Estimate INTERCEPT 86.91645496 44.84 0.0001 1.93827135 WEIGHT 0.53336582 7.61 0.0001 0.07011630 LOGBHG 0.01320824 0.02 0.9856 0.73105266 Hg-effekt er klart insignifikant
Inklusion af led af højere orden h1 <- lm(bp1 ~ weight+logbhg+i(logbhg^2)+i(logbhg^3),hgbp) summary(h1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 71.95203 3.74180 19.229 < 2e-16 *** weight 0.55714 0.06971 7.992 4.23e-15 *** logbhg 34.15425 8.51041 4.013 6.51e-05 *** I(logbhg^2) -23.67909 7.07723-3.346 0.000856 *** I(logbhg^3) 4.91006 1.86543 2.632 0.008637 ** 2. og 3. gradsleddet er signifikante. Sammenhæng mellem bp1 og logbhg kan ikke antages at være lineær. Resultatet af den foregående analyse er derfor ugyldigt. Undersøg om problemet skyldes et enelte outliers. Lav en tegning af den estimerede relation: Beregn y = 34.2 logbhg 23.7 logbhg 2 + 4.9 logbhg 3 for hver person og plot y som en funktion of logbhg
Estimated dose-response function
Test for ingen Hg-effekt: anova h1 <- lm(bp1 ~ weight+logbhg+i(logbhg^2)+i(logbhg^3),hgbp) h2 <- lm(bp1 ~ weight,hgbp) anova(h2,h1) Model 1: bp1 ~ weight Model 2: bp1 ~ weight + logbhg + I(logbhg^2) + I(logbhg^3) Res.Df RSS Df Sum of Sq F Pr(>F) 1 867 55375 2 864 53891 3 1483.6 7.9286 3.211e-05 *** Bemærk: anova kan bruges til at teste flere kovariater væk på en gang. Her forkastets testet: Hg effekten er statistisk signifikant
Indflydelsesrige observationer Leverage i : måler hvor ekstremt kovariatværdierne for den i te observation er. (One covariate: h ii = 1/n + (x i x) 2 /Σ j (x j x) 2 ) Cooks D i : måler hvor meget all regresionskoefficenterne ændres hvis i te observation udelades dfbeta i : måler hvor meget en specifik regresionskoefficent ændres hvis i te observation udelades dfbeta i = [ β β (i) ]/s.e.( β) β (i) : coefficient without i th observation
Hvornår skal man transformere sine kovariater? Når relationen melle x and y ikke er lineær: transformer x (or y) Hvorfor blev B-Hg log-transformet når log-modellen ikke fitter meget bedre end den lineære model?
Leverage
dfbeta
Sammenfatning multipel regression: flere kovariater påvirker en kontinuert respons herved korrigeres for confounding specialtilfælde: t-test, ANOVA, simpel regression kollinearitet: kovariater er korrelerede styrken går ned vekselvirkning: en kovariats effekt på responsen afhænger at niveauet af en anden kovariat fint nok, men min respons er 0/1: så skal du bruge multipel logistisk regression. Susanne R næste gang.