Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Transkript

1 Faculty of Health Sciences Simpel lineær regression Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 10. oktober 2017 Multipel regression Regression med to kvantitative kovariater: Eksempel om ultralyd Eksempel om fedme hos børn Selektion, modelvalg Modelkontrol Diagnostics Hjemmesider: : Siden er lidt teknisk 1 / 83 2 / 83 Multipel regression Problemstillinger ved multipel regression Ét outcome, mange forklarende variable Vi har allerede set eksempler på dette: Sammenligning af vægt for mænd og kvinder, korrigeret for højde Vurdering af skuldersmerter efter to behandlinger, korrigeret for baseline smerter Effekt af P-piller på hormon-niveauet, med korrektion for alder I begge disse situationer havde vi netop to kovariater: Én kvantitativ (højde, baseline smerter) Én kategorisk kovariat (køn, behandling) Prediktion: Konstruktion af normalområde til diagnostisk brug (som i eksemplet om ultralyds scanning, s. 5) Udredning af årsagssammenhænge, til brug for interventioner (mere som eksemplet s. 36ff) Videnskabelig indsigt, f.eks. eksemplet om P-pillers indvirkning på hormoner, fra sidste forelæsning 3 / 83 4 / 83

2 Eksempel med to kvantitative kovariater 107 kvinder er blevet ultralyds scannet få dage inden fødslen, og der ønskes etableret en prediktion af fostervægt/fødselsvægt ud fra BPD (hoved-diameter) og AD (maveomfang). Data er: OBS VAEGT BPD AD Kilde: Secher, N.J., Århus Kommunehospital 5 / 83 Multipel regression DATA: n personer, dvs. n sæt af sammenhørende observationer: person x 1... x p y 1 x x 1p y 1 2 x x 2p y 2 3 x x 3p y n x n1... x np y n Den lineære regressionsmodel med p forklarende variable skrives: Parametre: β 0 β 1,, β p 6 / 83 y = β 0 + β 1 x β p x p + ε afskæring, intercept regressionskoefficienter Grafik er lidt vanskelig, her et forsøg på 3-dimensionalt plot: proc g3d; scatter bpd*ad=vaegt / shape= pillar size=0.5; Middelværdistruktur β 0 + β 1 x β p x p SPSS, se separat appendix, s. 3 Mindste kvadraters metode: Minimer størrelsen S(β 0, β 1,, β p ) = (y i β 0 β 1 x i1 β p x ip ) 2 7 / 83 8 / 83

3 Multipel regression uden transformation Fortolkning af output proc reg data=secher; model vaegt=ad bpd / clb; med output: Dependent Variable: vaegt Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 bpd <.0001 ad <.0001 med fortolkning på næste side 9 / 83 SPSS, se separat appendix, s. 4 Stærk signifikant effekt af begge kovariater (P < ) Hvis vi sammenligner to fostre med samme AD, men hvor foster A har en BPD, der er 1mm større end foster B, så vil vi forvente, at A vejer 37.1g mere end B Hvis vi sammenligner to fostre med samme BPD, men hvor foster A har en AD, der er 1mm større end foster B, så vil vi forvente, at A vejer 39.8g mere end B Root MSE=306.57, så usikkerheden på prediktionen af fødselsvægt er ± g, altså ganske betragtelig (næsten til lagkage) Variationskoefficienten er 11.2% / 83 Modelkontrol Grafisk modelkontrol: residualer Hvilke antagelser skal vi checke? Uafhængighed: Tænk: Er der flere observationer på hvert individ? Søskende el.lign? Linearitet i begge kovariater Varianshomogenitet (residualer har samme spredning) Normalfordelte residualer Obs: Intet krav om normalfordeling på kovariaterne!! Der er 4 typer residualer at vælge imellem: 1. De sædvanlige (r=) = observeret - fittet værdi: ˆε i = y i ŷ i 2. student: de sædvanlige, normeret med spredning 3. press: observeret minus predikteret, men i en model, hvor den aktuelle observation har været udeladt i estimationsprocessen 4. rstudent: normerede Press-residualer Alle disse kan fås i nyt datasæt ved at skrive (se også s. 77): output out=ny p=yhat cookd=cook r=resid student=stresid press=press rstudent=uresid; SPSS, se separat appendix, s / / 83

4 Hvilke residualer skal man benytte? Residualplots til modelkontrol Fordele og ulemper Rart med residualer, der bevarer enhederne (type 1 og 3) Lettest at finde outliers, når observationerne udelades en ad gangen (type 3 og 4) Bedst at normere, når observationen selv er med og man ikke kan tegne rådata, dvs. for multipel regression bør man nok foretrække type 2 for type 1 (eller se på begge) Residualer (af passende type) plottes mod 1. den forklarende variabel x i for at checke linearitet (se efter krumninger, buer) 2. de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) 3. fraktildiagram eller histogram for at checke normalfordelingsantagelsen (se efter afvigelse fra en ret linie) Disse plots ses på s. 16 og 17, og kommenteres s / / 83 Residualplots i praksis Residualplots: Diagnostics Panel En del modelkontroltegninger (faktisk alle de nævnte fra forrige side) fås automatisk i SAS ved at benytte ods graphics: proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=secher; Et bedre check af varianshomogeniteten er dog et plot af kvadratroden af den numeriske værdi af normerede residualer, mod de predikterede værdier, eller mod de forklarende variable (se noterne til den simple regression fra tidligere, s. 54): Disse specialplots ses på side 18 SPSS, se separat appendix, s / / 83

5 Residualplots mod kovariater, med indlagte udglattede kurver (Loess-kurver): Specialplots til vurdering af konstant spredning som beskrevet s. 15 SPSS, se separat appendix, s / / 83 Vurdering af modellen Analyse af logaritmerede data Normalfordelingen halter en anelse, med nogle enkelte ret store positive afvigelser, hvilket kunne tale for at logaritmetransformere vægten. Måske lidt trompetfacon i plot af residualer mod predikterede værdier, men husk på, at observationerne ikke er ligeligt fordelt over x-aksen. Figuren s. 18 viser ingen oplagte tendenser. Linearitet er ikke helt god, men det skyldes hovedsageligt de tidligst fødte børn. Teoretiske argumenter fra den faglige ekspertice foreslår en samtidig logaritmetransformation af såvel outcome som kovariater 19 / 83 Vi benytter forskellige logaritmer til outcome og kovariater: logvaegt=log(vaegt); logbpd=log(bpd/90)/log(1.1); /* 1 enhed er 10% */ logad=log(ad/100)/log(1.1); /* mere om dette s. 22 og 25 */ Koden svarende til s. 9 (se også s. 78) giver outputtet: Dependent Variable: logvaegt Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 logad <.0001 logbpd <.0001 Variable DF 95% Confidence Limits Intercept logad logbpd SPSS, se separat appendix, s / 83

6 Fortolkning af resultater Fortolkning af resultater, fortsat Stærkt signifikant effekt af begge kovariater (P < ) Hvis vi sammenligner to fostre med samme AD, men hvor foster A har en BPD, der er 10% større end foster B, så vil vi forvente, at A vejer exp( ) = 1.16 gange så meget som B, dvs. 16% mere. Hvis vi sammenligner to fostre med samme BPD, men hvor foster A har en AD, der er der er 10% større end foster B, så vil vi forvente, at A vejer exp( ) = 1.15 gange så meget som B, dvs. 15% mere. Root MSE= , så usikkerheden på prediktionen af log(fødselsvægt) er ± = , svarende til faktorerne (exp( ), exp( )) = (0.808, 1.238), altså en variation gående fra -19.2% op til +23.8%, igen en ganske betragtelig biologisk variation. Bemærk asymmetrien i denne kvantificering! Bemærk, at vi i denne model har konstant relativ usikkerhed. Variationskoefficienten kan faktisk nu aflæses som Root MSE, fordi vi arbejder med naturlige logaritmer. Vi finder tallet (se s. 20), svarende til CV=10.7% 21 / / 83 Residualplots for transformerede data Residualplots for transformerede data, II Her ses ikke de store ændringer fra s , så vi skipper de sidste modelkontroltegninger 23 / / 83

7 Sammenligning af modeller nemlig de to marginale modeller (hver med sin kovariat) og den multiple regressionsmodel: Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes): Intercept β 1 (logbpd) β 2 (logad) s R (0.019) (0.011) (0.022) (0.014) Bemærk fortolkningen af interceptet: På grund af konstruktionen af logbpd og logad på s. 20, svarer interceptet til den forventede fødselsvægt for et barn med bpd=90 og ad= / 83 Fortolkning af koefficienter f.eks. effekten af bpd: Marginal model: Ændringen i logvaegt, når kovariaten logbpd ændres 1 enhed, dvs. når bpd øges med 10% Multipel regressionsmodel Ændringen i logvaegt, når kovariaten logbpd ændres 1 enhed, men hvor alle andre kovariater (her kun ad) holdes fast 26 / 83 I sidstnævnte situation siger vi, at vi har korrigeret for effekten af de andre kovariater i modellen. Forskellen kan være markant, fordi kovariaterne typisk er relaterede: Når en af dem ændres, ændres de andre også Goodness-of-fit mål: R-i-anden Fittede = predikterede værdier R 2 = Sum Sq(Model) Sum Sq(Total) Hvor stor en del af variationen kan forklares af modellen? Her finder vi , dvs % (se s. 20) Dette mål har Fortolkningsproblemer når kovariaterne er styret (ganske som for korrelationskoefficienten) R 2 stiger med antallet af kovariater selv hvis disse er uden betydning! Derfor ser man ofte i stedet på Adjusted R 2 : R adj 2 Mean Sq(Residual) = 1 Mean Sq(Total), (her , se s. 20) kan udregnes som (se s. 20) log(vaegt) = logad logbpd vaegt = ad 1.47 bpd 1.55 I praksis vil man dog benytte en output-sætning: output out=ny p=yhat cookd=cook r=resid student=stresid press=press rstudent=uresid; således at de predikterede værdier bliver lagt som variablen yhat i datasættet ny (SPSS: se app. s. 5) 27 / / 83

8 Prediktioner til brug for illustrationer Predikterede værdier Tilføj de fiktive personer, man gerne vil prediktere outcome for Angiv deres kovariatværdier, med tilhørende missing value for outcome Predikter outcome i nyt datasæt Tilbagetransformer til original skala Tegn De fiktive personer har ingen indflydelse på estimation i modellen, da de mangler outcome-værdier Se eksempelvis kode s , der danner figurerne s. 30 SPSS, se separat appendix, s På logaritmisk skala: Tilbagetransformeret til oprindelig skala: 29 / / 83 Regression diagnostics Regression diagnostics, fortsat Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Leverage = potentiel indflydelse (hat-matrix, i SAS kaldet Hat Diag eller H) Hvis der kun er én kovariat er det simpelt: h ii = 1 n + (x i x) 2 S xx Observationer med ekstreme x-værdier kan have stor indflydelse på resultaterne, men de har det ikke nødvendigvis! ikke hvis de ligger pænt i forhold til regressionslinien, dvs. har et lille residual, så derfor...--> 31 / 83 Udelad den i te person og find nye estimater for regressionskoefficienterne Udregn Cook s afstand, et samlet mål for ændringen i parameterestimaterne Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se er ændres f.eks. ˆβ1, når den i te person udelades? Se kode s. 81 SPSS, se separat appendix, s. 11 Hvad gør vi ved indflydelsesrige observationer? udelader dem? anfører et mål for deres indflydelse? 32 / 83

9 Cooks afstand som mål for indflydelse Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual Hvad gør vi ved outliers? ser nærmere på dem, de er tit ganske interessante Hvornår kan vi udelade dem? hvis de ligger meget yderligt, dvs. har høj leverage De mest indflydelsesrige observationer er dem med en usædvanlig kombination af kovariater. Indviklet kode s / 83 husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen 34 / 83 og da skal alle sådanne udelades! Interaktion mellem kvantitative kovariater Nyt eksempel: Fedme i skolealderen er lidt svært... Hvis modellen ikke beskrives ved en plan, hvad gør man så? Hvis man blot inkluderer et produktled mellem x 1 og x 2, svarer det til, at antage, at effekten af x 1 ændrer sig lineært med værdien af x 2 : Effekten af x 1 er β 1 + γx 2 µ = β 0 + β 1 x 1 + β 2 x 2 + γx 1 x 2 = β 0 + (β 1 + γx 2 )x 1 + β 2 x 2, dvs. Alternativt må man opdele den ene variabel i grupper... Spørgsmål: Hvordan hænger fedmegraden i skolealderen sammen med højde og vægt i 1-årsalderen? For 197 børn har vi sammenhørende registreringer af Højde og vægt i 1-års alderen Fedmescore i skolealderen, dvs. en score, der udtrykker barnets vægt i forhold til alder og højde Det er en normeret størrelse, der typisk vil ligge mellem -2 og 2 Da fedmescoren kan ses som et slags bmi-mål, er det rimeligt at forestille sig, at det hænger sammen med bmi i 1-års alderen. 35 / / 83

10 Fedme i skolealderen Fedme i skolealderen vs. body mass index, evt. logaritmeret: Hvis vi logaritmerer bmi, får vi log(bmi) = log(vaegt) - 2 log(hoejde) så en oplagt mulighed ville være at forsøge en multipel regression, med log(vaegt) og log(hoejde) som kovariater, dvs. med multiplikative effekter af højde og vægt i 1-årsalderen. Vi bruger igen 1.1-logaritmen: Det ser nogenlunde pænt lineært ud, omend der er et par observationer, der ser for store ud... Måske skal vi bruge en anden kombination af højde og vægt end lige body mass index? (som ikke plejer at virke så godt for børn...) loghoejde=log(hoejde/0.75)/log(1.1); logvaegt=log(vaegt/10)/log(1.1); og har også normeret, således at interceptet kommer til at svare til et 1-årigt barn på 75 cm, der vejer 10 kg. 37 / / 83 Fedme i skolealderen Fortolkning af resultater proc reg plots=(diagnostics residuals(smooth)) data=fedme; model fedmescore=logvaegt loghoejde / clb; output out=check rstudent=norm_u_resid; med output Dependent Variable: fedmescore Number of Observations Used 197 Root MSE R-Square Dependent Mean Adj R-Sq Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept logvaegt <.0001 loghoejde Variable DF 95% Confidence Limits Intercept logvaegt loghoejde Stærkt signifikant effekt af begge kovariater (P < hhv. P = ) Hvis vi sammenligner to børn med samme højde, men hvor barn A vejer 10% mere end barn B ved 1-års alderen, så vil vi forvente, at A s fedmescore er større end B s. Hvis vi sammenligner to børn med samme vægt, men hvor barn A er 10% højere end barn B ved 1-års alderen, så vil vi forvente, at A s fedmescore er lavere end B s. 39 / / 83

11 Fortolkning af resultater, fortsat Sammenligning af modeller Hvis det var bmi, der var den relevante kovariat, skulle vi have haft ca. ˆβ 2 = 2 ˆβ 1 men det har vi ikke Vi har snarere ˆβ 2 = ˆβ 1, således at samme procentvise stigning i højde og vægt giver uforandret fedmescore i skolealderen. 41 / 83 nemlig de to marginale modeller (med hver sin kovariat) og den multiple regressionsmodel: Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes): Intercept β 1 (loghoejde) β 2 (logvaegt) s R (0.1107) (0.0435) (0.1567) (0.0671) Bemærk: Koefficienterne ændres ved overgang til multipel regression specielt den for højde, som ligefrem skifter fortegn! Usikkerhederne på estimaterne bliver større, selvom residualspredningen s bliver mindre. 42 / 83 VIGTIGT Fortolkning af estimater Koefficienten β 1 til loghoejde: Hvordan kan man forstå så forskellige estimater for loghoejde som og ? Fordi: Den biologiske fortolkning af parameterestimaterne er helt forskellig Det videnskabelige spørgsmål, der besvares, er ikke det samme spørgsmål! Simpel/univariat regressionsmodel: Forventet øgning i fedmescore er 0.36 for 1 enheds øgning af kovariaten loghoejde, dvs. for en 10% forøgelse af 1-års højden. Multipel regressionsmodel: Forventet fald i fedmescore er 0.46 for en 10% forøgelse af 1-års højden for to individer, hvor alle andre kovariater (her kun logvaegt) er identiske ( holdes fast ). Det kaldes, at vi har korrigeret ( adjusted ) for effekten af de andre kovariater. Forskellen er her meget markant, fordi kovariaterne er stærkt relaterede: Når en af dem ændres, ændres den anden typisk også 43 / / 83

12 Fortolkning af højde i marginal model Fortolkning af højde i multipel regressionsmodel Når højden er den eneste kovariat, er den et udtryk for, hvor stort barnet er, så det videnskabelige spørgsmål, der belyses, er, Er børn, der er store i 1-årsalderen, i gennemsnit federe i skolealderen? Den positive koefficient til højden betyder, at fedmegraden i skolealderen vokser signifikant med størrelsen i 1-års alderen. Biologisk mekanisme: Overernæring i barnealderen bruges til at vokse, så barnet bliver stort af sin alder, men det kan øjensynligt øge risikoen for fedme senere. Heldigvis er det ikke en stærkt deterministisk sammenhæng (residualspredningen er relativt stor). Når vægten i 1-års alderen fastholdes, ved vi noget mere om det højeste af de to 1-årige børn: Det højeste barn må også være det slankeste barn! Så det nye videnskabelige spørgsmål, der belyses, er, Er børn, der er slanke i 1-årsalderen, i gennemsnit slankere i skolealderen? Den negative koefficient til højden betyder, at slanke småbørn generelt er slankere i skolealderen. 45 / / 83 Fortolkning af højde i multipel regressionsmodel, II Eksempel: Lungefunktion og cystisk fibrose Koefficienterne til de logaritme-transformerede højde og vægt er lige store og med modsat fortegn. Et lille studie, af 25 patienter, hvor outcome er pemax (et udtryk for lungefunktion) og hvor vi har hele 9 potentielle kovariater: Det betyder, 1. at vægt/højde (altså ikke BMI=vægt/højde 2 ) i 1-års alderen er prædiktivt for fedme i skolealderen 2. at to småbørn med samme vægt/højde-ratio har samme forventede fedmegrad i skolealderen Ex. O Neill et.al. (Am Rev Respir Dis, 1983) 47 / / 83

13 Univariate analyser også kaldet marginale analyser, hvor man ser på en enkelt kovariat ad gangen: Valg af model kommer helt og holdent an på, hvad spørgsmålet er! De univariate analyser kan være stærkt misvisende pga korrelationer mellem de enkelte variable, f.eks. de 5 signifikante variable: Age, Height, Weight, FEV 1 og FRC: Pearson Correlation Coefficients, N = 25 Prob > r under H0: Rho=0 age height weight fev1 frc age <.0001 < height < weight Her er der 5 signifikante variable Er det så disse variable, der skal med i modellen? 49 / 83 fev Bemærk især korrelationerne mellem alder, højde og vægt. 50 / 83 Videnskabelig variabelselektion Automatisk variabelselektion Endnu en gang: Gennemtænk præcis hvilket videnskabeligt spørgsmål, man ønsker besvaret det præcise spørgsmål bestemmer hvilke variable, der skal inkluderes i modellen. Det er svært men den eneste måde at opnå egentlig videnskabelig indsigt! (og så bliver det i øvrigt lettere bagefter at skrive en god artikel og lettere at svare på reviewernes kommentarer... ) Undgå så vidt muligt dette! Der findes forskellige fremgangsmåder (se kode s. 82): SPSS, se separat appendix, s. 12 Forlæns selektion: Medtag hver gang den mest signifikante Slutmodel: Weight BMP FEV1 Baglæns elimination: Start med alle, udelad hver gang den mindst signifikante Slutmodel: Weight BMP FEV1 Forskellige hybrid-metoder Det ser da meget stabilt ud!? 51 / / 83

14 men men men... Advarsel ved variabelselektion Hvis nu observation nr. 25 tilfældigvis ikke havde været med? Så ville forlæns selektion have taget højde ind som den første, og baglæns elimination ville have smidt højde ud som den første! Tommelfingerregel (vedrører kun stabiliteten) Antallet af observationer skal være mindst 10 gange så stort som antallet af undersøgte parametre! Massesignifikans! Enhver variabelselektion baseret på signifikansvurderinger (dvs. også når I selv fjerner enkelte variable pga. statistisk insignifikans) vil give følgende effekt: Signifikanserne overvurderes! Regressionsparametrene er for store, dvs. for langt væk fra 0. Automatisk variabelselektion: Hvad kan vi sige om vinderne? Var de hele tiden signifikante, eller blev de det lige pludselig? I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens de var insignifikante / / 83 Model med alle 9 kovariater Model med alle 9 kovariater, II Dependent Variable: pemax Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T intercept age sex height weight bmp fev rv frc tlc Bemærk på outputtet s. 55: Alle kovariater er enkeltvis non-signifikante Overall F-test giver signifikans (P=0.032) Og hvad kan vi overhovedet bruge modellen til...? 55 / / 83

15 Baglæns elimination P-værdier ved baglæns elimination Tabel over successive p-værdier [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] age sex height weight bmp fev rv frc tlc Altman stopper ved skridt nr. 7, se figur næste side Ingen kode til denne figur 57 / / 83 Krydsvalidering = Cross validation Sammenligning af modeller Hvis man har en tilstrækkelig stor mængde data, er det en god fremgangsmåde at: Foretage modelfittet på en del af data, f.eks. to trediedele Afprøve modellen på resten bagefter, og måske blive lidt chokeret Hvis modellen predikterer dårligt på den sidste trediedel, predikterer den nok også dårligt i nye situationer. Hvad sker der ved udeladelse af en forklarende variabel? Fittet bliver dårligere, dvs. residualkvadratsummen bliver større. Antallet af frihedsgrader (for residualkvadratsummen) stiger. Estimatet s 2 for residualvariansen σ 2 kan både stige og falde (fordi vi dividerer med frihedsgraderne) %-delen af variation, som forklares af modellen, R 2, falder. Dette kompenseres der for i den justerede determinationskoefficient R 2 adj Som kriterium for, om modellen er god kan vi altså bruge s 2 eller R 2 adj 59 / / 83

16 Sammenligning af modeller nemlig de to marginale modeller for height og weight, samt den multiple regressionsmodel med disse: β 0 β 1 (height) β 2 (weight) s R 2 Adj. R (0.260) (0.301) (0.655) 1.024(0.787) Hver af de to forklarende variable har betydning, vurderet ud fra de marginale modeller. I den multiple regressionsmodel ser ingen af dem ud til at have nogen betydning. Mindst en af dem har en betydning, men det er svært at sige hvilken. (Det ser dog mest ud til at være vægten.) 61 / 83 Sammenligning af modeller, II Flere kommentarer til sammenligningen på forrige side: Størrelsen R 2 stiger næsten ikke fra den marginale model med kun weight som kovariat, til den multiple regressionsmodel (fra til , dvs. uændret med 2 decimaler). Den justerede R 2 favoriserer derfor den simpleste af disse to modeller, hvor usikkerheden på parameterestimatet også er betydeligt lavere. Intercepterne i de 3 modeller kan ikke sammenlignes, da de refererer til helt forskellige individer, som i øvrigt alle er meget uinteressante: hhv. height=0, weight=0 og height=weight=0 Modelkontrol: giver ikke frygtelig meget mening med den ratio af observationer/kovariater: 62 / 83 Sammenligning af kovariat-effekter Kollinearitet: Kovariaterne er lineært relaterede er vanskelig, bare at formulere: Er effekten af vægt større end effekten af alder? Øh... Sammenligner vi P-værdier? Det har kun noget med evidensen for en effekt at gøre, ikke med selve størrelsen af effekten. Man kan udregne såkaldte standardiserede koefficienter, som angiver effekten af 1 SD svarende til denne kovariat. Er dette fornuftigt? Næppe: Den biologiske effekt er nok ligeglad med, hvordan resten af personerne ser ud... En sådan standardiseret koefficient vil afhænge af det aktuelle sample - ligesom en korrelation. 63 / 83 Det vil de altid til en vis grad være, undtagen i designede forsøg (f.eks. landbrugsforsøg) Symptomer på kollinearitet: Visse af kovariaterne er stærkt korrelerede Nogle parameterestimater har meget store standard errors Alle kovariater i den multiple regressionsanalyse er insignifikante, men R 2 er alligevel stor Der sker store forskydninger i estimaterne, når en kovariat udelades af modellen Der sker store forskydninger i estimaterne, når en observation udelades af modellen Resultaterne er anderledes end forventet 64 / 83

17 Ekstra udskrifter fra regressionsanalysen Kollinearitet i praksis Variance Inflation Factor (vif): Den faktor, som variansen af regressionskoefficienten er blevet ganget op med, på grund af kollineariteten mellem kovariaterne. Tolerance (tol): Blot den reciprokke af VIF, altså 1/VIF. Standardiserede koefficienter (stb): som forklaret s. 63. Ud fra koden s. 83: Parameter Estimates Standardized Variance Variable DF Estimate Tolerance Inflation Intercept age sex height weight bmp fev rv frc tlc SPSS, se separat appendix, s. 12 Tommelfingerregel: vif større end 5-10 stykker (dvs. tol mindre end ) er kriminelt / / 83 Bemærk Vigtige pointer Hvad gør man så, når der er kollinearitet? 1. Gennemtænk grundigt, hvad den enkelte variabel står for afhængigt af hvilke af de andre mulige variable, der fastholdes (= er med i modellen) Overvej også, om responsvariablen ændrer fortolkning 2. Lav analyser af fokusvariablen med og uden justering for forskellige grupper af de andre variable og prøv at forstå forskellene i resultaterne Præsenter gerne begge/alle analyser i artiklen med fortolkning af forskellene 3. Spar eventuelt på antallet af variable for grupper af variable, der hænger sammen: Drejer det sig om ét fælles aspekt af interesse, så kan man måske nøjes med én af variablene og begrunde, hvorfor man vælger netop den 4. Fortolk med stor forsigtighed 67 / 83 Man må ikke nøjes med at præsentere univariate analyser for alle variablene! Problemet med fortolkningen forsvinder nemlig ikke af, at man tillægger hver enkelt variabel al forklaringsevnen en ad gangen. Man må ikke tro, at det er ligemeget hvilke effekter, man justerer for - for det videnskabelige spørgsmål ændrer sig jo. 68 / 83

18 Bemærk Bemærk Den statistiske model bestemmes af det videnskabelige spørgsmål. Eneste undtagelse fra denne regel er fordelingsantagelserne, der bestemmes af data. Nogle kilder til forkerte modelvalg Forsimple virkeligheden for meget, eksempelvis tro, at frasen alt andet lige giver mening (og ikke bare er en bekvem undskyldning for ikke at tænke det ordentligt igennem) tro, at det giver mening at tale om sammenhængen mellem exposure og respons, som om der kun kan eksistere ét eneste videnskabeligt spørgsmål, der involverer denne exposure og dette respons tro, at confounderne er givet ud fra exposure og respons, så man kan vælge sine kovariater uden at overveje konsekvenserne for fortolkningen 69 / / 83 Et par falske påstande Et par falske påstande, II Påstand: Når man skal vurdere effekten af en forklarende variabel ( exposure ) på et bestemt outcome, så skal man så vidt muligt justere for alle confoundere. Sandhed: Nej! Man skal kun justere for de variable, som man gerne ville have kunnet holde fast og man skal kunne gennemskue, hvilken konsekvens justering for hver eneste af de inkluderede confoundere har for fortolkningen af den estimerede effekt af exposure på outcome! Påstand: Man må ikke inkludere mediator variable, dvs. variable, der er en del af virkningsmekanismen. Sandhed: Mediator variable er ligesom alle andre variable: Hvis man inkluderer dem, ændrer man det videnskabelige spørgsmål, der besvares ved analysen! Når man inkluderer en eller flere mediator variable, undersøger man størrelsen af den del af effekten, der ikke går via effekten på disse mediator variable, altså styrken af eventuelle andre virkningsmekanismer. NB: Pas på med at justere for variable, der ligger før i årsagskæden for den interessante exposure-variabel. At fokusere på effekten justeret for sådanne variable betyder, at man tror, det giver mening, at betydningen af en høj exposure afhænger af, hvorfor exposure er høj. 71 / / 83

19 Bemærk APPENDIX Påstand: Signifikansen for den enkelte variabel bliver altid svagere, når de andre tages med. Sandhed: Ofte, men ikke altid. Nogle gange bliver signifikanserne væsentligt stærkere. Vi så dette ved forelæsningen om kovariansanalyse, hvor effekten af P-piller først kom frem, da vi justerede for alderen. med SAS-programbidder svarende til nogle af slides Figurer: s. 75, 77, 80, 81 Regressionsanalyse: s. 76, 78, Modelkontrol: s. 77 Prediktion: s Diagnostics: s. 81 SPSS: se separat appendix 73 / / 83 Tredimensionalt plot Regressionsanalyse Slide 7 Slide 9 Den minimale kode: proc g3d; scatter bpd*ad=vaegt / shape= pillar size=0.5; Option shape styrer faconen på figuren på toppen af søjlen, og option size angiver dennes størrelse. Denne procedure kan også anvendes til Surface plots, altså plots af flader i rummet. proc reg data=secher; model vaegt=ad bpd / clb; Adskillige ekstra options og statements kan tilføjes, f.eks: clb: konfidensgrænser for estimater corrb: korrelation mellem estimater stb: standardiserede koefficienter: effekt af ændring på 1 SD for kovariat Se desuden s. 77 og / / 83

20 Modelkontrol Slide proc reg plots=(diagnostics residuals(smooth)) data=secher; model vaegt=ad bpd / clb; output out=check student=stresid rstudent=norm_u_resid p=pred; data tegn; set check; sqrtres=sqrt(abs(stresid)); proc sgplot data=tegn; loess Y=sqrtres X=pred; proc sgplot data=tegn; loess Y=sqrtres X=bpd; Regressionsanalyse på logaritmer Slide 20 data secher; set secher; logvaegt=log(vaegt); logbpd=log(bpd/90)/log(1.1); logad=log(ad)/log(1.1); proc reg plots=(diagnostics residuals(smooth)) data=secher; model logvaegt=logad logbpd / clb; output out=check rstudent=norm_u_resid p=pred; proc sgplot data=tegn; loess Y=sqrtres X=ad; 77 / / 83 Prediktioner til brug for illustrationer Slide 29 og 30 Tilføj de fiktive personer, man gerne vil prediktere outcome for, ved at angive deres kovariatværdier, med tilhørende missing value for outcome data ekstra; ekstra=1; do bpd=80 to 100 by 10; do ad=70 to 135 by 1; logbpd=log(bpd/90)/log(1.1); logad=log(ad)/log(1.1); output; end; end; data udbygget; set secher ekstra; Predikter outcome, og gem i nyt datasæt (næste side) Tegn 79 / 83 Prediktioner til brug for illustrationer, II Slide 29 og 30 proc reg plots=(diagnostics residuals(smooth)) data=udbygget; model logvaegt=logad logbpd / clb; output out=check p=pred LCL=predlow LCLM=meanlow UCL=predup UCLM=meanup; proc sgplot data=check; where ekstra=1; series Y=pred X=logad / group=bpd lineattrs=(thickness=2 pattern=solid); data pred; set check; if ekstra=1; predikteret=exp(pred); type= P ; output; type= L ; predikteret=exp(predlow); output; type= U ; predikteret=exp(predup); output; proc sgplot data=pred; where type= P ; series Y=predikteret X=ad / group=bpd lineattrs=(thickness=2 pattern=solid); 80 / 83

21 Diagnostics Variabelselektion, option selection i REG Slide Slide 52, 57 proc reg plots=(diagnostics residuals(smooth)) data=secher; model logvaegt=logad logbpd / clb influence; output out=check rstudent=norm_u_resid p=pred cookd=cook; data tegn; set check; farve="magenta"; /* bare for at faa navnet langt nok */ farve="black"; if norm_u_resid>0.5 then farve="pink"; if norm_u_resid>1.2 then farve="magenta"; if norm_u_resid<-0.5 then farve="olive"; if norm_u_resid<-1.2 then farve="green"; proc g3d data=tegn; scatter bpd*ad=cook / color=farve shape="pyramid"; SELECTION=name specifies the method used to select the model, where name can be FORWARD (or F), BACKWARD (or B), STEPWISE, MAXR, MINR, RSQUARE, ADJRSQ, CP, or NONE (use the full model). The default method is NONE. See the section Model-Selection Methods for a description of each method. proc reg data=pemax; model pemax=age sex height weight bmp fev1 rv frc tlc / selection=backward; 81 / / 83 Ekstra størrelser fra regressionsanalyse Slide 66 proc reg data=pemax; model pemax=age sex height weight bmp fev1 rv frc tlc / selection=backward p r influence vif collin stb clb corrb tol; Options: collin: kollinearitets diagnostics vif: variance inflation factor: variansøgning grundet kollinearitet tol: tolerance factor: 1-R 2 for regression af en kovariat på de øvrige 83 / 83