Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk
Interaktion / effektmodifikation Der er interaktion mellem to forklarende variable hvis effekten (på responsen) af den ene variabel afhænger af den anden variabel. Eksempler: Effekten af rygning på risikoen for CHD er forskellig for mænd og kvinder. Effekten af alder på risikoen for CHD er forskellig for mænd og kvinder. I statistik taler vi om interaktion eller vekselvirkning. I epidemiologi om effektmodifikation. 2 / 28
Interaktion mellem to kategoriske variable Framingham respons: CHD01 i = { 1 i fik CHD 0 i fik ikke CHD Vi ser på effekten af køn og rygning: mand i = { 1 i er mand 0 i er kvinde og ryger i = { 1 i er ryger 0 i er ikke-ryger Interaktion mellem køn og rygning svarer til at der ikke er struktur i log-odds: a 1 K ikke-ryger ( ) ln pi a 1 p i = 2 M ikke-ryger a 3 K ryger a 4 M ryger. NB: Det svarer til en ny forklarende variabel med 4 niveauer. 3 / 28
Brugbar formulering af interaktion ml køn og rygning Definer en ny variabel - et interaktionsled - ved mandryger i = mand i ryger i = { 1 hvis i er mand og ryger 0 ellers Interaktionsmodellen kan formuleres ( ) pi ln = a + b 1 mand i + b 2 ryger 1 p i + b 3 mandryger i i a K ikke-ryger a + b = 1 M ikke-ryger a + b 2 K ryger a + b 1 + b 2 + b 3 M ryger. Hvis b 3 = 0 er der ikke interaktion mellem køn og rygning. 4 / 28
Test for interaktion i SAS I SAS PROC GENMOD skrives proc genmod data=framing descending; class sex smoke; model chd01 = sex smoke sex*smoke / dist=bin type3; run; Man finder estimatet b 3 = 0.48, SE=0.31, Wald=2.44, P=0.12. Der altså ikke tegn på interaktion mellem køn og rygning. 5 / 28
Modellen uden interaktion Vi er derfor tilbage ved den additive model ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i a K ikke-ryger a + b = 1 M ikke-ryger a + b 2 K ryger a + b 1 + b 2 M ryger. 6 / 28
Interaktion mellem kategorisk og kvantitativ For alder defineres en ny variabel - et interaktionsled - ved mandalder i = mand i alder i = { alderi hvis i er mand 0 hvis i er kvinde Interaktionsmodellen kan formuleres ( ) pi ln = a + b 1 mand i + b 2 alder i + b 3 mandalder i 1 p i { a + b2 alder = i kvinder (a + b 1 ) + (b 2 + b 3 ) alder i maend Dvs. b 3 beskriver forskellen i hældningen mellem mænd og kvinder. Hvis b 3 = 0 er der ikke interaktion mellem køn og alder. 7 / 28
Interaktion mellem køn og alder I interaktionsmodellen har mænd og kvinder hver deres linie: log odds 4 3 2 1 0 Males Females 45 50 55 60 Age 8 / 28
Interaktion mellem køn og alder Manglende interaktion svarer til parallelle linier: log odds 4 3 2 1 0 Males Females 45 50 55 60 Age 9 / 28
Interaktion i SAS I PROC GENMOD inkluderes alene SEX som en CLASS variabel og interaktionsleddet defineres som før: proc genmod data=framing descending; class sex; model chd01 = sex age sex*age/ dist=bin type3; run; Man finder estimatet b 3 = 0.05, SE=0.03, Wald=3.14, P=0.08. Der er ikke belæg for at konstatere interaktion mellem køn og alder. 10 / 28
SAS-øvelser. Vi vil her undersøge om der er en interaktion mellem køn og SBP på CHD01 i Framingham studiet. Vi ser fortsat (jvf hjemmeopgave i kvantitative forklarende variable) på følgende inddeling af SBP: sbpgrp = 0 SPB 120 1 120 < SPB 140 2 140 < SPB 180 3 SPB > 180 11 / 28 1. Indlæs data fra filen dag5.sas på kursushjemmesiden. Denne stump kode danner responsvariablen CHD01 og grupperet SBP sbpgrp. 2. Undersøg om der er interaktion mellem køn og grupperet blodtryk.
3. Kør modellen med modellinien på formen model chdny = sex*sbpgrp / dist=bin type3; Er det den samme model? Hint : Prøv at fylde log-odds værdier ind i tabel for denne model og modellen i spg 2. 4. Bestem OR er for effekten af SBP-gruppe i forhold til den laveste gruppe (SBP 120) for hvert køn. Vink: Skriv Estimate-kommandoer af formen estimate 1 vs 0 for mænd sex*sbpgrp -1 1 0 0 0 0 0 0 / exp; 5. Undersøg om effekten af SBP (kvantitativt, men grupperet) afhænger af køn (dvs. test for interaktion). 6. Kør modellen i 5. med modellinien på formen model chdny = sex sex*sbpgrp / dist=bin type3; Hvad beskriver den model (fortolk output)? 12 / 28
Analyse af kvantitative responsvarible Et udpluk af metoder til håndtering af kvantitative responsvariable Beskrivende statistik og grafer Sammenligning af to grupper (t-test, Wilcoxon s test) Sammenligning af flere grupper (ANOVA, ikke-parametriske tests) Lineær regression 13 / 28
Body mass index og vitamin D status Data er hentet fra Eksempel 1.1 i Regression with Linear Predictors af PK Andersen & LT Skovgaard. Data og program til at indlæse data i SAS kan findes på www.biostat.ku.dk/ linearpredictors Data indeholder information om alder, BMI, land og vitamin D status for 420 kvinder. Vi vil undersøge relationen mellem BMI og vitamin D status for de irske kvinder og inddeler BMI i to kategorier (normal- og overvægtig): BMIgrp i = { 1 hvis kvinde i har BMI < 25 2 hvis kvinde i har BMI 25 14 / 28
Illustration af data BMI Vitamin D 20 40 60 80 100 < 25 >= 25 15 / 28
Beskrivende statistik BMI-gruppe Antal Median Gennemsnit (ȳ ) SD(y) Normalvægtig 16 52.4 56.1 21.9 Overvægtig 25 41.1 42.8 17.6 Her er 1 ȳ = ni=1 1 n y i SD(y) = ni=1 n 1 (y i ȳ) 2 Hvad ser vi? 16 / 28
Beskrivende statistik i SAS Disse beskrivende mål og enkelte primitive grafer (histogram og box-plots) kan fås fra PROC UNIVARIATE. Bemærk at data først skal sorteres efter gruppevariablen. data irlwomen; set irlwomen; BMIgrp=1; if bmi>=25 then BMIgrp=2;; if bmi=. then BMIgrp=.; run; proc sort data=irlwomen; by BMIgrp; run; proc univariate data=irlwomen plot; var vitd; by BMIgrp; run; 17 / 28
Sammenligning af to grupper Vi ønsker at sammenligne middelværdien af vitamin D status for normal- og overvægtige. En parametrisk sammenligning er baseret på middelværdi og SE. CIs for middelværdierne (95%): ȳ ± 1.96 SD(y) n, SD(y) n = SE(ȳ). Vi finder Gruppe Gennemsnit SE Konfidensinterval Normalvægtig 56.1 5.5 (45.4;66.9) Overvægtig 42.8 3.5 (35.9;49.7) 18 / 28
t-testet t-teststørrelsen er t = ȳ1 ȳ 2 SE(ȳ 1 ȳ 2 ) hvor standardafvigelsen af differensen er SE(ȳ 1 ȳ 2 ) = 1 + 1 (n 1 1)SD(y 1 ) 2 + (n 2 1)SD(y 2 ) 2 n 1 n 2 n 1 + n 2 2 og giver mening hvis SD(y 1 ) SD(y 2 ) (kan testes). Vi finder t = 13.3 6.2 = 2.15 som er t-fordelt med df = n 1 + n 2 2 = 39 og dermed fås P = 0.038. Et t-test med sammenligning af to grupper kaldes også for to-stikprøve t-testet (two-sample). 19 / 28
t-test i SAS I SAS kan t-testet udføres vha. PROC TTEST proc ttest data=irlwomen; class BMIgrp; var vitd; run; Bemærk at SAS laver to t-tests 1) Pooled forudsætter ens SD i grupperne. 2) Satterthwaite tillader forskellig SD i grupperne. SAS udfører tilmed et test for ens varianser (Folded F). Hvis P >.05 accepterer vi ens varianser og benytter 1). 20 / 28
Antagelser for t-testet Det er rimeligt at udføre et t-test når de fordelinger vi skal sammenligne er nogenlunde symmetriske. Testet fungerer bedst når fordelingerne er nogenlunde normalfordelte. Jo større stikprøve, jo bedre fungerer testet. 21 / 28
Ikke-parametrisk sammenligning af to grupper Er man bekymret for antagelserne for t-testet kan analysen suppleres med et ikke-parametrisk test, f.eks. et Wilcoxon rank sum test eller et Kruskal-Wallis test. Disse har lavere styrke. Teststørrelserne er baseret på rangordning af responsvariablen og bygger ikke på gennemsnit eller standardafvigelse. Den ikke-parametriske sammenligning kan foretages i SAS vha. PROC NPAR1WAY: proc npar1way data=irlwomen; class BMIgrp; var vitd; run; For Kruskal-Wallis finder vi en χ 2 -teststørrelse (df = 1) på 3.6 med tilhørende P = 0.06. 22 / 28
Sammenligning af flere grupper Sammenligning af responsen inden for en kategorisk variabel med flere grupper: Parametrisk: Ensidet variansanalyse (one-way ANOVA (ANalysis Of VAriance)). Dette svarer til lineær regression af responsen på en kategorisk (CLASS) variabel. Ikke-parametrisk: F.eks. et Kruskal-Wallis test (PROC NPAR1WAY) Sammenligning af responsen inden for to kategoriske variable: Parametrisk: Tosidet variansanalyse (two-way ANOVA). Dette svarer til lineær regression af responsen på to kategoriske (CLASS) variable. Til både ensidet- og tosidet variansanalyse benyttes PROC GENMOD. 23 / 28
Ensidet variansanalyse Definer en ny kategorisk variabel for BMI 1 hvis kvinde i har BMI < 25 BMIgrp3 i = 2 hvis kvinde i har 25 BMI 30 3 hvis kvinde i har BMI > 30. Modellen er E(Y i ) = a BMI < 25 a + b 1 25 BMI 30 a + b 2 BMI > 30 I PROC GENMOD kan vi teste om der er en effekt af BMI ved at teste b 1 = b 2 = 0. 24 / 28
Tosidet variansanalyse Hvis vi også tager køn med er modellen E(Y i ) = a K BMI < 25 a + b 1 K 25 BMI 30 a + b 2 K BMI > 30 a + c 1 M BMI < 25 a + c 1 + b 1 M 25 BMI 30 a + c 1 + b 2 M BMI > 30 Her svarer c 1 til effekten af køn. NB: Ingen interaktion. 25 / 28
Mulige regressionsmodeller For en kvantitativ responsvariabel kan vi betragte følgende typer af forklarende variable og tilhørende modeller: Forklarende variable Eksempel Model En kvantitativ alder simpel lineær regression En binær køn t-test En kvalitativ grupperet alder one-way ANOVA En kvant. og en kval. alder og køn parallelle regressionslinier To kvalitative grupperet alder og køn two-way ANOVA 26 / 28
Antagelser for lineær regression Alle modellerne svarer til en lineær regressionsmodel. Det betyder at alle analyser kan udføres ved PROC GENMOD. Modellerne bygger på en række antagelser: linearitet (skal efterprøves) ingen interaktion / effektmodifikation (kan efterprøves), præcis som i logistisk regression. Derudover skal responsen have samme varians (SD) for alle individer, helst have normalfordelt fejl y E(y). Dette kan / bør man checke! 27 / 28
SAS-øvelser i kvantitative udfaldsvariable 1. Lav et histogram af hhv SBP og ln(sbp) for mænd alene. Dette kan f.eks. gøres vha PROC UNIVARIATE på følgende måde: proc univariate data=framingmales; histogram sbp; run; hvor framingmales er et datasæt med mændene. 2. For mænd alene, sammenlign niveauet af hhv SBP og ln(sbp) ved et parametrisk og et ikke-parametrisk test. Rapportér p-værdierne - bliver konklusionen forskellig afhængigt af om man analyserer SBP eller ln(sbp)? 3. Undersøg om niveauet af ln(sbp) er den samme i de fire aldersgrupper 45-48, 49-52, 53-56, 57-62. Brug både et parametrisk og et ikke-parametrisk test. 28 / 28