Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Relaterede dokumenter
MPH specialmodul Epidemiologi og Biostatistik

Lineær og logistisk regression

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Modul 5: Test for én stikprøve

Konfidensinterval for µ (σ kendt)

Løsning til øvelsesopgaver dag 4 spg 5-9

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Logistisk regression

Morten Frydenberg 14. marts 2006

En Introduktion til SAS. Kapitel 6.

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Morten Frydenberg 26. april 2004

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Logistisk regression

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Dag 6: Interaktion. Overlevelsesanalyse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Basal statistik. 30. januar 2007

Statistik Lektion 4. Variansanalyse Modelkontrol

Simpel og multipel logistisk regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Module 2: Beskrivende Statistik

Module 12: Mere om variansanalyse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Statistik II 4. Lektion. Logistisk regression

9. Chi-i-anden test, case-control data, logistisk regression.

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Ligninger med reelle løsninger

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Introduktion til overlevelsesanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Reeksamen i Statistik for Biokemikere 6. april 2009

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Løsning eksamen d. 15. december 2008

En Introduktion til SAS. Kapitel 5.

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Trivsel og fravær i folkeskolen

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual

Multipel Lineær Regression

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Variansanalyse (ANOVA)

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Note til styrkefunktionen

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Introduktion til SAS. Faculty of Health Sciences

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

To-sidet variansanalyse

Basal Statistik - SPSS

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Epidemiologi og Biostatistik

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Transkript:

Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Interaktion / effektmodifikation Der er interaktion mellem to forklarende variable hvis effekten (på responsen) af den ene variabel afhænger af den anden variabel. Eksempler: Effekten af rygning på risikoen for CHD er forskellig for mænd og kvinder. Effekten af alder på risikoen for CHD er forskellig for mænd og kvinder. I statistik taler vi om interaktion eller vekselvirkning. I epidemiologi om effektmodifikation. 2 / 28

Interaktion mellem to kategoriske variable Framingham respons: CHD01 i = { 1 i fik CHD 0 i fik ikke CHD Vi ser på effekten af køn og rygning: mand i = { 1 i er mand 0 i er kvinde og ryger i = { 1 i er ryger 0 i er ikke-ryger Interaktion mellem køn og rygning svarer til at der ikke er struktur i log-odds: a 1 K ikke-ryger ( ) ln pi a 1 p i = 2 M ikke-ryger a 3 K ryger a 4 M ryger. NB: Det svarer til en ny forklarende variabel med 4 niveauer. 3 / 28

Brugbar formulering af interaktion ml køn og rygning Definer en ny variabel - et interaktionsled - ved mandryger i = mand i ryger i = { 1 hvis i er mand og ryger 0 ellers Interaktionsmodellen kan formuleres ( ) pi ln = a + b 1 mand i + b 2 ryger 1 p i + b 3 mandryger i i a K ikke-ryger a + b = 1 M ikke-ryger a + b 2 K ryger a + b 1 + b 2 + b 3 M ryger. Hvis b 3 = 0 er der ikke interaktion mellem køn og rygning. 4 / 28

Test for interaktion i SAS I SAS PROC GENMOD skrives proc genmod data=framing descending; class sex smoke; model chd01 = sex smoke sex*smoke / dist=bin type3; run; Man finder estimatet b 3 = 0.48, SE=0.31, Wald=2.44, P=0.12. Der altså ikke tegn på interaktion mellem køn og rygning. 5 / 28

Modellen uden interaktion Vi er derfor tilbage ved den additive model ( ) pi ln 1 p i = a + b 1 mand i + b 2 ryger i a K ikke-ryger a + b = 1 M ikke-ryger a + b 2 K ryger a + b 1 + b 2 M ryger. 6 / 28

Interaktion mellem kategorisk og kvantitativ For alder defineres en ny variabel - et interaktionsled - ved mandalder i = mand i alder i = { alderi hvis i er mand 0 hvis i er kvinde Interaktionsmodellen kan formuleres ( ) pi ln = a + b 1 mand i + b 2 alder i + b 3 mandalder i 1 p i { a + b2 alder = i kvinder (a + b 1 ) + (b 2 + b 3 ) alder i maend Dvs. b 3 beskriver forskellen i hældningen mellem mænd og kvinder. Hvis b 3 = 0 er der ikke interaktion mellem køn og alder. 7 / 28

Interaktion mellem køn og alder I interaktionsmodellen har mænd og kvinder hver deres linie: log odds 4 3 2 1 0 Males Females 45 50 55 60 Age 8 / 28

Interaktion mellem køn og alder Manglende interaktion svarer til parallelle linier: log odds 4 3 2 1 0 Males Females 45 50 55 60 Age 9 / 28

Interaktion i SAS I PROC GENMOD inkluderes alene SEX som en CLASS variabel og interaktionsleddet defineres som før: proc genmod data=framing descending; class sex; model chd01 = sex age sex*age/ dist=bin type3; run; Man finder estimatet b 3 = 0.05, SE=0.03, Wald=3.14, P=0.08. Der er ikke belæg for at konstatere interaktion mellem køn og alder. 10 / 28

SAS-øvelser. Vi vil her undersøge om der er en interaktion mellem køn og SBP på CHD01 i Framingham studiet. Vi ser fortsat (jvf hjemmeopgave i kvantitative forklarende variable) på følgende inddeling af SBP: sbpgrp = 0 SPB 120 1 120 < SPB 140 2 140 < SPB 180 3 SPB > 180 11 / 28 1. Indlæs data fra filen dag5.sas på kursushjemmesiden. Denne stump kode danner responsvariablen CHD01 og grupperet SBP sbpgrp. 2. Undersøg om der er interaktion mellem køn og grupperet blodtryk.

3. Kør modellen med modellinien på formen model chdny = sex*sbpgrp / dist=bin type3; Er det den samme model? Hint : Prøv at fylde log-odds værdier ind i tabel for denne model og modellen i spg 2. 4. Bestem OR er for effekten af SBP-gruppe i forhold til den laveste gruppe (SBP 120) for hvert køn. Vink: Skriv Estimate-kommandoer af formen estimate 1 vs 0 for mænd sex*sbpgrp -1 1 0 0 0 0 0 0 / exp; 5. Undersøg om effekten af SBP (kvantitativt, men grupperet) afhænger af køn (dvs. test for interaktion). 6. Kør modellen i 5. med modellinien på formen model chdny = sex sex*sbpgrp / dist=bin type3; Hvad beskriver den model (fortolk output)? 12 / 28

Analyse af kvantitative responsvarible Et udpluk af metoder til håndtering af kvantitative responsvariable Beskrivende statistik og grafer Sammenligning af to grupper (t-test, Wilcoxon s test) Sammenligning af flere grupper (ANOVA, ikke-parametriske tests) Lineær regression 13 / 28

Body mass index og vitamin D status Data er hentet fra Eksempel 1.1 i Regression with Linear Predictors af PK Andersen & LT Skovgaard. Data og program til at indlæse data i SAS kan findes på www.biostat.ku.dk/ linearpredictors Data indeholder information om alder, BMI, land og vitamin D status for 420 kvinder. Vi vil undersøge relationen mellem BMI og vitamin D status for de irske kvinder og inddeler BMI i to kategorier (normal- og overvægtig): BMIgrp i = { 1 hvis kvinde i har BMI < 25 2 hvis kvinde i har BMI 25 14 / 28

Illustration af data BMI Vitamin D 20 40 60 80 100 < 25 >= 25 15 / 28

Beskrivende statistik BMI-gruppe Antal Median Gennemsnit (ȳ ) SD(y) Normalvægtig 16 52.4 56.1 21.9 Overvægtig 25 41.1 42.8 17.6 Her er 1 ȳ = ni=1 1 n y i SD(y) = ni=1 n 1 (y i ȳ) 2 Hvad ser vi? 16 / 28

Beskrivende statistik i SAS Disse beskrivende mål og enkelte primitive grafer (histogram og box-plots) kan fås fra PROC UNIVARIATE. Bemærk at data først skal sorteres efter gruppevariablen. data irlwomen; set irlwomen; BMIgrp=1; if bmi>=25 then BMIgrp=2;; if bmi=. then BMIgrp=.; run; proc sort data=irlwomen; by BMIgrp; run; proc univariate data=irlwomen plot; var vitd; by BMIgrp; run; 17 / 28

Sammenligning af to grupper Vi ønsker at sammenligne middelværdien af vitamin D status for normal- og overvægtige. En parametrisk sammenligning er baseret på middelværdi og SE. CIs for middelværdierne (95%): ȳ ± 1.96 SD(y) n, SD(y) n = SE(ȳ). Vi finder Gruppe Gennemsnit SE Konfidensinterval Normalvægtig 56.1 5.5 (45.4;66.9) Overvægtig 42.8 3.5 (35.9;49.7) 18 / 28

t-testet t-teststørrelsen er t = ȳ1 ȳ 2 SE(ȳ 1 ȳ 2 ) hvor standardafvigelsen af differensen er SE(ȳ 1 ȳ 2 ) = 1 + 1 (n 1 1)SD(y 1 ) 2 + (n 2 1)SD(y 2 ) 2 n 1 n 2 n 1 + n 2 2 og giver mening hvis SD(y 1 ) SD(y 2 ) (kan testes). Vi finder t = 13.3 6.2 = 2.15 som er t-fordelt med df = n 1 + n 2 2 = 39 og dermed fås P = 0.038. Et t-test med sammenligning af to grupper kaldes også for to-stikprøve t-testet (two-sample). 19 / 28

t-test i SAS I SAS kan t-testet udføres vha. PROC TTEST proc ttest data=irlwomen; class BMIgrp; var vitd; run; Bemærk at SAS laver to t-tests 1) Pooled forudsætter ens SD i grupperne. 2) Satterthwaite tillader forskellig SD i grupperne. SAS udfører tilmed et test for ens varianser (Folded F). Hvis P >.05 accepterer vi ens varianser og benytter 1). 20 / 28

Antagelser for t-testet Det er rimeligt at udføre et t-test når de fordelinger vi skal sammenligne er nogenlunde symmetriske. Testet fungerer bedst når fordelingerne er nogenlunde normalfordelte. Jo større stikprøve, jo bedre fungerer testet. 21 / 28

Ikke-parametrisk sammenligning af to grupper Er man bekymret for antagelserne for t-testet kan analysen suppleres med et ikke-parametrisk test, f.eks. et Wilcoxon rank sum test eller et Kruskal-Wallis test. Disse har lavere styrke. Teststørrelserne er baseret på rangordning af responsvariablen og bygger ikke på gennemsnit eller standardafvigelse. Den ikke-parametriske sammenligning kan foretages i SAS vha. PROC NPAR1WAY: proc npar1way data=irlwomen; class BMIgrp; var vitd; run; For Kruskal-Wallis finder vi en χ 2 -teststørrelse (df = 1) på 3.6 med tilhørende P = 0.06. 22 / 28

Sammenligning af flere grupper Sammenligning af responsen inden for en kategorisk variabel med flere grupper: Parametrisk: Ensidet variansanalyse (one-way ANOVA (ANalysis Of VAriance)). Dette svarer til lineær regression af responsen på en kategorisk (CLASS) variabel. Ikke-parametrisk: F.eks. et Kruskal-Wallis test (PROC NPAR1WAY) Sammenligning af responsen inden for to kategoriske variable: Parametrisk: Tosidet variansanalyse (two-way ANOVA). Dette svarer til lineær regression af responsen på to kategoriske (CLASS) variable. Til både ensidet- og tosidet variansanalyse benyttes PROC GENMOD. 23 / 28

Ensidet variansanalyse Definer en ny kategorisk variabel for BMI 1 hvis kvinde i har BMI < 25 BMIgrp3 i = 2 hvis kvinde i har 25 BMI 30 3 hvis kvinde i har BMI > 30. Modellen er E(Y i ) = a BMI < 25 a + b 1 25 BMI 30 a + b 2 BMI > 30 I PROC GENMOD kan vi teste om der er en effekt af BMI ved at teste b 1 = b 2 = 0. 24 / 28

Tosidet variansanalyse Hvis vi også tager køn med er modellen E(Y i ) = a K BMI < 25 a + b 1 K 25 BMI 30 a + b 2 K BMI > 30 a + c 1 M BMI < 25 a + c 1 + b 1 M 25 BMI 30 a + c 1 + b 2 M BMI > 30 Her svarer c 1 til effekten af køn. NB: Ingen interaktion. 25 / 28

Mulige regressionsmodeller For en kvantitativ responsvariabel kan vi betragte følgende typer af forklarende variable og tilhørende modeller: Forklarende variable Eksempel Model En kvantitativ alder simpel lineær regression En binær køn t-test En kvalitativ grupperet alder one-way ANOVA En kvant. og en kval. alder og køn parallelle regressionslinier To kvalitative grupperet alder og køn two-way ANOVA 26 / 28

Antagelser for lineær regression Alle modellerne svarer til en lineær regressionsmodel. Det betyder at alle analyser kan udføres ved PROC GENMOD. Modellerne bygger på en række antagelser: linearitet (skal efterprøves) ingen interaktion / effektmodifikation (kan efterprøves), præcis som i logistisk regression. Derudover skal responsen have samme varians (SD) for alle individer, helst have normalfordelt fejl y E(y). Dette kan / bør man checke! 27 / 28

SAS-øvelser i kvantitative udfaldsvariable 1. Lav et histogram af hhv SBP og ln(sbp) for mænd alene. Dette kan f.eks. gøres vha PROC UNIVARIATE på følgende måde: proc univariate data=framingmales; histogram sbp; run; hvor framingmales er et datasæt med mændene. 2. For mænd alene, sammenlign niveauet af hhv SBP og ln(sbp) ved et parametrisk og et ikke-parametrisk test. Rapportér p-værdierne - bliver konklusionen forskellig afhængigt af om man analyserer SBP eller ln(sbp)? 3. Undersøg om niveauet af ln(sbp) er den samme i de fire aldersgrupper 45-48, 49-52, 53-56, 57-62. Brug både et parametrisk og et ikke-parametrisk test. 28 / 28