Basal Statistik for medicinske PhD-studerende November 2008

Relaterede dokumenter

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Løsning til opgave i logistisk regression

Simpel og multipel logistisk regression

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Lineær og logistisk regression

Logistisk Regression - fortsat

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Modul 5: Test for én stikprøve

9. Chi-i-anden test, case-control data, logistisk regression.

Postoperative komplikationer

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Opgavebesvarelse, logistisk regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Statistiske Modeller 1: Kontingenstabeller i SAS

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Statistik II 4. Lektion. Logistisk regression

Forelæsning 8: Inferens for varianser (kap 9)

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Logistisk regression

En Introduktion til SAS. Kapitel 6.

Konfidensinterval for µ (σ kendt)

Dag 6: Interaktion. Overlevelsesanalyse

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Basal Statistik Kategoriske Data

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Opgave 1: Graft vs. Host disease

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Reeksamen i Statistik for Biokemikere 6. april 2009

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Opgavebesvarelse, Basalkursus, uge 3

Logistisk regression

Module 12: Mere om variansanalyse

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Uge 13 referat hold 4

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Ensidet variansanalyse

Afdeling for Anvendt Matematik og Statistik December 2006

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Morten Frydenberg 26. april 2004

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Opgavebesvarelse, Basalkursus, uge 3

Morten Frydenberg 14. marts 2006

k normalfordelte observationsrækker (ensidet variansanalyse)

Basal statistik. 30. januar 2007

Opgavebesvarelse, Basalkursus, uge 3

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Reeksamen i Statistik for biokemikere. Blok

Opgave 1: Graft vs. Host disease

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Logistisk regression

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Besvarelse af vitcap -opgaven

Løsning til øvelsesopgaver dag 4 spg 5-9

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Konfidensintervaller og Hypotesetest

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Generelle lineære modeller

Statistik i basketball

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

c) For, er, hvorefter. Forklar.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Kvantitative Metoder 1 - Forår Dagens program

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Transkript:

Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc Logistisk regression Logistisk regression omhandler analyse af responsvariable der kun har to mulige udfald også kaldet 0-1 variable binære variable ja-nej variable November 2008: Logistisk regression 1 Eksempler er: Syg-rask død-levende stor-lille Responsvariablen ønskes forklaret af en eller flere forklarende variable. November 2008: Logistisk regression 2

Eksempel på 0-1 variabel Knoglemarvstransplantation på 37 leukæmipatienter, udfaldet er forekomst af acute graft versus host disease, GvHD (DGA, s.361). Obs gvhd donage preg type 19 0 25 1 1 1 0 23 0 2 20 0 24 0 3 2 0 18 0 2 21 1 35 1 1 3 0 19 0 1 22 1 35 1 2 4 0 22 0 2 23 1 23 0 3 5 0 38 0 2 24 1 43 0 3 6 0 20 0 2 25 1 24 1 3 7 0 19 0 2 26 1 35 1 2 8 0 23 0 2 27 1 31 0 3 9 0 36 0 1 28 1 29 1 2 10 0 19 0 1 29 1 20 0 1 11 0 20 0 2 30 1 39 1 1 12 0 21 0 3 31 1 14 0 1 13 0 38 0 2 32 1 35 1 2 14 0 15 0 2 33 1 25 1 3 15 0 16 0 2 34 1 32 0 3 16 0 25 0 1 35 1 19 0 3 17 0 21 1 1 36 1 34 0 3 18 0 20 0 2 37 1 20 0 1 November 2008: Logistisk regression 3 Udfaldet gvhd = Forklarende variable: { 1 hvis patienten oplevede GvHD 0 hvis patienten ikke oplevede GvHD donage: donors alder preg: har donor nogensinde været gravid = { 1 ja 0 nej November 2008: Logistisk regression 4 1 akut myeloid leukæmi (AML) type: leukæmitype = 2 akut lymfatisk leukæmi (ALL) 3 kronisk myeloid leukæmi (CML) Hvilken betydning har de forklarende variable for risikoen for at opleve GvHD? November 2008: Logistisk regression 5

Sædvanlig lineær regression Her er responsvariablen y i kvantitativ og vi antager, at den er normalfordelt y i = b 0 + b 1 x 1i + b 2 x 2i + e i, e i N(0, σ 2 ) eller: y i N(b 0 + b 1 x 1i + b 2 x 2i, σ 2 ) Forklarende variable: x 1i, x 2i Regressionskoefficienter: b 0, b 1, b 2 November 2008: Logistisk regression 6 Fortolkning af lineær regression: Hvad påvirker størrelse af thymus hos spædbørn: thymus størrelse = 6.09+1.06 dreng+0.35 fødslesvægt i 100 gram For et givent køn vokser thymus med 0.35 pr. 100 g fødselsvægt. For en given vægt er thymus 1.06 større hos drenge end hos piger. For et pige barn med vægt lig 0 er den forventede thymus størrelse 6.09. November 2008: Logistisk regression 7 Effekten af de enkelte forklarende variable er betinget af de øvrige variables tilstedeværelse i modellen. Effekten af de forklarende variable er lineær. November 2008: Logistisk regression 8

Analyse af 0-1 variabel Responsvariabel binær (0/1) hvordan udtrykkes afhængighed af donors alder (donage), donors graviditetshistorie (preg) og patientens type af leukæmi (type) Model for p = P {GvHD} [0,1] Upraktisk med p = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 November 2008: Logistisk regression 9 Transformationer Lidt bedre med ln(p) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 Bedst med logistisk regression som benytter logaritmen (naturlige) til odds ( ) p ln = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 1 p November 2008: Logistisk regression 10 Logistisk regression - lidt mere præcist ( ) p logit(p) = ln = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 1 p Binære udfald: Y {0, 1} Sandsynlighed: p = P {Y = 1} [0,1] Odds: ω = p ω [0,+ ] dvs. p = 1 p 1 + ω Odds-ratio: OR = p / 1 p2 [0,+ ] 1 p 1 1 p 2 November 2008: Logistisk regression 11

( ) p log-odds: logit(p) = ln 1 p logit kaldes også for link-funktionen. Lineær prediktor: Prædikteret odds: logit(p) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 = η ω = exp(η) Prædikteret sandsynlighed: p = ω 1 + ω = exp(η) 1 + exp(η) November 2008: Logistisk regression 12 Logistisk regression fortolkning To grupper, med sandsynligheder p 1 hhv. p 2 : ( ) ( ) p1 p2 logit(p 1 ) logit(p 2 ) = ln ln 1 p 1 1 p 2 ( / ) p1 p2 = ln 1 p 1 1 p 2 = ln(or) Lineære modeller for logit(p) giver sammenligninger via odds-ratios. November 2008: Logistisk regression 13 Estimation af regressionskeofficienterne foregår ved en metode kaldet maksimum likelihood estimation. I logistisk regression er denne metode en iterativ procedure som der ikke er nogle simple formler for. Hjælpen er SAS (eller anden statistik software). November 2008: Logistisk regression 14

Logistisk regression af GvHD En model kun med den binære forklarende variabel preg (har donor nogensinde været gravid). p = P {GvHD} ( ) p logit(p) = ln = b 0 + b 1 preg 1 p Resulterende model: logit(p) = 0.6931 + 2.0794 preg November 2008: Logistisk regression 15 Modellen logit(p) = 0.6931 + 2.0794 preg udtrykkes som sandsynlighed: p = exp( 0.6931 + 2.0794 preg) 1 + exp( 0.6931 + 2.0794 preg) = { 0.33 hvis preg=0 0.80 hvis preg=1 November 2008: Logistisk regression 16 Binær forklarende variabel Log-odds for GvHD for en patient hvis donor har været gravid (preg=1): ( ) p1 ln = ln(ω 1 ) = b 0 + b 1 1 = b 0 + b 1 1 p 1 Log-odds for GvHD for en patient hvis donor IKKE har været gravid (preg=0): ( ) p0 ln = ln(ω 0 ) = b 0 + b 1 0 = b 0 1 p 0 November 2008: Logistisk regression 17

Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 0 ) = b 0 + b 1 b 0 = b 1 Husk regnereglerne for logaritmer: ln(ω 1 ) ln(ω 0 ) = ln ( ω1 ω 0 ) = b 1 Dvs. odds ratio mellem de to typer af patienter er OR = ω 1 ω 0 = exp(b 1 ) = exp(2.0794) = 8 November 2008: Logistisk regression 18 Fortolkningen er, at en patient hvis donor har været gravid har 8 gange større odds for GvHD end en patient hvis donor ikke har været gravid. Donor gravid Ja Nej Total GvHD+ 8 9 17 GvHD 2 18 20 Total 10 27 37 Odds ratio i denne 2 x 2 tabel beregnes som... Sandsynlighederne for GvHD afhængig af donorerens November 2008: Logistisk regression 19 graviditetshistorie... sammenlign med slide nr.??. November 2008: Logistisk regression 20

Donor gravid Ja Nej Total GvHD+ 8 9 17 GvHD 2 18 20 Total 10 27 37 OR = 8/2 9/18 = 8 18 9 2 = 8 p 1 = 8 10 = 0.8, p 0 = 9 0.8 = 0.33 RR = 27 0.33 = 2.4 November 2008: Logistisk regression 21 I dette eksempel er værdierne for OR og RR meget forskellige. Hvorfor? Hvis udfaldet er forholdsvis sjældent vil OR og RR ligge tættere i værdi. November 2008: Logistisk regression 22 Vi udvider nu med at inkludere donors alder, donage: logit(p) = b 0 + b 1 preg + b 2 donage logit(p) = 2.6883 + 1.6982 preg + 0.0806 donage Kontrolleret for donors alder er odds ratio for preg nu exp(1.6982) = 5.46, dvs lidt mindre end i den tidligere model. I denne model er der også en antagelse om, at uanset hvilken alder donoren havde vil odds ratio for preg være 5.46. Hvad er fortolkningen af estimatet for donage? November 2008: Logistisk regression 23

Kvantitativ forklarende variabel Fortolkningen af donage hvis donor aldrig har været gravid (preg=0): Log-odds for GvHD for en patient hvis donor var A+1 år: ( ) p1 ln = ln(ω 1 ) = b 0 +b 1 0+b 2 (A+1) = b 0 +b 2 (A+1) 1 p 1 Log-odds for GvHD for en patient hvis donor var A år: ( ) p0 ln = ln(ω 0 ) = b 0 + b 1 0 + b 2 A = b 0 + b 2 A 1 p 0 November 2008: Logistisk regression 24 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 0 ) = b 0 +b 2 (A+1) (b 0 +b 2 A) = b 2 = 0.0806 Dvs. OR A+1,A = exp(0.0806) = 1.084. Når donors alder stiger med 1 år stiger forholdet mellem patienter der får hhv. ikke får GvHD med en faktor 1.084. Tilsvarende hvis donor har været gravid. November 2008: Logistisk regression 25 Fortolkningen af donage hvis donor aldrig har været gravid: Log-odds for GvHD for en patient hvis donor var A+10 år: ( ) p1 ln = ln(ω 1 ) = b 0 +b 1 0+b 2 (A+10) = b 0 +b 2 (A+10) 1 p 1 Log-odds for GvHD for en patient hvis donor var A år: ( ) p0 ln = ln(ω 0 ) = b 0 + b 2 A 1 p 0 November 2008: Logistisk regression 26

Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 0 ) = b 0 +b 2 (A+10) (b 0 +b 2 A) = b 2 10 = 0.0806 Dvs. OR A+10,A = exp(0.0806 10) = exp(0.0806) 10 = 1.084 10 = 2.240. Når donors alder stiger med 10 år stiger forholdet mellem patienter der får hhv. ikke får GvHD med en faktor 2.240. Tilsvarende hvis donor har været gravid. November 2008: Logistisk regression 27 Hvad betyder interceptet b 0? logit(p) = 0.6931 + 2.0794 preg 0.6931 er log-odds for GvHD hos en patient hvis donor aldrig har været gravid. logit(p) = 2.6883 + 1.6982 preg + 0.0806 donage 2.6883 er log-odds for GvHD hos en patient hvis donor aldrig har været gravid og donors alder var 0 år ikke særligt meningsfyldt. Vi vender tilbage til dette senere. November 2008: Logistisk regression 28 Konfidensintervaller (Wald type) Som for lineær regression: estimat ± z 1 α/2 std.error Std. error er også noget som maximum likelihood estimationen giver os. Men i logistisk regression er estimaterne log-odds eller log-odds-ratio. November 2008: Logistisk regression 29

GvHD data: 95% konfidensinterval for estimat (log-odds-ratio) associeret med donors graviditetshistorie: For odds ratio: 1.6982 ± 1.96 0.9289 = ( 0.1223,3.5188) (exp( 0.1223), exp(3.5188)) = (0.885, 33.745) November 2008: Logistisk regression 30 95% konfidensinterval for estimat (log-odds-ratio) associeret med 1 års forskel i donors alder: For OR: 0.0806 ± 1.96 0.0509 = ( 0.0191,0.1804) (exp( 0.0191), exp(0.1804)) = (0.981, 1.198) 95% konfidensinterval for estimat (log-odds-ratio) associeret med 10 års forskel i donors alder: 10 0.0806±1.96 10 0.0509 = 10 ( 0.0191, 0.1804) = ( 0.191 November 2008: Logistisk regression 31 For OR: (exp( 0.0191) 10,exp(0.1804) 10 ) = (0.981 10,1.198 10 ) = (0.826,6 November 2008: Logistisk regression 32

Wald test Alternativt kan man teste hypotesen om en regressionskoefficient er lig 0 med Wald χ 2 -testet: X 2 = ( ) 2 estimat χ 2 (1). std.error Hvis χ 2 (1) er større end 3.84 forkastes hypotesen med et signifikansniveau på 5%. November 2008: Logistisk regression 33 Test af hypotesen H 0 : ingen association mellem GvHD og donors graviditesthistorie (dvs. teste om estimatet for preg = 0): ( ) 2 1.6982 X 2 = = 3.3425, p > 0.05 0.9289 Test af hypotesen H 0 : ingen association mellem GvHD og donors alder (dvs. teste om estimatet for donage = 0): X 2 = ( ) 2 0.0806 = 2.5096, p > 0.05 0.0509 November 2008: Logistisk regression 34 GvHD data analyseret i SAS uden Analyst data gvhd; input gvhd donage preg type; cards; 0 23 0 2 0 18 0 2 0 19 0 1 0 22 0 2... 1 20 0 1 ; proc logistic data=gvhd; model gvhd(event="1") = preg donage / cl; November 2008: Logistisk regression 35

Output fra SAS-program The LOGISTIC Procedure Model Information Data Set WORK.GVHD Response Variable gvhd Number of Response Levels 2 Model binary logit Optimization Technique Fisher s scoring Number of Observations Read 37 Number of Observations Used 37 Response Profile Ordered Total Value gvhd Frequency 1 1 17 2 0 20 Probability modeled is gvhd=1. November 2008: Logistisk regression 36 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-2.6883 1.3480 3.9772 0.0461 preg 1 1.6982 0.9289 3.3425 0.0675 donage 1 0.0806 0.0509 2.5096 0.1132 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg 5.464 0.885 33.745 donage 1.084 0.981 1.198 Wald Confidence Interval for Parameters Parameter Estimate 95% Confidence Limits Intercept -2.6883-5.3302-0.0463 preg 1.6982-0.1223 3.5188 donage 0.0806-0.0191 0.1804 November 2008: Logistisk regression 37 Kategoriske forklarende variable preg: har donor nogensinde været gravid = { 1 ja 0 nej Fortolkningen af OR for preg var forskellen i risiko for GvHD mellem preg=1 og preg=0, eller svarende til en forskel på 1 i den forklarende variabel. Men her er det vigtigt at preg var kodet som 0/1. Hvis man vil være sikker i SAS skal man benytte et såkaldt class statement. November 2008: Logistisk regression 38

SAS: class statement proc logistic data=gvhd; class preg / param=ref; model gvhd(event="1")=preg; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 1.3863 0.7906 3.0748 0.0795 preg 0 1-2.0794 0.8898 5.4619 0.0194 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg 0 vs 1 0.125 0.022 0.715 November 2008: Logistisk regression 39 Estimatet for preg er det samme som tidligere men med minus foran og OR er den recibrokke af den tidligere OR. Interceptet er også ændret: Uden class statement: logit(p) = 0.6931+2.0794 preg OR = exp(2.0794) = 8 Med class statement: logit(p) = 1.3863 2.0794 preg OR = exp( 2.0794) = November 2008: Logistisk regression 40 Dette skyldes, at SAS som default vælger den største værdi af en klassevariabel som referencekategori, i dette tilfælde preg = 1. Hvad betyder interceptet i de to modeller? (hhv. 0.6931 og 1.3863) November 2008: Logistisk regression 41

Man kan vælge reference med ref="" (Husk citationstegn også når variablen er numerisk!) proc logistic data=gvhd; class preg(ref="0") / param=ref; model gvhd(event="1")=preg; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-0.6931 0.4082 2.8827 0.0895 preg 1 1 2.0794 0.8898 5.4619 0.0194 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg 1 vs 0 8.000 1.399 45.755 November 2008: Logistisk regression 42 Variable med mere end to kategorier 1 akut myeloid leukæmi (AML) type: leukæmitype = 2 akut lymfatisk leukæmi (ALL) 3 kronisk myeloid leukæmi (CML) proc logistic data=gvhd; model gvhd(event="1")=type; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-1.5333 0.9896 2.4010 0.1213 type 1 0.6896 0.4641 2.2077 0.1373 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits November 2008: Logistisk regression 43 type 1.993 0.802 4.949 November 2008: Logistisk regression 44

SAS: class statement proc logistic data=gvhd; class type / param=ref; model gvhd(event="1")=type; Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq type 2 6.4478 0.0398 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 1.3863 0.7906 3.0748 0.0795 type 1 1-1.5686 0.9958 2.4812 0.1152 type 2 1-2.4849 0.9789 6.4432 0.0111 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits type 1 vs 3 0.208 0.030 1.467 type 2 vs 3 0.083 0.012 0.568 November 2008: Logistisk regression 45 Valg af akut lymfatisk leukæmi som referencekategori: proc logistic data=gvhd; class type(ref="2") / param=ref; model gvhd(event="1")=type; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-1.0986 0.5774 3.6208 0.0571 type 1 1 0.9163 0.8367 1.1994 0.2734 type 3 1 2.4849 0.9789 6.4432 0.0111 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits type 1 vs 2 2.500 0.485 12.886 type 3 vs 2 12.000 1.762 81.742 November 2008: Logistisk regression 46 SAS class statement genererer automatisk to binære variable (indikatorvariable) for de kategorier som ikke er reference: I{type=1} = Modellen bliver så: { 1 hvis type = 1 0 ellers I{type=3} = logit(p) = b 0 + b 1 I{type=1} + b 2 I{type=3} = 1.0986 + 0.9163 I{type=1} + 2.4849 I{type=3} { 1 hvis type 0 ellers November 2008: Logistisk regression 47

Log-odds for GvHD for en patient med akut myeloid leukæmi (type=1) logit(p 1 ) = ln(ω 1 ) = b 0 + b 1 1 + b 2 0 = b 0 + b 1 Log-odds for GvHD for en patient med akut lymfatisk lekæmi (type=2) logit(p 2 ) = ln(ω 2 ) = b 0 + b 1 0 + b 2 0 = b 0 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 2 ) = b 0 + b 1 b 0 = b 1 November 2008: Logistisk regression 48 Dvs. odds ratio mellem AML og ALL er OR AML vs. ALL = ω 1 ω 2 = exp(b 1 ) = exp(0.9163) = 2.5 Tilsvarende er odds ratio mellem CML og ALL OR CML vs. ALL = exp(b 2 ) = exp(2.4849) = 12 Hvad betyder interceptet? November 2008: Logistisk regression 49 Log-odds for GvHD for en patient med AML (type=1) logit(p 1 ) = ln(ω 1 ) = b 0 + b 1 1 + b 2 0 = b 0 + b 1 Log-odds for GvHD for en patient med CML (type=3) logit(p 2 ) = ln(ω 2 ) = b 0 + b 1 0 + b 2 1 = b 0 + b 2 Forskellen i log-odds mellem disse to typer af patienter er: ln(ω 1 ) ln(ω 2 ) = b 0 + b 1 (b 0 + b 2 ) = b 1 b 2 Dvs. odds ratio mellem AML og CML er OR AML vs. CML = ω 1 ω 2 = exp(b 1 b 2 ) = exp(0.9163 2.4849) = exp( November 2008: Logistisk regression 50

Wald test for kategoriske forklarende variable Det Wald χ 2 -test (med 1 frihedsgrad) vi tidligere har set på var beregnet for hver parameterestimat for sig. Med en kategorisk forklarende variabel med mere end to niveauer vil vi også gerne udtale os om variablen er statistisk signifikant associeret til risikoen for responsen. Til dette findes en version af Wald χ 2 -testet med antal frihedsgrader lig antal af kategorier minus 1. Dette kan man også kalde et test for uafhængighed mellem variablen og responsen. November 2008: Logistisk regression 51 For variablen type fra GvHD eksemplet er antallet af kategorier 3 så Wald testet for hypotensen om ingen sammenhæng mellem GvHD og type af leukæmi vil have 2 frihedsgrader. Dette svarer også til simultant at teste, at begge parameterestimater for type er lig 0 eller at teste om alle tre kategorier har samme risiko for GvHD. Heldigvis beregner SAS også dette for os (i SAS kaldet Type III analysis ). Det har ingen betydning for testet, hvilken kategori der er blevet anvendt som reference: November 2008: Logistisk regression 52 proc logistic data=gvhd; class type / param=ref; model gvhd(event="1") = type; Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq type 2 6.4478 0.0398 proc logistic data=gvhd; class type(ref="2") / param=ref; model gvhd(event="1")=type; Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq type 2 6.4478 0.0398 November 2008: Logistisk regression 53

Effekt af centrering af kvantitativ forklarende variabel For GvHD data havde vi modellen logit(p) = 2.6883 + 1.6982 preg + 0.0806 donage. Interceptet er log-odds for GvHD for en patient hvis donor aldrig har været gravid og donors alder var 0 år. Centrerer vi donage omkring gennemsnitsalder for donorer (som er 26 år) er interceptet log-odds for GvHD for en patient hvis donor aldrig har været gravid og donors alder var 26 år: November 2008: Logistisk regression 54 data gvhd2; set gvhd; donage26=donage-26; proc logistic data=gvhd2; model gvhd(event="1")=preg donage26; The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-0.5915 0.4298 1.8935 0.1688 preg 1 1.6982 0.9289 3.3425 0.0675 donage26 1 0.0806 0.0509 2.5096 0.1132 November 2008: Logistisk regression 55 Hvis kovariaterne centreres omkring en værdi: ændres estimaterne ikke ændres standardafvigelsen ikke Wald s test og p-værdi forbliver den samme Interceptet kommer til at referere til log-odds for den værdi af kovariaterne man centrerer omkring. November 2008: Logistisk regression 56

Interaktion Modellen fra GvHD eksemplet: logit(p) = b 0 + b 1 preg + b 2 donage26 antager, at effekten af donors alder på risikoen for GvHD er den samme blandt donorer som har været hhv. ikke har været gravide. Dette bør vi teste. Dette gøres typisk ved at tilføje en ekstra variable interact som er produktet mellem preg og donage26: interact = preg*donage26 November 2008: Logistisk regression 57 Dvs. interact = { donage26 hvis donor har været gravid 0 hvis donor ikke har været gravid November 2008: Logistisk regression 58 Modellen bliver logit(p) = b 0 + b 1 preg + b 2 donage26 + b 3 interact b 1 er forskellen i log-odds mellem preg=1 og preg=0 for en donor med en alder på 26 år. b 2 er effekten af donage26 blandt donorer som IKKE har været gravide. b 3 er den ekstra effekt donage26 har blandt donorer som har været gravide ud over b 2. Dvs. hvis denne effekt er lig 0 vil effekten af donage26 være den samme for donorer der har hhv. ikke har været gravide. November 2008: Logistisk regression 59

proc logistic data=gvhd; class preg(ref="0") / param=ref; model gvhd(event="1")=preg donage26 interact; Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq preg 1 1.6188 0.2033 donage26 1 0.9534 0.3288 interact 1 0.8699 0.3510 <- TEST FOR INGEN INTERAKTION Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-0.6199 0.4198 2.1797 0.1398 preg 1 1 2.2368 1.7580 1.6188 0.2033 donage26 1 0.0514 0.0527 0.9534 0.3288 interact 1 0.7153 0.7669 0.8699 0.3510 November 2008: Logistisk regression 60 proc logistic data=gvhd; class preg(ref="0") / param=ref; model gvhd(event="1")=preg donage26 preg*donage26; <----------------- LIDT LETTERE Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq preg 1 1.6188 0.2033 donage26 1 0.9534 0.3288 donage26*preg 1 0.8699 0.3510 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-0.6199 0.4198 2.1797 0.1398 preg 1 1 2.2368 1.7580 1.6188 0.2033 donage26 1 0.0514 0.0527 0.9534 0.3288 donage26*preg 1 1 0.7153 0.7669 0.8699 0.3510 November 2008: Logistisk regression 61 Alternativ parametrisering til interaktion To nye variable: { donage26 hvis donor aldrig gravid donage26 notpreg = 0 hvis donor tidl. gravid { 0 hvis donor aldrig gravid donage26 preg = donage26 hvis donor tidl. gravid Modellen skal så være logit(p) = b 0 +b 1 preg+b 2 donage26 notpreg+b 3 donage26 November 2008: Logistisk regression 62

logit(p) = b 0 +b 1 preg+b 2 donage26 notpreg+b 3 donage26 b 1 er forskellen i log-odds mellem preg=1 og preg=0 for en donor med en alder på 26 år. b 2 er effekten af donage26 blandt donorer som IKKE har været gravide. b 3 er nu effekten af donage26 blandt donorer som HAR været gravide. November 2008: Logistisk regression 63 data gvhd2; set gvhd; donage26_notpreg=donage26*(preg=0); donage26_preg=donage26*(preg=1); proc logistic data=gvhd2; class preg(ref="0") / param=ref; model gvhd(event="1")=preg donage26_notpreg donage26_preg; Interaction: test donage26_notpreg=donage26_preg; <- TEST FOR INGEN INTERAKTION November 2008: Logistisk regression 64 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-0.6199 0.4198 2.1797 0.1398 preg 1 1 2.2368 1.7580 1.6188 0.2033 donage26_notpreg 1 0.0514 0.0527 0.9534 0.3288 donage26_preg 1 0.7667 0.7651 1.0042 0.3163 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits preg 1 vs 0 9.363 0.299 293.655 donage26_notpreg 1.053 0.950 1.167 donage26_preg 2.153 0.481 9.644 Linear Hypotheses Testing Results Wald Label Chi-Square DF Pr > ChiSq Interaction 0.8699 1 0.3510 <- TEST FOR INGEN INTERAKTION November 2008: Logistisk regression 65

Ordnede kategoriske forklarende variable Data fra DGA s. 261: Sammenhæng mellem kejsersnit og skostørrelse (skostørrelse er en simpel indikator for størrelse af bækken): Skonummer Kejsersnit < 4 4 4.5 5 5.5 6 Ialt Ja 5 7 6 7 8 10 43 Nej 17 28 36 41 46 140 308 I alt 22 35 42 48 54 150 351 Odds for kejsersnit er 0.29, 0.25, 0.17, 0.17, 0.17, 0.07 for stigende skostørrelse. November 2008: Logistisk regression 66 data sko; input cs $ skonr antal; cards; Y 3.5 5 Y 4.0 7 Y 4.5 6 Y 5.0 7 Y 5.5 8 Y 6.0 10 N 3.5 17 N 4.0 28 N 4.5 36 N 5.0 41 N 5.5 46 N 6.0 140 ; proc logistic data=sko descending; class skonr / param=ref; model cs=skonr; weight antal; November 2008: Logistisk regression 67 Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 263.067 263.723 SC 263.552 266.632-2 Log L 261.067 251.723 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 9.3442 5 0.0961 Score 9.2874 5 0.0981 Wald 8.6369 5 0.1245 Type 3 Analysis of Effects Effect DF Chi-Square Pr > ChiSq skonr 5 8.6369 0.1245 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-1.2237 0.5087 5.7860 0.0162 skonr 4 1-0.1626 0.6614 0.0604 0.8058 skonr 4.5 1-0.5680 0.6732 0.7118 0.3988 skonr 5 1-0.5439 0.6527 0.6944 0.4047 skonr 5.5 1-0.5255 0.6368 0.6808 0.4093 skonr 6 1-1.4153 0.6049 5.4734 0.0193 November 2008: Logistisk regression 68

proc logistic data=sko descending; model cs=skonr; weight antal; Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 263.067 257.508 SC 263.552 258.477-2 Log L 261.067 253.508 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 7.5597 1 0.0060 Score 8.0237 1 0.0046 Wald 7.6971 1 0.0055 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 0.6877 0.9462 0.5283 0.4673 skonr 1-0.5194 0.1872 7.6971 0.0055 <- TEST FOR TREND November 2008: Logistisk regression 69 Likelihood ratio test Likelihood-ratio er forholdet mellem likelihood funktionens maximum under to forskellige modeller, som alene adskiller sig ved at den mindste mangler en eller flere parametre (nestede modeller). I SAS skal man køre de to modeller hver for sig og derefter trække værdien af -2 Log L Intercept and Covariates for den største model fra -2 Log L Intercept and Covariates fra den mindste model. Dette tal skal vurderes i en χ 2 -fordeling med antal frihedsgrader lig forskellen i frihedsgrader (DF) i de to modeller. November 2008: Logistisk regression 70 Test for linearitet For at undersøge om den lineære model er acceptabel skal vi sammenligne de to modeller Model 1: skonr som en class variabel Model 2: skonr som en kvantitativ variabel Forskellen i -2 Log L Intercept and Covariates er (model 2) - (model 1) = 253.508 251.723 = 1.785. November 2008: Logistisk regression 71

Antal frihedsgrader findes under overskriften Testing Global Null Hypothesis: BETA=0 : Dvs. DF model 1 DF model 2 = 5 1 = 4. Likelihood ratio test = 1.785 χ 2 (4) p = 0.775 Testet er IKKE signifikant så vi accepterer den lineære model. November 2008: Logistisk regression 72 Beregning af p-værdi i SAS data; p=1-probchi(1.785,4); put p; -------------------- LOG VINDUE -------------------- 40 data; 41 p=1-probchi(1.785,4); 42 put p; 43 0.7752255237 NOTE: The data set WORK.DATA4 has 1 observations and 1 variables. NOTE: DATA statement used (Total process time): real time 0.01 seconds cpu time 0.01 seconds November 2008: Logistisk regression 73 Præsentation af resultater fra logistisk regression Typisk vil man præsentere odds ratio med tilhørende 95% confidensintervaller. For klassevariable vil man også supplere med en p-værdi fra testet om uafhængighed mellem variablen og resonsen. Nogle tidsskrifter forlanger også p-værdier for hvert estimat men dette er unødvendigt da confidensintervallet indeholder samme information. November 2008: Logistisk regression 74

Case-kontrol studier I et case-kontrol-studie udvælges: cases (sygdomstilfælde) som er verificeret fra et register eller lignende kontroller, som er personer der repræsenterer den population hvorfra cases stammer. Personer i case-kontrol-studier udvælges altså på baggrund af udfaldet. Typisk vil man på forhånd fastsætte forholdet mellem antallet af cases og kontroller. November 2008: Logistisk regression 75 Hvis en variabel har betydning for sygdommens udvikling: Forskellig fordeling af variablen mellem cases og kontroller. Sandsynligheden for at være en case (i populationen), p{sygdom} kan ikke estimeres ud fra et case-kontrol studie. Men effekten af kovariaterne på sygdomssandsynligheden kan! November 2008: Logistisk regression 76 Case-kontrol studier I populationen: p = P {case} p 1 p = odds(case) Udvælgelsesbrøker, dvs. inklusionssandsynligheder π 0 og π 1 : P {inklusion i studiet case} = π 1 P {inklusion i studiet kontrol} = π 0 November 2008: Logistisk regression 77

I et case-kontrol studie observerer man antallet af cases og antallet af kontroller, betinget af at disse faktisk er med i studiet. Afhænger af diverse kovariater (det er det man interesseret i) og inklusionssandsynlighederne (som man ikke er interesseret i). November 2008: Logistisk regression 78 p 1 p case kontrol π 1 1 π 1 π 0 1 π 0 inkluderet inkluderet P {case & inkl.} = p π 1 P {kontrol & inkl.} = (1 p) π 0 p π 1 odds(case inkl.) = = p (1 p) π 0 1 p π 1 π 0 November 2008: Logistisk regression 79 Logistisk regression Model for populationen: [ ] p ln = b 0 + b 1 x 1 + b 2 x 2 1 p Model for det observerede: [ ] [ ] p π1 ln[odds(case inkl.)] = ln + ln 1 p π 0 ( [ ] ) π1 = ln + b 0 + b 1 x 1 + b 2 x 2 π 0 November 2008: Logistisk regression 80

Analyse af P {case inklusion} dvs. binære observationer: { 1 case Y = 0 kontrol Effekt af kovariater estimeres korrekt. Intercept uden mening. afhænger af π 0 og π 1 der sædvanligvis er ukendte. November 2008: Logistisk regression 81