Simpel og multipel logistisk regression



Relaterede dokumenter
Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Løsning til opgave i logistisk regression

Logistisk regression og prædiktion

9. Chi-i-anden test, case-control data, logistisk regression.

Lineær og logistisk regression

Basal Statistik for medicinske PhD-studerende November 2008

Opgavebesvarelse, logistisk regression

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban

Logistisk regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Logistisk Regression - fortsat

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Logistisk regression

Analyse af binære responsvariable

Løsning til øvelsesopgaver dag 4 spg 5-9

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistiske Modeller 1: Kontingenstabeller i SAS

Postoperative komplikationer

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Statistik II 4. Lektion. Logistisk regression

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S


Generelle lineære modeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Besvarelse af opgavesættet ved Reeksamen forår 2008

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Besvarelse af vitcap -opgaven

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Morten Frydenberg 14. marts 2006

Uge 13 referat hold 4

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Logistisk regression

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Reeksamen i Statistik for biokemikere. Blok

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Morten Frydenberg 26. april 2004

Morten Frydenberg Biostatistik version dato:

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Basal statistik. 30. januar 2007

Kvantitative Metoder 1 - Forår Dagens program

To samhørende variable

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Træningsaktiviteter dag 3

Afdeling for Anvendt Matematik og Statistik December 2006

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Reeksamen i Statistik for Biokemikere 6. april 2009

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Besvarelse af juul2 -opgaven

Epidemiologiske associationsmål

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Opgavebesvarelse, Basalkursus, uge 3

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Basal Statistik Kategoriske Data

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Multipel regression 22. Maj, 2012

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Overlevelsesanalyse. Faculty of Health Sciences

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Statistik Lektion 17 Multipel Lineær Regression

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

MPH specialmodul Epidemiologi og Biostatistik

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Transkript:

Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende variable (covariater). alder, vægt, rygning, behandling,... Julie Forman Biostatistisk Afdeling, Københavns Universitet y x 1, x 2,..., x k respons forklarende variable Simpel logistisk regression: En forklarende variabel. : Flere forklarende variable. 2 / 60 Anvendelser Paralleller til lineær regression Udforskning Hvad afhænger responsen af? Beskrivelse af sammenhænge og tendenser. Identifikation af potentielle risikofaktorer. Test Validering af risikofaktorer. Effekten af en variabel korrigeret for andre. Prædiktion Forudsigelse af fremtidig respons. Diagnosticering. Essentielt samme interesser og problematikker fx: Multipel regression. Interaktioner. Confounding. MEN: Anderledes matematisk beskrivelse af data fordi responsen er binær. Ingen normalfordelinger her! 3 / 60 4 / 60

Outline Sandsynligheder og odds Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt For at forstå den logistiske regressions model er det vigtigt at man kan regne med sandsynligheder og odds. Hvis P betegner en sandsynlighed, så er de tilsvarende odds givet ved Odds = P 1 P Nogle gange har vi brug for regne tilbage fra odds til sandsynlighed, det gør man med P = Odds 1 + Odds 5 / 60 6 / 60 Fortolkning af odds Det kan være nyttigt at tænke på odds som forholdet mellem antallet af cases til antallet af non-cases i populationen, fx Odds = antal syge antal raske mens sandsynligheden er den overordnede proportion af cases 7 / 60 P = antal syge antal i alt Fordeling (cases - non-cases) P(case) Odds(case) 50-50 50% 5/5= 1 40-60 40% 4/6= 0.667 30-70 30% 3/7= 0.429 20-80 20% 1/4= 0.25 10-90 10% 1/9= 0.111 Odds ratio For at sammenligne sandsynligheder eller risici to grupper imellem, benyttes odds ratio ofte. Blandt singletonbørn født ved kunstig befrugtning (ART) bliver 1.70% født meget præmaturt, mens det samme kun gælder 0.82% af børn født ved naturlig koncipering. De tilsvarende odds er 1.73% hhv. 0.83% og ratio mellem dem er svarende til dobbelt så høje odds. OR = 0.0173 0.0083 2.08 OR approksimerer den relative risiko (begge ssh er <0.1) RR = 0.0170 0.0082 2.06. 8 / 60 60.000 ART- vs 360.000 kontrol-børn født i Skandinavien 1994-2008

Odds ratio generelt Outline Sammenligning af risiko/sandsynlighed for to grupper. Gruppe 1: fx ueksponerede med risiko P 1. Gruppe 2: eksponerede med risiko P 2. Odds-ratio (1 vs 2) er defineret ved: OR = P ( ) 1 P2 /. 1 P 1 1 P 2 Odds og odds ratio er er umiddelbart sværere at forstå end simple sandsynligheder, men fra et matematisk synspunkt er de nemme at arbejde med. Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 9 / 60 10 / 60 Eksempel: Menarke og alder Data fra skoleundersøgelser af 520 piger, Formål: Beskrive sandsynligheden for at menarke er indtruffet for piger mellem 8 og 20 år. Respons: menarke (ja/nej). Forklarende variabel: alder. age menarche 8.00 0 8.03 0 8.08 0 8.13 0... 19.48 1 19.56 1 19.75 1 Data fra Dalgaard: Introductory Statistics with R (2008) 11 / 60 12 / 60

Den simple logistiske regressionsmodel Sammenhængen mellem sandsynlighed og forklarende variabel er: log(odds) = α + βx Fortolkning af interceptet α Når kovariaten er x = 0, så er log(odds) = α + β 0 = α. Altså er Odds = exp(α) for x = 0. α er interceptet. β er regressionskoefficienten. x er den forklarende variabel. Eksempel: Vi finder den estimerede relation Eksempel exp(ˆα) 0.000000002 "Odds for menarke for en nul-årig". Det er slet og ret meningsløst! Men vi kunne flytte nulpunktet for alder... x = alder-14 giver intercept svarende til odds for en 14-årig. 13 / 60 log(odds(menarke)) = 20.01 + 1.52 alder OBS: I case-control studier har interceptet absolut ingen fortolkning. 14 / 60 Fortolkning af regressionskoefficienten β Når kovariaten øges med en, så ændres log(odds) fra fra log(odds(x)) = α + β x til log(odds(x + 1)) = α + β (x + 1) Træk den anden ligning fra den første: β = log(odds(x + 1)) log(odds(x)) ( ) Odds(x + 1) = log Odds(x) = log(or) Eksempel: når alderen øges med et år stiger odds for at en pige har oplevet menarke med en faktor OR = exp( ˆβ) 4.6. 15 / 60 Generel sammenligning af odds Hvor meget ændres odds for hvis alderen ændres med k år? log(odds 1 ) = α + β(x + k). log(odds 2 ) = α + βx. Vi finder et udtryk for log(or): log(or) = log(odds 1 ) log(odds 2 ) = α + β(x + k) (α + βx) = β k Altså OR = exp{kβ)} (gælder også negative k er). 16 / 60

Logit-transformationen Sammensætningen af log- og odds-transformationerne kaldes logit: ( ) P logit(p) = log 1 P Den logistisk regression modellerer sandsynlighed/risiko for et udfald på logit-skala: logit(p) = β 0 + β 1 x Logistisk regression er en såkaldt generaliseret lineær model med link-funktion logit (kan analyseres med proc genmod i SAS). Logit bruges også som transformation af kontinuerte respons med værdier mellem 0 og 1 (eksempelvis %-tal). Outline Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 17 / 60 18 / 60 Eksempel: Menarke ift alder SAS: proc logistic output Model Information PROC LOGISTIC DATA=mdata DESCENDING; MODEL menarche = age; RUN; Model-formel i stil med proc glm. Husk argumentet DESCENDING, ellers modellerer SAS sandsynligheden for at menarche=0! Data Set WORK.MDATA Response Variable menarche Number of Response Levels 2 Model binary logit Optimization Technique Fisher s scoring Number of Observations Read 520 Number of Observations Used 520 Response Profile Ordered Total Value menarche Frequency 1 1 263 2 0 257 19 / 60 20 / 60 Probability modeled is menarche=1.

SAS output: Overordnet goodness of fit SAS output: parameterestimater og test Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 722.804 204.665 SC 727.058 213.173-2 Log L 720.804 200.665 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 520.1388 1 <.0001 Score 357.2548 1 <.0001 Wald 96.6245 1 <.0001 21 / 60 Check altid Model convengence status. 22 / 60 The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-20.0123 2.0280 97.3766 <.0001 age 1 1.5172 0.1543 96.6245 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 4.560 3.369 6.170 SAS output: evaluering af prædiktionsevne Test af alderseffekten Forklares til forelæsningen om logistisk regression og prædiktion (efter frokost). The LOGISTIC Procedure Association of Predicted Probabilities and Observed Responses Percent Concordant 97.7 Somers D 0.954 Percent Discordant 2.3 Gamma 0.954 Percent Tied 0.0 Tau-a 0.478 Pairs 67591 c 0.977 Vores nulhypotese er at sandsynligheden for menarke ikke afhænger af alder, H 0 : β = 0. Man kan benytte Wald test: z = estimat s.e. N (0, 1). Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-20.0123 2.0280 97.3766 <.0001 age 1 1.5172 0.1543 96.6245 <.0001 Som forventet stærkt signifikant effekt af alder. 23 / 60 24 / 60

Konfidensintervaller Outline Find et 95% konfidensinterval for odds ratio associeret med et års aldersstigning. Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 4.560 3.369 6.170 Kunne også findes ved at transformere konfidensintervallet for β = log(or), altså ved at udregne exp( ˆβ ± 1.96 s.e.). Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 25 / 60 26 / 60 Eksempel: Hypertension Sammenhængen med de forklarende variable er givet ved: log(odds) = α + β 1 x 1 + + β k x k Forskellen mellem to odds, log(or) = log(odds 1 ) log(odds 2 ) er en lineær funktion af β erne og forskellene i x erne. 27 / 60 DG 28 / 60 Altman: Practical Statistics for Medical Research, (2nd edition, 1999)

Multipel logistisk model for hypertension Respons: Hypertension (ja eller nej). Risiko-faktorer: Rygning, fedme og snorken (ja eller nej). Model for risiko: log(odds) = α + β 1 x 1 + β 2 x 2 + β 3 x 3 x 1 = 1 for rygning=ja og x 1 = 0 for rygning=nej. x 2 = 1 for fedme=ja og x 2 = 0 for fedme=nej. x 3 = 1 for snorken=ja og x 3 = 0 for snorken=nej. Analyse af tabellerede data i SAS Bemærk: særlig syntaks for tabelleret datasæt: smoking obesity snoring n count 0 0 0 60 5 1 0 0 17 2 0 1 0 8 1 1 1 0 2 0 0 0 1 187 35 1 0 1 85 13 0 1 1 51 15 1 1 1 23 8 PROC LOGISTIC DATA=hyper DESCENDING; MODEL count/n = snoring obesity smoking; RUN; 29 / 60 30 / 60 Parameterestimater Fortolkning af interceptet Parameterestimater (og Wald test for hypoteserne H : β = 0): Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-2.3776 0.3802 39.1119 <.0001 snoring 1 0.8718 0.3976 4.8091 0.0283 obesity 1 0.6953 0.2851 5.9486 0.0147 smoking 1-0.0678 0.2781 0.0594 0.8075 Test af interceptet (H : α = 0 svarer til Odds= exp(0) = 1) er sjældent interessant. Interceptet er log-odds hos en person med 0 på alle forklarende variable. I.e. hvis x 1 = x 2 = x 3 = 0, så er: log(odds) = α + β 1 0 + β 2 0 + β 3 0 = α Hypertension eksempel: log-odds for hypertension for en ikke-snorkende, ikke-fed, ikke-ryger: Baseline odds exp(ˆα) exp( 2.38) = 0.09, hvilket svarer til en risiko på ca 8.5%. 31 / 60 32 / 60

Fortolkning af regressionskoefficienterne Ryger (1) mod ikke-ryger (2) med samme status på fedme og snorken: med odds-ratio, 33 / 60 log(odds 1 ) = α + β 1 1 + β 2 x 2 + β 3 x 3 log(odds 2 ) = α + β 1 0 + β 2 x 2 + β 3 x 3. log(or) = log(odds 1 ) log(odds 2 ) = β 1 1 OR = exp(β 1 ) exp( 0.07) = 0.93. Hvis β 1 > 0 er der øget risiko for rygere: OR > 1. Hvis β 1 < 0 er der lavere risiko: OR < 1. Hvis β 1 = 0 er der ingen forskel: OR = 1. Konfidensintervaller 34 / 60 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits snoring 2.391 1.097 5.212 obesity 2.004 1.146 3.505 smoking 0.934 0.542 1.612 Odds-ratio for rygning 1 (0.53 1.59). Omtrent fordobling af risiko ved snorken eller fedme. MEN: stor statistisk usikkerhed. Outline Sandsynligheder i logistisk regression Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt tilbage-transformeret log(odds) Odds P: P(Y = 1) = P = exp(α + β 1x 1 + + β k x k ) 1 + exp(α + β 1 x 1 + + β k x k ) P(Y = 0) = 1 P = 1 1 + exp(α + β 1 x 1 + + β k x k ) Sammenfattet formel (gælder både når y = 0 og y = 1): P(Y = y) = P y (1 P) 1 y = exp(α + β 1x 1 + + β k x k ) y 1 + exp(α + β 1 x 1 + + β k x k ) 35 / 60 36 / 60

Maximum likelihood estimation Estimationsprincip: Vælg de parameterværdier der giver de observerede udfald størst sandsynlighed. Teoretisk sandsynlighed for de n uafhængige observationer er: L n (β) = n i=1 exp(α + β 1 x i1 + + β k x ik ) y i exp(α + β 1 x i1 + + β k x ik ). Denne funktion af observationerne og modelparametrene kaldes for Likelihood funktionen. Maximum likelihood estimatorerne er det sæt af parametre der maksimerer likelihood funktionen: (ˆα, ˆβ 1,..., ˆβ k ). Deviance Maksimumsværdien for likelihood funktionen er: Jo større jo bedre. 0 < L n ( ˆβ) 1. Måles oftest som deviance på log-skala: Jo mindre jo bedre. deviance = 2 log L n ( ˆβ) 0. Deviance bruges til at teste hypoteser i analogi med Sums of Squares i variansanalyse. 37 / 60 38 / 60 Likelihood-ratio-test Eksempel: Hypertension For at reducere en kompleks model til en simpelere ser vi på ændring i deviance når en eller flere forklarende variable udelades. Likelihood-ratio testet er baseret på: deviance) χ 2 ( df) df er forskellen mellem modellernes frihedsgader. deviance er forskellen mellem modellernes deviances. Kaldes for likelihood-ratio test fordi deviance) = 2 log(likelihood-ratio) hvor likelihood-ratio er forholdet mellem likelihoodfunktionernes maximum i den ureducerede og reducerede model. Overordnet test af covariaterne H : β 1 = β 2 = β 3 = 0: Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 413.424 406.916 SC 417.495 423.199-2 Log L 411.424 398.916 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 12.5075 3 0.0058 Score 12.2707 3 0.0065 Wald 11.5931 3 0.0089 Bemærk at deviance = 411.424 398.916 = 12.508. 39 / 60 40 / 60

Outline Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt Er observationerne i data er indbyrdes uafhængige? Er sandsynligheden tilfredsstillende beskrevet som logit-lineær funktion af de forklarende variable? Er der kontinuerte forklarende variable en ikke-lineær effekt? Er væsentlige interaktioner udeladt? Det er ikke nødvendigt at checke yderligere antagelser om fordelingen af data fordi responsen er binær. 41 / 60 42 / 60 Ikke-linearitet Menarke vs alder: Ikke-linearitet? Kunne være: Risiko / sandsynlighed der accelererer eller stagnerer. Risiko / sandsynlighed der ikke er monoton Eksempelvis: BMI: over- og undervægtige har øget risiko for sygdom. Alder: øget risik for uheld hos de yngste/ældste bilister. Hvad kan man gøre ved det? Gruppering (e.g. BMI-grupper) Splines (som I lærer om på et senere kursus). Kunne teste mode en polynomial-effekt (men splines er bedre): DATA mdata; SET mdata; age1 = age-13.427; age2 = age1**2; age3 = age1**3; RUN; PROC LOGISTIC DATA=mdata DESCENDING; MODEL menarke = age1 age2 age3; RUN; deviance = 200.665 191.795 χ 2 2, P= 0.012... 43 / 60 44 / 60

Hypertension: Interaktioner? Test af interaktionsled Som udgangspunkt så vi på en model uden interaktioner. Effekten (OR) af rygning er den samme uanset om man er fed eller normalvægtig og om man snorker eller ej. Effekten (OR) af fedme er den samme uanset om man er ryger eller ikke-ryger og om man snorker eller ej. Effekten af snorken (OR) er den samme uanset om man er fed eller normalvægtig og om man ryger eller ej. Stemmer det med hvad vi ser i data? PROC LOGISTIC DATA=hyper DESCENDING; WEIGHT number; MODEL hypertens = snoring obesity smoking snoring*obesity; RUN; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-2.3025 0.3964 33.7392 <.0001 snoring 1 0.7621 0.4271 3.1834 0.0744 obesity 1 0.1053 1.1262 0.0087 0.9255 snoring*obesity 1 0.6388 1.1647 0.3008 0.5834 Osv... Vi finder ingen signifikante interaktioner i modellen. 45 / 60 46 / 60 Outline Lægekontakt i almen praksis Sandsynlighed, odds og odds ratio (OR) I 1991 gennemførte institut for social medicin en undersøgelse af danskernes lægeforbrug. 1724 personer indgik i undersøgelsen. Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 47 / 60 48 / 60

Eksplorativ dataanalyse Kategoriske forklarende variable Lægekontakt: 646 eller 37.5% ud af 1723 personer har været i kontakt med egen læge i 1. kvartal af 1991. Hvem bruger egentlig de praktiserende læger? Går kvinder mere til lægen end mænd? Går pensionister og arbejdsløse mere til lægen? Går man oftere til lægen hvis man har mange bekymringer? Går man sjældnere til lægen hvis der er lang vej? Antal (%) Mangler (%) Køn = Mand 856 (50%) 4 (0.02%) Bor med partner 1383 (80%) 0 (0.00%) Bor med børn 509 (30%) 4 (0.02%) Arbejdsløs 83 (5%) 0 (0.00%) Pensioneret 71 (4%) 4 (0.02%) Medlem af Danmark 535 (31%) 13 (0.08%) Det bliver måske svært at sige noget om pensionister og arbejdsløse... 49 / 60 50 / 60 Kontinuerte forklarende variable Logistisk regression Median (IQR) Mangler (%) Husstandsindkomst (100.000 er) 3.5 (2.5 4.5) 209 (12.1%) Afstand til lægen (minutter) 5 (5 10) 137 (8.0%) Kroniske sygdomme (0 23) 1 (0 2) 4 (0.2%) Nedsat funktionsevne (0-10 point) 0 (0 1) 28 (1.6%) Mentale symptomer (0-100 point) 21 (19 25) 44 (2.6%) Dårligt alment helbred (0-25 point) 5 (4 9) 48 (2.8%) Bekymringer (0-10 point) 5 (4 7) 17 (1.0%) Sociale kontakter (0-25 point) 12 (10 14) 48 (2.8%) Bemærk: Manglende værdier... Simpel regression Multipel regression OR (95% CI) OR (95% CI) Køn=mand 0.58 (0.48 0.71) 0.64 (0.50 0.81) Bor med partner 0.76 (0.60 0.97) 0.90 (0.65 1.24) Bor med børn 0.96 (0.78 1.19) 1.18 (0.90 1.53) Arbejdsløs 1.43 (0.91 2.22) 1.29 (0.73 2.29) Pensionist 3.66 (2.23 6.19) 0.64 (0.29 1.44) Medlem af Danmark 1.15 (0.93 1.42) 1.15 (0.89 1.49) Indkomst 1.00 (1.00 1.00) 1.00 (1.00 1.00) Afstand til lægen 1.01 (0.99 1.03) 0.99 (0.97 1.01) Kroniske sygdomme 1.34 (1.26 1.42) 1.13 (1.03 1.24) Neds.funktionsevne 1.19 (1.15 1.24) 1.08 (1.01 1.14) Mentale symptomer 1.07 (1.05 1.09) 1.03 (1.00 1.05) Dårligt helbred 1.13 (1.11 1.16) 1.04 (1.00 1.09) Bekymringer 1.11 (1.06 1.17) 1.06 (1.00 1.13) Sociale kontakter 1.00 (0.96 1.03) 1.02 (0.98 1.07) 51 / 60 52 / 60 Multipel regression baseret på 1309 complete cases (414 incomplete).

Kommentarer Ikke overraskende signifikant effekt af helbredsrelaterede variable, men effekten af de individuelle faktorer moderes ved indbyrdes korrektion (kollinearitet). Mænd går væsentligt mindre til lægen end kvinder! Stor usikkerhed omkring arbejdsløse der er kun få af dem i data. Pensionister går mere til lægen p.gr.a. dårligere helbred. Indkomst, socialt netværk og afstand til lægen har meget lille effekt, men bidrager med mange manglende værdier. Flere complete cases Ser bort fra indkomst, afstand til lægen og sociale kontakter. OR (95% CI) p-værdi Køn = Mand 0.62 (0.49 0.76) <0.0001 Bor med partner 0.93 (0.71 1.23) 0.60 Bor med børn 1.10 (0.87 1.39) 0.42 Arbejdsløs 1.10 (0.67 1.79) 0.71 Pensionist 1.00 (0.53 1.90) 0.99 Medlem af Danmark 1.16 (0.92 1.45) 0.21 Kroniske sygdomme 1.14 (1.05 1.23) 0.002 Neds.funktionsevne 1.05 (1.00 1.11) 0.06 Mentale symptomer 1.03 (1.01 1.04) 0.007 Dårligt helbred 1.05 (1.01 1.09) 0.014 Bekymringer 1.06 (1.00 1.12) 0.059 Multipel regression baseret på 1614 complete cases (109 incomplete). 53 / 60 54 / 60 Kommentarer Mænd og kvinder separat Signifikant effekt af sygdomsrelaterede variable, (kroniske sygdomme, mentale sygdomme, dårligt alment helbred). Borderline signifikans af bekymringer og nedsat funktionsevne. Tendens til at arbejdsløse, børnefamilier og medlemmer af sygeforsikring Danmark går mere til lægen, men stadig stor usikkerhed omkring disse. Pensionister går ikke mere til lægen end andre, når man tager højde for deres helbredstilstand. Mænd går mindre til lægen end kvinder (P < 0.0001)... 55 / 60 Går mænd og kvinder til lægen af samme årsager? Mænd Kvinder OR (95% CI) OR (95% CI) Bor med partner 1.13 (0.73 1.77) 0.80 (0.56 1.15) Bor med børn 1.45 (1.04 2.02) 0.83 (0.59 1.16) Arbejdsløs 1.07 (0.49 2.23) 1.20 (0.62 2.34) Pensionist 0.92 (0.35 2.43) 1.16 (0.50 2.82) Medlem af Danmark 0.91 (0.64 1.29) 1.39 (1.02 1.88) Kroniske sygdomme 1.12 (0.99 1.28) 1.15 (1.03 1.28) Neds.funktionsevne 1.05 (0.96 1.14) 1.06 (0.99 1.15) Mentale symptomer 1.03 (1.00 1.06) 1.03 (1.00 1.05) Dårligt helbred 1.07 (1.02 1.14) 1.02 (0.97 1.08) Bekymringer 1.07 (0.99 1.17) 1.04 (0.97 1.13) Multipel regression baseret på 807 mænd hhv. 805 kvinder. 56 / 60

Kommentarer Større statistisk usikkerhed når data halveres. Stort set samme effekter hos mænd og kvinder... Bortset fra: Mænd med børn går oftere til lægen. Konklusion Interaktionsled mellem køn og bor med barn tilføjet. OR (95% CI) p-værdi Køn = mand 0.52 (0.40 0.67) <0.0001 Bor med partner 0.91 (0.70 1.21) 0.53 Bor med barn (K) 0.82 (0.58 1.15) 0.26 Bor med barn (M) 1.45 (1.04 2.00) 0.026 Arbejdsløs 1.12 (0.68 1.82) 0.66 Pensionist 1.00 (0.53 1.90) 0.99 Medlem af Danmark 1.15 (0.92 1.45) 0.22 Kroniske sygdomme 1.14 (1.05 1.23) 0.002 Neds.funktionsevne 1.05 (1.00 1.11) 0.06 Mentale symptomer 1.03 (1.01 1.05) 0.004 Dårligt helbred 1.05 (1.01 1.09) 0.014 Bekymringer 1.06 (1.00 1.12) 0.06 57 / 60 Multipel regression baseret på 1614 complete cases (109 incomplete). 58 / 60 Multiple testing Mange variable Vi har lavet mange test og burde måske korrigere for det: Bonferroni korrektion (gang p-værdierne med antal test) er desværre tilbøjelig til at overkorrigere. Andre metoder er svære at bruge (ikke med i proc logistic). Løsninger: Planlæg på forhånd præcis hvilke effekter du vil teste og hvilke du vil korrigere for, så antal test begrænses. Det er ok at fiske i en eksplorativ analyse. Efterfølgende studier må be- eller afkræfte de effekter vi fandt... Få hjælp af en statistiker. Husk tommelfingereglen. Minimum 5-10 events/nonevents for hver kovariat. 59 / 60 60 / 60