Simpel og multipel logistisk regression

Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende variable (covariater). alder, vægt, rygning, behandling,... Julie Forman Biostatistisk Afdeling, Københavns Universitet y x 1, x 2,..., x k respons forklarende variable Simpel logistisk regression: En forklarende variabel. : Flere forklarende variable. 2 / 60 Anvendelser Paralleller til lineær regression Udforskning Hvad afhænger responsen af? Beskrivelse af sammenhænge og tendenser. Identifikation af potentielle risikofaktorer. Test Validering af risikofaktorer. Effekten af en variabel korrigeret for andre. Prædiktion Forudsigelse af fremtidig respons. Diagnosticering. Essentielt samme interesser og problematikker fx: Multipel regression. Interaktioner. Confounding. MEN: Anderledes matematisk beskrivelse af data fordi responsen er binær. Ingen normalfordelinger her! 3 / 60 4 / 60

Outline Sandsynligheder og odds Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt For at forstå den logistiske regressions model er det vigtigt at man kan regne med sandsynligheder og odds. Hvis P betegner en sandsynlighed, så er de tilsvarende odds givet ved Odds = P 1 P Nogle gange har vi brug for regne tilbage fra odds til sandsynlighed, det gør man med P = Odds 1 + Odds 5 / 60 6 / 60 Fortolkning af odds Det kan være nyttigt at tænke på odds som forholdet mellem antallet af cases til antallet af non-cases i populationen, fx Odds = antal syge antal raske mens sandsynligheden er den overordnede proportion af cases 7 / 60 P = antal syge antal i alt Fordeling (cases - non-cases) P(case) Odds(case) 50-50 50% 5/5= 1 40-60 40% 4/6= 0.667 30-70 30% 3/7= 0.429 20-80 20% 1/4= 0.25 10-90 10% 1/9= 0.111 Odds ratio For at sammenligne sandsynligheder eller risici to grupper imellem, benyttes odds ratio ofte. Blandt singletonbørn født ved kunstig befrugtning (ART) bliver 1.70% født meget præmaturt, mens det samme kun gælder 0.82% af børn født ved naturlig koncipering. De tilsvarende odds er 1.73% hhv. 0.83% og ratio mellem dem er svarende til dobbelt så høje odds. OR = 0.0173 0.0083 2.08 OR approksimerer den relative risiko (begge ssh er <0.1) RR = 0.0170 0.0082 2.06. 8 / 60 60.000 ART- vs 360.000 kontrol-børn født i Skandinavien 1994-2008

Odds ratio generelt Outline Sammenligning af risiko/sandsynlighed for to grupper. Gruppe 1: fx ueksponerede med risiko P 1. Gruppe 2: eksponerede med risiko P 2. Odds-ratio (1 vs 2) er defineret ved: OR = P ( ) 1 P2 /. 1 P 1 1 P 2 Odds og odds ratio er er umiddelbart sværere at forstå end simple sandsynligheder, men fra et matematisk synspunkt er de nemme at arbejde med. Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 9 / 60 10 / 60 Eksempel: Menarke og alder Data fra skoleundersøgelser af 520 piger, Formål: Beskrive sandsynligheden for at menarke er indtruffet for piger mellem 8 og 20 år. Respons: menarke (ja/nej). Forklarende variabel: alder. age menarche 8.00 0 8.03 0 8.08 0 8.13 0... 19.48 1 19.56 1 19.75 1 Data fra Dalgaard: Introductory Statistics with R (2008) 11 / 60 12 / 60

Den simple logistiske regressionsmodel Sammenhængen mellem sandsynlighed og forklarende variabel er: log(odds) = α + βx Fortolkning af interceptet α Når kovariaten er x = 0, så er log(odds) = α + β 0 = α. Altså er Odds = exp(α) for x = 0. α er interceptet. β er regressionskoefficienten. x er den forklarende variabel. Eksempel: Vi finder den estimerede relation Eksempel exp(ˆα) 0.000000002 "Odds for menarke for en nul-årig". Det er slet og ret meningsløst! Men vi kunne flytte nulpunktet for alder... x = alder-14 giver intercept svarende til odds for en 14-årig. 13 / 60 log(odds(menarke)) = 20.01 + 1.52 alder OBS: I case-control studier har interceptet absolut ingen fortolkning. 14 / 60 Fortolkning af regressionskoefficienten β Når kovariaten øges med en, så ændres log(odds) fra fra log(odds(x)) = α + β x til log(odds(x + 1)) = α + β (x + 1) Træk den anden ligning fra den første: β = log(odds(x + 1)) log(odds(x)) ( ) Odds(x + 1) = log Odds(x) = log(or) Eksempel: når alderen øges med et år stiger odds for at en pige har oplevet menarke med en faktor OR = exp( ˆβ) 4.6. 15 / 60 Generel sammenligning af odds Hvor meget ændres odds for hvis alderen ændres med k år? log(odds 1 ) = α + β(x + k). log(odds 2 ) = α + βx. Vi finder et udtryk for log(or): log(or) = log(odds 1 ) log(odds 2 ) = α + β(x + k) (α + βx) = β k Altså OR = exp{kβ)} (gælder også negative k er). 16 / 60

Logit-transformationen Sammensætningen af log- og odds-transformationerne kaldes logit: ( ) P logit(p) = log 1 P Den logistisk regression modellerer sandsynlighed/risiko for et udfald på logit-skala: logit(p) = β 0 + β 1 x Logistisk regression er en såkaldt generaliseret lineær model med link-funktion logit (kan analyseres med proc genmod i SAS). Logit bruges også som transformation af kontinuerte respons med værdier mellem 0 og 1 (eksempelvis %-tal). Outline Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 17 / 60 18 / 60 Eksempel: Menarke ift alder SAS: proc logistic output Model Information PROC LOGISTIC DATA=mdata DESCENDING; MODEL menarche = age; RUN; Model-formel i stil med proc glm. Husk argumentet DESCENDING, ellers modellerer SAS sandsynligheden for at menarche=0! Data Set WORK.MDATA Response Variable menarche Number of Response Levels 2 Model binary logit Optimization Technique Fisher s scoring Number of Observations Read 520 Number of Observations Used 520 Response Profile Ordered Total Value menarche Frequency 1 1 263 2 0 257 19 / 60 20 / 60 Probability modeled is menarche=1.

SAS output: Overordnet goodness of fit SAS output: parameterestimater og test Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 722.804 204.665 SC 727.058 213.173-2 Log L 720.804 200.665 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 520.1388 1 <.0001 Score 357.2548 1 <.0001 Wald 96.6245 1 <.0001 21 / 60 Check altid Model convengence status. 22 / 60 The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-20.0123 2.0280 97.3766 <.0001 age 1 1.5172 0.1543 96.6245 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 4.560 3.369 6.170 SAS output: evaluering af prædiktionsevne Test af alderseffekten Forklares til forelæsningen om logistisk regression og prædiktion (efter frokost). The LOGISTIC Procedure Association of Predicted Probabilities and Observed Responses Percent Concordant 97.7 Somers D 0.954 Percent Discordant 2.3 Gamma 0.954 Percent Tied 0.0 Tau-a 0.478 Pairs 67591 c 0.977 Vores nulhypotese er at sandsynligheden for menarke ikke afhænger af alder, H 0 : β = 0. Man kan benytte Wald test: z = estimat s.e. N (0, 1). Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-20.0123 2.0280 97.3766 <.0001 age 1 1.5172 0.1543 96.6245 <.0001 Som forventet stærkt signifikant effekt af alder. 23 / 60 24 / 60

Konfidensintervaller Outline Find et 95% konfidensinterval for odds ratio associeret med et års aldersstigning. Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 4.560 3.369 6.170 Kunne også findes ved at transformere konfidensintervallet for β = log(or), altså ved at udregne exp( ˆβ ± 1.96 s.e.). Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 25 / 60 26 / 60 Eksempel: Hypertension Sammenhængen med de forklarende variable er givet ved: log(odds) = α + β 1 x 1 + + β k x k Forskellen mellem to odds, log(or) = log(odds 1 ) log(odds 2 ) er en lineær funktion af β erne og forskellene i x erne. 27 / 60 DG 28 / 60 Altman: Practical Statistics for Medical Research, (2nd edition, 1999)

Multipel logistisk model for hypertension Respons: Hypertension (ja eller nej). Risiko-faktorer: Rygning, fedme og snorken (ja eller nej). Model for risiko: log(odds) = α + β 1 x 1 + β 2 x 2 + β 3 x 3 x 1 = 1 for rygning=ja og x 1 = 0 for rygning=nej. x 2 = 1 for fedme=ja og x 2 = 0 for fedme=nej. x 3 = 1 for snorken=ja og x 3 = 0 for snorken=nej. Analyse af tabellerede data i SAS Bemærk: særlig syntaks for tabelleret datasæt: smoking obesity snoring n count 0 0 0 60 5 1 0 0 17 2 0 1 0 8 1 1 1 0 2 0 0 0 1 187 35 1 0 1 85 13 0 1 1 51 15 1 1 1 23 8 PROC LOGISTIC DATA=hyper DESCENDING; MODEL count/n = snoring obesity smoking; RUN; 29 / 60 30 / 60 Parameterestimater Fortolkning af interceptet Parameterestimater (og Wald test for hypoteserne H : β = 0): Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-2.3776 0.3802 39.1119 <.0001 snoring 1 0.8718 0.3976 4.8091 0.0283 obesity 1 0.6953 0.2851 5.9486 0.0147 smoking 1-0.0678 0.2781 0.0594 0.8075 Test af interceptet (H : α = 0 svarer til Odds= exp(0) = 1) er sjældent interessant. Interceptet er log-odds hos en person med 0 på alle forklarende variable. I.e. hvis x 1 = x 2 = x 3 = 0, så er: log(odds) = α + β 1 0 + β 2 0 + β 3 0 = α Hypertension eksempel: log-odds for hypertension for en ikke-snorkende, ikke-fed, ikke-ryger: Baseline odds exp(ˆα) exp( 2.38) = 0.09, hvilket svarer til en risiko på ca 8.5%. 31 / 60 32 / 60

Fortolkning af regressionskoefficienterne Ryger (1) mod ikke-ryger (2) med samme status på fedme og snorken: med odds-ratio, 33 / 60 log(odds 1 ) = α + β 1 1 + β 2 x 2 + β 3 x 3 log(odds 2 ) = α + β 1 0 + β 2 x 2 + β 3 x 3. log(or) = log(odds 1 ) log(odds 2 ) = β 1 1 OR = exp(β 1 ) exp( 0.07) = 0.93. Hvis β 1 > 0 er der øget risiko for rygere: OR > 1. Hvis β 1 < 0 er der lavere risiko: OR < 1. Hvis β 1 = 0 er der ingen forskel: OR = 1. Konfidensintervaller 34 / 60 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits snoring 2.391 1.097 5.212 obesity 2.004 1.146 3.505 smoking 0.934 0.542 1.612 Odds-ratio for rygning 1 (0.53 1.59). Omtrent fordobling af risiko ved snorken eller fedme. MEN: stor statistisk usikkerhed. Outline Sandsynligheder i logistisk regression Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt tilbage-transformeret log(odds) Odds P: P(Y = 1) = P = exp(α + β 1x 1 + + β k x k ) 1 + exp(α + β 1 x 1 + + β k x k ) P(Y = 0) = 1 P = 1 1 + exp(α + β 1 x 1 + + β k x k ) Sammenfattet formel (gælder både når y = 0 og y = 1): P(Y = y) = P y (1 P) 1 y = exp(α + β 1x 1 + + β k x k ) y 1 + exp(α + β 1 x 1 + + β k x k ) 35 / 60 36 / 60

Maximum likelihood estimation Estimationsprincip: Vælg de parameterværdier der giver de observerede udfald størst sandsynlighed. Teoretisk sandsynlighed for de n uafhængige observationer er: L n (β) = n i=1 exp(α + β 1 x i1 + + β k x ik ) y i exp(α + β 1 x i1 + + β k x ik ). Denne funktion af observationerne og modelparametrene kaldes for Likelihood funktionen. Maximum likelihood estimatorerne er det sæt af parametre der maksimerer likelihood funktionen: (ˆα, ˆβ 1,..., ˆβ k ). Deviance Maksimumsværdien for likelihood funktionen er: Jo større jo bedre. 0 < L n ( ˆβ) 1. Måles oftest som deviance på log-skala: Jo mindre jo bedre. deviance = 2 log L n ( ˆβ) 0. Deviance bruges til at teste hypoteser i analogi med Sums of Squares i variansanalyse. 37 / 60 38 / 60 Likelihood-ratio-test Eksempel: Hypertension For at reducere en kompleks model til en simpelere ser vi på ændring i deviance når en eller flere forklarende variable udelades. Likelihood-ratio testet er baseret på: deviance) χ 2 ( df) df er forskellen mellem modellernes frihedsgader. deviance er forskellen mellem modellernes deviances. Kaldes for likelihood-ratio test fordi deviance) = 2 log(likelihood-ratio) hvor likelihood-ratio er forholdet mellem likelihoodfunktionernes maximum i den ureducerede og reducerede model. Overordnet test af covariaterne H : β 1 = β 2 = β 3 = 0: Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 413.424 406.916 SC 417.495 423.199-2 Log L 411.424 398.916 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 12.5075 3 0.0058 Score 12.2707 3 0.0065 Wald 11.5931 3 0.0089 Bemærk at deviance = 411.424 398.916 = 12.508. 39 / 60 40 / 60

Outline Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt Er observationerne i data er indbyrdes uafhængige? Er sandsynligheden tilfredsstillende beskrevet som logit-lineær funktion af de forklarende variable? Er der kontinuerte forklarende variable en ikke-lineær effekt? Er væsentlige interaktioner udeladt? Det er ikke nødvendigt at checke yderligere antagelser om fordelingen af data fordi responsen er binær. 41 / 60 42 / 60 Ikke-linearitet Menarke vs alder: Ikke-linearitet? Kunne være: Risiko / sandsynlighed der accelererer eller stagnerer. Risiko / sandsynlighed der ikke er monoton Eksempelvis: BMI: over- og undervægtige har øget risiko for sygdom. Alder: øget risik for uheld hos de yngste/ældste bilister. Hvad kan man gøre ved det? Gruppering (e.g. BMI-grupper) Splines (som I lærer om på et senere kursus). Kunne teste mode en polynomial-effekt (men splines er bedre): DATA mdata; SET mdata; age1 = age-13.427; age2 = age1**2; age3 = age1**3; RUN; PROC LOGISTIC DATA=mdata DESCENDING; MODEL menarke = age1 age2 age3; RUN; deviance = 200.665 191.795 χ 2 2, P= 0.012... 43 / 60 44 / 60

Hypertension: Interaktioner? Test af interaktionsled Som udgangspunkt så vi på en model uden interaktioner. Effekten (OR) af rygning er den samme uanset om man er fed eller normalvægtig og om man snorker eller ej. Effekten (OR) af fedme er den samme uanset om man er ryger eller ikke-ryger og om man snorker eller ej. Effekten af snorken (OR) er den samme uanset om man er fed eller normalvægtig og om man ryger eller ej. Stemmer det med hvad vi ser i data? PROC LOGISTIC DATA=hyper DESCENDING; WEIGHT number; MODEL hypertens = snoring obesity smoking snoring*obesity; RUN; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-2.3025 0.3964 33.7392 <.0001 snoring 1 0.7621 0.4271 3.1834 0.0744 obesity 1 0.1053 1.1262 0.0087 0.9255 snoring*obesity 1 0.6388 1.1647 0.3008 0.5834 Osv... Vi finder ingen signifikante interaktioner i modellen. 45 / 60 46 / 60 Outline Lægekontakt i almen praksis Sandsynlighed, odds og odds ratio (OR) I 1991 gennemførte institut for social medicin en undersøgelse af danskernes lægeforbrug. 1724 personer indgik i undersøgelsen. Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 47 / 60 48 / 60

Eksplorativ dataanalyse Kategoriske forklarende variable Lægekontakt: 646 eller 37.5% ud af 1723 personer har været i kontakt med egen læge i 1. kvartal af 1991. Hvem bruger egentlig de praktiserende læger? Går kvinder mere til lægen end mænd? Går pensionister og arbejdsløse mere til lægen? Går man oftere til lægen hvis man har mange bekymringer? Går man sjældnere til lægen hvis der er lang vej? Antal (%) Mangler (%) Køn = Mand 856 (50%) 4 (0.02%) Bor med partner 1383 (80%) 0 (0.00%) Bor med børn 509 (30%) 4 (0.02%) Arbejdsløs 83 (5%) 0 (0.00%) Pensioneret 71 (4%) 4 (0.02%) Medlem af Danmark 535 (31%) 13 (0.08%) Det bliver måske svært at sige noget om pensionister og arbejdsløse... 49 / 60 50 / 60 Kontinuerte forklarende variable Logistisk regression Median (IQR) Mangler (%) Husstandsindkomst (100.000 er) 3.5 (2.5 4.5) 209 (12.1%) Afstand til lægen (minutter) 5 (5 10) 137 (8.0%) Kroniske sygdomme (0 23) 1 (0 2) 4 (0.2%) Nedsat funktionsevne (0-10 point) 0 (0 1) 28 (1.6%) Mentale symptomer (0-100 point) 21 (19 25) 44 (2.6%) Dårligt alment helbred (0-25 point) 5 (4 9) 48 (2.8%) Bekymringer (0-10 point) 5 (4 7) 17 (1.0%) Sociale kontakter (0-25 point) 12 (10 14) 48 (2.8%) Bemærk: Manglende værdier... Simpel regression Multipel regression OR (95% CI) OR (95% CI) Køn=mand 0.58 (0.48 0.71) 0.64 (0.50 0.81) Bor med partner 0.76 (0.60 0.97) 0.90 (0.65 1.24) Bor med børn 0.96 (0.78 1.19) 1.18 (0.90 1.53) Arbejdsløs 1.43 (0.91 2.22) 1.29 (0.73 2.29) Pensionist 3.66 (2.23 6.19) 0.64 (0.29 1.44) Medlem af Danmark 1.15 (0.93 1.42) 1.15 (0.89 1.49) Indkomst 1.00 (1.00 1.00) 1.00 (1.00 1.00) Afstand til lægen 1.01 (0.99 1.03) 0.99 (0.97 1.01) Kroniske sygdomme 1.34 (1.26 1.42) 1.13 (1.03 1.24) Neds.funktionsevne 1.19 (1.15 1.24) 1.08 (1.01 1.14) Mentale symptomer 1.07 (1.05 1.09) 1.03 (1.00 1.05) Dårligt helbred 1.13 (1.11 1.16) 1.04 (1.00 1.09) Bekymringer 1.11 (1.06 1.17) 1.06 (1.00 1.13) Sociale kontakter 1.00 (0.96 1.03) 1.02 (0.98 1.07) 51 / 60 52 / 60 Multipel regression baseret på 1309 complete cases (414 incomplete).

Kommentarer Ikke overraskende signifikant effekt af helbredsrelaterede variable, men effekten af de individuelle faktorer moderes ved indbyrdes korrektion (kollinearitet). Mænd går væsentligt mindre til lægen end kvinder! Stor usikkerhed omkring arbejdsløse der er kun få af dem i data. Pensionister går mere til lægen p.gr.a. dårligere helbred. Indkomst, socialt netværk og afstand til lægen har meget lille effekt, men bidrager med mange manglende værdier. Flere complete cases Ser bort fra indkomst, afstand til lægen og sociale kontakter. OR (95% CI) p-værdi Køn = Mand 0.62 (0.49 0.76) <0.0001 Bor med partner 0.93 (0.71 1.23) 0.60 Bor med børn 1.10 (0.87 1.39) 0.42 Arbejdsløs 1.10 (0.67 1.79) 0.71 Pensionist 1.00 (0.53 1.90) 0.99 Medlem af Danmark 1.16 (0.92 1.45) 0.21 Kroniske sygdomme 1.14 (1.05 1.23) 0.002 Neds.funktionsevne 1.05 (1.00 1.11) 0.06 Mentale symptomer 1.03 (1.01 1.04) 0.007 Dårligt helbred 1.05 (1.01 1.09) 0.014 Bekymringer 1.06 (1.00 1.12) 0.059 Multipel regression baseret på 1614 complete cases (109 incomplete). 53 / 60 54 / 60 Kommentarer Mænd og kvinder separat Signifikant effekt af sygdomsrelaterede variable, (kroniske sygdomme, mentale sygdomme, dårligt alment helbred). Borderline signifikans af bekymringer og nedsat funktionsevne. Tendens til at arbejdsløse, børnefamilier og medlemmer af sygeforsikring Danmark går mere til lægen, men stadig stor usikkerhed omkring disse. Pensionister går ikke mere til lægen end andre, når man tager højde for deres helbredstilstand. Mænd går mindre til lægen end kvinder (P < 0.0001)... 55 / 60 Går mænd og kvinder til lægen af samme årsager? Mænd Kvinder OR (95% CI) OR (95% CI) Bor med partner 1.13 (0.73 1.77) 0.80 (0.56 1.15) Bor med børn 1.45 (1.04 2.02) 0.83 (0.59 1.16) Arbejdsløs 1.07 (0.49 2.23) 1.20 (0.62 2.34) Pensionist 0.92 (0.35 2.43) 1.16 (0.50 2.82) Medlem af Danmark 0.91 (0.64 1.29) 1.39 (1.02 1.88) Kroniske sygdomme 1.12 (0.99 1.28) 1.15 (1.03 1.28) Neds.funktionsevne 1.05 (0.96 1.14) 1.06 (0.99 1.15) Mentale symptomer 1.03 (1.00 1.06) 1.03 (1.00 1.05) Dårligt helbred 1.07 (1.02 1.14) 1.02 (0.97 1.08) Bekymringer 1.07 (0.99 1.17) 1.04 (0.97 1.13) Multipel regression baseret på 807 mænd hhv. 805 kvinder. 56 / 60

Kommentarer Større statistisk usikkerhed når data halveres. Stort set samme effekter hos mænd og kvinder... Bortset fra: Mænd med børn går oftere til lægen. Konklusion Interaktionsled mellem køn og bor med barn tilføjet. OR (95% CI) p-værdi Køn = mand 0.52 (0.40 0.67) <0.0001 Bor med partner 0.91 (0.70 1.21) 0.53 Bor med barn (K) 0.82 (0.58 1.15) 0.26 Bor med barn (M) 1.45 (1.04 2.00) 0.026 Arbejdsløs 1.12 (0.68 1.82) 0.66 Pensionist 1.00 (0.53 1.90) 0.99 Medlem af Danmark 1.15 (0.92 1.45) 0.22 Kroniske sygdomme 1.14 (1.05 1.23) 0.002 Neds.funktionsevne 1.05 (1.00 1.11) 0.06 Mentale symptomer 1.03 (1.01 1.05) 0.004 Dårligt helbred 1.05 (1.01 1.09) 0.014 Bekymringer 1.06 (1.00 1.12) 0.06 57 / 60 Multipel regression baseret på 1614 complete cases (109 incomplete). 58 / 60 Multiple testing Mange variable Vi har lavet mange test og burde måske korrigere for det: Bonferroni korrektion (gang p-værdierne med antal test) er desværre tilbøjelig til at overkorrigere. Andre metoder er svære at bruge (ikke med i proc logistic). Løsninger: Planlæg på forhånd præcis hvilke effekter du vil teste og hvilke du vil korrigere for, så antal test begrænses. Det er ok at fiske i en eksplorativ analyse. Efterfølgende studier må be- eller afkræfte de effekter vi fandt... Få hjælp af en statistiker. Husk tommelfingereglen. Minimum 5-10 events/nonevents for hver kovariat. 59 / 60 60 / 60