Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Relaterede dokumenter
Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Løsning til opgave i logistisk regression

Lineær og logistisk regression

Logistisk Regression - fortsat

Logistisk regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Statistiske Modeller 1: Kontingenstabeller i SAS

Basal Statistik for medicinske PhD-studerende November 2008

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Statistik II 4. Lektion. Logistisk regression

Simpel og multipel logistisk regression

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Postoperative komplikationer

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Opgavebesvarelse, logistisk regression

Generelle lineære modeller

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Basal Statistik Kategoriske Data

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Morten Frydenberg 26. april 2004

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

En Introduktion til SAS. Kapitel 5.

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3

Logistisk regression

Uge 13 referat hold 4

Opgavebesvarelse, Basalkursus, uge 3

Introduktion til GLIMMIX

Logistisk regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

1 Hb SS Hb Sβ Hb SC = , (s = )

Løsning eksamen d. 15. december 2008

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Logistisk regression

Lineær regression i SAS. Lineær regression i SAS p.1/20

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Ikke-parametriske tests

Konfidensintervaller og Hypotesetest

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

1 Regressionsproblemet 2

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Dag 6: Interaktion. Overlevelsesanalyse

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Besvarelse af vitcap -opgaven

Statistiske principper

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

9. Chi-i-anden test, case-control data, logistisk regression.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Statistik II 1. Lektion. Analyse af kontingenstabeller

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Opgavebesvarelse, brain weight

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

k normalfordelte observationsrækker (ensidet variansanalyse)

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Træningsaktiviteter dag 3

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Statistik Lektion 16 Multipel Lineær Regression

Morten Frydenberg Biostatistik version dato:

Normalfordelingen og Stikprøvefordelinger

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Tema. Dagens tema: Indfør centrale statistiske begreber.

Transkript:

Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal13_ jlj@statcon.dk Dagens Tekst Logistisk regression Binære data Logit transformation Prædiktion af sandsynligheder Odds ratio Case Control studier Lineær regression Helt de samme muligheder Nu bare på binære data Sædvanlig Linear Regression (Repetition) yi = b0 + b1 x1 i + b xi + ei, ei ~ N(0, σ ) eller: y ~ N( b + b x + b x i 0 1 1 i i σ EKSEMPEL (DGA, s. 336): E(PE max ) = 47.355 + 1.04 vægt + 0.147 højde, ) 3 Basal Statistik - Logistisk regression 1

Fortolkning Lineær Regression For en givet højde, vokser PE max med 1.04 cm H O pr kg kropsvægt For en given vægt, vokser PE max med 0.147 cm H O pr cm højde Effekten af de enkelte forklarende variable er betinget af de øvrige variables tilstedeværelse i modellen Effekten af de forklarende variable er lineær 4 Andre Typer Udfald 0 1 variable Antal/Frekvens disse er heltal, fejlleddet kan ikke være normalfordelt se i stedet på middelværdien: E( y) = b0 + b1 x1 i + b xi Vi har stadig et problem: Middelværdi for 0-1 variable Middelværdi for antal 0, + [ ] p [ 0,1] 5 Sandsynligheder og Odds P = sandsynligheden for at noget forekommer p Odds = 1 p p = 0.5 0.5 Odds = = 1 0.5 = 1:1 P = 0.5 P = 0.95 0.5 Odds = = 0.3333 0.75 0.95 Odds = = 19 0.05 = 1: 3 = 19 :1 6 Basal Statistik - Logistisk regression

Sandss kan beregnes fra Odds p Odds = 1 p Odds (1- p) = p Odds - Odds p = p Odds = p + Odds p = (1+ Odds) p 10 Odds = 10 p = = 0.0909 1+ 10 7 Logits Et tredje mål for en chance for at noget forekommer: Logit = Ln(Odds) Odds er en funktion af logits Odds=exp logit Sandsynligheder er derfor også fkt af logit exp p = 1+ exp logit logit 8 Sandsynligheder, odds og logits p odds logits 0,00 0,000 0,10 0,111 -,197 0,0 0,50-1,386 0,30 0,49-0,847 0,40 0,667-0,406 0,50 1,000 0,000 0,75 3,000 1,099 0,95 19,000,944 1,00 9 Basal Statistik - Logistisk regression 3

Stratificerede Tabeller Sygdom Confounder Exposure Nej Ja Risiko (Z) Sandss for sygdom Z=1 nej a 1 b 1 P 1,nej ja c 1 d 1 P 1,ja Z= nej a B P,nej ja c d P,ja 10 Logistisk Model Når y er et dikotomt udfald, kan alm lineær regression ikke bruges, da den afhængige variabel kun har to niveauer e.g.: inficeret/ikke inficeret Logit transformation: logit( p) = ln p p ( 1 ) 11 Transformation Respons, y: Infektion(1) /ingen infektion(0) logit(p) = log(p/(1 - p)) = a + bx 1 0 Y I princippet plottet kan ikke laves x logit(p) b 1 a x 1 Basal Statistik - Logistisk regression 4

Chi-square Test En x tabel kan analyseres med Chi-sq test En stratificeret x tabel med Mantel Haenzel test En logistisk regression kan det samme og meget, meget mere 13 Eksempel Risikoen for at få en sår infektion, som funktion af alder og hvor lang tid operationen tager 0-1 respons variabel: Sår infektion (afhængig af alder og operations tid?) Obs inf optime age 1 1 140 76 0 190 71 3 0 150 80 4 0 65 48 5 0 390 34 6 0 10 73 7 1 140 73 8 0 10 78 9 0 135 78 10 0 10 10 11 0 5 64. Obs inf optime age 184 0 60 69 185 0 60 4 186 0 45 64 187 1 0 83 188 0 50 16 189 0 60 78 190 0 90 78 191 0 10 81 19 0 40 5 193 0 50 13 194 0 45 86 15 Basal Statistik - Logistisk regression 5

Analyse af en 0-1 respons variabel Responsvariabel binær ( 0 / 1 ) hvordan udtrykkes afhængighed af operationstid (optid) og alder (age) Model for p = P{Sårinfektion} ( [0,1])? Kan ikke bruge p = a + b x + b x! 1 1 da man går ud over [0,1] 16 Logistisk Regressions Model Binære udfald (f.x. 1 for succes ) Y { 0,1} Sandsynlighed for succes : { 1} [ 0,1] p = P Y = Odds for succes : Odds ratio ( grupper): OR p ω = [ 0, + ] 1 p ω p = 1 + ω p p 1 p 1 p [ 0, ] = 1 + 1 17 Modellen (fortsat) Log-odds: logit( logit er link funktionen p p) = ln, 1 p [ + ] Linear prediktor: Prædikteret odds: logit( p) = b0 + b1 x1 + bx =η ω = exp( η) Prædikteret sandsynlighed: ω exp( η) p = = 1+ ω 1+ exp( η) 18 Basal Statistik - Logistisk regression 6

Logistisk Regression - Fortolkning To grupper, med sandsynligheder p 1 og p : p 1 p logit( p = 1) logit( p) ln ln 1 p1 1 p p p 1 = ln 1 p1 1 p = ln( OR) Lineære modeller for logit(p) giver sammenligninger via odds-ratios 19 Logistisk Regression i sårinfektion 0 Y = 1 ~ postoperativ sårinfektion ~ ingen postoperativ sårinfektion p = P{postoperativ sårinfektion} x 1 = operationstid i minutter x = alder i år Endelig model: logit( p) = 5.1144 + 0.00753 x1 + 0. 0353 x exp( 5.1144 + 0.00753 x1 + 0.0353 x) p = 1+ exp( 5.1144 + 0.00753 x + 0.0353 x ) 1 0 Fortolkning Logistisk Regression Samme operationstid (T) Aldersforskel på 10 år (A + 10 vs. A) logit( p ) = 5.1144 + 0.00753 T + 0.0353 ( A + 10) 1 logit( p ) = 5.1144 + 0.00753 T + 0.0353 A ln( OR OR A+ 10, A A+ 10, A ) = 0.0353 10 = exp(0.353) = 1.43 1 Basal Statistik - Logistisk regression 7

Hvad Betyder Det? OR A+ A 10, = exp(0.353) = 1.43 Når alderen øges med 10 år, stiger forholdet mellem patienter der får hhv. ikke får en sår infektion med en faktor 1.43, dvs. med 4.3% Odds-ratio refererer til forskel i odds for sygdom mellem to niveauer af en baggrundsvariabel. Udregning af Sandsynligheder p logit( p) = ln = b + b x + b x 1 p c p 0 1 1i i exp( b + b x + b x ) 0 1 1i i = 1 + exp( b0 + b1 x1 i + b xi ) c 1 1 p = 1 + exp( b + b x + b x ) 0 1 1i i 3 logit Eksemplet Giver ( P{ optime = 00 min, age = 60 years} ) = 5.1144 + 0.00753 00 + 0.0353 60 = 5.1144 + 1.560 +.118 = 1.490 e p = 1+ e 1.490 1.490 = 0.54 = 0.1839 1.54 4 Basal Statistik - Logistisk regression 8

Afhængighed af p på alder for forskellige operations tider 5 Afhængighed af p på operations tider for forskellige aldre 6 Hvad Betyder Interceptet? p logit( p) = ln = b + b x + b x 1 p 0 1 1i i Intercept er log-odds for sygdom hos en person med 0 på alle kovariater I sårinfektions tilfældet er det en person på 0 år som er opereret i 0 minutter ikke specielt meningsfuldt p x = x = 0 ln = b 1 p 1i i 0 7 Basal Statistik - Logistisk regression 9

Hypotese Testning H 0 : Ingen association mellem risiko faktor (optid) og udfald (infektion eller ikke) Hvordan evalueres denne hypotese?? Hældning Ho: b = 0 H1: b 0 Wald test: b Test værdi = SE( b) hvor χ (1) 0.95 = 3.84 χ (1) fordeling 8 Odds Ratio og Logistisk Regression Logistisk regressions model logit(p) = a + bx OR = exp(b(x x 1 )) for en ændring i (x x 1 ) enheder 9 Midtvejs Opsummering Vurder hvilken der er den afhængige variable og hvilken der er den uafhængige (forklarende) variabel Estimer skæring og hældning m. logistisk regression Etabler den logistiske regressionsformel Beregn OR for signifikante risiko faktorer Beregn sandsynlighed 30 Basal Statistik - Logistisk regression 10

Generalisering Vi kan mere end blot have én forklarende variabel, på to (evt. 3) niveauer Generalisering Den logistiske regressionsmodel kan generaliseres på følgende måder: X behøver ikke at være binær kan være Kategori variable med mere end to kategorier kvantitative interval- eller ratioskala variable. Der kan være mere end 1 uafhængig variabel 3 Programmering Af logistisk regression Flere procedurer i SAS Lidt forskelligt output Basal Statistik - Logistisk regression 11

Sårinfektions data (SAS) Direkte input af data: Kan naturligvis også indlæses fra en fil Infile "E:\Undervisning\Biostat\Basal\ opgaver\brem.txt" firstobs=; input inf optime age; Data brem; input inf optime age; Datalines; 1 140 76 0 190 71 0 150 80 : 0 50 13 ; Run; 34 Proc Genmod proc genmod data = brem descending; model inf = optime age / dist = binomial link = logit; estimate Operation optime 1 / exp; estimate Age age 1 / exp; Run; Descending dvs. 0 bliver referencen Estimate: Estimer forskellen på 1 min for optime Giv variablen en label Operation Exp: Ønsker en tilbage transformering vi opererer jo i logit er ln(odds) 35 SAS Output The GENMOD Procedure Model Information Data Set WORK.BREM Distribution Binomial Link Function Logit Dependent Variable inf Response Profile Ordered Value inf Total Frequency 1 1 3 0 171 PROC GENMOD is modeling the probability that inf='1'. Criteria For Assessing Goodness Of Fit Criterion Value Log Likelihood -6.0035 Full Log Likelihood -6.0035 AIC (smaller is better) 130.0070 AICC (smaller is better) 130.1334 BIC (smaller is better) 139.8106 36 Basal Statistik - Logistisk regression 1

Analysis Of Maximum Likelihood Parameter Estimates Standard Wald 95% Confidence Wald Parameter DF Estimate Error Limits Chi-Sq Pr > ChiSq Intercept 1-5.1144 1.1041-7.785 -.9504 1.46 <.0001 optime 1 0.0075 0.003 0.0013 0.0137 5.68 0.0171 age 1 0.0353 0.0145 0.0068 0.0638 5.90 0.0151 Scale 0 1.0000 0.0000 1.0000 1.0000 Contrast Estimate Results Label Estimate SE Confidence Limits ChiSq Pr > ChiSq Operation 0.0075 0.003 0.0013 0.0137 5.68 0.0171 Exp(Operation) 1.0013 1.0138 Age 0.0353 0.0145 0.0068 0.0638 5.90 0.0151 Exp(Age) 1.0069 1.0659 37 Konfidens Intervaller (1 α) c.i. = estimat ± z 1 α/ x std. error 95% konfidens interval for OR knyttet til en forskel på 1 år i alder ved operation: For ln(or): 0.03535 ± 1.96 x 0.014516 = (0.006874;0.063776) For OR: exp[(0.006874;0.063776)] = (1.006897;1.065854) eller: 0.03535 1.96 0.014516 e e = (1.006897;1.065854) 38 Andre forskelle i Intervaller estimate Operation optime 60 / exp; estimate Age age 10 / exp; Output: Estimate SE Confidence Limits Chi-Sq Pr > ChiSq Op60 0.4518 0.1896 0.0803 0.834 5.68 0.0171 Exp(Op60) 1.571 0.978 1.0836.781 A10 0.3533 0.1454 0.0683 0.638 5.90 0.0151 Exp(A10) 1.437 0.070 1.0707 1.8931 39 Basal Statistik - Logistisk regression 13

Proc Logistic Proc logistic data = brem descend; model inf = optime age; Run; Ingen class variabel, da optime & age er kontinuerte Hvis klasse-variabel Benyt et class-statement før model Husk option / param=ref og outc(param= 1 ) 40 SAS Output The LOGISTIC Procedure Model Information Data Set WORK.BREM Response Variable inf Number of Response Levels Model binary logit Optimization Technique Fisher's scoring Response Profile Ordered Value inf Total Frequency 1 1 3 0 171 Probability modeled is inf='1'. Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 143.47 130.007 SC 146.515 139.811 - Log L 141.47 14.007 41 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-5.114 1.1041 1.4568 <.0001 optime 1 0.00753 0.00316 5.6815 0.0171 age 1 0.0353 0.0145 5.903 0.0151 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits optime 1.008 1.001 1.014 age 1.036 1.007 1.066 4 Basal Statistik - Logistisk regression 14

Effekt af Skalering og Centrering af Kovariater Program: Data brem set brem; a50 = (age - 50) /10; op1 = (optime 60) / 60; Run; Proc logistic data = brem descend; model inf = op1 a50; * model inf(event=1) = op1 a50; Run; 43 Output: Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -.896 0.48 46.916 <.0001 op1 1 0.4518 0.1896 5.6815 0.0171 a50 1 0.353 0.1454 5.903 0.0151 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits op1 1.571 1.084.78 a50 1.44 1.071 1.893 Intercept refererer til log(odds) for en person der har 0 på alle kovariater, men det er nu en person på 50 år, som er opereret i 1 time 44 Skalering Hvis kovariaterne divideres med en faktor: multipliceres estimaterne med faktoren multipliceres standardafvigelsen med faktoren Wald s test og p-værdi forbliver den samme 45 Basal Statistik - Logistisk regression 15

Centrering Hvis kovariaterne centreres omkring en værdi: estimaterne ændres ikke standardafvigelsen ændres ikke Wald s test og p-værdi forbliver den samme Interceptet kommer til at referere til log odds for den værdi af kovariaterne man centrerer omkring 46 Interceptet refererer til log odds for en person med kovariat værdier = dem, der er brugt til centrering ôdds pˆ 50,60 50,60 c.i.(odds c.i.(p 50,60 50,60 ) ) = = = = exp(.896) 0.0553/(1 + 0.0553) exp(.896± 1.96 0.48) ( 0.041/(1.041),0.165/(1.165) ) = 0.0553 = 0.0534 = (0.041;0.1650) = (0.0355; 0.119) Sandsynligheden for infektion for en 0-person (50 år gl, opereret i 60 min) er 0.05, med 95% c.i. på (0.04, 0.11). 47 Centrering og Skalering i SAS data brem; set brem ; a50 = ( alder - 50 ) / 10 ; op1 = ( optid - 60 ) / 60 ; run ; proc genmod data = brem descending ; model inf = op1 a50 / dist = binomial ; ods output Estimates = est ; run ; data est ; set est; Odds = exp( Estimate ) ; Odds_l = exp( LowerCL ) ; Odds_u = exp( UpperCL ) ; if ( Parameter eq "Intercept" ) then do ; prob = Odds / (1 + Odds ) ; prob_l = OR_l / (1 + OR_l ) ; prob_u = OR_u / (1 + OR_u); end ; run ; 48 Basal Statistik - Logistisk regression 16

ODS output Alle procedurer i SAS har forskelligt ODS (dataset med output) output. Ods trace on off Kør proceduren Nu står alle de mulige ODS output, denne procedure kan lave, i loggen: Output Added: ------------- Name: ParameterEstimates Label: Analysis Of Parameter Estimates Template: stat.genmod.parameterestimates Path: Genmod.ParameterEstimates 49 Resultater Obs Parameter Estimate StdErr prob prob_l 1 Intercept -,8963 0,48 0,0533 0,0354 op1 0,4518 0,1896 1,57118 1,0836 3 a50 0,3533 0,1454 1,4369 1,07066 Infektions-sandsynligheden for en 0-person (50-årig opereret 1 time) er 0.05 med et 95% c.i. på [0.03; 0.11] 50 Procedurer Samme analyse lidt forskelligt output Logistic Kun logistisk regression Giver OR estimates direkte Genmod Generaliseret lineær model Tillader brug af Estimates 51 Basal Statistik - Logistisk regression 17

Model Reduktion Wald test: Til at teste vigtigheden af en enkelt kovariat, f.x. H 0 : β k = 0. Under H 0, har vi tilnærmelsesvis: eller: estimate std. err. estimate std. err. ~ N ( 0,1) ~ X Dette er hvad SAS pr. default udregner, for hver parameter for sig. Ikke egnet til flere parametre ad gangen 1 5 Model Reduction II Likelihood-ratio-test: ln(likelihood-ratio) ~ X df Likelihood-ratio er forholdet mellem likelihood funktionens maksimum under to forskellige modeller, som kun adskiller sig ved at den mindste mangler en eller flere parametre er en sand undermodel LogQ er likelihood-ratio testet mod modellen med en parameter pr. observation 53 Model Reduktion III Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? Hierarkisk princip for interaktioner Hvis en model indeholder interaktionen mellem et vist antal variable, skal den også indeholde interaktionsparametre svarende til hver delmængde af disse variable inklusiv parametre for hovedvirkningen for disse variable og det såkaldte konstantled 54 Basal Statistik - Logistisk regression 18

SAS Output LogQ findes i SAS-output sammen med DF (frihedsgrader) som er antallet af observationer i datasættet minus antal parametre Forskellen LogQ mellem to modeller svarer til likelihood-ratio testet mellem to modeller. Skal vurderes i en χ -fordeling med df = forskel i frihedsgader 55 Vores Eksempel Vi har 194 obs. og 3 parametre (intercept, optid, alder) LogQ med df = 191 LogQ i sig selv er ikke meningsfyldt! Forskellen i LogQ mellem to (nestede) modeller svarer til likelihood-ratio test mellem de to modeller Vurderes i en X fordeling med df = forskellen i antallet af parametre i de to modeller Test af model med både optid og alder vs. kun optid: 14.007(191) vs. 141.47(19): x = 141.47 14.007 = 17.4, df = 1, p < 0.0001 (Lidt forskelligt fra Wald testet ) 56 Ordnede variable Kan modelleres linært eller som kategorier Basal Statistik - Logistisk regression 19

k tabel ordnede kategorier Data fra DGA: Sko størrelse CS < 4 4 4.5 5 5.5 6 Total N 5 7 6 7 8 10 43 Y 17 8 36 41 46 140 308 Total 35 4 48 54 150 351 Husk (kategoriske data): Test:x test for uafhængighed: 9.34 med 5 df; P = 0.096 58 Opdeling af χ testet i test for linearitet og test for trend: χ total 9.9 (5) Logistisk regression: = χ (4) + χ = lin 1.7 trend 8.0 Model Difference df p logit(p i ) = β i 0 - Test for linearitet 1,78 4 0,776 logit(p i ) = α + β + S i 1,78 4 0,776 Test for trend 7,56 1 0,006 logit(p i ) = µ i 9,34 5 0,096 + (1) 59 Analyse af sko str. Data: Data sko; input cs $ skonr antal; cards; Y 3.5 5 Y 4.0 7 Y 4.5 6 Y 5.0 7 Y 5.5 8 Y 6.0 10 N 3.5 17 N 4.0 8 N 4.5 36 N 5.0 41 N 5.5 46 N 6.0 140 ; run; 60 Basal Statistik - Logistisk regression 0

Proc Logistic sko eks. proc logistic data = sko; weight antal; class skonr; model cs = skonr; run; Skonr: class numerisk Proc logistic data = sko; weight antal ; model cs = skonr; run ; 61 Proc Genmod sko eks. proc genmod data = sko ; class skonr ; model cs = skonr / dist = binomial link = logit weight antal ; run ; proc genmod data = sko ; model cs = skonr / dist = binomial link = logit ; weight antal ; run ; proc genmod data = sko ; model cs = / dist = binomial link = logit ; weight antal ; run ; Skonr: class numerisk Til Trend test 6 Fuld model (sko str.: class variable) Response Profile Ordered Total Total Value cs Frequency Weight 1 N 6 308.00000 Y 6 43.00000 Probability modeled is cs= N Class Value Design Variables Class Level Information skonr 3.5 1 0 0 0 0 4 0 1 0 0 0...... 6-1 -1-1 -1-1 Model fit Statistics Intercept Intercept & Criterion Only Covariates AIC 63.067 63.73 SC 63.55 66.63 - Log L 61.067 51.7363 Basal Statistik - Logistisk regression 1

Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 9.344 5 0.0961 Score 9.874 5 0.0981 Wald 8.6369 5 0.145 Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq skonr 5 8.6369 0.145 Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept 1 1.7596 0.1710 105.8581 <.0001 skonr 3.5 1-0.5359 0.449 1.431 0.39 skonr 4 1-0.3733 0.3851 0.9398 0.333 skonr 4.5 1 0.031 0.3986 0.0065 0.9357 skonr 5 1 0.00805 0.375 0.0005 0.989 skonr 5.5 1-0.0104 0.3565 0.0009 0.9767 Model: Class effekt af sko str. 64 Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept 1 1.7596 0.1710 105.8581 <.0001 skonr 3.5 1-0.5359 0.449 1.431 0.39 skonr 4 1-0.3733 0.3851 0.9398 0.333 skonr 4.5 1 0.031 0.3986 0.0065 0.9357 skonr 5 1 0.00805 0.375 0.0005 0.989 skonr 5.5 1-0.0104 0.3565 0.0009 0.9767 Sandsynlighed for CS med sko str 3.5: estimerede log-odds: 1.7596 + 0.5359 = 1.37 estimeret p: exp( 1.37)/(1+exp( 1.37)) = 0.73 65 Linear Model Fit Intercept Intercept & Criterion Only Covariates AIC 63.067 57.508 SC 63.55 58.477 - Log L 61.067 53.508 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 7.5597 1 0.0060 Score 8.037 1 0.0046 Wald 7.6971 1 0.0055 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 0.6877 0.946 0.583 0.4673 skonr 1-0.5194 0.187 7.6971 0.0055 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits skonr 0.595 0.41 0.859 Model: lineær effekt af sko str. 66 Basal Statistik - Logistisk regression

Model uden Sko nr. Kun Intercept Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Log L 11 61.067 3.7334 Log L 11 61.067 3.7334 Analysis Of Parameter Estimates Std Wald 95% Conf. Chi- Parameter DF Estimat Error Limits Square Intercept 1-1.9689 0.168 -.880-1.6498 146.7 Pr>Chi <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000 67 Model Sammenligning Model - LogQ df Diff df p full 51,7 6 1,7845 4 0,7753 linear 53,51 10 7,5598 1 0,0060 Intercept only 61,07 11 Testet i sidste linje er et trend test 68 TYPE 1 Hele molevitten kan faktisk klares med en Type 1 option i Proc Genmod proc genmod data = sko ; class skonr ; model cs = sko_lin skonr / dist = binomial link = logit type1; weight antal ; run ; Sko_lin = skonr 69 Basal Statistik - Logistisk regression 3

Resultat Type 1 LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept 61.0673 sko_lin 53.5075 1 7.56 0.0060 skonr 51.730 4 1.78 0.7753 Trend test Test for linearitet 70 Øvelse Brug output til at udregne de prædikterede værdier for sandsynligheden for kejsersnit for kvinder med skonummer hhv. 4, 5 og 6, fra modellen med lineær effekt af skonummer 71 SPSS Analyze Regression Binary Logistic Outcome i Dependent Sko i enten Categorical eller Covariate Hvis Categorical kan en Contrast defineres Samt reference category ( Last eller First ) Options CL for exp(β) e.g. [95] % 7 Basal Statistik - Logistisk regression 4

SPSS HUSK først 73 Definer Kategorisk 74 Option 75 Basal Statistik - Logistisk regression 5

Resultat SPSS Wald test 95% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper Step 1 a Skostr 8,637 5,14 Skostr(1) 1,415,605 5,473 1,019 4,118 1,5813,477 Skostr() 1,53,535 5,493 1,019 3,500 1,8 9,978 Skostr(3),847,549,380 1,13,333,795 6,846 Skostr(4),871,54,767 1,096,390,856 6,673 Skostr(5),890,504 3,119 1,077,435,907 6,537 Constant -,639,3765,003 1,000,071 a. Variable(s) entered on step 1: Skostr. Bemærk: Referencekategorien vises ikke B kolonnen = logitværdierne Exp(B) = odds-ratio værdierne 76 Wald Test To typer af nul-hypoteser H 0 : Risikoen er den samme i alle grupper β 1 = β =..= β k = β H0 ab : Risikoen er den samme i to forskellige grupper β a =β b = β ab 77 Wald Parvis Definer den ene gruppe som reference estimer logitforskellen (β b -β a ) og beregn SE på estimatet Z=(β b -β a )/SE ~ en std normalfordeling Wald = Z ~ chi-i-anden fordeling med 1 frihedsgrad (df) 78 Basal Statistik - Logistisk regression 6

Wald Mere end Grupper Wald testet for hypotesen: β 1 = β =..= β k = β Risikoen er den samme i alle grupper En generalisering af testet for to grupper, ~ chi-i-anden fordeling med antal df = antal grupper minus 1 79 Case Control Studier Psykologer 013 80 Case-kontrol studies I et case-kontrol-studie udvælges: cases (sygdomstilfælde) som er verificeret fra et register eller lignende kontroller, som er personer der repræsenterer den population hvorfra cases stammer Personer i case-kontrol-studier udvælges altså på baggrund af udfaldet. Typisk fastsættes forholdet mellem antallet af cases og kontroller på forhånd 81 Basal Statistik - Logistisk regression 7

Hvis en variabel har betydning for sygdommens udvikling: Forskellig fordeling af variablen mellem cases og kontroller. Sandsynligheden for at være en case (i populationen), p{sygdom} kan ikke estimeres ud fra et case-kontrol studie. Men effekten af kovariaterne på sygdomssandsynligheden kan! 8 Case-kontrol Studier Prevalens i populationen: p p = P{ case} = odds(case) 1 p Udvælgelsesbrøker, dvs. inklusionssandsynligheder π 0 ogπ 1 : P {inklusion i studiet case } = π 1 P {inklusion i studiet control } = π 0 83 Case Kontrol I et case-kontrol studie observerer man antallet af cases og antallet af kontroller, betinget af at disse faktisk er med i studiet Afhænger af diverse kovariater (det er det man interesseret i) og inklusionssandsynlighederne (som man ikke er interesseret i) 84 Basal Statistik - Logistisk regression 8

85 Logistisk Regression Model for populationen: p ln = b0 + b1 x1 + b x 1 p Model for det observerede: ln = [ odds( case incl. )] p 1 ln ln 1 p + π = π 0 π 1 = ln b + 0 + b1 x1 + b x π 0 86 Analyse af P{case inklusion} dvs. binære observationer: 1 Y = 0 case control Effekt af kovariater estimeres korrekt Intercept uden mening afhænger af π 0 og π 1 der sædvanligvis er ukendte 87 Basal Statistik - Logistisk regression 9

Strategi I multipel Regression Logistisk eller Almindelig Psykologer 013 88 Prioritering af Variable 1. De primære variable er de uafhængige variable, som har særlig faglig interesse Sammenhængene mellem de primære variable og den afhængige variabel er de primære sammenhænge. De sekundære variable er dem, hvis eneste funktion er at optræde som kontrolvariable Sammenhængene mellem den afhængige variabel og de sekundære variable omtales som sekundære sammenhænge 89 Analyse Strategi 1. Modellens primære struktur drejer sig om alt det, der har direkte reference til de faglige problemer, der skal belyses.. Modellens sekundære struktur er alt det ved modellen, der ikke henviser til disse problemer. Kan på omfatte alt fra modelegenskaber, der kan motiveres ud fra a) den teoretiske referenceramme, b) helt åbne spørgsmål, c) antagelser, der er motiveret af ønsket om at komme til at arbejde med enkle modeller, fungerer i praksis 90 Basal Statistik - Logistisk regression 30

To Faser Foretag analysen i to faser, hvor den første fase tager sig af modellens sekundære struktur, mens den anden fase indeholder analysen af de primære problemer 91 1) Indledende Modelkonstruktion Definition af startmodel. Startmodellen bør indeholde hele den primære modelstruktur og så meget af den sekundære struktur, som det i praksis er muligt at arbejde med Modelsøgning. Trinvis søgning efter en model med en mere enkel sekundær struktur Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på at modellen er udtryk for overforenkling 9 ) Analyse af primære problemstillinger Test af primære hypoteser. NB.: disse test kan resultere i at nogle af de primære variable skal fjernes fra modellen Modelkontrol Estimation og tolkning af primære parametre. I praksis sker dette sammen med beregningerne af teststørrelserne for de primære hypoteser. De har dog først interesse, hvis modelkontrollen har vist, at der ikke ser ud til at være problemer med modellen 93 Basal Statistik - Logistisk regression 31

Variabel reduktion Hvis vi har en kategorisk variabel på e.g. 4 niveauer Det kan være smart at sammenlægge niveauer (fra 4 til fx) Måske er de lettere sammenfaldende eller der er få i én af grupperne For detaljeret opdeling kan give en variation, der overskygger evt. signifikanser Rækkefølgen af reduktion kan også have betydning 94 Oversigt over Teknikker Respons Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome x -tabeller χ test Logistisk regression Kategoriske Kontingens tabeller / χ test Gen. Logistisk regression Ordinale Vanskeligt, e.g. proportional odds models Kontinuerte Mann Whitney Wilcon sign rank Kruskal - Wallis - Friedman Robust multipel regression Normal Fordeling T-test Parret / uparret Varians Analyse En- / to-sidet Kovarians analyse Multipel regression Censorede data Log-rank test Cox regression Korrelerede Normalt ford. Varians komponent Modeller Modeller for gentagne målinger 95 Tips & tricks Hvis vi vil bestemme hvad der er vores success model inf(event=1) = op1 a50 96 Basal Statistik - Logistisk regression 3