Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal13_ jlj@statcon.dk Dagens Tekst Logistisk regression Binære data Logit transformation Prædiktion af sandsynligheder Odds ratio Case Control studier Lineær regression Helt de samme muligheder Nu bare på binære data Sædvanlig Linear Regression (Repetition) yi = b0 + b1 x1 i + b xi + ei, ei ~ N(0, σ ) eller: y ~ N( b + b x + b x i 0 1 1 i i σ EKSEMPEL (DGA, s. 336): E(PE max ) = 47.355 + 1.04 vægt + 0.147 højde, ) 3 Basal Statistik - Logistisk regression 1
Fortolkning Lineær Regression For en givet højde, vokser PE max med 1.04 cm H O pr kg kropsvægt For en given vægt, vokser PE max med 0.147 cm H O pr cm højde Effekten af de enkelte forklarende variable er betinget af de øvrige variables tilstedeværelse i modellen Effekten af de forklarende variable er lineær 4 Andre Typer Udfald 0 1 variable Antal/Frekvens disse er heltal, fejlleddet kan ikke være normalfordelt se i stedet på middelværdien: E( y) = b0 + b1 x1 i + b xi Vi har stadig et problem: Middelværdi for 0-1 variable Middelværdi for antal 0, + [ ] p [ 0,1] 5 Sandsynligheder og Odds P = sandsynligheden for at noget forekommer p Odds = 1 p p = 0.5 0.5 Odds = = 1 0.5 = 1:1 P = 0.5 P = 0.95 0.5 Odds = = 0.3333 0.75 0.95 Odds = = 19 0.05 = 1: 3 = 19 :1 6 Basal Statistik - Logistisk regression
Sandss kan beregnes fra Odds p Odds = 1 p Odds (1- p) = p Odds - Odds p = p Odds = p + Odds p = (1+ Odds) p 10 Odds = 10 p = = 0.0909 1+ 10 7 Logits Et tredje mål for en chance for at noget forekommer: Logit = Ln(Odds) Odds er en funktion af logits Odds=exp logit Sandsynligheder er derfor også fkt af logit exp p = 1+ exp logit logit 8 Sandsynligheder, odds og logits p odds logits 0,00 0,000 0,10 0,111 -,197 0,0 0,50-1,386 0,30 0,49-0,847 0,40 0,667-0,406 0,50 1,000 0,000 0,75 3,000 1,099 0,95 19,000,944 1,00 9 Basal Statistik - Logistisk regression 3
Stratificerede Tabeller Sygdom Confounder Exposure Nej Ja Risiko (Z) Sandss for sygdom Z=1 nej a 1 b 1 P 1,nej ja c 1 d 1 P 1,ja Z= nej a B P,nej ja c d P,ja 10 Logistisk Model Når y er et dikotomt udfald, kan alm lineær regression ikke bruges, da den afhængige variabel kun har to niveauer e.g.: inficeret/ikke inficeret Logit transformation: logit( p) = ln p p ( 1 ) 11 Transformation Respons, y: Infektion(1) /ingen infektion(0) logit(p) = log(p/(1 - p)) = a + bx 1 0 Y I princippet plottet kan ikke laves x logit(p) b 1 a x 1 Basal Statistik - Logistisk regression 4
Chi-square Test En x tabel kan analyseres med Chi-sq test En stratificeret x tabel med Mantel Haenzel test En logistisk regression kan det samme og meget, meget mere 13 Eksempel Risikoen for at få en sår infektion, som funktion af alder og hvor lang tid operationen tager 0-1 respons variabel: Sår infektion (afhængig af alder og operations tid?) Obs inf optime age 1 1 140 76 0 190 71 3 0 150 80 4 0 65 48 5 0 390 34 6 0 10 73 7 1 140 73 8 0 10 78 9 0 135 78 10 0 10 10 11 0 5 64. Obs inf optime age 184 0 60 69 185 0 60 4 186 0 45 64 187 1 0 83 188 0 50 16 189 0 60 78 190 0 90 78 191 0 10 81 19 0 40 5 193 0 50 13 194 0 45 86 15 Basal Statistik - Logistisk regression 5
Analyse af en 0-1 respons variabel Responsvariabel binær ( 0 / 1 ) hvordan udtrykkes afhængighed af operationstid (optid) og alder (age) Model for p = P{Sårinfektion} ( [0,1])? Kan ikke bruge p = a + b x + b x! 1 1 da man går ud over [0,1] 16 Logistisk Regressions Model Binære udfald (f.x. 1 for succes ) Y { 0,1} Sandsynlighed for succes : { 1} [ 0,1] p = P Y = Odds for succes : Odds ratio ( grupper): OR p ω = [ 0, + ] 1 p ω p = 1 + ω p p 1 p 1 p [ 0, ] = 1 + 1 17 Modellen (fortsat) Log-odds: logit( logit er link funktionen p p) = ln, 1 p [ + ] Linear prediktor: Prædikteret odds: logit( p) = b0 + b1 x1 + bx =η ω = exp( η) Prædikteret sandsynlighed: ω exp( η) p = = 1+ ω 1+ exp( η) 18 Basal Statistik - Logistisk regression 6
Logistisk Regression - Fortolkning To grupper, med sandsynligheder p 1 og p : p 1 p logit( p = 1) logit( p) ln ln 1 p1 1 p p p 1 = ln 1 p1 1 p = ln( OR) Lineære modeller for logit(p) giver sammenligninger via odds-ratios 19 Logistisk Regression i sårinfektion 0 Y = 1 ~ postoperativ sårinfektion ~ ingen postoperativ sårinfektion p = P{postoperativ sårinfektion} x 1 = operationstid i minutter x = alder i år Endelig model: logit( p) = 5.1144 + 0.00753 x1 + 0. 0353 x exp( 5.1144 + 0.00753 x1 + 0.0353 x) p = 1+ exp( 5.1144 + 0.00753 x + 0.0353 x ) 1 0 Fortolkning Logistisk Regression Samme operationstid (T) Aldersforskel på 10 år (A + 10 vs. A) logit( p ) = 5.1144 + 0.00753 T + 0.0353 ( A + 10) 1 logit( p ) = 5.1144 + 0.00753 T + 0.0353 A ln( OR OR A+ 10, A A+ 10, A ) = 0.0353 10 = exp(0.353) = 1.43 1 Basal Statistik - Logistisk regression 7
Hvad Betyder Det? OR A+ A 10, = exp(0.353) = 1.43 Når alderen øges med 10 år, stiger forholdet mellem patienter der får hhv. ikke får en sår infektion med en faktor 1.43, dvs. med 4.3% Odds-ratio refererer til forskel i odds for sygdom mellem to niveauer af en baggrundsvariabel. Udregning af Sandsynligheder p logit( p) = ln = b + b x + b x 1 p c p 0 1 1i i exp( b + b x + b x ) 0 1 1i i = 1 + exp( b0 + b1 x1 i + b xi ) c 1 1 p = 1 + exp( b + b x + b x ) 0 1 1i i 3 logit Eksemplet Giver ( P{ optime = 00 min, age = 60 years} ) = 5.1144 + 0.00753 00 + 0.0353 60 = 5.1144 + 1.560 +.118 = 1.490 e p = 1+ e 1.490 1.490 = 0.54 = 0.1839 1.54 4 Basal Statistik - Logistisk regression 8
Afhængighed af p på alder for forskellige operations tider 5 Afhængighed af p på operations tider for forskellige aldre 6 Hvad Betyder Interceptet? p logit( p) = ln = b + b x + b x 1 p 0 1 1i i Intercept er log-odds for sygdom hos en person med 0 på alle kovariater I sårinfektions tilfældet er det en person på 0 år som er opereret i 0 minutter ikke specielt meningsfuldt p x = x = 0 ln = b 1 p 1i i 0 7 Basal Statistik - Logistisk regression 9
Hypotese Testning H 0 : Ingen association mellem risiko faktor (optid) og udfald (infektion eller ikke) Hvordan evalueres denne hypotese?? Hældning Ho: b = 0 H1: b 0 Wald test: b Test værdi = SE( b) hvor χ (1) 0.95 = 3.84 χ (1) fordeling 8 Odds Ratio og Logistisk Regression Logistisk regressions model logit(p) = a + bx OR = exp(b(x x 1 )) for en ændring i (x x 1 ) enheder 9 Midtvejs Opsummering Vurder hvilken der er den afhængige variable og hvilken der er den uafhængige (forklarende) variabel Estimer skæring og hældning m. logistisk regression Etabler den logistiske regressionsformel Beregn OR for signifikante risiko faktorer Beregn sandsynlighed 30 Basal Statistik - Logistisk regression 10
Generalisering Vi kan mere end blot have én forklarende variabel, på to (evt. 3) niveauer Generalisering Den logistiske regressionsmodel kan generaliseres på følgende måder: X behøver ikke at være binær kan være Kategori variable med mere end to kategorier kvantitative interval- eller ratioskala variable. Der kan være mere end 1 uafhængig variabel 3 Programmering Af logistisk regression Flere procedurer i SAS Lidt forskelligt output Basal Statistik - Logistisk regression 11
Sårinfektions data (SAS) Direkte input af data: Kan naturligvis også indlæses fra en fil Infile "E:\Undervisning\Biostat\Basal\ opgaver\brem.txt" firstobs=; input inf optime age; Data brem; input inf optime age; Datalines; 1 140 76 0 190 71 0 150 80 : 0 50 13 ; Run; 34 Proc Genmod proc genmod data = brem descending; model inf = optime age / dist = binomial link = logit; estimate Operation optime 1 / exp; estimate Age age 1 / exp; Run; Descending dvs. 0 bliver referencen Estimate: Estimer forskellen på 1 min for optime Giv variablen en label Operation Exp: Ønsker en tilbage transformering vi opererer jo i logit er ln(odds) 35 SAS Output The GENMOD Procedure Model Information Data Set WORK.BREM Distribution Binomial Link Function Logit Dependent Variable inf Response Profile Ordered Value inf Total Frequency 1 1 3 0 171 PROC GENMOD is modeling the probability that inf='1'. Criteria For Assessing Goodness Of Fit Criterion Value Log Likelihood -6.0035 Full Log Likelihood -6.0035 AIC (smaller is better) 130.0070 AICC (smaller is better) 130.1334 BIC (smaller is better) 139.8106 36 Basal Statistik - Logistisk regression 1
Analysis Of Maximum Likelihood Parameter Estimates Standard Wald 95% Confidence Wald Parameter DF Estimate Error Limits Chi-Sq Pr > ChiSq Intercept 1-5.1144 1.1041-7.785 -.9504 1.46 <.0001 optime 1 0.0075 0.003 0.0013 0.0137 5.68 0.0171 age 1 0.0353 0.0145 0.0068 0.0638 5.90 0.0151 Scale 0 1.0000 0.0000 1.0000 1.0000 Contrast Estimate Results Label Estimate SE Confidence Limits ChiSq Pr > ChiSq Operation 0.0075 0.003 0.0013 0.0137 5.68 0.0171 Exp(Operation) 1.0013 1.0138 Age 0.0353 0.0145 0.0068 0.0638 5.90 0.0151 Exp(Age) 1.0069 1.0659 37 Konfidens Intervaller (1 α) c.i. = estimat ± z 1 α/ x std. error 95% konfidens interval for OR knyttet til en forskel på 1 år i alder ved operation: For ln(or): 0.03535 ± 1.96 x 0.014516 = (0.006874;0.063776) For OR: exp[(0.006874;0.063776)] = (1.006897;1.065854) eller: 0.03535 1.96 0.014516 e e = (1.006897;1.065854) 38 Andre forskelle i Intervaller estimate Operation optime 60 / exp; estimate Age age 10 / exp; Output: Estimate SE Confidence Limits Chi-Sq Pr > ChiSq Op60 0.4518 0.1896 0.0803 0.834 5.68 0.0171 Exp(Op60) 1.571 0.978 1.0836.781 A10 0.3533 0.1454 0.0683 0.638 5.90 0.0151 Exp(A10) 1.437 0.070 1.0707 1.8931 39 Basal Statistik - Logistisk regression 13
Proc Logistic Proc logistic data = brem descend; model inf = optime age; Run; Ingen class variabel, da optime & age er kontinuerte Hvis klasse-variabel Benyt et class-statement før model Husk option / param=ref og outc(param= 1 ) 40 SAS Output The LOGISTIC Procedure Model Information Data Set WORK.BREM Response Variable inf Number of Response Levels Model binary logit Optimization Technique Fisher's scoring Response Profile Ordered Value inf Total Frequency 1 1 3 0 171 Probability modeled is inf='1'. Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 143.47 130.007 SC 146.515 139.811 - Log L 141.47 14.007 41 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-5.114 1.1041 1.4568 <.0001 optime 1 0.00753 0.00316 5.6815 0.0171 age 1 0.0353 0.0145 5.903 0.0151 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits optime 1.008 1.001 1.014 age 1.036 1.007 1.066 4 Basal Statistik - Logistisk regression 14
Effekt af Skalering og Centrering af Kovariater Program: Data brem set brem; a50 = (age - 50) /10; op1 = (optime 60) / 60; Run; Proc logistic data = brem descend; model inf = op1 a50; * model inf(event=1) = op1 a50; Run; 43 Output: Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -.896 0.48 46.916 <.0001 op1 1 0.4518 0.1896 5.6815 0.0171 a50 1 0.353 0.1454 5.903 0.0151 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits op1 1.571 1.084.78 a50 1.44 1.071 1.893 Intercept refererer til log(odds) for en person der har 0 på alle kovariater, men det er nu en person på 50 år, som er opereret i 1 time 44 Skalering Hvis kovariaterne divideres med en faktor: multipliceres estimaterne med faktoren multipliceres standardafvigelsen med faktoren Wald s test og p-værdi forbliver den samme 45 Basal Statistik - Logistisk regression 15
Centrering Hvis kovariaterne centreres omkring en værdi: estimaterne ændres ikke standardafvigelsen ændres ikke Wald s test og p-værdi forbliver den samme Interceptet kommer til at referere til log odds for den værdi af kovariaterne man centrerer omkring 46 Interceptet refererer til log odds for en person med kovariat værdier = dem, der er brugt til centrering ôdds pˆ 50,60 50,60 c.i.(odds c.i.(p 50,60 50,60 ) ) = = = = exp(.896) 0.0553/(1 + 0.0553) exp(.896± 1.96 0.48) ( 0.041/(1.041),0.165/(1.165) ) = 0.0553 = 0.0534 = (0.041;0.1650) = (0.0355; 0.119) Sandsynligheden for infektion for en 0-person (50 år gl, opereret i 60 min) er 0.05, med 95% c.i. på (0.04, 0.11). 47 Centrering og Skalering i SAS data brem; set brem ; a50 = ( alder - 50 ) / 10 ; op1 = ( optid - 60 ) / 60 ; run ; proc genmod data = brem descending ; model inf = op1 a50 / dist = binomial ; ods output Estimates = est ; run ; data est ; set est; Odds = exp( Estimate ) ; Odds_l = exp( LowerCL ) ; Odds_u = exp( UpperCL ) ; if ( Parameter eq "Intercept" ) then do ; prob = Odds / (1 + Odds ) ; prob_l = OR_l / (1 + OR_l ) ; prob_u = OR_u / (1 + OR_u); end ; run ; 48 Basal Statistik - Logistisk regression 16
ODS output Alle procedurer i SAS har forskelligt ODS (dataset med output) output. Ods trace on off Kør proceduren Nu står alle de mulige ODS output, denne procedure kan lave, i loggen: Output Added: ------------- Name: ParameterEstimates Label: Analysis Of Parameter Estimates Template: stat.genmod.parameterestimates Path: Genmod.ParameterEstimates 49 Resultater Obs Parameter Estimate StdErr prob prob_l 1 Intercept -,8963 0,48 0,0533 0,0354 op1 0,4518 0,1896 1,57118 1,0836 3 a50 0,3533 0,1454 1,4369 1,07066 Infektions-sandsynligheden for en 0-person (50-årig opereret 1 time) er 0.05 med et 95% c.i. på [0.03; 0.11] 50 Procedurer Samme analyse lidt forskelligt output Logistic Kun logistisk regression Giver OR estimates direkte Genmod Generaliseret lineær model Tillader brug af Estimates 51 Basal Statistik - Logistisk regression 17
Model Reduktion Wald test: Til at teste vigtigheden af en enkelt kovariat, f.x. H 0 : β k = 0. Under H 0, har vi tilnærmelsesvis: eller: estimate std. err. estimate std. err. ~ N ( 0,1) ~ X Dette er hvad SAS pr. default udregner, for hver parameter for sig. Ikke egnet til flere parametre ad gangen 1 5 Model Reduction II Likelihood-ratio-test: ln(likelihood-ratio) ~ X df Likelihood-ratio er forholdet mellem likelihood funktionens maksimum under to forskellige modeller, som kun adskiller sig ved at den mindste mangler en eller flere parametre er en sand undermodel LogQ er likelihood-ratio testet mod modellen med en parameter pr. observation 53 Model Reduktion III Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? Hierarkisk princip for interaktioner Hvis en model indeholder interaktionen mellem et vist antal variable, skal den også indeholde interaktionsparametre svarende til hver delmængde af disse variable inklusiv parametre for hovedvirkningen for disse variable og det såkaldte konstantled 54 Basal Statistik - Logistisk regression 18
SAS Output LogQ findes i SAS-output sammen med DF (frihedsgrader) som er antallet af observationer i datasættet minus antal parametre Forskellen LogQ mellem to modeller svarer til likelihood-ratio testet mellem to modeller. Skal vurderes i en χ -fordeling med df = forskel i frihedsgader 55 Vores Eksempel Vi har 194 obs. og 3 parametre (intercept, optid, alder) LogQ med df = 191 LogQ i sig selv er ikke meningsfyldt! Forskellen i LogQ mellem to (nestede) modeller svarer til likelihood-ratio test mellem de to modeller Vurderes i en X fordeling med df = forskellen i antallet af parametre i de to modeller Test af model med både optid og alder vs. kun optid: 14.007(191) vs. 141.47(19): x = 141.47 14.007 = 17.4, df = 1, p < 0.0001 (Lidt forskelligt fra Wald testet ) 56 Ordnede variable Kan modelleres linært eller som kategorier Basal Statistik - Logistisk regression 19
k tabel ordnede kategorier Data fra DGA: Sko størrelse CS < 4 4 4.5 5 5.5 6 Total N 5 7 6 7 8 10 43 Y 17 8 36 41 46 140 308 Total 35 4 48 54 150 351 Husk (kategoriske data): Test:x test for uafhængighed: 9.34 med 5 df; P = 0.096 58 Opdeling af χ testet i test for linearitet og test for trend: χ total 9.9 (5) Logistisk regression: = χ (4) + χ = lin 1.7 trend 8.0 Model Difference df p logit(p i ) = β i 0 - Test for linearitet 1,78 4 0,776 logit(p i ) = α + β + S i 1,78 4 0,776 Test for trend 7,56 1 0,006 logit(p i ) = µ i 9,34 5 0,096 + (1) 59 Analyse af sko str. Data: Data sko; input cs $ skonr antal; cards; Y 3.5 5 Y 4.0 7 Y 4.5 6 Y 5.0 7 Y 5.5 8 Y 6.0 10 N 3.5 17 N 4.0 8 N 4.5 36 N 5.0 41 N 5.5 46 N 6.0 140 ; run; 60 Basal Statistik - Logistisk regression 0
Proc Logistic sko eks. proc logistic data = sko; weight antal; class skonr; model cs = skonr; run; Skonr: class numerisk Proc logistic data = sko; weight antal ; model cs = skonr; run ; 61 Proc Genmod sko eks. proc genmod data = sko ; class skonr ; model cs = skonr / dist = binomial link = logit weight antal ; run ; proc genmod data = sko ; model cs = skonr / dist = binomial link = logit ; weight antal ; run ; proc genmod data = sko ; model cs = / dist = binomial link = logit ; weight antal ; run ; Skonr: class numerisk Til Trend test 6 Fuld model (sko str.: class variable) Response Profile Ordered Total Total Value cs Frequency Weight 1 N 6 308.00000 Y 6 43.00000 Probability modeled is cs= N Class Value Design Variables Class Level Information skonr 3.5 1 0 0 0 0 4 0 1 0 0 0...... 6-1 -1-1 -1-1 Model fit Statistics Intercept Intercept & Criterion Only Covariates AIC 63.067 63.73 SC 63.55 66.63 - Log L 61.067 51.7363 Basal Statistik - Logistisk regression 1
Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 9.344 5 0.0961 Score 9.874 5 0.0981 Wald 8.6369 5 0.145 Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq skonr 5 8.6369 0.145 Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept 1 1.7596 0.1710 105.8581 <.0001 skonr 3.5 1-0.5359 0.449 1.431 0.39 skonr 4 1-0.3733 0.3851 0.9398 0.333 skonr 4.5 1 0.031 0.3986 0.0065 0.9357 skonr 5 1 0.00805 0.375 0.0005 0.989 skonr 5.5 1-0.0104 0.3565 0.0009 0.9767 Model: Class effekt af sko str. 64 Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept 1 1.7596 0.1710 105.8581 <.0001 skonr 3.5 1-0.5359 0.449 1.431 0.39 skonr 4 1-0.3733 0.3851 0.9398 0.333 skonr 4.5 1 0.031 0.3986 0.0065 0.9357 skonr 5 1 0.00805 0.375 0.0005 0.989 skonr 5.5 1-0.0104 0.3565 0.0009 0.9767 Sandsynlighed for CS med sko str 3.5: estimerede log-odds: 1.7596 + 0.5359 = 1.37 estimeret p: exp( 1.37)/(1+exp( 1.37)) = 0.73 65 Linear Model Fit Intercept Intercept & Criterion Only Covariates AIC 63.067 57.508 SC 63.55 58.477 - Log L 61.067 53.508 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 7.5597 1 0.0060 Score 8.037 1 0.0046 Wald 7.6971 1 0.0055 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 0.6877 0.946 0.583 0.4673 skonr 1-0.5194 0.187 7.6971 0.0055 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits skonr 0.595 0.41 0.859 Model: lineær effekt af sko str. 66 Basal Statistik - Logistisk regression
Model uden Sko nr. Kun Intercept Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Log L 11 61.067 3.7334 Log L 11 61.067 3.7334 Analysis Of Parameter Estimates Std Wald 95% Conf. Chi- Parameter DF Estimat Error Limits Square Intercept 1-1.9689 0.168 -.880-1.6498 146.7 Pr>Chi <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000 67 Model Sammenligning Model - LogQ df Diff df p full 51,7 6 1,7845 4 0,7753 linear 53,51 10 7,5598 1 0,0060 Intercept only 61,07 11 Testet i sidste linje er et trend test 68 TYPE 1 Hele molevitten kan faktisk klares med en Type 1 option i Proc Genmod proc genmod data = sko ; class skonr ; model cs = sko_lin skonr / dist = binomial link = logit type1; weight antal ; run ; Sko_lin = skonr 69 Basal Statistik - Logistisk regression 3
Resultat Type 1 LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept 61.0673 sko_lin 53.5075 1 7.56 0.0060 skonr 51.730 4 1.78 0.7753 Trend test Test for linearitet 70 Øvelse Brug output til at udregne de prædikterede værdier for sandsynligheden for kejsersnit for kvinder med skonummer hhv. 4, 5 og 6, fra modellen med lineær effekt af skonummer 71 SPSS Analyze Regression Binary Logistic Outcome i Dependent Sko i enten Categorical eller Covariate Hvis Categorical kan en Contrast defineres Samt reference category ( Last eller First ) Options CL for exp(β) e.g. [95] % 7 Basal Statistik - Logistisk regression 4
SPSS HUSK først 73 Definer Kategorisk 74 Option 75 Basal Statistik - Logistisk regression 5
Resultat SPSS Wald test 95% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper Step 1 a Skostr 8,637 5,14 Skostr(1) 1,415,605 5,473 1,019 4,118 1,5813,477 Skostr() 1,53,535 5,493 1,019 3,500 1,8 9,978 Skostr(3),847,549,380 1,13,333,795 6,846 Skostr(4),871,54,767 1,096,390,856 6,673 Skostr(5),890,504 3,119 1,077,435,907 6,537 Constant -,639,3765,003 1,000,071 a. Variable(s) entered on step 1: Skostr. Bemærk: Referencekategorien vises ikke B kolonnen = logitværdierne Exp(B) = odds-ratio værdierne 76 Wald Test To typer af nul-hypoteser H 0 : Risikoen er den samme i alle grupper β 1 = β =..= β k = β H0 ab : Risikoen er den samme i to forskellige grupper β a =β b = β ab 77 Wald Parvis Definer den ene gruppe som reference estimer logitforskellen (β b -β a ) og beregn SE på estimatet Z=(β b -β a )/SE ~ en std normalfordeling Wald = Z ~ chi-i-anden fordeling med 1 frihedsgrad (df) 78 Basal Statistik - Logistisk regression 6
Wald Mere end Grupper Wald testet for hypotesen: β 1 = β =..= β k = β Risikoen er den samme i alle grupper En generalisering af testet for to grupper, ~ chi-i-anden fordeling med antal df = antal grupper minus 1 79 Case Control Studier Psykologer 013 80 Case-kontrol studies I et case-kontrol-studie udvælges: cases (sygdomstilfælde) som er verificeret fra et register eller lignende kontroller, som er personer der repræsenterer den population hvorfra cases stammer Personer i case-kontrol-studier udvælges altså på baggrund af udfaldet. Typisk fastsættes forholdet mellem antallet af cases og kontroller på forhånd 81 Basal Statistik - Logistisk regression 7
Hvis en variabel har betydning for sygdommens udvikling: Forskellig fordeling af variablen mellem cases og kontroller. Sandsynligheden for at være en case (i populationen), p{sygdom} kan ikke estimeres ud fra et case-kontrol studie. Men effekten af kovariaterne på sygdomssandsynligheden kan! 8 Case-kontrol Studier Prevalens i populationen: p p = P{ case} = odds(case) 1 p Udvælgelsesbrøker, dvs. inklusionssandsynligheder π 0 ogπ 1 : P {inklusion i studiet case } = π 1 P {inklusion i studiet control } = π 0 83 Case Kontrol I et case-kontrol studie observerer man antallet af cases og antallet af kontroller, betinget af at disse faktisk er med i studiet Afhænger af diverse kovariater (det er det man interesseret i) og inklusionssandsynlighederne (som man ikke er interesseret i) 84 Basal Statistik - Logistisk regression 8
85 Logistisk Regression Model for populationen: p ln = b0 + b1 x1 + b x 1 p Model for det observerede: ln = [ odds( case incl. )] p 1 ln ln 1 p + π = π 0 π 1 = ln b + 0 + b1 x1 + b x π 0 86 Analyse af P{case inklusion} dvs. binære observationer: 1 Y = 0 case control Effekt af kovariater estimeres korrekt Intercept uden mening afhænger af π 0 og π 1 der sædvanligvis er ukendte 87 Basal Statistik - Logistisk regression 9
Strategi I multipel Regression Logistisk eller Almindelig Psykologer 013 88 Prioritering af Variable 1. De primære variable er de uafhængige variable, som har særlig faglig interesse Sammenhængene mellem de primære variable og den afhængige variabel er de primære sammenhænge. De sekundære variable er dem, hvis eneste funktion er at optræde som kontrolvariable Sammenhængene mellem den afhængige variabel og de sekundære variable omtales som sekundære sammenhænge 89 Analyse Strategi 1. Modellens primære struktur drejer sig om alt det, der har direkte reference til de faglige problemer, der skal belyses.. Modellens sekundære struktur er alt det ved modellen, der ikke henviser til disse problemer. Kan på omfatte alt fra modelegenskaber, der kan motiveres ud fra a) den teoretiske referenceramme, b) helt åbne spørgsmål, c) antagelser, der er motiveret af ønsket om at komme til at arbejde med enkle modeller, fungerer i praksis 90 Basal Statistik - Logistisk regression 30
To Faser Foretag analysen i to faser, hvor den første fase tager sig af modellens sekundære struktur, mens den anden fase indeholder analysen af de primære problemer 91 1) Indledende Modelkonstruktion Definition af startmodel. Startmodellen bør indeholde hele den primære modelstruktur og så meget af den sekundære struktur, som det i praksis er muligt at arbejde med Modelsøgning. Trinvis søgning efter en model med en mere enkel sekundær struktur Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på at modellen er udtryk for overforenkling 9 ) Analyse af primære problemstillinger Test af primære hypoteser. NB.: disse test kan resultere i at nogle af de primære variable skal fjernes fra modellen Modelkontrol Estimation og tolkning af primære parametre. I praksis sker dette sammen med beregningerne af teststørrelserne for de primære hypoteser. De har dog først interesse, hvis modelkontrollen har vist, at der ikke ser ud til at være problemer med modellen 93 Basal Statistik - Logistisk regression 31
Variabel reduktion Hvis vi har en kategorisk variabel på e.g. 4 niveauer Det kan være smart at sammenlægge niveauer (fra 4 til fx) Måske er de lettere sammenfaldende eller der er få i én af grupperne For detaljeret opdeling kan give en variation, der overskygger evt. signifikanser Rækkefølgen af reduktion kan også have betydning 94 Oversigt over Teknikker Respons Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome x -tabeller χ test Logistisk regression Kategoriske Kontingens tabeller / χ test Gen. Logistisk regression Ordinale Vanskeligt, e.g. proportional odds models Kontinuerte Mann Whitney Wilcon sign rank Kruskal - Wallis - Friedman Robust multipel regression Normal Fordeling T-test Parret / uparret Varians Analyse En- / to-sidet Kovarians analyse Multipel regression Censorede data Log-rank test Cox regression Korrelerede Normalt ford. Varians komponent Modeller Modeller for gentagne målinger 95 Tips & tricks Hvis vi vil bestemme hvad der er vores success model inf(event=1) = op1 a50 96 Basal Statistik - Logistisk regression 3