Faculty of Health Sciences Introduktion Logistisk regression og prædiktion 16. Maj 2012 Julie Forman Biostatistisk Afdeling, Københavns Universitet Hvad er en god diagnostisk model? En model med god overensstemmelse mellem observerede og fittede værdier. En model der forklarer så meget som muligt af variationen i data. En model der kan prædiktere outcome med rimelig præcision. I praksis: Ikke så godt at glemme en vigtig risikofaktor eller overse en meget ikke-lineær effekt. 2 / 36 Fittede sandsynligheder Prædiktion i SAS De fittede (prædikterede) sandsynligheder for den logistiske regressions model er: ˆP i = exp(ˆα + ˆβ 1 x i1 + + ˆβ k x ik ) 1 + exp(ˆα + ˆβ 1 x i1 + + ˆβ k x ik ) ˆα, ˆβ 1,..., ˆβ k er parameterestimaterne. x i1,..., x ik er kovariaterne for den i te observation. NB: Optional output fra de fleste statistiske softwarepakker. 3 / 36 4 / 36
Eksempel: Menarke Eksempel: Menarke Prædikterede sandsynligheder: Obs age menarche _LEVEL_ estprob 1 8.00 0 1 0.000380154 2 8.03 0 1 0.000397850 3 8.08 0 1 0.000429192 4 8.13 0 1 0.000463002 5 8.17 0 1 0.000491956... 518 19.48 1 1 0.99993 519 19.56 1 1 0.99994 520 19.75 1 1 0.99995 5 / 36 6 / 36 Brier score Som overordnet mål for goodness of fit, kan man udregne: Brier score(model) = 1 n n (Y i ˆP i ) 2 i=1 Denne skal sættes i forhold til den tilsvarende nul-score: Brier score(null model) = 1 n n (Y i Ȳ )2 Hvor Ȳ er frekvensen af cases i data. Nul-scoren er den totale variation i data svarerende til en model uden forklarende variable. i=1 Den forklarede variation i data bliver således: 7 / 36 R 2 = Brier score(null model) Brier score(model) Brier score(null model) Eksempel: Menarke Frekvens af menarke Ȳ = 263 520 = 0.506. Den totale variation (nul-score) er 0.250 Brier score for modellen med alder er 0.063 Alder forklarer R 2 = 0.250 0.063 0.250 = 74.7% af variationen i data. 8 / 36
Prædiktiv modellering Prædiktion i SAS Ofte er selve formålet med den logistiske regression at udvikle en model til klassifikation/diagnosticering af nye individer. Dette kræver at modellen er tilpas god til at skelne cases fra non-cases ved at prædiktere hhv. høje og lave sandsynligheder for disse. Der findes særlige statistiske værktøjer til at evaluere om en logistisk regression en god prædiktionsmodel. 9 / 36 10 / 36 Eksempel: Hypertension Sensitivitet og specificitet Kunne vi finde frem til mænd med hypertension udfra risikoforholdene snorken, fedme og rygning? Obs smoking obesity snoring n count estprob 1 0 0 0 60 5 0.085 2 1 0 0 17 2 0.080 3 0 1 0 8 1 0.157 4 1 1 0 2 0 0.148 5 0 0 1 187 35 0.182 6 1 0 1 85 13 0.172 7 0 1 1 51 15 0.308 8 1 1 1 23 8 0.294 Ad hoc klassifikation: Prædikteret risiko 25%... Hvor af hhv. cases og non-cases klassificeres korrekt? Sensitiviteten er sandsynligheden for positiv diagnose blandt faktiske cases. 100% ved perfekt prædiktion. Kaldes også den sande positiv rate. Specificiteten er sandsynligheden for negativ diagnose blandt faktiske non-cases. 100% ved perfekt prædiktion Lig med 1 minus den falske positiv rate. 11 / 36 12 / 36
Eksempel: Hypertension Eksempel: Hypertension Ad hoc klassifikationen "Prædikteret risiko 25%"selekterer 23 af de 79 cases og 51 af de 354 non-cases. Sensitivitet 23 79 29.1% Specificitet 1 51 354 85.6% Ville et andet skæringspunkt end 25% give en bedre diagnose? Varierende skæringpunkter ved 0%, 5%, dots 50%. Classification Table Correct Incorrect Percentages Prob Non- Non- Sensi- Speci- False False Level Event Event Event Event Correct tivity ficity POS NEG 0.00 79 0 354 0 18.2 100.0 0.0 81.8. 0.05 79 0 354 0 18.2 100.0 0.0 81.8. 0.10 72 70 284 7 32.8 91.1 19.8 79.8 9.1 0.15 71 70 284 8 32.6 89.9 19.8 80.0 10.3 0.20 23 303 51 56 75.3 29.1 85.6 68.9 15.6 0.25 23 303 51 56 75.3 29.1 85.6 68.9 15.6 0.30 0 318 36 79 73.4 0.0 89.8 100.0 19.9 0.35 0 354 0 79 81.8 0.0 100.0. 18.2 0.40 0 354 0 79 81.8 0.0 100.0. 18.2 0.45 0 354 0 79 81.8 0.0 100.0. 18.2 Bemærk trade-off mellem sensitiviteten og specificiteten. 13 / 36 14 / 36 ROC kurven Area under the curve (AUC) Sensitivitet vs 1-specificitet for varierende risiko-skæringspunkt. Arealet under ROC kurven bruges som overordnet mål for goodness of fit / prædiktiv evne. AUC= 1 for en perfekt prædiktionsmodel AUC= 0.5 for en ubrugelig prædiktionsmodel (kunne ligeså godt slå plat og krone) Eksempel: AUC=0.617 for hypertensionsdata Det er selvfølgelig bedre bare at måle patientens blodtryk! Jo stejlere kurve desto bedre prædiktion. 15 / 36 16 / 36
Konkordans AUC kan beregnes som: AUC = Antal (case,non-case)-par med ˆP case ˆP case Antal (case,non-case)-par i alt svarende til frekvensen af såkaldte konkordante observationspar. The LOGISTIC Procedure Association of Predicted Probabilities and Observed Responses Percent Concordant 97.7 Somers D 0.954 Percent Discordant 2.3 Gamma 0.954 Percent Tied 0.0 Tau-a 0.478 Pairs 67591 c 0.977 Prædiktion i SAS 17 / 36 18 / 36 Prædikterede sandsynligheder i SAS ROC kurver i SAS Prædikterede sandsynligheder for de enkelte observationer gemmes i et datasæt, estimated med: PROC LOGISTIC DESCENDING DATA=mdata; MODEL menarche=age; OUTPUT OUT=estimated predicted=estprob; RUN; PROC PRINT DATA=estimated; RUN; Det er nemt at få tegnet ROC-kurven og udregnet AUC. ODS GRAHPICS ON; PROC LOGISTIC DESCENDING DATA=hypertension PLOTS=ROC(id=prob); CLASS snoring obesity smoking; MODEL count/n=snoring obesity smoking / CTABLE PPROB = (0 TO 1 BY 0.1) OUTROC = ROC; RUN; ODS GRAPHICS OFF; 19 / 36 Med SAS 9.2 eller nyere version. 20 / 36
Sammenligning af ROC kurver i SAS Flere ROC kurver samtidigt og test af forskel med: ODS GRAHPICS ON; PROC LOGISTIC DESCENDING DATA=ivf PLOTS=ROC; CLASS smoking; MODEL overstim = antral ovolume cyclelength fsh age bmi smoking; Prædiktion i SAS ROC All predictors antral ovolume cyclelength fsh age bmi smoking; ROC Antral follicles antral; ROCCONTRAST REFERENCE( All predictors ) / ESTIMATE; RUN; ODS GRAPHICS OFF; 21 / 36 22 / 36 IVF: introduktion IVF: data Kvinder i IVF-behandling gennemgår hormonterapi hvorigennem folliklerne modnes og senere høstes. De fleste kvinder reagerer tilfredsstillende på standard hormon dosis, men et ikke ubetydeligt mindretal overstimuleres med medfølgende symptomer der i yderste konsekvens kan være livstruende. Vi ønsker derfor så vidt muligt at identificere de kvinder der er i risiko for overstimulering udfra den tilgængelige information. Freiesleben et al: Risk chart to identify low and excessive response among first cycle IVF patients, Reproductive BioMedicine Vol. 22, 2011. Data fra 276 kvinder i IVF behandling. Alle modtog standard dosis. 43 blev overstimuleret. Potentielle prædiktorer: Variabel N Mean Std Dev Minimum Maximum age 276 32.6449275 3.4856604 23.0000000 39.0000000 bmi 276 22.9600362 3.5082026 17.1100000 39.7900000 antral 276 20.0833333 8.8697819 3.0000000 60.0000000 ovolume 276 10.5581884 3.6519907 2.2500000 24.9600000 cyclelength 276 28.4927536 2.1191641 22.0000000 35.0000000 fsh 276 6.6018478 1.7381892 1.6000000 12.0000000 smoking 276 0.3297000 --------- 0.0000000 1.0000000 23 / 36 24 / 36
IVF: logistisk regression IVF: Potentielle prædiktionsmodeller Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-6.7038 3.7970 3.1173 0.0775 ANTRAL 1 0.1102 0.0296 13.9085 0.0002 OVOLUME 1 0.1029 0.0637 2.6113 0.1061 CYCLELENGTH 1 0.2469 0.0943 6.8604 0.0088 FSH 1-0.2838 0.1393 4.1500 0.0416 AGE 1-0.0432 0.0592 0.5328 0.4654 BMI 1-0.1256 0.0675 3.4650 0.0627 SMOKING 1 0.2616 0.4306 0.3690 0.5436 Tilsyneladende flere væsentlige risikofaktorer. 25 / 36 26 / 36 IVF: ROC analyse IVF: Estimeret risiko Er det nødvendigt at have alle faktorerne med? The LOGISTIC Procedure ROC Contrast Rows Estimation and Testing Results Standard 95% Wald Pr > Contrast Estimate Error Confidence Limits Chi-Square ChiSq Model - All predictors 0..... Antral - All predictors -0.0353 0.0209-0.0763 0.00569 2.8486 0.0915 Ovolume - All predictors -0.0958 0.0365-0.1674-0.0243 6.8906 0.0087 Cyclelength - All predictors -0.1389 0.0374-0.2121-0.0656 13.8076 0.0002 FSH - All predictors -0.2046 0.0465-0.2958-0.1134 19.3320 <.0001 Age - All predictors -0.2620 0.0519-0.3637-0.1603 25.4962 <.0001 BMI - All predictors -0.3093 0.0530-0.4132-0.2054 34.0693 <.0001 Antrale follikler alene prædikterer stort set ligeså godt som alle variablene tilsammen (hvilket ikke er alt for godt). 27 / 36 28 / 36
Prædiktion vs signifikans Regressionsanalyse med hypotese test og ROC-analyse kan give ret forskellige resultater. Det ses tit at en ny forklarende variabel der er stærkt signifikante i multipel logistisk regression, kun giver yderst beskedne forbedringer i prædiktiv evne (AUC) når den tilføjes til de kendte risikofaktorer. En insignifikant forklarende variabel kan omvendt godt være en god prædiktor (ses oftest i små datasæt). Prædiktion i SAS 29 / 36 30 / 36 Overfitting Ekstern og intern validering Goodness of fit mål som Brier score og AUC favoriserer komplekse modeller (mange kovariater) fordi disse altid bedre vil kunne tilpasse sig de individuelle observationer i data. Men øget kompleksitet giver ikke nødvendigvis bedre præditioner. Pas på overfitting Ideelt set bør en prædiktionsmodel bedømmes på sin evne til at prædiktere nye observationer der ikke har været brugt til at udvikle modellen (i.e. estimere modelparametrene). I mangel af uafhængige testdata, kan det oprindelige datasæt deles op i et modellerings-datasæt og et testdatasæt. For at undgå snyd bør opsplitning, modellering og evaluering randomiseres og gentages et antal gange (fx ved bootstrap krydsvalidering). 31 / 36 32 / 36
Andre prædiktionsmodeller Stepwise regression Logistisk regression er langt fra den eneste måde at konstruere prædiktionsmodeller på. Andre modeller: Desission trees, random forrests, neural nets, support vector machines etc. Nogle af disse modeller er udviklet til at kunne håndtere store mængder af information / mange forklarende variable fx i form af genetiske profiler. Mange software pakker (inklusiv SAS) har algortimer til automatisk selektion af variable til prædiktionsmodeller i form af stepwise regression (forward/ backwards elimination). Dette giver ikke nødvendigvis gode prædiktionsmodeller da variablene tilvælges og fravælges på baggrund af p-værdier, i.e. signifikans. Statistisk forskning viser at resultaterne af stepwise regression ofte er ustabile; Hvis man sletter nogle tilfældige valgte observationer i data, vælger algoritmen nogle helt andre variable ud! 33 / 36 34 / 36 Her kan i få mere at vide Tak for idag Om basale begreber og logistisk regression: DG Altman: Practical Statistics for Medical Research, Chapman & Hall/CRC, (2nd edition, 1999). Eller en anden bog om basal biostatistik. Om SAS proc logistic support.sas.com http://www.lexjansen.com/pharmasug/2009/sp/sp03.pdf Om prædiktion Ph.d.-kursus: Statistical evaluation of diagnostic and predictive models (Der er af og til ledige pladser... ) 35 / 36 36 / 36