Opgavebesvarelse, logistisk regression

Relaterede dokumenter
Postoperative komplikationer

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Løsning til opgave i logistisk regression

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær og logistisk regression

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Simpel og multipel logistisk regression

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Statistiske Modeller 1: Kontingenstabeller i SAS

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Morten Frydenberg 26. april 2004

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave, forår 2017

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Basal Statistik Kategoriske Data

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Logistisk Regression - fortsat

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Morten Frydenberg 14. marts 2006

Logistisk regression og prædiktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

1 Hb SS Hb Sβ Hb SC = , (s = )

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgavebesvarelse, Basalkursus, uge 3

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Opgavebesvarelse, Basalkursus, uge 3

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Regressionsanalyse i SAS

Generelle lineære modeller

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Vejledende besvarelse af hjemmeopgave

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Opgavebesvarelse, brain weight

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Besvarelse af juul2 -opgaven

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, efterår 2018

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Vejledende besvarelse af hjemmeopgave, forår 2016

Besvarelse af vitcap -opgaven

Løsning til øvelsesopgaver dag 4 spg 5-9

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.

Forelæsning 11: Kapitel 11: Regressionsanalyse

9. Chi-i-anden test, case-control data, logistisk regression.

Multipel Lineær Regression

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Statistik II 4. Lektion. Logistisk regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Transkript:

Opgavebesvarelse, logistisk regression Data ligger i rop.xls på kursushjemmesiden: http://staff.pubhealth.ku.dk/ jufo/courses/logistic/ Når du har gemt data på din computer, kan det indlæses i SAS med kommandoen: PROC IMPORT OUT=work.rop DATAFILE= C:\stinavne\rop.xls DBMS=XLS REPLACE; /* NB: Nye variable tilføjes med: */ DATA rop; SET rop; gaweeks = floor(ga/7); ga29weeks = ga/7-29; Vi tilføjer i samme ombærding to nye variable til data gaweeks der er gestationsalderen afrundet til hele antal uger og ga29weeks der er gestationsalderen i uger (decimaltal) og "flyttet"så nulpunktet ligger ved 29 uger. Variablene skal bruges til at løse opgave 1.1 og 1.4. Foruden resultatet af screeningen (rop ja/nej) indeholder data oplysninger om børnenes køn (dreng=1, pige=2), gestationsalder (i dage), fødselsvægt (i gram) og fødselsvægt relativ til gestationsalderen (z-score målt i standard deviationer). For at få et hurtigt overblik tegner vi data op (fødselsvægt vs gestationsalder) med drenge og piger hver for sig og med ROP-tilfælde markeret med rødt. Bemærk for at få delt op efter køn og ROP-status er det nødvendigt først at sortere data efter disse variable, hvilket vi gør med proc sort i SAS: PROC SORT DATA=rop; BY sex rop ga birthweight; SYMBOL1 i=none v=dot color= blue ; SYMBOL2 i=none v=dot color= red ; PROC GPLOT DATA=rop; BY sex; PLOT birthweight*ga=rop / FRAME; 1

2

Del 1 Spørgsmål 1 Find den totale frekvens af rop-tilfælde i data og udregn også de relative frekvenser for gestationsalder 22 til 31 uger. Er der noget der overrasker? Her skal vi bruge variablen gaweeks der angiver gestaionsalderen afrundet til hele uger. Tabellering af data med proc freq i SAS giver: PROC FREQ DATA=rop; TABLES gaweeks*rop / NOCOL NOPERCENT; The FREQ Procedure Table of gaweeks by ROP gaweeks ROP(ROP) Frequency Row Pct 0 1 Total 22 12 0 12 100.00 0.00 23 22 4 26 84.62 15.38 24 47 18 65 72.31 27.69 25 114 33 147 77.55 22.45 26 162 23 185 87.57 12.43 27 253 10 263 96.20 3.80 28 342 14 356 96.07 3.93 29 424 10 434 97.70 2.30 30 585 2 587 99.66 0.34 31 756 1 757 99.87 0.13 Total 2717 115 2832 Vi ser at 115 ud af 2832 børn har ROP, hvilket svarer til ca 4%. Risikoen for ROP ser umiddelbart ud til at stige med faldende gestationsalder, men blandt de allertidligst fødte børn (22 og 23 uger) er der ingen ROP-tilfælde. Det kan selvfølgelig være en tilfældighed da der er meget få børn i disse grupper, men det kunne også være tale om en survival of the fittest-effekt idet kun få børn der fødes så tidligt faktisk overlever så længe at de kan nå at udvikle ROP. Vi vil imidlertid ikke forfølge problemet, men modellere risikoen for ROP som monoton funktion af gestationsalderen. 3

Spørgsmål 2 Fit en simpel logistisk regression med ga som forklarende variabel. Angiv estimaterne for α og β og giv en fortolkning af dem. Tegn den estimerede risiko som funktion af gestationsalderen. Fra proc logistic i SAS får vi følgende estimater: ODS GRAPHICS ON; PROC LOGISTIC DATA=rop DESCENDING PLOTS=EFFECT; MODEL rop = ga; ODS GRAPHICS OFF; The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 12.9097 1.2168 112.5601 <.0001 GA 1-0.0821 0.00648 160.5189 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits GA 0.921 0.910 0.933 Parameterestimatet for interceptet er ˆα = 12.91. Havde det en fortolkning skulle det svare til log(odds) for ROP for et levendefødt barn med gestationsalder 0 uger!! Regressionskoefficienten estimeres med ˆβ = 0.0821. Tager man exponential funktionen til ˆβ får man OR= exp( ˆβ) = 0.921 svarende til at odds for ROP falder med en estimeret faktor 0.92 (eller 8%) for hver dag gestationsalderen stiger. Vi aflæser 95%-konfidensintervallet for odds ratio til at være (0.910, 0.933). Effekten af gestationsalder er højsignifikant (P < 0.0001). Ved at angive argumentet PLOTS=EFFECT får vi SAS til at tegne grafen med den estimerede risiko som funktion af gestationsalder. Grafen viser som forventet moderat høj risiko for de yngste gestationsaldre og lav risiko for de ældste gestationsaldre (se næste side). 4

Spørgsmål 3 Find OR for et fald i gestationsalder på én uge. Angiv 95%-konfidensinterval for estimatet. Odds ratio associeret med et fald i gestationsalderen på en uge (= syv dage) er OR 7 = exp( 7 ˆβ) = 1.777. Vi ved at 95%-konfidensintervallet for β er ˆβ ± 2 s.e = 0.0821 ± 2 0.00648 = ( 0.0951, 0.0691), så vi ganger endepunkterne med -7 og tager eksponentialfunktionen på resultatet, hvilket giver 95%-konfidensnintervallet (1.623,1.945) for OR 7. 5

Spørgsmål 4 Find et estimat for risikoen for ROP når gestationsalderen er 29 uger. Find også konfidensinterval for estimatet. Her benytter vi variablen ga29weeks med nulpunkt ved ga=29 uger som forklarende variabel og kan aflæse log(odds for risikoen som intercept: PROC LOGISTIC DATA=rop DESCENDING; MODEL rop = ga29weeks; The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-3.7522 0.1438 680.6529 <.0001 ga29weeks 1-0.5745 0.0453 160.5189 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits ga29weeks 0.563 0.515 0.615 Vi aflæser ˆα = 3.7522, hvilket giver Odds= exp( 3.7522) = 0.0235 og vi kan transformere videre til et egentligt risiko estimat P= 1+0.0235 0.0235 = 0.0229. For at få et konfidensinterval for risiko-estimatet, tranformeres endepunkterne på konfidensintervallet for interceptet, ˆα ± 2 SE = 3.7522 ± 2 0.1438 = ( 4.0398, 3.4646) på sammen måde. Det giver et øvre grænse på exp( 4.0398) 1+exp( 4.0398) = 0.0173 og en nedre grænse på exp( 3.4646) 1+exp( 3.4646) = 0.0303. Altså skønnes risikoen for et barn til gestationsalder 29.0 uger at ligge melem 1.73% og 3.03%. 6

Spørgsmål 5 Hvad er frekensen af ROP hos præmature drenge hhv. piger. Beregn odds ratio for forskellen mellem kønnene. Vi tabellerer antallet af ROP-tilfælde blandt drenge og piger med: PROC FREQ DATA=rop; TABLES sex*rop / NOCOL NOPERCENT CHISQ; The FREQ Procedure Table of SEX by ROP SEX(sex) ROP(ROP) Frequency Row Pct 0 1 Total 1 1418 67 1485 95.49 4.51 2 1299 48 1347 96.44 3.56 Total 2717 115 2832 Statistics for Table of SEX by ROP Statistic DF Value Prob Chi-Square 1 1.6304 0.2016 Likelihood Ratio Chi-Square 1 1.6400 0.2003 Continuity Adj. Chi-Square 1 1.3961 0.2374 Mantel-Haenszel Chi-Square 1 1.6298 0.2017 Phi Coefficient -0.0240 Contingency Coefficient 0.0240 Cramer s V -0.0240 67 Umiddelbart er der relativt flere ROP-tilfælde blandt drengene, 1485 = 4.51%, 48 end blandt pigerne hvor der er = 3.56%. Odds ratio for drenge vs piger er på 67/1418 48/1299 1347 = 1.28. Vi har benyttet chi-square testet på 2x2-tabellen. Det viser at der ikke er signifikant forskel på kønnene (P = 0.20). 7

Vi kan dog ikke være sikre på at der ikke er en kønsforskel. Tager man højde for varierende gestationsaldre kønnene imellem, bliver køns-effekten borderline signifikant (P = 0.05) med OR= 1.49 (1.00 2.23), som det fremgår af output fra proc logistic: PROC LOGISTIC DATA=rop DESCENDING; CLASS sex; MODEL rop = ga sex; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 13.0507 1.2237 113.7314 <.0001 GA 1-0.0829 0.00652 161.6727 <.0001 SEX 1 1 0.2002 0.1026 3.8070 0.0510 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits GA 0.920 0.909 0.932 SEX 1 vs 2 1.493 0.998 2.232 8

Spørgsmål 6 Undersøg for piger og drenge hver for sig hvordan risikoen for ROP afhænger af gestationsalderen. Hvordan kan man teste om effekten af ga er kønsafhængig? Vi har allerede tidligere sorteret datasættet efter køn, så vi kan køre proc logistic med en BY sex-option for at få fittet modellen separat for drenge og piger. Vi slår også ODS GRAPHICS til for at få vist de estimerede sammenhænge grafisk med PLOTS=EFFECT. ODS GRAPHICS ON; PROC LOGISTIC DATA=rop DESCENDING PLOTS=EFFECT; BY sex; MODEL rop = ga; ODS GRAPHICS OFF; --------------------------------------------- sex=1 --------------------------------------------- The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 14.9482 1.7018 77.1511 <.0001 GA 1-0.0920 0.00907 102.7521 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits GA 0.912 0.896 0.929 --------------------------------------------- sex=2 --------------------------------------------- The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 10.8111 1.7788 36.9386 <.0001 GA 1-0.0720 0.00944 58.1240 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits GA 0.931 0.913 0.948 9

For drengene får vi en odds ratio på 0.912 (95% CI: 0.896 0.929), mens vi for pigerne får en odds ratio på 0.931 (95% CI: 0.913 0.948). Umiddelbart ser der altså ikke ud til at være stor forskel på kønnene. Heller ikke graferne giver indtryk af større forskel på effekten af gestationsalder kønnene imellem, omend der ser ud til at være lidt højere risiko for drengene alt i alt: For at få et formelt test tilføjer vi interaktionsleddet ga*sex til den multiple logistiske regressionmodel for det samlede data: PROC LOGISTIC DATA=rop DESCENDING; CLASS sex; MODEL rop = ga sex ga*sex; Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq GA 1 156.7623 <.0001 SEX 1 2.8237 0.0929 GA*SEX 1 2.3256 0.1273 Interaktionsleddet er ikke signifikant så vi finder ingen indikation af at risikoen som funktion af gestationsalderen skulle være kønsafhængig. 10

Spørgsmål 7 Inddrag nu også z-score for fødselsvægt i den multiple regression. Har det betydning for risikoen om børnene er store eller små ift deres gestationsalder? Ændrer korrektionen for z-score ved effekterne af ga og køn? Vi tilføjer variablen zscore til den multiple regression: PROC LOGISTIC DATA=rop DESCENDING; CLASS sex; MODEL rop = ga sex zscore; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 14.3670 1.3288 116.8912 <.0001 GA 1-0.0925 0.00728 161.3499 <.0001 SEX 1 1 0.2516 0.1037 5.8911 0.0152 ZSCORE 1-0.4061 0.0821 24.4536 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits GA 0.912 0.899 0.925 SEX 1 vs 2 1.654 1.102 2.484 ZSCORE 0.666 0.567 0.783 Vi ser signifikant effekt af zscore (P < 0.0001) og at risikoen falder med voksende værdier af denne (OR=0.67, 95% CI: 0.57-0.78). Der er altså en yderligere risiko ved også at have en forholdsvis lav fødselsvægt for sin gestationsalder. Desuden ser vi nu en signifikant effekt af køn (P = 0.015), svarende til at drenge har en højere risiko for ROP end piger født med samme gestationsalder og samme fødseslvægt relativ til det forventede for gestationsalderen. 11

Spørgsmål 8 Hvad bør man checke ved modelkontrol af den logistiske model? Vi ved ikke om data indeholder tvillinger eller trillinger, men i det store hele må vi gå ud fra at børnene udvikler ROP uafhængigt af hinanden og at observationerne derfor kan antages at være uafhængige. Mulige kilder til misspecifikation er derfor ikke-linearitet og oversete interaktioner. Vi har allerede testet interaktionen mellem køn og gestationsalder, men mangler at checke om log(odds) faktisk er en lineær funktion af gestationsalderen. I mangel af bedre tester vi relationen mod et tredjegradspolynomium ved at tilføje variable gaw2 og gaw3 svarende til anden- og tredjepotenser til data (bemærk vi benytter variablen ga29weeks med nulpunkt ved 29 uger fremfor ga for at få numerisk stabile resultater): DATA rop; SET rop; gaw2 = ga29weeks**2; gaw3 = ga29weeks**3; PROC LOGISTIC DATA=rop DESCENDING; CLASS sex; MODEL rop = ga29weeks gaw2 gaw3 sex zscore; Under Model Fit Statistics finder vi deviance som -2 Log L = 723.490 for polynomial-modellen mod en deviance på 745.274 i modellen med lineær effekt af ga. Forskellen deviance= 745.274 723.490 = 21.75 skal sammenholdes med en χ 2 -fordeling med 2 frihedsgrader. Ved tabelopslag finder vi P < 0.0001 altså en højsignifikant ikke-linearitet. Måske er det survival of the fittesteffekten fra spm. 1 vi ser -? For ikke at gøre opgaven unødigt kompliceret vælger vi i det følgende at ignorere (!) den ikke-lineære effekt, men det skal bemærkes at Slidsborg et al faktisk ender med en 5 te grads polynomial model for ga. Modelkontrollen bør gentages for zscore, men er udeladt af pladshensyn. 12

Del 2 Spørgsmål 1 Fit en simpel logistisk regression for ROP-risiko med fødselsvægt som forklarende variabel. Tegn den prædikterede risiko som funktion af fødselsvægten. Tegn også ROC-kurven og diskutter om modellen er anvendelig som prædiktionsmodel. Bemærk: I Canada bruges fødselsvægt 1200g som screeningskriterium. Vi kører igen simpel logistisk regression med proc logistic, men denne gang med birthweight som forklarende variabel. For at få tegnet estimeret risiko og ROC-kurve tilføjer vi PLOTS=EFFECT og PLOTS=ROC som options til programmet. Endelig gemmer vi de prædikterede sandsynligheder i et OUT-datasæt (vi skal nemlig bruge dem i spm. 2.3). ODS GRAPHICS ON; PROC LOGISTIC DATA=rop DESCENDING PLOTS=EFFECT PLOTS=ROC; MODEL rop = birthweight; OUTPUT OUT=estimated1 predicted=estprob1; ODS GRAPHICS OFF; The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 1.5037 0.3542 18.0212 <.0001 BIRTHWEIGHT 1-0.00449 0.000396 128.4676 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits BIRTHWEIGHT 0.996 0.995 0.996 Der er klart signifikant effekt af fødselsvægt. Det at odds ratio estimatet ligger tæt på en er ikke udtryk for en svag effekt, men derimod for at fødselsvægten er målt i gram. Omprogrammeres birthweight-variablen til 100g fås et mere interessant estimat. 13

ROC-kurven viser en rimelig omend langt fra perfekt diskrimination af ROPtilfælde. Sammenholdt med grafen for estimeret risiko ser vi at det ville være en dårlig ide at anvende det Canadiske screeingskriterium på danske børn, da adskillige tilfælde ville blive overset. Men øges screeningsgrænsen til 1500g opnås faktisk 100% sensitivitet i datamaterialet. 14

Spørgsmål 2 Tegn ROC-kurven for modellen i opgave 1.7 (med ga, zscore og sex som covariater). Test om z-score og køn reelt forbedrer prædiktionen. Vi kører igen multipel logistisk regression men denne gang med ROC-kurven som output. Herudover tilføjes en linie til programmet for hver af de modeller vi ønsker at sammenligne ROC-kurver for. Det vil sige modellen med alle tre forklarende variable, med køn udeladt, med z-scoren udeladt og med gestationsalderen som enlig forklarende variabel. Endelig angiver ROCCONTRAST-linien at alle disse modeller skal holdes op mod modellen med de tre variable. ODS GRAPHICS ON; PROC LOGISTIC DATA=rop DESCENDING PLOTS=ROC; CLASS sex; MODEL rop = ga sex zscore; OUTPUT OUT=estimated2 predicted=estprob2; ROC All predictors ga sex zscore; ROC without sex ga zscore; ROC without Z-score ga sex; ROC only GA ga; ROCCONTRAST REFERENCE( All predictors ) / ESTIMATE; ODS GRAPHICS OFF; Standard 95% Wald Pr > Contrast Estimate Error Confidence Limits Chi-Square ChiSq Model - All predictors 0..... without sex - All predictors -0.00036 0.00305-0.00633 0.00561 0.0139 0.9063 without Z-score - All predictors -0.0167 0.00687-0.0302-0.00325 5.9189 0.0150 only GA - All predictors -0.0165 0.00756-0.0313-0.00170 4.7731 0.0289 Modellen prædiktive evne forværres ikke væsentligt hvis køn droppes fra modellen. Tilgengæld er det en dårlig ide at se bort fra z-scoren. 15

16

Spørgsmål 3 Sammenlign de individueele risiko-estimater baseret på de to konkurrerende prædiktionsmodeler. Er der forskel? Hvor stor er forskellene typisk? Vi fletter output-datasættene fra de to forgående spm sammen og beregner forskellene mellem de individuelle prædikterede sandsynligheder med. Det er en dårlig ide at printe hele det store datasæt, så for at få et overblik over forskellene bruger vi proc univariate, der bl.a. giver udvalgte fraktiler for fordelingen: DATA estimated; MERGE estimated1 estimated2; estdif = estprob1-estprob2; PROC UNIVARIATE DATA=estimated; VAR estdif; Quantiles (Definition 5) Quantile Estimate 100% Max 0.184080529 99% 0.100695152 95% 0.040877265 90% 0.022095298 75% Q3 0.005333015 50% Median -0.000885969 25% Q1-0.004177242 10% -0.017427686 5% -0.042258226 1% -0.112793498 0% Min -0.278648906 Risiko-estimaterne fra de to konkurrerende modeller kan være ret forskellige - helt op til 28% i absolut forskel! For de fleste børns vedkommende stemmer risikoestimaterne dog godt overens; 50% holder sig indenfor ±0.5%, 90% indenfor ±4%, men også 2% med absolutte forskelle på over 10%. 17

Spørgsmål 4 Hvordan undersøger man hvilken af de to modeller der prædikterer bedst? Modellerne kan ikke direkte sammenlignes da de ikke er nestede, men vi kan teste begge modeller op mod en udviddet model med ga, sex, zscore og birthweight som forklarende variable: ODS GRAPHICS ON; PROC LOGISTIC DATA=rop DESCENDING; CLASS sex; MODEL rop = ga sex zscore birthweight; ROC All predictors ga sex zscore birthweight; ROC Three predictors ga sex zscore; ROC Birthweight birthweight; ROCCONTRAST REFERENCE( All predictors ) / ESTIMATE; ODS GRAPHICS OFF; ROC Contrast Rows Estimation and Testing Results Standard 95% Wald Pr > Contrast Estimate Error Confidence Limits Chi-Square ChiSq Model - All predictors 0..... Three predictors - All predictors -0.00020 0.00237-0.00486 0.00445 0.0074 0.9313 Birthweight - All predictors -0.0164 0.00540-0.0270-0.00577 9.1725 0.0025 Modellen med de tre forklarende variable prædikterer ikke væsentligt ringere en den udviddede model, mens fødselsvægten alene giver signifikant dårligere diskrimination. Modellen fra spm. 1.7 er altså den bedste prædiktionsmodel (og evt kunne køn droppes, da den trods sin signifikans ikke forbedrer prædiktionerne væsentligt). 18