DET SUNDHEDSVIDENSKABELIGE FAKULTET KØBENHAVNS UNIVERSITET Blegdamsvej 3B 2200 København N Antal sider i eksamensopgaven (incl. forside): 5 Eksamen i Statistik Efterår 2008 1. semester, FSV Udleveres 12. december 2008 kl. 10 Afleveres senest 19. december kl. 10 Eksamensvejledning Der afleveres en synopsis på maksimalt 10 normalsider (à 2400 anslag ekslusiv figurer og tabeller. Der må ikke være bilag. Synopsis skrives individualt eller i grupper på to til fire studerende. Der lægges vægt på, at besvarelsen er klart disponeret og sprogligt koncis, og at sprogbrugen er i overensstemmelse med fagets terminologi Praktiske forhold Ingen Tilladte hjælpemidler Alle hjælpemidler er tilladte Det er tilladt for grupper taler sammen om opgaven, men ikke at tekst tabeller, fugiurer eller lignende deles.
Type 2 diabetes mellitus (T2DM) er en kronisk sygdom der medfører øget risiko for forskellige komplikationer, f.eks. blindhed, nyresvigt og hjertesygdom. Hvis T2DM er tidligt opdaget kan udviklingen af komplikationerne forebygges igennem behandling eller livsstilsændringer. På samme måde kan udvikling af T2DM blive standset i personer med prædiabetes (impaired fasting glycaemia IFG; eller impaired glucose tolerance IGT). Idet populationsscreening for (præ)diabetes er uhensynsmæssig (dyrt og muligvis sundhedsskadeligt!), skal screening fortages i en passende lille mængde personer med høj risiko for diabetes. For at gøre det praktisk for en læge at identificere sådan en gruppe i dens praksis, skal det foretages på basis af information som er umiddelbart tilgængeligt i praksisregisteret. Et bud på identifikationen er Cambridge Risk Score (CRS). Scoren, der er nærmere beskrevet i Griffin et al (2000), udregnes ud fra Tabel I ved at summere koefficienterne af de karakteristika personen har; en høj score betyder en høj risiko for at have (skjult) diabetes. Koefficienterne i CRS er parametrene i en logistisk regressions model og CRS kan derfor bruges til at udregne sandsynligheden for at have T2DM. Tabel I: Udregning af Cambridge Risk Score (CRS) Koefficient Karakteristik 6.322 Tillægges alle personer 0.879 Tillægges hvis person er kvinde 1.222 Tillægges hvis person er ordineret blodtryksænkende medicin 2.191 Tillægges hvis person er ordineret steroider 0.063 Tillægges for hvert år i personens alder 0.699 Tillægges hvis person har BMI* imellem 25 og 27.49 kg/m 2 1.970 Tillægges hvis person har BMI* imellem 27.5 og 29.99 kg/m 2 2.518 Tillægges hvis person har BMI* over 30 kg/m 2 0.728 Tillægges hvis forældre eller børn har diabetes 0.753 Tillægges hvis forældre og børn har diabetes 0.218 Tillægges hvis person er eksryger 0.855 Tillægges hvis person er ryger *Body Mass Index (BMI) er vægt (i kg) divideret med den kvadrerede højde (i meter) 1. Udregn din egen CRS og (estimerede) sandsynlighed for T2DM. For at evaluere CRS blev der foretaget en komplet screening af alle personer mellem 20 og 70 år tilhørende en enkelt almen lægepraksis i Jylland. Efter eksklusioner (mest på grund af at personen ikke ville deltage) er der oplysninger om 1374 af de 2082 indskrevne patienter. Evalueringen kan læses i Heldgaard and Griffin (2006). Data findes i datamaterialet crs.sav; den indeholder variablerne beskrevet i Tabel II. Side 2 af 5
2. For alle i data, udregn BMI og CRS. Tabel II: Variablene i crs.sav. Variabel PT DIABETES SEX AGE HEIGHT WEIGHT WEIGHT20 ANTIHYP STEROID DISP SMOKING Beskrivelse Patient ID Screeningsresultat (1=normal, 2=IGT, 3=IFG, 4=T2DM) Køn (0=mand, 1=kvinde) Alder (år) Højde (cm) Vægt (kg) Selvrapporteret vægt (kg) i 20 års alderen Er ordineret blodtryksænkende medicin Er ordineret steroider Disponering til T2DM (0=ingen i familien har diabetes, 1=forældre eller børn har diabetes, 2=forældre og børn har diabetes) Rygning (0=ikkeryger, 1=eksryger, 2=ryger) Vi er interesseret i at vurdere evnen af CRS til at finde patienter med diabetes og prædiabetes (T2DM, IGT eller IFG). En mulighed er at definere en tærskel C for lav mod høj risiko og invitere alle med en CRS C til en screening. Der findes to mål for kvaliteten af identifikationen: specificitet er sandsynligheden for at en person der er identificeret med lav risiko ikke har nogen (præ)diabetes, og sensitivitet er sandsynligheden at en person der er identificeret med høj risiko faktisk har (præ)diabetes. Hvis vi har screeningsresultatet kan vi udregne sensitivitet og specificitet for en bestemt tærskel som illustreret i Tabel III. Tabel III: Sensitivitet og specificitet Identifikation Screeningsresultat (Præ)diabetes Normal CRS C True positive (TP) False positive (FP) CRS<C False negative (FN) True negative (TN) Sensitivitet = TP/(TP+FN) Specificitet = TN/(FP+TN) 3. I crs.sav data, lav en binær identifikationsvariabel for et positivt screeningsresultat (DIABETES klasser T2DM, IFG og IGT slås sammen). Sæt tærsklen til C=0 og lav en binær identifikationsvariabel for tvedelingen af CRS (hvor kategorier er CRS C og CRS<C). Lav en 2x2 frekvenstabel af tvedelingsvariablen mod screeningsresultatvariablen (de to variabler I lige har lavet) som i Tabel III og udregn sensitivitet og specificitet. Et godt identifikationsinstrument har både en høj sensitivitet og en høj specificitet. Måske er sensitiviteten og specificiteten bedre ved ændre vælg af tærsklen end C=0. Side 3 af 5
4. Udregn sensitiviteten og specificiteten for forskellige værdier af tærsklen C. Lav et plot af sensitiviteten mod specificiteten; for hvert valg af tærskelværdi C er der et punkt i plottet. Forbind punkterne med en linje hvor man går fra laveste værdi af C til højeste værdi af C. Sådan et plot hedder en ROC curve (den kan nok bedst laves separat i en spreadsheet program som Excel). Diskuter dette plot: hvad sker der for meget høje eller meget lave værdier for tærsklen C? Hvordan ser plottet ud for et rigtig godt identifikationsinstrument? Og for en rigtig dårligt et? Hvad er det bedste valg af tærsklen C? En ide til forbedring af CRS er at i stedet for den nyværende vægt (som indgår i BMI udregningen) at bruge den vægt patienten husker han/hun havde som 20 årig. Denne selvrapporterede 20 års vægt kunne være en mere stabil grundstørrelse end vægten her og nu. 5. Udregn en alternativ CRS med WEIGHT20 i stedet for WEIGHT variablen. Lav en ROC curve for denne alternative score i samme figur som den oprindelige score. Er den alternative score en forbedring? CRS bygger på en logistisk regressions analyse hvor nogle valg er lavet med hensyn til modellen, f.eks. indgår BMI som fire kategorier og der er ikke interaktioner mellem variabler. Med dataene i crs.sav kan vi prøve at lave en bedre beskrivelse. 6. Lav en logistisk regression med variablene i Tabel I som uafhængige variabler og en binær variabel der indikerer T2DM (DIABETES klasser Normal, IFG og IGT slås sammen) som afhængig variabel. Kommer parametre i denne model nogenlunde overen med parametre i Tabel I? 7. Brug nu screeningsresultatvariablen fra spørgsmål 3 som afhængig variable og gentag analysen i 6. Lav en ROC curve for scoren der er defineret ud fra parametre af denne model. 8. Undersøg om modellen kan forbedres ved at inddrage alder, vægt og højde på en måde forskellig fra modellen i Tabel I (alder virker måske ikke lineær, og vægt og højde er måske ikke bedst sammenfattet som nogle klasser af BMI), og ved at se på vekselvirkninger. Lav en ROC curve for den score defineret ved den bedste model i kunne finde i samme figur som i spørgsmål 7. Er denne nye måde at udregne scoren på bedre end den oprindelige måde der bruger måden som den oprindelige CRS (med nye parametre)? 9. Kan i forbedre scoren hvis WEIGHT20 inddrages? Side 4 af 5
Referencer (opgaven kan godt laves uden referencerne) Griffin SJ, Little PS, Hales CN, Kinmonth AL, Wareham NJ. Diabetes risk score: towards earlier detection of type 2 diabetes in general practice. Diabetes Metab Res Rev 2000; 16(3): 164 171. Heldgaard PE, Griffin SJ. Routinely collected general practice data aids identification of people with hyperglycaemia and metabolic syndrome. Diab Med 2006; 23: 996 1002. SLUT Side 5 af 5