Sammenligning af to sæt observationer p-værdier og sikkerhedsgrænser

Transkript

1 9 STATISTIK Sammenligning af to sæt observationer p-værdier og sikkerhedsgrænser Klaus Johansen Hvad er p-værdier og sikkerhedsgrænser, og hvad kan disse udfaldsmål bruges til? Artiklen rummer nyttig repetition for den, som ikke jævnligt læser videnskabelige originalartikler. BIOGRAFI: Forfatter er pensioneret overlæge, dr.med., speciallæge i endokrinologi. Han har undervist i videnskabsterori ved Det Sundhedsvidenskabelige Fakultet, Københavns Universitet, og skrevet bøger om blandt andet endokrinologi, vidensbaseret klinik og statistik. FORFATTERS ADRESSE: Hjortespringparken 13, 730 Herlev. klausjoh@dadlnet.dk Størstedelen af medicinsk forskning går ud på at sammenligne grupper af observationer. En kontrolleret klinisk undersøgelse munder ud i, at man står med resultaterne af to forskellige behandlinger, som man har sammenlignet med henblik på at finde den mest effektive. Andre gange kan man være interesseret i at sammenligne grupper af personer, som ikke har været udsat for intervention, hvor man f.eks. ønsker at undersøge levealder, skolebørns vægt eller indtræden af menarchen i forskellige befolkninger eller til forskellige tider. Sammenligning af basalstofskiftet hos adipøse og normalvægtige eller indholdet af jod i urinen forskellige steder i Danmark, er andre eksempler på gruppesammenligning. Sammenligning af to sæt observationer munder ud i et resultat, som udsættes for en statistisk test, hvis resultat kan være en p-værdi og/eller sikkerhedsgrænser. Formålet med denne artikel er at beskrive, hvad henholdsvis p-værdi og sikkerhedsgrænser står for og kan bruges til. Derimod er der ingen beskrivelse af de forskellige statistiske test, der anvendes til beregning af p-værdier. p-værdien I næsten alle videnskabelige artikler støder man på p-værdier (p for probability). p-værdien er resultatet af en signifikans-

2 STATISTIK 93 test, der har til formål at beregne sandsynligheden for at opnå de observerede resultater. p-værdien fortæller, hvor stor sandsynligheden er for, at den forskel (eller en endnu større), man finder mellem to sæt observationer, er opstået tilfældigt, forudsat at der i virkeligheden ikke er forskel. Hvis p-værdien er meget lav, er chancen for, at forskellen er opstået tilfældigt, meget ringe, og omvendt, hvis p-værdien er høj, er der stor chance for, at forskellen er opstået tilfældigt. Den engelske statistiker R.A. Fisher skrev i 199:»An observation is judged significant, if it would rarely have been produced, in the absence of a real cause of the kind we are seeking. It is a common practice to judge a result significant, if it is of such a magnitude that it would have been produced by chance not more frequently than once in twenty trials«. Det er fortsat almindelig praksis at betragte en observation, som forekommer ved tilfældighedernes spil en gang ud af tyve eller sjældnere, som værende statistisk signifikant (p 0,05). Da p 0,05 er valgt vilkårligt, betyder det, at resultater, der ikke er væsentligt forskellige fra p 0,05, f.eks. p < 0,055 eller 0,045, bør føre til samme beslutningsmæssige konklusion. p 0,05 er således forenelig med, at der er en forskel, men betyder ikke, at der er en forskel.»abscence of evidence does not mean evidence of abscence«. En gang ud af tyve vil man få den observerede forskel ved tilfældighedernes spil. Ikkesignifikante værdier angives som > 0,05. p > 0,05 betyder forenelig med, at der ikke er en forskel på observationerne, men betyder ikke, at der ikke er en forskel. p-værdien har ikke en enkel og tydelig relation til stikprøvestørrelsen. Både små og store stikprøvestørrelser kan lede til enten små Forskerens konklusion A = B (nulhypotese) A B (alternativ hypotese) A = B Ingen fejl Type I-fejl Sandheden A B Type II-fejl Ingen fejl Tabel 1. Type I- og type II-fejl. eller store p-værdier. p-værdien siger ikke noget om størrelsen på en forskel i virkning mellem f.eks. behandling A og behandling B. Man kan have en høj statistisk signifikant forskel dvs. en lille p-værdi (f.eks. p < 0,0001) og en meget ringe forskel på A og B, som ikke er klinisk relevant. Omvendt kan man have en høj p-værdi (f.eks. p > 0,05) og en stor forskel på A og B. p-værdien siger heller ikke noget om retningen af forskellen (A > B eller B > A). Den siger kun noget om sandsynligheden for at finde den fundne forskel ved tilfældighedernes spil, givet at der ikke er nogen forskel. Det er værd at være opmærksom på, at p-værdien ikke må tolkes som sandsynligheden for, at der ikke er nogen forskel, givet undersøgelsens resultat. Hvis man i en kontrolleret klinisk undersøgelse finder en statistisk signifikant forskel mellem to behandlinger, risikerer man at begå en type I-fejl (Tabel 1). Selvom man mellem de to behandlinger har fundet en forskel, som kun forekommer ved tilfældighedernes spil 1 gang ud af 0 eller endnu sjældnere, kunne det jo være, at forskellen netop denne gang er opstået tilfældigt. Omvendt, hvis man finder, at der ikke er statistisk forskel mellem de to behandlinger, men sandheden er, at der er forskel, har man begået en

3 94 STATISTIK Antal målinger Fig. 1. Normalfordelingen. ½% Gennemsnit ½% Målinger 95% type II-fejl. Grunden til, at man ikke finder nogen forskel, kan bl.a. være, at der ikke er undersøgt tilstrækkeligt mange patienter. Fig.. Beregning af spredning (SD). Spredningen Spredningen bruges til udregning af p- værdier. Mange biologiske fænomener er normalfordelte (Gaussisk fordelt). Som eksempel kan nævnes variabler som legemshøjde og -temperatur, blodtryk, plasmakolesterol- og hæmoglobinkoncentration (Fig. 1). En populations middelværdi (µ) estimeres ud fra stikprøvens gennemsnit ( ). Normalfordelingen er en klokkeformet og symmetrisk kurve omkring gennemsnittet. Bredden af en normalfordeling varierer fra variabel til variabel. Man kan udtrykke denne breddeforskel vha. spredningen også kaldet standarddeviationen (SD). Spredningen beregnes ved at måle afstanden for den enkelte måling (x i) ind til gennemsnittet ( ). Herefter kvadrerer man disse afstande og dividerer dem med antallet af målinger (n) minus 1 (Fig. ). Til sidst tages kvadratroden. I praksis vil man anvende en computer eller en lommeregner til beregningen. Hvis målingerne er normalfordelte gælder det, at ± SD inkluderer 95% (præcist 95,45) af målingerne.,5% af () x x ( x i x SD = ) n kan omskrives til SD = n 1 n 1

4 STATISTIK 95 målingerne vil ligge lavere, og,5% vil ligge højere end 95%-området. Det vil sige, at sandsynligheden for at x-værdien er SD højere end eller SD lavere end gennemsnittet er mindre end,5%. ± 1 SD inkluderer 68,7% og ± 3 SD inkluderer 99,73% af målingerne. Sikkerhedsgrænser Måler man serumalbuminkoncentrationen på 100 stikprøver, hvor hver stikprøve har en størrelse på 5, vil man ikke uventet få forskellige gennemsnit og SD er. Det kan påvises, at det forventede gennemsnit ( ) af alle de 100 stikprøvers gennemsnit er det bedste estimat af populationens middeltal (δ), og at spredningen af de enkelte stikprøvers gennemsnit er normalfordelt. Til beregning af sikkerhedsgrænser bruges standardfejlen (SE). Man kan estimere SE fra en enkelt stikprøve ved hjælp af SD. SE er lig med standarddeviationen divideret med kvadratroden af n (SD/ n). Ved hjælp af sikkerhedsgrænserne kan man få et mål for den præcision eller omvendt den usikkerhed, hvormed man ud fra resultatet af en undersøgelse af en stikprøve kan ekstrapolere til og drage slutninger om hele populationen. De to sikkerhedsgrænser afgrænser sikkerhedsintervallet. Som regel anvender man 95%-sikkerhedsintervallet, som er gennemsnittet ± SE. Herved mener man, at 95% af sådanne intervaller vil indeholde den sande værdi for populationen. En mindre korrekt definition lyder, at 95%-sikkerhedsintervallet angiver det interval, hvori man kan være 95% sikker på, at populationens værdi vil ligge. Der er intet til hinder for at anvende andre sikkerhedsintervaller som f.eks. 99,73%, hvilket svarer til gennemsnit ± 3 SE. Sammenligning af to middelværdier ved hjælp af sikkerhedsinterval Man foretog en kontrolleret klinisk undersøgelse for at vurdere effekten af at måle blodglukose hjemme på regulering af diabetes (1). Som mål anvendte man procenten af glykeret hæmoglobin (HbA 1c ) hos en gruppe type -diabetikere efter 1 år med intensiv måling af hjemmeblodglukose. Efter 1 år sammenlignede man gruppen, som foretog intensiv hjemmeblodglukosemåling (intensivgruppen), med en kontrolgruppe, som ikke anvendte blodglukosemåling hjemme. I kontrolgruppen (n 1 = 15) var HbA 1c 7,49 ± 1,0 (gennemsnit ± 1 SD 1), og der var ingen forskel i HbA 1c (0,00) fra udgangsværdien. I intensivgruppen (n = 151) var HbA 1c 7,36 ± 1,05 (gennemsnit ± 1 SD ). Forskellen fra udgangsværdien var 0,17. Punktestimatet er derfor [0,00 ( 0,17)] = 0,17 (Tabel ). Under forudsætning af, at observationerne er normalfordelte kan sikkerhedsintervallet for punktestimatet beregnes (Fig. 3). Først beregnes en fælles (SD) = ( n1 1) SD 1 + ( n 1) SD SD = ; 1 1 SE = SD + ; ( x 1 x ) ± ( SE ) n1 + n n1 n Fig. 3. Beregning af spredning (SD) og standardfejl (SE).

5 96 STATISTIK HbA 1c (gennemsnit og standarddeviationen) Kontrolgruppe (n = 15) Intensivgruppe (n = 151) Udgangsværdi 7,49 ± 1,09 7,53 ± 1,1 Opfølgning 7,49 ± 1,0 7,36 ± 1,05 Forskel 0,00 ± 1,0 0,17 ± 0,73 Tabel. Selvmonitorering af blodglukose ved type -diabetes. 0,8874. Herefter beregnes den fælles standardfejl (SE) = 0,100. Til sidst fås 95%- sikkerhedsintervallet ud fra formlen: 0,17 ± 0,100 = 37 til +3 (HbA 1c ). 95% af sådanne intervaller vil indeholde den sande værdi for populationen. Hvis begge sikkerhedsgrænser havde været negative, ville det betyde en signifikant forskel i HbA 1c mellem de to grupper. Da sikkerhedsintervallet overskrider 0, er der ikke statistisk forskel på de to behandlingsregimener. Sikkerhedsintervallets størrelse afhænger af antallet af målinger. Jo større antal observationer (målinger) jo mindre sikkerhedsinterval. Dvs. at store stikprøver giver større præcision/sikkerhed end mindre. Hvis man vil undersøge, om der er forskel på HbA 1c mellem udgangs- og opfølgningsværdi i intensivgruppen, skal man udregne 95%-sikkerhedsgrænserne for udgangs- og opfølgningsværdierne. Formlen er gennemsnit ± SD. Sikkerhedsintervallet for udgangsværdien er således 7,53 ± x 1,1 = 5,9-9,77 (Tabel ). For opfølgningsværdien er sikkerhedsintervallet 7,36 ± 1,05 = 5,6-9,46. Hvis sikkerhedsintervallerne ikke overlapper, er der signifikant forskel, og hvis de overlapper, som i dette tilfælde, er der ikke signifikant forskel. Det er ikke tilstrækkeligt, at den ene af grupperne har vist et statistisk signifikant fald. Da p-værdien ikke fortæller noget om størrelsen eller retningen af forskellen mellem to sæt observationer, er p-værdien i sig selv ikke så informativ som sikkerhedsintervallet. Sikkerhedsintervallet angiver præcisionen på den variabel, man er interesseret i. En p-værdi på 0,05 svarer til 95%-sikkerhedsgrænserne, som adskiller alle de værdier, der indikerer»ingen forskel«fra dem, der indikerer»forskel«. p-værdi og sikkerhedsinterval komplementerer således hinanden. Når man ønsker at sammenligne mere end to grupper, gælder der andre former for statistik som f.eks. envejsvariansanalyse. Naturligvis er p-værdien og sikkerhedsgrænser ikke i sig selv tilstrækkeligt grundlag for at træffe beslutning om en (be)handling. I overvejelsen bør der naturligvis også indgå patientens ønsker, behandlingseffekt, bivirkningsfrekvens, risiko for komplikationer og behandlingspris. Økonomiske interessekonflikter: ingen angivet. LITTERATUR 1. Farmer A, Wade A, Goyder E et al on behalf of the Diabetes Glycaemic Education and Monitoring Trial Group. Impact of self monitoring of blood glucose in the management of patients with non-insulin treated diabetes: open parallel group randomised trial. BMJ 007;335:13-6.