Bilag 7 Statistik og beregningsudredning ved Overlæge Søren Paaske Johnsen, medlem af Ekspertgruppen Marts 2008 Bilag til Ekspertgruppens anbefalinger til videreudvikling af Sundhedskvalitet www.sundhedskvalitet.dk
Statistik og beregningsudredning Notat til Ekspertgruppen/Sundhedskvalitet.dk Udarbejdet marts 2008 af Søren Paaske Johnsen Dette notat beskriver fordele og ulemper ved forskellige tilgange til rapportering på www.sundhedskvalitet.dk. Minimumsgrænser for antal cases (5-10-15-20 etc.) per periode for at en institution får sin indikatorværdi på sk.dk Antallet af patienter er afgørende for den statistiske sikkerhed af resultaterne og dermed muligheden for at udtale sig om variation mellem enheder og over tid. Der knytter sig en række fordele og ulemper til anvendelse af minimumsgrænser for antallet af patienter: Fordele: - Ved at sætte en grænse for hvor få patienter en enhed skal have behandlet for at den kan indgå i sammenligningerne, sikres det at sammenligningerne ikke baseres på meget usikre resultater fra enheder med ganske få patienter. - Der anvendes aktuelt minimumsgrænseværdier (10 patienter) i bl.a. de borgerrettede versioner af rapporter fra Det Nationale Indikatorprojekt. Det vil være hensigtsmæssigt om der anvendes ens principper for rapportering for NIP, de landsdækkende kliniske kvalitetsdatabaser samt www.sundhedskvalitet.dk. patienter. Ulemper: - Minimumsgrænser medfører at der ikke offentliggøres resultater fra alle enheder som varetager behandling af en given patientgruppe. Dette kan være problematisk, såfremt behandlingskvaliteten er ringere på enheder med et lille antal patienter. Særligt problematisk bliver situationen såfremt behandlingen er spredt på mange små enheder, således at minimumsgrænser medfører at der ikke offentliggøres resultater fra en substantiel del af den samlede patientpopulation. Ekspertgruppen anbefaler at der bør anvendes minimumsgrænser i rapportering af klinisk kvalitet. Samtlige afdelinger og sygehuse som varetager behandlingen på et givet sygdomsområde bør dog frem- 2
gå. For afdelinger og sygehuse med færre end 10 behandlede patienter per opgørelsesperiode præsenteres dog ikke tal. Konfidensintervaller (fx 95 % respektive 99 %) Konfidensintervaller udtrykker den statistiske sikkerhed (præcision) af en given værdi (f.eks. en indikatorværdi). Et konfidensinterval angiver i hvilket omfang tilfældig variation kan forklare den målte indikatorværdi og hænger nøje sammen med antallet af observationer/patienter fra den enkelte afdeling. Et bredt sikkerhedsinterval indikerer, at der er betydelig usikkerhed omkring den reelle indikatorværdi, mens et smalt interval omvendt indikerer, at indikatorværdien ikke kan udlægges som et resultat af tilfældig variation. Der anvendes konfidensintervaller ved rapportering fra såvel NIP som en række af de landsdækkende kliniske kvalitetsdatabaser. Der kan anvendes forskellige typer af konfidensintervaller. Mest udbredt er dog 95% og 99% intervaller. Uanset type af konfidensinterval, er det vigtigt at understrege at selvom resultatet for en enhed ikke afviger signifikant fra en referenceværdi kan der i praksis godt være tale om en uacceptabel stor forskel. Ligeledes kan en enhed godt afvige signifikant fra en referenceværdi selvom forskellen i praksis er uden betydning. Vurderingen af sygehusene kan derfor ikke alene baseres på konfidensintervallerne men bør også omfatte en vurdering af den absolutte forskel. Valg af type af konfidensintervaller beror på en afvejning af følgende forhold: Fordele (ved anvendelse af 95% vs. 99% intervaller): - Øget sandsynlighed (d.v.s. højere sensitivitet) for at identificere enheder som afviger fra en given referenceværdi, f.eks. landsresultatet. Ved anvendelse af 99% grænser kræves der således større afvigelser førend det er muligt at påvise en afvigelse som er statistisk signifikant. For nogle områder vil antallet af observationer/patienter være begrænset og det kan derfor være vanskeligt at påvise forskelle såfremt der anvendes 99% intervaller. - I sundhedsvidenskabelig forskning anvendes traditionelt 95% intervaller, ligesom der også anvendes 95% intervaller i NIP og de fleste landsdækkende kliniske kvalitetsdatabaser. Denne type af interval er således mest udbredt og den de fleste brugere har erfaring med. Det vil være hensigtsmæssigt at der anvendes samme type af intervaller uanset om informationen hentes fra www.sundhedskvalitet.dk, www.sundhed.dk eller andre kilder. 3
Ulempe (ved anvendelse af 95% vs. 99% intervaller): - Ved anvendelse af 95% intervaller vil risikoen for type I fejl, dvs. risikoen for at det er tilfældigheder der gør at analysen viser at et en enhed afviger signifikant fra landsresultatet, vil være 5%. Vi vil således forvente at 5 ud af 100 enheder afviger statistisk signifikant fra landsresultatet pga. tilfældigheder. Risikoen for fejlagtigt at udpege en enhed, som afvigende fra landsresultatet vil blive reduceret til 1% såfremt der anvendes 99% intervaller, svarende til et 1 ud af 100 sygehuse pga. tilfældigheder vil afvige fra landsgennemsnittet. Risikoen vil være endnu lavere såfremt der anvendes statistisk proceskontrol, hvor risikoen for type I fejl traditionelt kun er 0.27%. Statistisk proceskontrol kan anvendes til at indikerer om en sundhedsfaglig proces eller et sundhedsfagligt resultat er i statistisk kontrol. (stabil, kun udvisende den variation der skyldes tilfældige variation) eller ude af statistisk kontrol (ustabil som følge af variation p.g.a. ikke-tilfældige årsager). Metoden forudsætter dog et passende antal målinger (>12). Ekspertgruppen anbefaler at der bør anvendes 95% konfidensintervaller. Forskellige typer værdisætning, fx landsgennemsnit, median, 75 % kvartil, top ti, den bedste, etc. En vurdering af behandlingskvaliteten forudsætter sammenligning med en eller flere meningsfulde referenceværdier. Typisk anvendes en kombination af et fast kvalitetsmål (standard) fastsat ud fra en faglig vurdering af hvad der er opnåeligt ved best practice samt en sammenligning med reelt opnåede værdier i en given periode for landet som helhed eller udvalgte enheder. Ved fastlæggelsen af sidstnævnte interne reference indgår følgende overvejelser: Hele landet: Typisk anvendes det samlede resultat for hele landet (d.v.s. ikke et gennemsnit eller en medianværdi for de enkelte enheder). Fordelene ved at anvende det samlede landsresultat er at referencen er den samme for hver opgørelsesperiode samt at referencen har en størrelse som sikrer at sammenligninger foretages med den højest opnåelige statistiske sikkerhed. Hele landet anvendes aktuelt som reference i NIP samt de fleste landsdækkende kliniske kvalitetsdatabaser. Ulemperne består bl.a. i at de enkelte enheder selv indgår i referencen, hvorved det særligt for store enheder eller på sygdomsområder med få behandlende enheder bliver sværere at påvise afvigelser fra referencen. 4
Udvalgte enheder: Sammenligning med udvalgte enheder, f.eks. den eller de bedste, medfører øget fokus på enheder som klarer sig særligt godt, hvilket kan understøtte en positiv læringskultur for afdelingerne og synliggøre variationen mellem enhederne. Anvendelsen af én eller få enheder som reference kan dog være problematisk såfremt enhederne ikke er repræsentative for enhederne generelt i forhold til patientsammensætning, organisation, etc. (f.eks. et universitetshospital som foretager specialbehandling af selekterede patientgrupper). Påvisning af afvigelser fra referencen vil endvidere besværliggøres såfremt referenceenheden kun har behandlet et begrænset antal patienter. Såfremt der anvendes kategorisering af afdelinger og sygehuse i f.eks. kvartiler, vil det kunne sikres at der til enhver tid er en spredning mellem afdelingerne. Dette vil kunne lette en rangordning og karaktergivning, men kan også være problematisk såfremt de absolutte forskelle mellem afdelingerne er klinisk ubetydelige. Kategorisering kan således resultere i at afdelinger og sygehuse fremstår mere forskellige end det reelt er tilfældet. Afventer beslutning i ekspertgruppe. Værdisætning baseret på flydende værdi overfor en for en periode fastlagt værdi (fx forrige års værdi) Ved opgørelse af resultater vedr. kvalitet af behandling skal også fastlægges en tidsperiode som resultaterne opgøres over. Der kan enten være tale om en flydende tidsperiode, f.eks. de sidste 3, 6 eller 12 mdr. eller en fast defineret tidsperiode, f.eks. sidste kalenderår. Fordele (ved anvendelse af en flydende versus en fastlagt værdi): Kvaliteten vil her blive løbende opdateret og informationen vil derfor være mest mulig tidstro. Hvor tidstro resultaterne vil være, afhænger af opgørelsesperiodens længde som igen typisk vil være bestemt af, hvor stort patientvolumen er. Jo færre patientforløb der findes inden for et givet sygdomsområde, jo længere bør opgørelsesperioden være for at få et patientmateriale som er tilstrækkeligt stort til at drage konklusioner ud fra. Ved anvendelse af flydende værdisætning vil det være nemmere løbende at monitorere ændringer i behandlingskvaliteten, herunder effekten af tiltag som iværksættes ude i enhederne (f.eks. omlægning af arbejdsgange, øgede ressourcer etc.). 5
Ulemper (ved anvendelse af en flydende versus en fastlagt værdi): Der anvendes typisk kun flydende værdi i de standardrapporter som løbende udsendes fra NIP og de landsdækkende kliniske kvalitetsdatabaser. Disse rapporter er udelukkende rettet mod personer med sundhedsfaglig indsigt og er ikke-kommenterede. I årsrapporterne opgøres resultaterne derimod for hele sidste år og i visse tilfælde anvendes endnu længere opgørelsesperioder. Anvendelse af flydende værdi på www.sundhedskvalitet.dk vil således umiddelbart kræve en langt mere omfattende indsats fra både SST og dataleverandørerne, idet der i givet fald løbende skal tilflyde www.sundhedskvalitet.dk resultater, som ikke har været underkastet en sundhedsfaglig vurdering. Ekspertgruppen anbefaler af praktiske årsager at der benyttes en fast opgørelsesperiode (f.eks. sidste år). Vægtning respektive ikke-vægtning ved beregning a f behandlingskarakter Kvaliteten af sundhedsvæsenets indsat overfor en given patientgruppe lader sig ikke afspejle fyldestgørende ved hjælp af en enkelt kvalitetsindikator. For NIP og samtlige landsdækkende kliniske kvalitetsdatabaser gælder det derfor at der er identificeret et sæt af kvalitetsindikatorer omfattende proces-, resultat- og i mindre omfang strukturindikatorer. For hvert enkelt sygdomsområde vil der som oftest være tale om 5-15 indikatorer, hvilket muliggør et mere nuanceret billede af behandlingskvaliteten. Det medfører dog samlet set en stor datamængde som er svær at overskue og kompleks at fortolke. Der er i det lys en stor interesse for at konstruere aggregerede mål for behandlingskvaliteten, f.eks. ved at lave en sammenstilling af hele eller dele af indikatorsættet. En sådan sammenstilling kan ske ved indbyrdes at vægte betydningen af de enkelte indikatorer. Fordele (ved anvendelse af vægtning versus ikke-vægtning): Vægtning af indikatorsættet vil potentielt sikre at den samlede behandlingskarakter bedre afspejler kvaliteten af de sundhedsfaglige kerneydelser som leveres, f.eks. ved at resultatindikatorer og proces- samt strukturindikatorer med dokumenteret betydning for resultatindikatorerne vægtes højere end proces- og strukturindikatorer som ikke umiddelbart er forbundet med et bedre resultat for patienten. En bredt accepteret vægtning vil endvidere kunne medvirke til at undgå nogle af de primære kritikpunkter som er rejst mod anvendelsen af ikke-vægtede aggregerede mål (d.v.s. all-or-none indikatoren/pakkeforløbet), herunder at det rejser store og måske urealistiske forventninger til sundhedsvæsenets indsats og at det muligvis medfører et overforbrug af sundhedsydelser. 6
Ulemper (ved anvendelse af vægtning versus ikke-vægtning): Den helt centrale ulempe består i fastlæggelsen af vægten af de enkelte indikatorer, d.v.s. deres bidrag til den samlede behandlingskarakter. Vægtningen af indikatorerne er ikke nogen eksakt videnskab og for de fleste sygdomsområder vil der ikke en gang eksistere en sikker viden om sammenhængen mellem de udvalgte proces- og resultatindikatorer. Der vil således ikke være et evidens-baseret grundlag til at træffe beslutninger om vægtningen. Problemet kan i begrænset omfang afhjælpes ved at lave opdelinger i de elementer som skal indgå i karaktergivningen, således som det aktuelt sker på www.sundhedskvalitet.dk, hvor der skelnes mellem nøgletal for hele sygehuset og nøgletal for behandlingen af en given patientgruppe. Tilsvarende kan der tænkes en adskillelse af resultatindikatorer fra proces- og strukturindikatorer. En sådan opdeling vil på den ene side mindske problematikken omkring vægtning og gøre karaktergivningen mere nuanceret og muligvis også mere valid, idet betydningen af forskelligheder i patientsammensætningen (case-mix) mellem forskellige afdelinger og sygehuse principielt kun har indflydelse på resultatindikatorerne. På den anden side vil det øge kompleksiteten i afrapporteringen, idet modtageren vil skulle forholde sig til flere informationer. Løsningen er derfor at betragte som en mellemting mellem rapportering af det komplette indikatorsæt og rapportering af et samlet aggregeret kvalitetsmål (vægtet eller ej). Internationalt såvel som nationalt arbejdes der med forskellige modeller for på en mere overskuelig vis at samle informationen fra et helt indikatorsæt uden at foretage vægtning (se f.eks. Figur 1 nedenfor med et eksempel på en grafisk fremstilling fra det svenske hoftealloplastikregister). Det er dog ikke løsninger som umiddelbart er anvendelige til at muliggøre en overordnet rangstilling af afdelinger og sygehuse. Afventer beslutning i ekspertgruppe 7
Figur 1: Stjernediagram til illustration af variation i indikatoropfyldelse for landet som helhed og for enkelt enheder. Fra The Swedish National Hip Arthroplasty Register (http://www.jru.orthop.gu.se/). 8