Computeranalyser af fritekster i

Version 1 Side 1 af 11 patientjournaler Forfattere Ulrik Gerdes Dato 04-02-2014 Status Version 1 Historik Dette er første version af dokumentet Indhold Sammenfatning... 2 Indledning... 3 Fritekster i patientjournaler... 3 Om text mining og text analytics... 3 Introduktion: Erfaringer og perspektiver... 4 Projekt med text analytics i Region Syddanmark... 4 Formålet... 4 Metoder... 4 Konkrete resultater... 6 Vigtige observationer og erfaringer... 7 Perspektiver, forskning og udvikling... 10 Skader, eller fokus på helt specifikke problemer?... 10 Bidrag til globale indices for patientsikkerhed?... 10 Flere idéer til brug af text analytics i sygehusvæsenet... 10 Behov for et nationalt samarbejde, og forskning... 10 Referencer... 11

Version 1 Side 2 af 11 Sammenfatning Punkter Fritekster i patientjournaler indeholder mange vigtige informationer som ikke findes registrerede andre steder. Der findes kraftfulde it-værktøjer til at udtrække og håndtere sådanne informationer, som bl.a. vedrører patientsikkerheden på sygehusene. Vi har udført et projekt, som viser, at det kan lade sig gøre at lære en computer at læse patientjournaler, for med rimelig sikkerhed at finde hyppigt forekommende markører for mulige patientskader, og især at kunne frasortere journaler for patienter som ikke har haft problemer. Vi har observeret en række forskellige problemer med kvaliteten af de tekster som læger og andet sundhedsfagligt personale skriver i patientjournalerne, og med en computers evne til at forstå teksterne. Computeren har en tendens til at overdrive med hensyn til at pege på mulige problemer med patientsikkerheden, men er god til at identificere de patienter som hyppigst udsættes for skader. Computeren kan læse 2.000 patientjournaler i minuttet. Det giver mulighed for at screene og undersøge mange journaler med et lille resurseforbrug. Vi har arbejdet ud fra en model (GTT-metoden), som sigter efter at identificere alle typer af patientskader, uanset hyppighed og alvorlighedsgrad, men kan se andre muligheder for brugen af text analytics. Konklusion Anvendelsen af moderne, avanceret it til analyser af fritekster rummer mange muligheder for at understøtte kvalitetsforbedringer i sundhedsvæsenet, men der er behov for et nationalt samarbejde og forskning for at kunne udnytte teknologiens fulde potentiale.

Version 1 Side 3 af 11 Indledning Fritekster i patientjournaler Størstedelen af de informationer der indsamles og anvendes i forbindelse med sygehusindlæggelser findes i form af lægers og andet sundhedsfagligt personales notater i patienternes journaler, dvs. som fritekster. Disse informationer, som også kan kaldes ustrukturerede data (i modsætning til de strukturerede data der opsamles i databaser), omfatter fx beskrivelser af patienternes symptomer, objektive kliniske fund, behandlinger og pleje under sygehusopholdet, herunder beskrivelser af komplikationer, utilsigtede hændelser og patientskader. Vurderinger af kvaliteten af patientbehandlingen på sygehusene, og herunder patientsikkerheden, er typisk baseret på analyser af strukturerede data fra kliniske databaser og patientadministrative systemer, resultater af regelmæssigt udførte kortlægninger af specifikke problemstillinger (fx forekomsten af tryksår eller hospitalserhvervede infektioner) og journalgennemgange. Systematiske journalgennemgange kan fx udføres med brug af den såkaldte»global Trigger Tool method«(gtt-metode), hvor trænet sundhedsfagligt personale omhyggeligt gennemlæser et udvalg af patientjournaler og noterer sig forekomsten af bestemte markører for mulig forekomst af patientskader, samt eventuelle skader [se en beskrivelse af metoden hér]. Opgaven er imidlertid resursekrævende, hvilket fx betyder at der er grænser for hvor mange journaler der kan gennemgås, hvor omhyggeligt det kan gøres og hvor hurtigt resultaterne kan samles, analyseres og videreformidles til det personale der skal bruge dem i det daglige arbejde med kvalitetsforbedringer. Om text mining og text analytics De seneste 10-15 år eksplosive udvikling af computer- og informationsteknologi (it) har åbnet for hidtil usete muligheder for automatisk at finde, udtrække, gruppere, klassificere, strukturere, analysere og fortolke informationer, som ellers kun findes dokumenteret i form af fritekster [1]. Figur 1. Forskellige typer af text mining og analytics Figur 1 ovenfor viser et lille»familiebillede«af de gængse teknologier til text mining, og deres associationer til andre kraftfulde computerbaserede

Version 1 Side 4 af 11 innovationer, herunder fx kunstig intelligens (Artificial intelligence = AI) og data mining i al almindelighed [1]. Flere af teknologierne til text mining og analytics er faktisk velkendte for de fleste, selvom man måske ikke er klar over det: Det er nogle af de samme teknologier der bruges i digitale biblioteker (fx PubMed), i søgemaskinerne til Internettet (fx Google) og i noget så banalt som stave- og grammatikkontrollen i gængse computerprogrammer (fx Microsoft Word). Introduktion: Erfaringer og perspektiver Vi har udført et projekt med brugen af et avanceret software til analyser af fritekster i elektroniske patientjournaler, med fokus på identifikation af markører for patientskader og patientskader (se nedenfor). Og har lært (mindst) tre ting Det kan lade sig gøre at få meningsfulde informationer ud af friteksterne, dvs. at vi har demonstreret et proof-of-concept Det er svært at håndtere analyser af fritekster i patientjournaler, dvs. at opgaven ikke er lige ud af landevejen. Jeg kan se nogle perspektiver og muligheder med brugen af text mining i sundhedsvæsenet, men udviklingen kræver bl.a. et nationalt samarbejde og resurser til forskning. Projekt med text analytics i Region Syddanmark Formålet Projektets formål blev klart beskrevet i et tidligt udkast til en projektidé fra 2010 Der skal forsøges udviklet et it-værktøj, som automatisk kan analyse indholdet i elektroniske patientjournaler med henblik på at identificere handlinger, situationer, tilstande eller observationer (såkaldte triggere), der erfaringsmæssigt er knyttet til øget risiko for at patienter påføres skader. Idéen var knyttet til en igangværende brug af GGT-metoden (se ovenfor), og projektet blev derfor kaldt»automatisk TriggerSøgning«(ATS). Formålet kan i store træk karakteriseres som et forsøg på at demonstrere et proof-of-concept kan den slags overhovedet lade sig gøre? Metoder Data og software Vi fik resultaterne af manuelle gennemgange af 500 journaler, udført med GTT-metoden på Sygehus Lillebælt, Kolding i en toårig periode, og fik adgang til alle fritekster i de elektroniske patientjournaler fra de samme patienter, samt diverse patientadministrative data, inklusive diagnosekoder. Vi anvender primært algoritmer til text analytics baseret på principperne i Natural Language Processing og bruger programmet SAS Enterprise Content Categorization (CC) til opgaverne. Programmet SAS Enterprise Text Miner blev anvendt til præliminære, eksplorative analyser af indholdet i teksterne.

Version 1 Side 5 af 11 Udvikling af algoritmer til text analytics Vi har som udgangspunkt antaget at resultaterne af de manuelle journalgennemgange var»sandheden«, og har vurderet resultaterne med text analytics ud fra om algoritmerne kan finde det samme som mennesker. Arbejdsprocessen foregik som illustreret i Figur 2, dvs. med gentagne revisioner af algoritmerne (typisk 50-100 gange), indtil resultaterne af sammenligningerne med de manuelle resultater var tilfredsstillende. Dette blev vurderet ved at se på 2 x 2 tabeller (se et eksempel nedenfor), kombineret med en subjektiv vurdering af fordele og ulemper ved enten at finde for mange»falsk positive«eller for mange»falsk negative«. Figur 2. Illustration af arbejdsprocessen ved text analytics Det bliver nedenfor diskuteret om denne måde at vurdere algoritmerne på er særlig god, hvis antagelsen om at de manuelle gennemgange giver»sandheden«ikke holder? Hvad flere observationer tyder på se side 9. Samarbejde Jeg har haft et produktivt samarbejde med seniorkonsulent Christian Hardahl fra SAS Institute A/S. Udvalgte markører Der findes i alt 56 forskellige markører og prædefinerede patientskader i GTTmodellen, og vi har kun arbejdet med 12 forskellige (hvoraf 1 er splittet op i flere dele), og flere algoritmer kun ser på visse typer af problemer. Det drejer sig om anvendelse af blodprodukter, tilkald af hjertestophold m.m., undersøgelse for dyb venetrombose, fald, tryksår, genindlæggelse indenfor 30 dage (brug af PAS-data), behandlingsrelaterede infektioner (visse typer), anvendelse af antiemetika, reoperation, postoperative komplikationer (visse typer) og diverse problemer i forbindelse med behandling (visse typer). Udvælgelsen var primært bestemt af hvor hyppigt de pågældende markører fandtes registreret for de 500 journaler vi havde til rådighed, samt ønsker om at afprøve udfordrende opgaver med text analytics.

Version 1 Side 6 af 11 Konkrete resultater Et eksempel: Fald under indlæggelse Fald er angivet som en markør i GGT-metoden, men er oftest også en patientskade. Tabellen herunder viser at algoritmen (ATS) fanger 7 ud af de 8 tilfælde der var fundet ved manuel gennemlæsning, men også peger på 6 yderligere mulige tilfælde (som dog viste sig at være referencer til tekster der beskrev hændelser før patienternes indlæggelser). Fundet med ATS Fundet med manuel GTT Ja Nej Total Ja 7 1 8 2% Nej 6 484 490 98% Total 13 485 498 Klassiske parametre, som ikke afhænger af prævalensen af positive mgtt'er Sandt Positive Fraktion (SPF) 88% 95% konfidensinterval fra 52,9% til 97,8% Sandt Negative Fraktion (SNF) 99% 95% konfidensinterval fra 97,4% til 99,4% Posttest sandsynligheder (prædiktive værdier) Pr(mGTT positiv) hvis ATS er positiv 54% 95% konfidensinterval fra 29,1% til 76,8% Pr(mGTT negativ) hvis ATS er negativ 100% 95% konfidensinterval fra 98,8% til 100,0% De vigtigste resultater af analyserne er de såkaldt prædiktive værdier, som er vist under tabellen, og især den observation at den prædiktive værdi af et negativt fund med text analytics er meget høj, dvs. at algoritmen er god til at frasortere journaler, hvor der heller ikke er fundet problemer ved manuel gennemgang. Det er et generelt fund med alle de algoritmer vi har udviklet i projektet. Kan man finde mange patientskader ved hjælp af få markører? Vi bemærkede under arbejdet, at de udvalgte markører har en tendens til at optræde hos de samme patienter, og oftest hos de patienter som blev vurderet at have pådraget sig en skade. Der var i alt 90 patienter (journaler) med registrerede skader ved manuel GTT og tabellen herunder viser hvor mange af disse der har mindst én positiv trigger af de 12 triggere, ved hhv. manuel GTT og text analytics (ATS). Fundet med ATS Fundet med manuel GTT Ja Nej Total Ja 70 7 77 86% Nej 8 5 13 14% Total 78 12 90 Klassiske parametre, som ikke afhænger af prævalensen af positive mgtt'er Sandt Positive Fraktion (SPF) 91% 95% konfidensinterval fra 82,4% til 95,5% Sandt Negative Fraktion (SNF) 38% 95% konfidensinterval fra 17,7% til 64,5% Posttest sandsynligheder (prædiktive værdier) Pr(mGTT positiv) hvis ATS er positiv 90% 95% konfidensinterval fra 81,0% til 94,7% Pr(mGTT negativ) hvis ATS er negativ 42% 95% konfidensinterval fra 19,3% til 68,0%

Version 1 Side 7 af 11 Som det kan ses, er den positive prædiktive værdi høj, dvs. at algoritmerne er gode til at identificere de patienter der mentes at have pådraget sig en skade. Det tyder på at en screening ved hjælp af relativt få markører kan indkredse størstedelen af patientskaderne, og dermed kan effektivisere arbejdet med at kortlægge og analysere baggrunden for forekomsten af skader på et sygehus eller i en afdeling se også afsnittet på side 10 nedenfor. Gennemgange af flere patientjournaler Vi har siden afslutningen af det primære arbejde med udviklingen af algoritmer til text analytics afprøvet dem med yderligere omkring 200 journaler, og er p.t. i gang med at se på resultaterne fra yderligere 250 journaler, som stammer fra et andet EPJ-system end det der anvendes på Sygehus Lillebælt. Vigtige observationer og erfaringer Vi har gjort mange observationer og har høstet mange erfaringer i forbindelse med arbejde med projektet. De omtales i denne rapport, fordi de både giver en forståelse af de problemer (udfordringer) og de muligheder der findes med brug af text analytics i sygehusvæsenet. Kvaliteten af teksterne i journalnotater Det gælder for resultater af analyser af fritekster som for analyser af alle andre typer af data: Kvaliteten af outputtet afhænger af kvaliteten af inputtet. Vi har observeret en betydelig variation i kvaliteten af de tekster der skrives i patientjournaler, og skønt man kan håndtere de fleste problemer, kan de være tidsrøvende i arbejdet med text analytics. Vi har fx bemærket at Der anvendes mange forkortelser og akronymer, også en del uautoriserede og/eller indforståede, fx AV = Aftenvagten, RF = Respirationsfrekvens, SH = Selvhjulpen og VKO = Vågen, klar og orienteret Tekster skrives ofte meget kortfattede, uden en egentligt sætningsopbygning, dvs. i telegram- eller SMS-stil, fx Pt nu smfri e. OP (= Patienten er nu smertefri efter operationen ). Der forekommer mange stavefejl, både i danske og i lægefaglige ord, og herunder en uvane med at dele ord der ikke skal deles (fx journal[..]optagelse, temperatur[..]forhøjelse, panik[..]angst og tibia[..]fraktur). Sprogbruget er forskelligt i forskellige faggrupper, i forskellige specialer (afdelinger) og på forskellige sygehuse, dvs. at der findes forskellige typer af dialekter i friteksterne. Der forekommer notater som er helt uforståelige, selv for fagfolk. Modulopbyggede algoritmer Vi har eksperimenteret med forskellige typer af modeller, og det har vist sig at være fordelagtigt at bygge algoritmerne for text analytics op i moduler, dvs. komponenter som hver især afsøger fritekster for bestemte typer eller kategorier af information, og som også indeholder moduler der ignorere irrelevante tekster og/eller ignorerer tekster der står bestemte steder i en journal. En algoritme der skal finde tilfælde hvor en patient er faldet under en indlæggelse, skal fx anvende lede efter ord som faldet, snublet,

Version 1 Side 8 af 11 væltet, gledet, fundet på gulvet etc., men skal ignorere tekster som fx Patienten er faldet i søvn eller Patientens blodtryk er faldet, og skal ignorere tekster der handler om fald før indlæggelsen på sygehuset. Fordelene ved modulopbyggede algoritmer er flere, men de er især lettere at overskue og at redigere, herunder at tilpasse til brug i forskellige EPJ-systemer med forskellige strukturer i informationerne. Givet de forskelle der kan findes i sprogbruget i forskellige specialer og på forskellige sygehuse, kunne man også overvejer at konstruere overordnede styremoduler som switcher algoritmers måde at læse en journal på, afhængigt af hvilken afdeling etc. den stammer fra. Ændringer over tid i informationer i patientjournaler Vi har bemærket, at der kan forekomme ændringer over tid i både typen og mængden af informationer i patientjournaler, fx som et resultat af nye retningslinjer for dokumentation eller som følge af ændringer i opsætningerne af EPJ-systemerne. Det er vigtigt at vide, fordi det betyder at funktionen af en given algoritme til text analytics kan ændre sig over tid (til det bedre eller dårligere), hvis indholdet i journalteksterne ændres. Det er derfor nødvendigt at kontrollere algoritmerne fra tid til anden. Overblik over informationer i længerevarende tidsforløb Det er en notorisk vanskelig opgave at overskue og analysere indholdet (meningen, sammenhængen) i tekster der findes spredt over tid, herunder at holde rede på kronologien af de informationer der præsenteres. Det gælder for mennesker og selvsagt også når man arbejder med text analytics. Vi er fx stødt på disse udfordringer Det er ikke usædvanligt at vigtige informationer (tekster), som måske burde have været fundet i en indlæggelsesjournal, først findes i et notat flere dage efter en indlæggelse (fx helt åbenbare symptomer på en urinvejsinfektion), eller at resultaterne af en undersøgelse først findes omtalt og reageret på efter flere dage (se Figur 3 nedenfor). Sådanne tidsmæssige forskydninger af dokumentationer i forhold til hvad der faktisk er foregået, gør det svært fx at afgøre om en omtalt infektionssygdom allerede fandtes ved indlæggelsen, eller måske ligefrem var en (bidragende) årsag til indlæggelsen, eller om det kan dreje sig om en hospitalserhvervet infektion, dvs. en påført skade. Figur 3. Illustration af problemer med informationer i tidsforløb Kronologien af notater er opbygget efter hvornår de er signerede (godkendte) af forfatteren, og hvis et notat ikke er signeret, anvendes tidspunktet for oprettelsen.

Version 1 Side 9 af 11 Det er meget almindeligt at finde den samme informationen gentaget i flere forskellige notater i en patientjournal, dvs. at læger ofte gentager og/eller uddyber hvad en kollega tidligere har skrevet, eller at en sygeplejerske refererer hvad en læge har skrevet, og vice versa. Hvordan skal man vurdere kvaliteten af text analytics? Det er et helt centralt spørgsmål. Vi har som udgangspunkt valgt at betragte resultaterne af menneskers journalgennemgange med GTT-metoden som»sandheden«, og at vurdere kvaliteten af text analytics algoritmerne ud fra deres evne til at finde det samme. Vi har imidlertid gjort flere observationer, som peger på, at det ikke altid er resultater af manuelle journalgennemgange der er mest»sandfærdige«vores egne manuelle, iterative kontroller af»falsk positive«eller»falsk negative«fund med text analytics har ofte vist, at algoritmerne kommer nærmere»sandheden«om forekomsten eller fravær af problemer end mennesker gør. Disse post hoc vurderinger kan dog diskuteres. Der kan være betydelige forskelle på hvad forskellige mennesker finder ved gennemlæsning af de samme journaler, også med brug af GTTmetoden. Resultaterne er fx meget afhængige af personernes træning og erfaring [2], og at der selv i sammenligninger af resultater fra erfarne mennesker kan være betydelige forskelle [3]. Nogle af problemerne kan givetvis skyldes at definitionerne af markører og skader er for vage, implicitte, overlappende og/eller inkonsistente. Det gør det både vanskeligt at formulere algoritmer til text analytics, og gør journalteksterne åbne for vide fortolkninger. I Sverige har man forsøgt at ændre GTT-metoden til bedre at passe til svenske forhold, samt at udarbejde mere detaljerede og eksplicitte beskrivelser af diverse markører og patientskader. Hurtige resultater Et af formålene med vores projekt var at undersøge mulighederne for at kunne øge effektiviteten af screeninger af journaler for forekomsten af markører for patientskader. Algoritmerne kan læse omkring 2.000 patientjournaler i minuttet, og kombineret med at de især er gode til at frasortere journaler uden åbenbare problemer, gør teknikken det muligt hurtigt at screene et stort antal journaler for at finde og kortlægge forekomsten af selv sjældne typer af patientskader og andre problemer med kvaliteten af patientbehandlingen. Kan algoritmer til text analytics deles mellem sygehuse? Vi har arbejdet målrettet på at demonstrere at det overhovedet kan lade sig gøre at få resultater med text analytics, som er i rimelig god overensstemmelse med resultater af manuelle journalgennemgange. Det har betydet, at vi i mange tilfælde har trimmet ordlisterne og reglerne i algoritmerne efter indholdet i de elektroniske patientjournaler på Kolding Sygehus, uden vidtgående hensyn til overførbarheden af modellerne til brug i andre systemer. Det kan således ikke forventes, at vores nuværende algoritmer umiddelbart kan overføres til plug-and-play i andre journalsystemer. Vi har dog været konstant opmærksomme på problemstilingen, og har bl.a. favoriseret det forholdsvist tidsrøvende arbejde med at lave modulbaserede algoritmer ud fra netop den betragtning, at disse

Version 1 Side 10 af 11 konstruktioner vil gøre det lettere at tilpasse algoritmerne til brug i andre systemer. Perspektiver, forskning og udvikling Skader, eller fokus på helt specifikke problemer? Vi har hidtil arbejdet med text analytics som et værktøj til at effektivisere arbejdet med brugen af det koncept der ligger bag brugen af GTT-metoden, dvs. at kunne finde alle mulige typer af patientskader, uanset deres hyppighed og alvorlighed. Man kunne forsøge at udvikle helt andre, selvstændige anvendelser af text analytics til identifikation og monitorering af problemer med kvalitet og patientsikkerhed, fx ved udvikle algoritmer til at fokusere på forekomsten af helt specifikke problemer. Der kan måske godt bruges dele af de ting der anvendes i GTT-metoden, men ellers vil det nye scenarium fx indebære Fokus på identifikation af de typer af problemer, som i flere studier er vist at have stor betydning for patientsikkerheden, fx ringe overvågning af patienterne, herunder manglende rettidig reaktion på observationer og prøveresultater, diagnostiske fejl, samt utilstrækkelig håndtering af medicin og væsker [4], Muligheder for at screene alle journaler på en afdeling eller sygehusenhed, herunder også journaler på ambulante patienter, Muligheder for at udvikle specialespecifikke algoritmer, fx til analyser af patientjournaler fra kirurgiske og medicinske afdelinger, hvor hyppighederne af forskellige typer af patientskader er meget forskellige. Et ikke ubetydeligt udviklingsarbejde, som i flere sammenhænge kan baseres på den støt voksende viden fra tilsvarende projekter andre steder [5, 6], Bidrag til globale indices for patientsikkerhed? Det kan diskuteres om det overhovedet er muligt at udvikle relativt få indices til måling af patientsikkerhed, men der er ikke tvivl om at mange af de vigtige informationer der skal bruges i sådanne indices kun findes i fritekster, dvs. at der er et behov for at kunne ekstrahere data. Flere idéer til brug af text analytics i sygehusvæsenet Vi har i forbindelse med det nærværende arbejde fået mange indsigter og erfaringer med både data og de anvendte metoders potentiale. Det har givet idéer til andre mulige projekter, som vi løbende har skitseret. De fleste vedrører analyser af indholdet i elektroniske patientjournaler, men kan også omfatte analyser af fritekster der genereres andre steder i sundhedsvæsenet, fx i kliniske databaser og i rapporter om utilsigtede hændelser. Behov for et nationalt samarbejde, og forskning Anvendelsen af text analytics er baseret på avancerede analyser af sproglige formuleringer, og da dansk er et lille sprogområde, og da sprogbruget i danske patientjournaler er tilsvarende særpræget, har vi et indlysende behov for at få etableret et integreret nationalt samarbejde, hvis vi skal forsøge at udvikle brugen af værktøjerne til praktisk brug.

Version 1 Side 11 af 11 Det giver absolut ingen mening, hvis man rundt omkring i de fem regioner hver især, helt isoleret og med vidt forskellige forudsætninger (kompetencer) forsøger at tackle de ret komplekse udviklingsopgaver, der knytter sig til brugen af text analytics i sygehusvæsenet. Vi skal selvsagt dele tingene! Der er gode muligheder for at skabe et innovativt forskningsfelt med brugen af text analytics i det danske sundhedsvæsen. Referencer 1. Miner G, Elder J, Hill T, et al. Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications: Elsevier Science; 2012. 2. von Plessen C, Kodal AM, Anhoj J. Experiences with global trigger tool reviews in five Danish hospitals: an implementation study. BMJ open 2012;2(5). 3. Schildmeijer K, Nilsson L, Arestedt K, et al. Assessment of adverse events in medical care: lack of consistency between experienced teams using the global trigger tool. BMJ Qual Saf 2012;21(4):307-314. 4. Hogan H, Healey F, Neale G, et al. Preventable deaths due to problems in care in English acute hospitals: a retrospective case record review study. BMJ Qual Saf 2012;21(9):737-745. 5. Weiner JP, Fowles JB, Chan KS. New paradigms for measuring clinical performance using electronic health records. Int J Qual Health Care 2012;24(3):200-205. 6. Murff HJ, FitzHenry F, Matheny ME, et al. Automated identification of postoperative complications within an electronic medical record using natural language processing. JAMA 2011;306(8):848-855.