Computeranalyser af fritekster i

Relaterede dokumenter
FOREKOMST AF FOREBYGGELIGE DØDSFALD PÅ FEM DANSKE SYGEHUSE


Analyse og monitorering af hospitalserhvervede infektioner på Sygehus Lillebælt

Kvalitet for og med patienten

Somatiske sygehusafdelinger

Psykiatriske sygehusafdelinger

Afdelingen for Kvalitet & Forskning. v/ afdelingschef Lisbeth L. Rasmussen

Lægeforeningen 2008 Trondhjemsgade 9, 2100 København Ø Tlf.:

Diagnosticeringsfejl-undersøgelsen

Genoptræningscentre. Erfaringsopsamling fra det sundhedsfaglige tilsyn 2018

Opsporing af kritisk syge patienter og træning af personale

Forebyggelse af akut kritisk forværring ved hjælpe af et Early Warning Score system

Kliniske diætistklinikker

Afholdt d. 4. december 2018

Notat Input om Region Syddanmarks resultater og arbejde med patientsikkerheds og kvalitetsindsatser

Tværsektorielt projekt til forebyggelse af indlæggelser og genindlæggelser: Resume og præsentation af foreløbige resultater

Dansk Selskab for Kvalitet i Sundhedssektoren, Årsmøde, 13. januar Program for Workshop nr. 10:

Standardisering af patientdata. Onsdag den 8. juni 2005

Notat til Statsrevisorerne om beretning om kvalitetsindsatser på sygehusene. August 2012

Notat vedrørende forelæggelse af revisionsgruppens anbefalinger vedrørende akkrediteringsstandarder

Overdødeligheden blandt psykisk syge: Danmark har et alvorligt sundhedsproblem

Aktiv Patientstøtte. DRG-konference Projektleder, Annette Lunde Stougaard,

PRO-data som redskab til patientinddragelse

UNDERSØGELSE AF BESØGSTIDER

Bilag til SUU alm. del. spørgsmål 610: Oversigt over Dansk Psykiatrisk Selskab eksempler på overflødig dokumentation:

Journalnotater i kliniske forsøg. Dansk Selskab for GCP, 19. juni 2014 Hanne Storgaard, Clinical Quality Manager, MSD

MODULBESKRIVELSE. KVALITETSSTYRING OG INNOVATION Sygeplejefaglig dokumentation om og med patienten Sygehus Lillebælt, Vejle og Kolding Sygehus

Referenceintervaller

Kvaliteten i behandlingen af patienter. med hjertesvigt

Evaluering af den medicinske behandling i botilbud til sindslidende

Registrering af nosokomielle infektioner efter norsk webbaseret metode

Psykiatrien Region Sjælland Virksomhedsgrundlag (1/5) Vurdering af indikatorer Ledelsesgrundlag (2/5) Vurdering af indikatorer

Produktbeskrivelse for

De ikke-tekniske færdigheder i anæstesisygeplejen

CAMSS analysen vurderer standarder inden for følgende 4 kategorier og et antal subkategorier.

Et sundhedsinformatisk review af 2009

Opsummering af de studerendes evalueringer af praktikophold Uddannelsen i medicin, Syddansk Universitet

Inspirationsmateriale fra anden type af organisation/hospital. Metodekatalog til vidensproduktion

VELFÆRDENS INNOVATIONSDAG, 24. JAN Tekstanalyse. Kaare Brandt Petersen, Projektchef, ph.d. 30 JANUARY COPYRIGHT SAS INSTITUTE

Fælles regionale principper for. systematisk læring af patientklager

Danske Fysioterapeuter vil benytte valgkampen til at sætte fokus på tre emner:

HIMSS EMRAM Healthcare Information and Management Systems Society Electronic Medical Record Adoption Model Claus Ehlers, CPHIMS, CISA, CIPP

VÆRKTØJSKASSEN TIL INNOVATION OG ENTREPRENØRSKAB I UNDERVISNINGEN

Akkrediteret. Marianne Bille Wegmann Kirurgi Jægersborg Allé 16, Charlottenlund. har opnået følgende status:

Opsamling på seminaret Er dagkirurgi fremtidens kirurgi?

Astrid Petersen. 01 Ledelse, kvalitet og drift. 02 Anvendelse af retningsgivende dokumenter vedrørende diagnostik og behandling

Skovhus Privathospital Virksomhedsgrundlag og ledelsesgrundlag Vurdering af indikatorer og evt. krav om opfølgning

Prioriteringskoncept version 1.0, April 2014

Opfølgende hjemmebesøg de kommunalt lægeligeudvalgs vurdering af samarbejdet mellem kommune og almen praksis

Implementering og effekt af kliniske retningslinjer

Ny strategi for kvalitet i sundhedsvæsenet

Sammenhæng mellem kliniske retningslinjer og patientforløbsbeskrivelser

Øjenlægernes Hus Virksomhedsgrundlag (1/5) Vurdering af indikatorer og evt. krav om opfølgning

RESULTATER FOR PATIENTEN I ET SAMLET FORLØB PÅ TVÆRS AF SEKTORER HVILKE DATA MANGLER VI?

CITH-projektet -Co-constructing IT and Healthcare

IDEKATALOG TIL PATIENT- OG PÅRØRENDESAMARBEJDE

Arbejdet er afgrænset af de aftalte rammer for det samlede projekt:

Tabel 1. Fordeling af patienter og infektioner på speciale.

I Region Syddanmark forventes ansat godt 20 sygeplejersker, som i projektperioden forventes at have ca patienter i forløb.

Domæne 5: Økonomi. Kristian Kidholm MTV-gruppen, OUH Odense Universitetshospital

Hvilken effekt har akkreditering haft på det daglige arbejde? Afdelingsledelsesperspektivet. Professor, forløbschef, Ph.D.

Metoder til refleksion:

Ny vision for sundhedsvæsenet i Region Syddanmark

Kontakthierarkier i. Denne vejledning beskriver forskellige måder, man kan præsentere sin myndighed over for borgere og virksomheder

Susanne Ditlevsen Institut for Matematiske Fag susanne

Supplerende elektronisk beslutningsstøtte i det fælles medicinkort

Vejle Sygehus Danmarks bedste sygehus blandt mellemstore sygehuse for 3. år Kolding Sygehus Danmarks bedste sygehus blandt små sygehuse for 2.

Forskningsnyheder om Huntingtons Sygdom På hverdagssprog Skrevet af forskere. Til det globale HS-fællesskab Ofte stillede spørgsmål, januar 2011

PRAKTISK TJEKLISTE INTRODUKTIONSUDDANNELSEN, KLINISK ONKOLOGI

Målepunkter vedr. urologi for Sundhedsstyrelsens tilsyn med private behandlingssteder

Fysioterapeutområdet. Erfaringsopsamling fra det risikobaserede tilsyn 2017

SYGEPLEJERSKEUDDAELSE ODESE & SVEDBORG. MODUL 12 Selvstændig professionsudøvelse

Kliniske retningslinjer et redskab til at sikre kvalitet i kerneydelser

Metoder til kvalitetsovervågning på SLB

Metoder til hurtige og holdbare forbedringer i sundhedsvæsenet. Version 1, oktober 2013

områder, som selvfølgelig er fremadrettet Virksomhedsplan

Notat til Statsrevisorerne om beretning om DRG-systemet. Februar 2012

5P Undersøg dit Kliniske Mikrosystem

Skal vi ændre vores arbejde med akkreditering, kvalitet og patientsikkerhed. Torben Sejr, kvalitetchef, MPA Glostrup hospital

Hospitalsenheden VEST

1.2. Baggrund for projektet. Redskaberne i projekt Faglige kvalitetsoplysninger omfatter:

Analyse af PISA data fra 2006.

Notat til Statsrevisorerne om tilsyn med private leverandører af mammografiundersøgelser. Maj 2012

Håndtering af multisygdom i almen praksis

Fra registrering til information

Men bare rolig - det er kun dig selv, din læge og sygehusene, som kan få et indblik i dine skavanker.

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

Liste over ikke relevante standarder og indikatorer

UDKAST Notat vedr. Tidlig opsporing, herunder TOBS

Foreningen af Kliniske Diætisters høringssvar vedrørende Vejledning om sundhedskoordinationsudvalg og sundhedsaftaler revision 2013.

PS102: Den menneskelige faktor og patientsikkerhed

- og bedre informerede klinikere

Akutfunktioner. Erfaringsopsamling fra det risikobaserede tilsyn 2017

Kvalitet og risikostyring

Statistik viden eller tilfældighed

Redegørelse til Statsrevisorerne vedr. beretning 8/2011 om kvalitetsindsatser

UDVALG FOR KVALITETSFORBEDRINGER Tirsdag den 13. marts Kl til på Regionsgården lokale H3. Møde nr. 2. Mødet slut kl.

Modulbeskrivelse KVALITETSSTYRING OG INNOVATION. Sygehus Lillebælt, Vejle og Kolding Sygehus

NBS Organisatoriske begreber

Susanne Holst Ravn. 01 Ledelse, kvalitet og drift Vurdering af indikatorer og begrundelser

Transkript:

Version 1 Side 1 af 11 patientjournaler Forfattere Ulrik Gerdes Dato 04-02-2014 Status Version 1 Historik Dette er første version af dokumentet Indhold Sammenfatning... 2 Indledning... 3 Fritekster i patientjournaler... 3 Om text mining og text analytics... 3 Introduktion: Erfaringer og perspektiver... 4 Projekt med text analytics i Region Syddanmark... 4 Formålet... 4 Metoder... 4 Konkrete resultater... 6 Vigtige observationer og erfaringer... 7 Perspektiver, forskning og udvikling... 10 Skader, eller fokus på helt specifikke problemer?... 10 Bidrag til globale indices for patientsikkerhed?... 10 Flere idéer til brug af text analytics i sygehusvæsenet... 10 Behov for et nationalt samarbejde, og forskning... 10 Referencer... 11

Version 1 Side 2 af 11 Sammenfatning Punkter Fritekster i patientjournaler indeholder mange vigtige informationer som ikke findes registrerede andre steder. Der findes kraftfulde it-værktøjer til at udtrække og håndtere sådanne informationer, som bl.a. vedrører patientsikkerheden på sygehusene. Vi har udført et projekt, som viser, at det kan lade sig gøre at lære en computer at læse patientjournaler, for med rimelig sikkerhed at finde hyppigt forekommende markører for mulige patientskader, og især at kunne frasortere journaler for patienter som ikke har haft problemer. Vi har observeret en række forskellige problemer med kvaliteten af de tekster som læger og andet sundhedsfagligt personale skriver i patientjournalerne, og med en computers evne til at forstå teksterne. Computeren har en tendens til at overdrive med hensyn til at pege på mulige problemer med patientsikkerheden, men er god til at identificere de patienter som hyppigst udsættes for skader. Computeren kan læse 2.000 patientjournaler i minuttet. Det giver mulighed for at screene og undersøge mange journaler med et lille resurseforbrug. Vi har arbejdet ud fra en model (GTT-metoden), som sigter efter at identificere alle typer af patientskader, uanset hyppighed og alvorlighedsgrad, men kan se andre muligheder for brugen af text analytics. Konklusion Anvendelsen af moderne, avanceret it til analyser af fritekster rummer mange muligheder for at understøtte kvalitetsforbedringer i sundhedsvæsenet, men der er behov for et nationalt samarbejde og forskning for at kunne udnytte teknologiens fulde potentiale.

Version 1 Side 3 af 11 Indledning Fritekster i patientjournaler Størstedelen af de informationer der indsamles og anvendes i forbindelse med sygehusindlæggelser findes i form af lægers og andet sundhedsfagligt personales notater i patienternes journaler, dvs. som fritekster. Disse informationer, som også kan kaldes ustrukturerede data (i modsætning til de strukturerede data der opsamles i databaser), omfatter fx beskrivelser af patienternes symptomer, objektive kliniske fund, behandlinger og pleje under sygehusopholdet, herunder beskrivelser af komplikationer, utilsigtede hændelser og patientskader. Vurderinger af kvaliteten af patientbehandlingen på sygehusene, og herunder patientsikkerheden, er typisk baseret på analyser af strukturerede data fra kliniske databaser og patientadministrative systemer, resultater af regelmæssigt udførte kortlægninger af specifikke problemstillinger (fx forekomsten af tryksår eller hospitalserhvervede infektioner) og journalgennemgange. Systematiske journalgennemgange kan fx udføres med brug af den såkaldte»global Trigger Tool method«(gtt-metode), hvor trænet sundhedsfagligt personale omhyggeligt gennemlæser et udvalg af patientjournaler og noterer sig forekomsten af bestemte markører for mulig forekomst af patientskader, samt eventuelle skader [se en beskrivelse af metoden hér]. Opgaven er imidlertid resursekrævende, hvilket fx betyder at der er grænser for hvor mange journaler der kan gennemgås, hvor omhyggeligt det kan gøres og hvor hurtigt resultaterne kan samles, analyseres og videreformidles til det personale der skal bruge dem i det daglige arbejde med kvalitetsforbedringer. Om text mining og text analytics De seneste 10-15 år eksplosive udvikling af computer- og informationsteknologi (it) har åbnet for hidtil usete muligheder for automatisk at finde, udtrække, gruppere, klassificere, strukturere, analysere og fortolke informationer, som ellers kun findes dokumenteret i form af fritekster [1]. Figur 1. Forskellige typer af text mining og analytics Figur 1 ovenfor viser et lille»familiebillede«af de gængse teknologier til text mining, og deres associationer til andre kraftfulde computerbaserede

Version 1 Side 4 af 11 innovationer, herunder fx kunstig intelligens (Artificial intelligence = AI) og data mining i al almindelighed [1]. Flere af teknologierne til text mining og analytics er faktisk velkendte for de fleste, selvom man måske ikke er klar over det: Det er nogle af de samme teknologier der bruges i digitale biblioteker (fx PubMed), i søgemaskinerne til Internettet (fx Google) og i noget så banalt som stave- og grammatikkontrollen i gængse computerprogrammer (fx Microsoft Word). Introduktion: Erfaringer og perspektiver Vi har udført et projekt med brugen af et avanceret software til analyser af fritekster i elektroniske patientjournaler, med fokus på identifikation af markører for patientskader og patientskader (se nedenfor). Og har lært (mindst) tre ting Det kan lade sig gøre at få meningsfulde informationer ud af friteksterne, dvs. at vi har demonstreret et proof-of-concept Det er svært at håndtere analyser af fritekster i patientjournaler, dvs. at opgaven ikke er lige ud af landevejen. Jeg kan se nogle perspektiver og muligheder med brugen af text mining i sundhedsvæsenet, men udviklingen kræver bl.a. et nationalt samarbejde og resurser til forskning. Projekt med text analytics i Region Syddanmark Formålet Projektets formål blev klart beskrevet i et tidligt udkast til en projektidé fra 2010 Der skal forsøges udviklet et it-værktøj, som automatisk kan analyse indholdet i elektroniske patientjournaler med henblik på at identificere handlinger, situationer, tilstande eller observationer (såkaldte triggere), der erfaringsmæssigt er knyttet til øget risiko for at patienter påføres skader. Idéen var knyttet til en igangværende brug af GGT-metoden (se ovenfor), og projektet blev derfor kaldt»automatisk TriggerSøgning«(ATS). Formålet kan i store træk karakteriseres som et forsøg på at demonstrere et proof-of-concept kan den slags overhovedet lade sig gøre? Metoder Data og software Vi fik resultaterne af manuelle gennemgange af 500 journaler, udført med GTT-metoden på Sygehus Lillebælt, Kolding i en toårig periode, og fik adgang til alle fritekster i de elektroniske patientjournaler fra de samme patienter, samt diverse patientadministrative data, inklusive diagnosekoder. Vi anvender primært algoritmer til text analytics baseret på principperne i Natural Language Processing og bruger programmet SAS Enterprise Content Categorization (CC) til opgaverne. Programmet SAS Enterprise Text Miner blev anvendt til præliminære, eksplorative analyser af indholdet i teksterne.

Version 1 Side 5 af 11 Udvikling af algoritmer til text analytics Vi har som udgangspunkt antaget at resultaterne af de manuelle journalgennemgange var»sandheden«, og har vurderet resultaterne med text analytics ud fra om algoritmerne kan finde det samme som mennesker. Arbejdsprocessen foregik som illustreret i Figur 2, dvs. med gentagne revisioner af algoritmerne (typisk 50-100 gange), indtil resultaterne af sammenligningerne med de manuelle resultater var tilfredsstillende. Dette blev vurderet ved at se på 2 x 2 tabeller (se et eksempel nedenfor), kombineret med en subjektiv vurdering af fordele og ulemper ved enten at finde for mange»falsk positive«eller for mange»falsk negative«. Figur 2. Illustration af arbejdsprocessen ved text analytics Det bliver nedenfor diskuteret om denne måde at vurdere algoritmerne på er særlig god, hvis antagelsen om at de manuelle gennemgange giver»sandheden«ikke holder? Hvad flere observationer tyder på se side 9. Samarbejde Jeg har haft et produktivt samarbejde med seniorkonsulent Christian Hardahl fra SAS Institute A/S. Udvalgte markører Der findes i alt 56 forskellige markører og prædefinerede patientskader i GTTmodellen, og vi har kun arbejdet med 12 forskellige (hvoraf 1 er splittet op i flere dele), og flere algoritmer kun ser på visse typer af problemer. Det drejer sig om anvendelse af blodprodukter, tilkald af hjertestophold m.m., undersøgelse for dyb venetrombose, fald, tryksår, genindlæggelse indenfor 30 dage (brug af PAS-data), behandlingsrelaterede infektioner (visse typer), anvendelse af antiemetika, reoperation, postoperative komplikationer (visse typer) og diverse problemer i forbindelse med behandling (visse typer). Udvælgelsen var primært bestemt af hvor hyppigt de pågældende markører fandtes registreret for de 500 journaler vi havde til rådighed, samt ønsker om at afprøve udfordrende opgaver med text analytics.

Version 1 Side 6 af 11 Konkrete resultater Et eksempel: Fald under indlæggelse Fald er angivet som en markør i GGT-metoden, men er oftest også en patientskade. Tabellen herunder viser at algoritmen (ATS) fanger 7 ud af de 8 tilfælde der var fundet ved manuel gennemlæsning, men også peger på 6 yderligere mulige tilfælde (som dog viste sig at være referencer til tekster der beskrev hændelser før patienternes indlæggelser). Fundet med ATS Fundet med manuel GTT Ja Nej Total Ja 7 1 8 2% Nej 6 484 490 98% Total 13 485 498 Klassiske parametre, som ikke afhænger af prævalensen af positive mgtt'er Sandt Positive Fraktion (SPF) 88% 95% konfidensinterval fra 52,9% til 97,8% Sandt Negative Fraktion (SNF) 99% 95% konfidensinterval fra 97,4% til 99,4% Posttest sandsynligheder (prædiktive værdier) Pr(mGTT positiv) hvis ATS er positiv 54% 95% konfidensinterval fra 29,1% til 76,8% Pr(mGTT negativ) hvis ATS er negativ 100% 95% konfidensinterval fra 98,8% til 100,0% De vigtigste resultater af analyserne er de såkaldt prædiktive værdier, som er vist under tabellen, og især den observation at den prædiktive værdi af et negativt fund med text analytics er meget høj, dvs. at algoritmen er god til at frasortere journaler, hvor der heller ikke er fundet problemer ved manuel gennemgang. Det er et generelt fund med alle de algoritmer vi har udviklet i projektet. Kan man finde mange patientskader ved hjælp af få markører? Vi bemærkede under arbejdet, at de udvalgte markører har en tendens til at optræde hos de samme patienter, og oftest hos de patienter som blev vurderet at have pådraget sig en skade. Der var i alt 90 patienter (journaler) med registrerede skader ved manuel GTT og tabellen herunder viser hvor mange af disse der har mindst én positiv trigger af de 12 triggere, ved hhv. manuel GTT og text analytics (ATS). Fundet med ATS Fundet med manuel GTT Ja Nej Total Ja 70 7 77 86% Nej 8 5 13 14% Total 78 12 90 Klassiske parametre, som ikke afhænger af prævalensen af positive mgtt'er Sandt Positive Fraktion (SPF) 91% 95% konfidensinterval fra 82,4% til 95,5% Sandt Negative Fraktion (SNF) 38% 95% konfidensinterval fra 17,7% til 64,5% Posttest sandsynligheder (prædiktive værdier) Pr(mGTT positiv) hvis ATS er positiv 90% 95% konfidensinterval fra 81,0% til 94,7% Pr(mGTT negativ) hvis ATS er negativ 42% 95% konfidensinterval fra 19,3% til 68,0%

Version 1 Side 7 af 11 Som det kan ses, er den positive prædiktive værdi høj, dvs. at algoritmerne er gode til at identificere de patienter der mentes at have pådraget sig en skade. Det tyder på at en screening ved hjælp af relativt få markører kan indkredse størstedelen af patientskaderne, og dermed kan effektivisere arbejdet med at kortlægge og analysere baggrunden for forekomsten af skader på et sygehus eller i en afdeling se også afsnittet på side 10 nedenfor. Gennemgange af flere patientjournaler Vi har siden afslutningen af det primære arbejde med udviklingen af algoritmer til text analytics afprøvet dem med yderligere omkring 200 journaler, og er p.t. i gang med at se på resultaterne fra yderligere 250 journaler, som stammer fra et andet EPJ-system end det der anvendes på Sygehus Lillebælt. Vigtige observationer og erfaringer Vi har gjort mange observationer og har høstet mange erfaringer i forbindelse med arbejde med projektet. De omtales i denne rapport, fordi de både giver en forståelse af de problemer (udfordringer) og de muligheder der findes med brug af text analytics i sygehusvæsenet. Kvaliteten af teksterne i journalnotater Det gælder for resultater af analyser af fritekster som for analyser af alle andre typer af data: Kvaliteten af outputtet afhænger af kvaliteten af inputtet. Vi har observeret en betydelig variation i kvaliteten af de tekster der skrives i patientjournaler, og skønt man kan håndtere de fleste problemer, kan de være tidsrøvende i arbejdet med text analytics. Vi har fx bemærket at Der anvendes mange forkortelser og akronymer, også en del uautoriserede og/eller indforståede, fx AV = Aftenvagten, RF = Respirationsfrekvens, SH = Selvhjulpen og VKO = Vågen, klar og orienteret Tekster skrives ofte meget kortfattede, uden en egentligt sætningsopbygning, dvs. i telegram- eller SMS-stil, fx Pt nu smfri e. OP (= Patienten er nu smertefri efter operationen ). Der forekommer mange stavefejl, både i danske og i lægefaglige ord, og herunder en uvane med at dele ord der ikke skal deles (fx journal[..]optagelse, temperatur[..]forhøjelse, panik[..]angst og tibia[..]fraktur). Sprogbruget er forskelligt i forskellige faggrupper, i forskellige specialer (afdelinger) og på forskellige sygehuse, dvs. at der findes forskellige typer af dialekter i friteksterne. Der forekommer notater som er helt uforståelige, selv for fagfolk. Modulopbyggede algoritmer Vi har eksperimenteret med forskellige typer af modeller, og det har vist sig at være fordelagtigt at bygge algoritmerne for text analytics op i moduler, dvs. komponenter som hver især afsøger fritekster for bestemte typer eller kategorier af information, og som også indeholder moduler der ignorere irrelevante tekster og/eller ignorerer tekster der står bestemte steder i en journal. En algoritme der skal finde tilfælde hvor en patient er faldet under en indlæggelse, skal fx anvende lede efter ord som faldet, snublet,

Version 1 Side 8 af 11 væltet, gledet, fundet på gulvet etc., men skal ignorere tekster som fx Patienten er faldet i søvn eller Patientens blodtryk er faldet, og skal ignorere tekster der handler om fald før indlæggelsen på sygehuset. Fordelene ved modulopbyggede algoritmer er flere, men de er især lettere at overskue og at redigere, herunder at tilpasse til brug i forskellige EPJ-systemer med forskellige strukturer i informationerne. Givet de forskelle der kan findes i sprogbruget i forskellige specialer og på forskellige sygehuse, kunne man også overvejer at konstruere overordnede styremoduler som switcher algoritmers måde at læse en journal på, afhængigt af hvilken afdeling etc. den stammer fra. Ændringer over tid i informationer i patientjournaler Vi har bemærket, at der kan forekomme ændringer over tid i både typen og mængden af informationer i patientjournaler, fx som et resultat af nye retningslinjer for dokumentation eller som følge af ændringer i opsætningerne af EPJ-systemerne. Det er vigtigt at vide, fordi det betyder at funktionen af en given algoritme til text analytics kan ændre sig over tid (til det bedre eller dårligere), hvis indholdet i journalteksterne ændres. Det er derfor nødvendigt at kontrollere algoritmerne fra tid til anden. Overblik over informationer i længerevarende tidsforløb Det er en notorisk vanskelig opgave at overskue og analysere indholdet (meningen, sammenhængen) i tekster der findes spredt over tid, herunder at holde rede på kronologien af de informationer der præsenteres. Det gælder for mennesker og selvsagt også når man arbejder med text analytics. Vi er fx stødt på disse udfordringer Det er ikke usædvanligt at vigtige informationer (tekster), som måske burde have været fundet i en indlæggelsesjournal, først findes i et notat flere dage efter en indlæggelse (fx helt åbenbare symptomer på en urinvejsinfektion), eller at resultaterne af en undersøgelse først findes omtalt og reageret på efter flere dage (se Figur 3 nedenfor). Sådanne tidsmæssige forskydninger af dokumentationer i forhold til hvad der faktisk er foregået, gør det svært fx at afgøre om en omtalt infektionssygdom allerede fandtes ved indlæggelsen, eller måske ligefrem var en (bidragende) årsag til indlæggelsen, eller om det kan dreje sig om en hospitalserhvervet infektion, dvs. en påført skade. Figur 3. Illustration af problemer med informationer i tidsforløb Kronologien af notater er opbygget efter hvornår de er signerede (godkendte) af forfatteren, og hvis et notat ikke er signeret, anvendes tidspunktet for oprettelsen.

Version 1 Side 9 af 11 Det er meget almindeligt at finde den samme informationen gentaget i flere forskellige notater i en patientjournal, dvs. at læger ofte gentager og/eller uddyber hvad en kollega tidligere har skrevet, eller at en sygeplejerske refererer hvad en læge har skrevet, og vice versa. Hvordan skal man vurdere kvaliteten af text analytics? Det er et helt centralt spørgsmål. Vi har som udgangspunkt valgt at betragte resultaterne af menneskers journalgennemgange med GTT-metoden som»sandheden«, og at vurdere kvaliteten af text analytics algoritmerne ud fra deres evne til at finde det samme. Vi har imidlertid gjort flere observationer, som peger på, at det ikke altid er resultater af manuelle journalgennemgange der er mest»sandfærdige«vores egne manuelle, iterative kontroller af»falsk positive«eller»falsk negative«fund med text analytics har ofte vist, at algoritmerne kommer nærmere»sandheden«om forekomsten eller fravær af problemer end mennesker gør. Disse post hoc vurderinger kan dog diskuteres. Der kan være betydelige forskelle på hvad forskellige mennesker finder ved gennemlæsning af de samme journaler, også med brug af GTTmetoden. Resultaterne er fx meget afhængige af personernes træning og erfaring [2], og at der selv i sammenligninger af resultater fra erfarne mennesker kan være betydelige forskelle [3]. Nogle af problemerne kan givetvis skyldes at definitionerne af markører og skader er for vage, implicitte, overlappende og/eller inkonsistente. Det gør det både vanskeligt at formulere algoritmer til text analytics, og gør journalteksterne åbne for vide fortolkninger. I Sverige har man forsøgt at ændre GTT-metoden til bedre at passe til svenske forhold, samt at udarbejde mere detaljerede og eksplicitte beskrivelser af diverse markører og patientskader. Hurtige resultater Et af formålene med vores projekt var at undersøge mulighederne for at kunne øge effektiviteten af screeninger af journaler for forekomsten af markører for patientskader. Algoritmerne kan læse omkring 2.000 patientjournaler i minuttet, og kombineret med at de især er gode til at frasortere journaler uden åbenbare problemer, gør teknikken det muligt hurtigt at screene et stort antal journaler for at finde og kortlægge forekomsten af selv sjældne typer af patientskader og andre problemer med kvaliteten af patientbehandlingen. Kan algoritmer til text analytics deles mellem sygehuse? Vi har arbejdet målrettet på at demonstrere at det overhovedet kan lade sig gøre at få resultater med text analytics, som er i rimelig god overensstemmelse med resultater af manuelle journalgennemgange. Det har betydet, at vi i mange tilfælde har trimmet ordlisterne og reglerne i algoritmerne efter indholdet i de elektroniske patientjournaler på Kolding Sygehus, uden vidtgående hensyn til overførbarheden af modellerne til brug i andre systemer. Det kan således ikke forventes, at vores nuværende algoritmer umiddelbart kan overføres til plug-and-play i andre journalsystemer. Vi har dog været konstant opmærksomme på problemstilingen, og har bl.a. favoriseret det forholdsvist tidsrøvende arbejde med at lave modulbaserede algoritmer ud fra netop den betragtning, at disse

Version 1 Side 10 af 11 konstruktioner vil gøre det lettere at tilpasse algoritmerne til brug i andre systemer. Perspektiver, forskning og udvikling Skader, eller fokus på helt specifikke problemer? Vi har hidtil arbejdet med text analytics som et værktøj til at effektivisere arbejdet med brugen af det koncept der ligger bag brugen af GTT-metoden, dvs. at kunne finde alle mulige typer af patientskader, uanset deres hyppighed og alvorlighed. Man kunne forsøge at udvikle helt andre, selvstændige anvendelser af text analytics til identifikation og monitorering af problemer med kvalitet og patientsikkerhed, fx ved udvikle algoritmer til at fokusere på forekomsten af helt specifikke problemer. Der kan måske godt bruges dele af de ting der anvendes i GTT-metoden, men ellers vil det nye scenarium fx indebære Fokus på identifikation af de typer af problemer, som i flere studier er vist at have stor betydning for patientsikkerheden, fx ringe overvågning af patienterne, herunder manglende rettidig reaktion på observationer og prøveresultater, diagnostiske fejl, samt utilstrækkelig håndtering af medicin og væsker [4], Muligheder for at screene alle journaler på en afdeling eller sygehusenhed, herunder også journaler på ambulante patienter, Muligheder for at udvikle specialespecifikke algoritmer, fx til analyser af patientjournaler fra kirurgiske og medicinske afdelinger, hvor hyppighederne af forskellige typer af patientskader er meget forskellige. Et ikke ubetydeligt udviklingsarbejde, som i flere sammenhænge kan baseres på den støt voksende viden fra tilsvarende projekter andre steder [5, 6], Bidrag til globale indices for patientsikkerhed? Det kan diskuteres om det overhovedet er muligt at udvikle relativt få indices til måling af patientsikkerhed, men der er ikke tvivl om at mange af de vigtige informationer der skal bruges i sådanne indices kun findes i fritekster, dvs. at der er et behov for at kunne ekstrahere data. Flere idéer til brug af text analytics i sygehusvæsenet Vi har i forbindelse med det nærværende arbejde fået mange indsigter og erfaringer med både data og de anvendte metoders potentiale. Det har givet idéer til andre mulige projekter, som vi løbende har skitseret. De fleste vedrører analyser af indholdet i elektroniske patientjournaler, men kan også omfatte analyser af fritekster der genereres andre steder i sundhedsvæsenet, fx i kliniske databaser og i rapporter om utilsigtede hændelser. Behov for et nationalt samarbejde, og forskning Anvendelsen af text analytics er baseret på avancerede analyser af sproglige formuleringer, og da dansk er et lille sprogområde, og da sprogbruget i danske patientjournaler er tilsvarende særpræget, har vi et indlysende behov for at få etableret et integreret nationalt samarbejde, hvis vi skal forsøge at udvikle brugen af værktøjerne til praktisk brug.

Version 1 Side 11 af 11 Det giver absolut ingen mening, hvis man rundt omkring i de fem regioner hver især, helt isoleret og med vidt forskellige forudsætninger (kompetencer) forsøger at tackle de ret komplekse udviklingsopgaver, der knytter sig til brugen af text analytics i sygehusvæsenet. Vi skal selvsagt dele tingene! Der er gode muligheder for at skabe et innovativt forskningsfelt med brugen af text analytics i det danske sundhedsvæsen. Referencer 1. Miner G, Elder J, Hill T, et al. Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications: Elsevier Science; 2012. 2. von Plessen C, Kodal AM, Anhoj J. Experiences with global trigger tool reviews in five Danish hospitals: an implementation study. BMJ open 2012;2(5). 3. Schildmeijer K, Nilsson L, Arestedt K, et al. Assessment of adverse events in medical care: lack of consistency between experienced teams using the global trigger tool. BMJ Qual Saf 2012;21(4):307-314. 4. Hogan H, Healey F, Neale G, et al. Preventable deaths due to problems in care in English acute hospitals: a retrospective case record review study. BMJ Qual Saf 2012;21(9):737-745. 5. Weiner JP, Fowles JB, Chan KS. New paradigms for measuring clinical performance using electronic health records. Int J Qual Health Care 2012;24(3):200-205. 6. Murff HJ, FitzHenry F, Matheny ME, et al. Automated identification of postoperative complications within an electronic medical record using natural language processing. JAMA 2011;306(8):848-855.