1 Tre metoder til evaluering i uddannelsen til speciallæge Knut Aspegren, marts 2003 Baggrund Princippet for den fremtidige uddannelse til speciallæge i Danmark er målstyring, i henhold til Speciallægekommissionens betænkning. Uddannelsen, der hovedsageligt foregår i praksis, afsluttes ikke med en eksamen, men er sikret, når opstillede mål er opnået. Evaluering af den enkelte læge under uddannelse har da det formål at sikre, at de opstillede mål for uddannelsen, minimumskompetencer, bliver opnået. Evaluering kan ske med mange metoder (se nedenfor). Vigtigt er at forstå at al evaluering har to samtidige funktioner (Ref 1): 1. At fastlægge om lægen under uddannelse har opnået målene for uddannelsen (summativ funktion) 2. At give lægen under uddannelse tilbagemelding på hvor langt han/hun er kommet i uddannelsen samt om sine stærke og svage sider, med henblik at forbedre individets læring (formativ funktion). Evalueringen af den uddannelsessøgende læge kan også bruges til at give tilbagemelding til uddannelsessystemet. Hvis de kommende speciallæger ikke opnår opstillede mål indenfor forventet tidsrum, fx antal operationer af en slags, er dette et signal om. at der er noget, der må rettes op på. Evaluering af lægen i uddannelse kan således også have en formativ funktion på selve uddannelsesprocessen og initiere en evaluering af dette i summativ hensigt (Spørgsmål: Kan afdelingen uddanne speciallæger? ). Formel evaluering af uddannelsesgivende afdelinger i summativ hensigt varetages i øjeblikket i Danmark af Inspektorordningen. (Ref. 2). Forløbsplan og tidsplan Evalueringerne er med til at styre den enkeltes læringsproces. De skal derfor bruges som et af flere pædagogiske redskaber til at bevidstgøre læringsprocessen og give den et kontinuerligt forløb. Heraf følger at evaluering ikke skal foretages ved nogle få tidspunkter, men gentaget i samråd mellem lægen i uddannelse og vejlederen. I uddannelsesplanen skal der således også indgå en tidsplan for evaluering. Denne tidsplan oprettes i samråd mellem vejlederen og den uddannelsessøgende læge. Det er vigtigt, at parterne også gennemtænker rækkefølgen af de forskellige kompetencemål med henblik på at optimere læringsprocessen, en forløbsplan. Gennemførsel af uddannelsesplanen sikres bedst ved, at der oprettes flere og trinvis læringskontrakter mellem den uddannelsessøgende læge og vejlederen. HVEM evaluerer? Det er den uddannelsesansvarlige overlæge, eller den han har delegeret opgaven til, der gennemfører den summative evaluering, dvs. afgør om et mål er opfyldt eller ikke. Til bedømmelse bør følgende gradering bruges: Kompetencen er tilfredsstillende opnået. Kompetencen er ikke endnu opnået fordi: a) Der kræves mere træning af færdigheder b) Der er behov for supplering/fordybelse af kundskab HVAD skal evalueres? Al evaluering skal gøres op imod specialets målbeskrivelse. Hvis disse mål er opfyldte, er speciallægens minimumskompetence sikret. 1
2 Kompetence I højt kvalificerede professionsuddannelser, som fx til speciallæge, beskrives målene bedst som kompetencer, outcomes (Ref 3). Kompetence defineres som Evne til med rutine at løse professionens centrale opgaver, herunder at besidde de dertil nødvendige kundskaber, færdigheder, holdninger og personlige egenskaber (Ref.4). Kompetencer angives således som opbyget af 1) viden, 2) færdigheder og 3) holdninger relateret til personlige egenskaber, samt i sammenhæng med en profession. Lægelig viden/kundskaber er af forskellige slags (Ref. 5, 6) 1. Teoretisk viden: ( Kognitive kundskaber ) 2. Praktiske kundskaber: ( Færdigheder ) 3. Etisk/moralsk viden: ( Holdninger ) A. Teknisk: Viden om biomedicinske fakta og begreber B. Kontekstuel: Viden om sygdom på individ-, familieog samfundsniveau A. Intellektuel: Problemløsning og beslutningsproces B. Interpersonel: Samtalen med patienter, objektiv undersøgelse, kliniske procedurer og operative indgreb, kommunikation med systemet A. Teknisk: Viden om lægelig etik B. Intellektuel: Foretage etisk analyse C. Interpersonel: Lægelige holdninger HVORDAN skal lægelig viden og kundskaber evalueres? Ved valg af evalueringsmetoder skal der tages højde for, at evalueringen har en meget stærk styrende effekt på, hvad der bliver lært og på kvaliteten af det lærte. Hvis der ikke er en samstemmighed mellem karakteren af de opsatte mål og metoder til evaluering af dem opnås målene ikke, fordi evalueringen i den sidste ende styrer hvad der bliver lært. Der skal således være en overensstemmelse mellem det mål, der skal opnås, læringsstrategien og hvordan det evalueres. Hvis målet er en færdighed, fx at gastroskopere, er det ikke hensigtsmæssigt at lære det ved selvstudier af litteratur og evaluere det med en metode, der tester kognitiv viden. Bedre er at lære ved at udføre gastroskopier under vejledning, suppleret med litteraturstudier, og blive evalueret ved dels direkte observation af selve udførelsen, ved bedømmelse af videooptagelser fra undersøgelsen og på kvaliteten af prøveexcisioner. Eftersom lægelige kundskaber er af forskellige slags, findes der ikke en enkelt metode, maid of all work, til evaluering af alle. Derfor skal der bruges flere metoder, afhængigt af kundskabernes karakter. Der eksisterer mange metoder der kan bruges til evaluering i en speciallægeuddannelse. Fx beskriver en engelsk evalueringshåndbog til brug i speciallægeeksamen 32 forskellige metoder (Ref. 7). Evalueringsmetoders egenskaber 1. Accept Grundlæggende krav til evalueringsmetoder er at de er acceptable. De uddannelsessøgende læger skal opleve at evalueringsmetoderne er relevante til formålet og giver mulighed for at vise, hvad man virkelig kan. Den uddannelsesansvarlige overlæge skal være overbevist om, at evalueringen garanterer, at der ikke er huller i de kompetencer, den kommende speciallæge har erhvervet. Ved valg af evalueringsmetoder bør man også tage højde for, at der hos yngre læger ofte er en udbredt modvilje mod metoder til evaluering, der ligner prøver og eksamen i grunduddannelsen til læge. Disse er som oftest også fokuseret mod reproduktion af kognitive kundskaber og er alene af den grund ikke velegnede til brug i speciallægeuddannelsen. 2
2. Gennemførlighed Et andet grundlæggende krav er at evalueringsmetoderne er, at de er gennemførlige. Der skal være et rimeligt forhold mellem tidsforbrug til forberedelse, gennemførsel og udbyttet af evalueringen. Eftersom uddannelsen til speciallæge til den største del foregår i praksis, er det hensigtsmæssigt at bruge evalueringsmetoder, som ligger nær kollegial supervision, men som også kan fungere summativt. Det er også sandsynligt, at sådanne er de bedst egnede til at gennemføre i den kliniske hverdag. 3. Reliabilitet Denne psykometriske fagterm kan måske bedst oversættes til pålidelighed. At en metode til evaluering har høj reliabilitet betyder, at det giver det samme resultat ved gentagne målinger på det samme individ på omtrent det samme tidspunkt. Et almindeligt problem ved evaluering er, at bedømmer A bruger forskellige kriterier fra bedømmer B. Reliabilitet kan stærkt forøges ved brug af 2 bedømmere (kontrol med inter-bedømmer reliabilitet) og ved brug af nogen form for struktur på sessionen ved rating skalaer, menuer, ol. (kontrol med intra-bedømmer reliabilitet). 4. Validitet Validiteten af et test drejer sig om, at det virkelig måler det, man har til hensigt at måle. Man adskiller flere aspekter af begrebet validitet. De engelsksproglige termer bliver brugt i det følgende: Face validity. Begrebet dækker, at testet indeholder materiale, der er relevant for specialet. Content validity. Med dette menes, at der er en proportionel overensstemmelse mellem indholdet i evalueringen og indholdet af specialet. Testen må således ikke have tyngdepunktet i et eller andet hjørne af speciale. Man kan udtrykke det sådan, at evalueringsmetoden skal teste bredt. Construct validity. Med dette menes, at testen diskriminerer på en forventet måde. Er testen rettet mod læger i speciallægeuddannelsen, skal den klares over forventning af erfarne overlæger og under forventning af turnuslæger. Criterion validity. Testen skal relatere til den virkelige situation. Eksempel: At teste lægens evne til kommunikation med patienter ved at bede ham skrive en essay om, hvad der kræves til dette, har lavt criterion validity. Direkte observation af lægen i samtalesituation med en patient har betydeligt højere criterion validity. Ved valg af evalueringsmetode bør dens reliabilitet og validitet således gennemtænkes i henhold til hvilket slags teoretisk, praktisk og moralsk/politisk kundskab, der skal vurderes. Arbejdsredskaber til evaluering Checklister Begrebet checkliste bruges i to forskellige betydninger: A. Checkliste til direkte observation. Denne slags checkliste er et instrument til at systematisere observation af lægen i arbejde og er frem for alt egnet til bedømmelse af færdigheder, der består af en række tydeligt adskilte delfærdigheder. De er derfor meget brugt indenfor træning af læger i anæstesi ol. tekniske specialer. Checklisten adskiller sig fra rating skalaer ved, at de indeholder færre grader af bedømmelse, som oftest begrænset til gør/gør ikke, ja/nej, ol. Den skal ikke indeholde vurderinger ( godt/mindre godt/dårligt ). Fordelen ved dette er, at bedømmelsen bliver meget præcis, men også snæver, hvorfor checklister er uegnede til bedømmelse af mere komplekse færdigheder som fx klinisk beslutningsproces, omgang med patienter og kollegaer mv. En anden fordel ved checkliste er, at de også kan bruges til at give feed back på rækkefølgen af forskellige delfærdigheder, fx ved induktion af anæstesi. 3 3
4 Checklisten skal designes med omhu. Vigtigt er at den afspejler god lægelig praksis i den pågældende afdeling, og at delfærdighederne tydelig kan observeres. Checklister har høj inter-bedømmer reliabiltet, hvis de måler diskrete færdigheder på en dikotom måde (ja/nej). De er velegnet til både summativ og formativ bedømmelse. Det kan anbefales, at de også bruges til kollegasupervision, dvs. at læger i uddannelse kan bede en kollega eller en sygeplejerske om at observere ved hjælp af en checkliste, som de derefter gennemgår sammen. Til summativ bedømmelse af en færdighed skal der observeres mere end én gang! Der er ingen pålidelige data vedrørende hvor mange observationer af en færdighed der kræves i postgraduate lægeuddannelse, men et rimeligt skøn er 5 10 gange før bedømmelsen kan anses for sikker. B. Checkliste til optælling af gennemført aktivitet Denne slags checkliste er en fortegnelse over aktiviteter, der skal gennemføres og antallet af dem. Den pågældende noterer selv på listen efter hver gennemført aktivitet. Hvis denne slags checkliste bruges summativt skal den pågældende være i stand til at dokumentere sin aktivitet, fx ved at opvise kopier af operationslister ol. Checklisten er velegnet til formativ evaluering, fordi den gør den pågældende bevidst om hvilke aktiviteter der kræves, og hvilke prioriteringer, det er nødvendige at gøre. Den er også et fortrinligt grundlag til udviklingssamtaler. Vurderingsskalaer (Eng: Rating scales ) Vurderingsskalaer bruges til at bedømme adfærd og komplekse færdigheder, hvor der ikke findes mere objektive målingsinstrument. De er ordinatskaler, mest almindeligt delt i 5 trin. Der er 2 hovedformer. Den ene er en numerisk skala med tekst i begge ender, evt. også på midttrinet. Eksempel: Lægens måde at udrede xxxxx-patienter er: 1 2 3 4 5 Ikke acceptabel (Acceptabel) Udmærket Den anden slags skala har trin, der beskriver forskellige grader af forventet professionel adfærd. Eksempel: Lægens måde at udrede xxxxx-patienter er: Fuldt ud til det niveau man forventer af en speciallæge 5 I de fleste tilfælde på en speciallæges niveau, men der er nogle begrænsninger indenfor enkelte områder 4 Som oftest tilstrækkelig, men der er betydende mangler indenfor enkelte områder 3 Mangelfuld indenfor mange områder 2 Så mangelfuld at der kræves konstant supervision 1 Vurderingsskalaernes svaghed er, at de medfører en subjektiv vurdering og altså har lav interrater reliabilitet. Den kan forbedres ved at instruere og træne bedømmerne. Den forhøjes også ved, at den læge, der skal bedømmes, bliver bedømt i den samme situation og med den samme skala af forskellige og uafhængige bedømmere, enten samtidigt eller ved forskellige tidspunkter. Der findes data, der peger på, at der kræves mindst 11 forskellige observatører for 4
at opnå høj validitet (se nedenunder Multidisciplinær peer review, 360-graders evaluering ). Af dette fremgår, at vurderingsskalaer måske bedst egner sig til evaluering i formativ hensigt. Checklister og rating skalaer kan bruges selvstændigt men også som instrumenter i de mere komplekse metoder der beskrives, nedenunder. Tre ikke-eksamensprægede metoder til evaluering, der kan bruges i uddannelsen til speciallæge 1. Audit af journaler Metoden består i at gennemgå et antal af lægens journaler og bedømme patientforløbets og journalens kvalitet ved hjælp af i forvejen definerede kriterier. Sådanne kriterier kan være anamnesens grundighed, hvis oplysninger bliver uddybet og præciseret, fuldstændighed af den objektive undersøgelse, kvalitet af diagnostiske overvejelser, hvilke undersøgelser der bliver ordineret, komplikationer til operationer, mv. Dersom journaler er specialespecifikke kan retningslinier for relevante kriterier ikke gives her. Der bør udarbejdes en simpel skala til bedømmelse af hvert item, fx Godt, Godkendt, Ikke godkendt, Ikke udført, hvilket stærkt forøger metodens reliabilitet. Der eksisterer ingen sikre data på, hvor mange journaler der skal gennemgås for at opnå acceptabel validitet, men der angives i litteraturen, at der bør gennemgås mellem 20 til 30 tilfældigt valgte journaler for at man med rimelig sikkerhed kan bedømme en læge. Metoden har den fordel, at den er nem at udføre og ikke kræver nærvær af den, der skal bedømmes. Den er egnet til at bedømme teoretisk kontekstuel viden (1 B) og praktiske intellektuelle kundskaber (2 A), men ikke til at bedømme biomedicinsk viden (1 A) eller praktisk interpersonel kundskab (2 B). Den kan bruges både summativt ( Nu kan lægen gennemføre et patientforløb og skrive en brugbar journal indenfor sit speciale ), og formativt ved at vejlederen sammen med lægen under uddannelse gennemgår nogle udvalgte journaler og scoringsskalaer. Det anbefales, at både gode og dårlige eksempler bliver gennemgået, således at lægen bliver bevidst om sine stærke og svage sider. 2. Struktureret observation i klinikken At en ældre og en yngre læge arbejder sammen, og at den ældre undervejs giver feed back til den yngre er en traditionel og uformel måde at evaluere på. En fordel ved metoden er, at den sker i real tid. Den kan bruges til at evaluere lægelige praktiske færdigheder (2 B) af meget forskellige slags, alt fra kirurgiske operationer til fortolkning af røntgenbilleder eller patologisk-anatomiske præparater. Metoden er mindre egnet til vurdering af praktiske intellektuelle kundskaber (2 A) som fx klinisk problemløsning. En ulempe er, at den som oftest er subjektiv og ustruktureret og præget af den ældre læges præferencer. Direkte observation af denne slags er bedst egnet til evaluering i formativ hensigt. Direkte observation kan også bruges til evaluering i summativ hensigt. Ved strukturering, dvs. at man i forvejen gennemtænker færdigheden og konstruerer vurderingsskalaer eller checklister, afhængigt af færdighedens kompleksitet, (se oven) bliver reliabiliteten forøget. Der eksisterer ikke særligt mange undersøgelser af psykometriske egenskaber ved direkte observation. De, der findes, kommer for den største dels vedkommende fra videnskabeligt studium af OSCE-eksamen. Reliabiliteten forøges ved at øge antallet af observationstilfælde. 2-3 giver meget lav, imens 15-20 observationer giver høj validitet af bedømmelsen. Hvis det lader sig at gøre kan reliabiliteten forøges ved at flere og uafhængige bedømmere deltager. Kliniske lægelige færdigheder er i høj grad kontekst specifikke. Derfor skal lægen observeres i forskellige kliniske situationer, hvis man vil opnå en global vurdering af lægelig kompetence. 5 5
3. Multidisciplinær peer review ( 360 o evaluering ) Metoden egner sig til bedømmelse af uddannelseslægens adfærd i systemet, dvs. til bedømmelse af brede egenskaber, som evne til at arbejde i forskellige funktioner, samarbejde, kommunikation med systemet ol. Fordelen med den er, at der samles information ind fra mange personer, som har forskellige funktioner i systemet. Det kan være den administrerende overlæge, den uddannelsesansvarlig overlæge, en læge, der er teamleder, vejleder, afdelingssygeplejerske fra sengeafdeling, operationsgang, skadestue etc., samt andre samarbejdspartnere udenfor afdelingen, men af betydning for lægens funktion i systemet. Sådanne kan være samarbejdspartnere fra andre specialer, fx en anæstesilæge, røntgenlæge, fysioterapeut, socialrådgivere ol. Metoden består i, at lægen bedømmes ved brug af rating skala af flere personer som har mulighed for direkte observation, hvilket giver en betydeligt mere sikker bedømmelse end fx en udtalelse fra en eller to vejledere. Der er således mulighed for en meget alsidig bedømmelse. Rating skalaens yderste trin bliver defineret som højeste og laveste kompetence. Eksempel: 1 Meget kompetent 2 Kompetent 3 Ikke fuldt ud kompetent 4 Inkompetent De kompetencer der skal vurderes skal nøjagtigt defineres. 2 eksempler: Patientbehandling: Vælger behandlinger på en klog måde, tilpasser sit valg af behandling til omstændighederne. Integritet: Er hæderlig og kan blive stolet på, udviser lægelig etisk adfærd. Evalueringer fra de forskellige bedømmere bliver samlet ind, middelværdier kalkuleret og helhedsbilledet bliver vurderet af den eller dem, der skal evaluere, om lægen kan blive godkendt eller ikke. Studier har vist, at metoden har god reliabilitet, hvis antallet af bedømmer er 10 eller flere. På næste side er der et skema der pt. bruges i uddannelsen af speciallæger i obstetrik og gynækologi i Storbritannien (Ref. 8) i dansk oversættelse: 6 6
7 Skema til Multiple Peer Review ( 360 graders evaluering ) Disse informationer vil blive vist til den uddannelsessøgende. Kryds af i relevante kolonner. Hvis du ikke har haft mulighed for at observere de nævnte aktiviteter, så kryds af i ikke i stand til at kommentere. Hvis nogle afkrydsninger er i utilfredsstillende er det påkrævet at skrive yderligere kommentarer. Den uddannelsessøgende læge: Behandler patienter høfligt og hensynsfuldt Ikke i stand til at kommentere Utilfredsstillende Behov for forbedringer Tilfredsstillende Meget tilfredsstillende Involverer patienter i beslutninger om deres behandling Respekterer patienters privatliv og værdighed Overholder tavshedspligt Svarer og kommer, når det ønskes at en patient skal bedømmes. Kontakter kollegaer ved behov for diskussion om patientbehandling Samarbejder godt i team Accepter kritik og er i stand til at reagere konstruktivt Fører journaler af god kvalitet Varetager papirarbejdet til tiden (f.eks. epikriser, breve) Er bevidst om egne faglige grænser og søger hjælp når der er behov for det Delegerer på passende vis arbejde ud til og superviserer juniore læger eller andet personale Anvende den tid der er til rådighed på en effektiv måde Kommentarer (skal udfyldes, hvis der er krydset af i boksen utilfredsstillende ) Navn: Stilling: Signatur: Tak for din hjælp! 7
8 Litteraturliste 1. Brown G, Bull J, Pendlebury M: Assessing Student Learning in Higher Education. Routledge, London 1997, Pp 10-13. 2. Sundhedsstyrelsen. Manual til brug for Inspektorordningen. www.sst.dk/inspektorordningen 3. Association for Medical Education in Europe: AMEE Guide no. 14: Outcome-based Education. AMEE, Center for Medical Education, Dundee 1999. 4. Hager P, Gonczi A: What is competence? Medical Teacher 1996; 18: 15-18. 5. Gustavsson, B: Kunskapsfilosofi. Tre kunskapsformer i historisk belysning. Wahlström & Widstrand, Stockholm 2000. 6. O Neill, PA, Metcalfe D, David TJ: The core content of the undergraduate curriculum in Manchester. Medical Education 1999; 33: 121-129. 7. Jolly B, Grant J (Eds.): The Good Assessment Guide. A practical guide to assessment and appraisal for higher specialist training. Joint Centre for Education in Medicine, London 1997. 8. http://www.rcog.org.uk/resources/pdf/form_to1.pdf 8
9 Bilag 1: Formular til læringskontrakt Planlægning af træning af lægelig kompetence. (Udfyldes i samarbejde med vejleder) Læge Vejleder Måned / Uge Månedens / Ugens kompetencemål er: Delkompetencer Arbejde der skal gøres Tilbagemelding Planlægning for måneden/ugen Uge 1/ Mandag Uge 2 / Tirsdag Uge 4 / Torsdag Fredag Uge 3 / Onsdag 9