Metoder og instrumenter til resultatmåling af indsatser over for demente psykometriske begreber

Størrelse: px
Starte visningen fra side:

Download "Metoder og instrumenter til resultatmåling af indsatser over for demente psykometriske begreber"

Transkript

1 Metoder og instrumenter til resultatmåling af indsatser over for demente psykometriske begreber Charlotte Horsted Terkel Christiansen Health Economics Papers 2004:3

2 Indhold Instrumenter til måling af sundhedsstatus og effektvurdering Måling af sundhedsstatus eller sundhedsudfald? Formålet med at måle sundhed Operationalisering og måling af sundhed Videnskabelige overvejelser i forbindelse med målingen af sundhed Reliabilitet (pålidelighed) Hvornår er noget reliabelt? Validitet (gyldighed) Diskriminationsstyrke og følsomhed Følsomhed over for ændringer Tekniske aspekter af mål for sundhedsstatus og sundheds-udfald Generiske versus sygdomsspecifikke mål En- versus flerdimensionale mål Et eller flere items Profiler versus indeks Numeriske sundhedsestimater: Skaleringsmetoder Vægtningsteknikker fra items til skala Praktiske overvejelser Valg af instrument opsummering Litteraturliste:...44 Sekundær litteratur...45 Bilag 1: Klassisk vs. klinimetrisk psykometrisk skala-analyse.48 Bilag 2: Ordliste...57

3 Forord Projektet Metoder og instrumenter til effektvurdering af indsatser over for demente er finansieret af Servicestyrelsen (Styrelsen for social service, socialministeriet) og er udført i et samarbejde mellem CAST (Center for Anvendt Sundhedstjenesteforskning og Teknologivurdering) og Forskningsenheden for Sundhedsøkonomi, IST (Institut for Sundhedstjenesteforskning), ved Syddansk Universitet, Odense. Der eksisterer i dag et stort antal metoder og instrumenter med det angivne formål at kunne vurdere og/eller måle effekten af en indsats over for demensramte. Formålet med projektet har været at give potentielle brugere en oversigt derover og i tilknytning hertil at beskrive instrumenternes egenskaber, så det bliver muligt at bedømme instrumenternes egnethed til et givet formål. Projektet afrapporteres ved 4 publikationer, som alle er tilgængelige på: 1) Charlotte Horsted og Terkel Christiansen. Metoder og instrumenter til effektvurdering af indsatsen over for demente en oversigt. Syddansk Universitet: Health Economics Papers 2004:2 2) Charlotte Horsted og Terkel Christiansen. Metoder og instrumenter til effektvurdering af indsatsen over for demente psykometriske begreber. Syddansk Universitet: Health Economics Papers 2004:3 3) Charlotte Horsted og Terkel Christiansen. Metoder og instrumenter til effektvurdering af indsatsen over for demente gennemgang og beskrivelse af instrumenterne. Syddansk Universitet: Health Economics Papers 2004:4 4) Charlotte Horsted. Vurdering af generiske livskvalitetsinstrumenter deres kvaliteter i forbindelse med anvendelse på demensramte. Syddansk Universitet: Health Economics Papers 2004:5. Den førstnævnte publikation indeholder en kortfattet oversigt over de metoder og instrumenter, der mere uddybende er gennemgået i den tredje publikation. Formålet med rapporten er at give læseren et hurtigt overblik over instrumenternes egenskaber dvs. anvendelse, antal items, håndtering, håndteringstid samt vurdering af instrumenternes reliabilitet og validitet. Den anden publikation indeholder en beskrivelse af nogle af de metoder og kriterier, som anvendes ved kvalitetsvurdering af instrumenter. En vis forståelse herfor kan være væsentlig for læsning af den tredje publikation. Den indeholder desuden en ordliste over de mest anvendte begreber i rapporterne. Den tredje publikation er en bilagsrapport til den første. Rapporten indeholder en gennemgang og beskrivelse af de udvalgte ca. 70 instrumenter. Fokus er på instrumenternes formål, deres begrebslige grundlag og psykometriske egenskaber (validitet, reliabilitet samt følsomhed over for ændring). Den fjerde publikation indeholder en beskrivelse af de mest almindelige generiske livskvalitetsinstrumenters egenskaber i forbindelse med anvendelse på demensramte individer. Dette drejer sig om instrumenterne DUKE, EQ5D, HUI, SIP, 15D, SF-36, QWB.

4 En stor tak til overlæge Kirsten Abelskov, Gerontopsykiatrisk afdeling i Århus Amt og professor, dr. med. Per Bech, Stressklinikken, Hillerød Sygehus, for deres kommentarer til rapporterne. Ligeledes tak til Charlotte Bruun Pedersen og Marie Holmgaard Kristiansen for korrekturlæsning og opsætning. Evt. resterende fejl og mangler er alene forfatternes. Forskningsassistent, Charlotte Horsted Professor Terkel Christiansen Syddansk Universitet

5 Instrumenter til måling af sundhedsstatus og effektvurdering Vurderingen af demensramtes sundhedsstatus, eller om en indsats over for individer med demens har en effekt eller ej, kan vanskeligt måles ved hjælp af traditionelle målemetoder som fx en måling af blodtrykket eller andre former for biomedicinske indikatorer, som kan observeres objektivt. I stedet må der tyes til andre metoder for at fremskaffe den nødvendige viden. Måling af mental status og kognitiv funktion 1 har længe været en del af den kliniske praksis, især i forbindelse med geriatrien, idet det især er blandt de ældre, man oplever kognitiv svækkelse. Epidemiologiske studier af demens og sundhedsundersøgelser for at undersøge den reelle kognitive svækkelse er dog først kommet til senere. Det skyldes, at individer lever længere i dag, hvilket forøger antallet af individer, der får kognitive funktionsproblemer (McDowell, 1996, p. 287, Sundhedsstyrelsen, 2001, p. 37). Formålet med at undersøge ændringerne i den kognitive funktion hos de demente er blandt andet: At følge det enkelte individs udvikling, dvs. de intra-personelle ændringer over tid At kunne evaluere den (sundheds)behandling, der tilbydes de demente At kunne sammenligne forskellige behandlingstyper og undersøge forskelle i udfaldet mellem grupper Begrebet kognitiv funktion er et begreb med mange facetter, hvorfor der ikke eksisterer en simpel operationalisering heraf, som er dækkende. Kognitiv funktion spænder vidt: Fra mild svækkelse (husker måske knapt så godt mere, forringet koncentrationsevne mv., som er en mulig følge af den almindelige ældningsproces) til en situation, hvor den demente faktisk ikke kan noget selv mere; hukommelsen 1 Ordet kognitiv betyder at opfatte, forstå, vide, og de kognitive funktioner vedrører funktioner med erkendelse, opfattelse og tænkning. 5

6 er væk, koncentrationsevnen er lav, den pågældende kan ikke tage vare på sig selv, og er måske ude af stand til at kommunikere meningsfuldt med omgivelserne. I de allersværeste tilfælde reagerer personen eventuelt kun på stimuli i form af berøring, lys eller lyde kendetegn ved meget svær demens). Demens medfører således en gradvist progredierende svækkelse af intellekt, følelsesliv og adfærd. Demens er en betegnelse for tab af kognitive færdigheder i en grad, så det går ud over personens dagligdagsfunktioner. Indholdet i de fleste tests af mental status er en vurdering af individets opfattelse af tid og sted, koncentrations- og opmærksomhedstests samt hukommelsestests for både kort- og langtidshukommelsen (McDowell, 1996, p.288). Anvendelsen af tests af mental status er især begrundet med, at man her har at gøre med den facet af demens, der kan måles mest objektivt, á la de biomedicinske instrumenter. Den kognitive svækkelse er dog ikke det eneste relevante kendetegn ved demens, hvorfor andre områder tillige ofte s analyseres i forbindelse med demensstudier. For at opnå en bedre oversigt over effekten af en behandling af patienter med Alzheimers eller andre demensformer vil områder, så som almindelig daglig levevis (ADL), adfærd, plejetyngde og livskvalitet være mulige områder, der ligeledes kan undersøges nærmere. Der eksisterer i litteraturen et utal af instrumenter, hvormed man kan forsøge at måle disse effekter. Faren for at vælge et uegnet instrument er dog nærliggende, idet det kan være vanskeligt at vurdere, hvilket instrument der er mest hensigtsmæssigt at anvende i en given kontekst. Hvert instrument har dets egne fordele og ulemper, hvorfor det er væsentligt, at det instrument, man anvender, udvælges med omhu, så de resultater, man opnår, er relevante, troværdige og informative for formålet med undersøgelsen (Schneider, 2001, p. S8). I indeværende notat vil nogle af de vigtige problemstillinger, som man generelt skal være opmærksom på og tage stilling til i forbindelse med valg af instrumenter 6

7 til effektvurdering, blive gennemgået. I denne forbindelse er det af betydning at kende de egenskaber, instrumentet besidder, hvorvidt det er reliabelt og validt, om det evt. kan anvendes til at måle ændringer over tid. Det skyldes, at ikke alle instrumenter er lige følsomme (sensitive), hvorfor ikke alle instrumenter er lige egnede til at måle ændringer i sundhedsstatus. Notatet er et teoretisk notat, der begynder med en definition af begreberne sundhedsstatus og sundhedsudfald, idet disse ofte i litteraturen anvendes i flæng. Notatet indeholder i øvrigt både videnskabelige overvejelser i forbindelse med måling af sundhed og tekniske aspekter i forbindelse med målinger Måling af sundhedsstatus eller sundhedsudfald? En væsentlig overvejelse i forbindelse med valg af instrument er, hvad det egentlig er, man ønsker, der skal måles. Er det sundhedsstatus (health status) eller sundhedsudfaldet (health outcome), der ønskes målt? Problemet med at skelne mellem de to begreber er, at de to begreber i litteraturen ofte anvendes i flæng på trods af, at der er en forskel mellem begreberne. Sundhedsstatus skal således forstås som et øjebliksbillede af et individs sundhed og velvære, mens sundhedsudfald defineres som en ændring i et individs sundhed og velfærd som følge af (fx) en intervention, eller som følge af mangel på (korrekt) pleje (Bentzen et al, 1998, p. 27). Dvs., at sundhedsudfaldsmålet refererer til forskellen mellem to målinger af sundhedsstatus. Et instrument, skabt til at måle et individs sundhedsstatus på et givet tidspunkt, vil ikke nødvendigvis kunne anvendes til at måle ændringen deri som følge af en intervention, idet det måske ikke er tilstrækkeligt følsomt. Valg af egnet instrument er således særligt vigtigt i interventionsstudier, idet spørgsmålet er, hvorvidt man måler det, der kan ventes (og ønskes) påvirket. 7

8 1.2. Formålet med at måle sundhed Hvorvidt man ønsker at måle sundhedsstatus eller forskellen deri, mellem to målinger (sundhedsudfald), afhænger således af formålet med en given analyse. For beslutningstagere vil populationens nuværende sundhedstilstand være væsentlig for en bedømmelse af, hvor der skal sættes ind i fremtiden: her vil det være relevant at undersøge individernes nuværende sundhedsstatus. For udøvere af en behandling, forskere mv., der gerne vil vide, hvorvidt en sundhedsintervention har en effekt, vil fokus derimod være på instrumenter, der kan anvendes til at måle sundhedsudfaldet af interventionen. Der findes også instrumenter til andre formål. Visse instrumenter er designet som diagnostiske redskaber. I forbindelse med diagnosticeringen af demens gælder dette fx instrumentet MMSE 2 (Mini-Mental-Status-Examination, Folstein et al., 1975), der består af en række simple spørgsmål, instrumentet CAMCOG (Roth et al., 1986) samt urskivetesten, der består i at en patient skal tegne og indsætte timetal i en urskive. Lægen kan, ud fra patientens besvarelse, samt grundigt kendskab til patientens sygehistorie, bedømme, hvorvidt patientens forringede hukommelse muligvis skyldes demens eller ej, og om yderligere undersøgelser (fx CT-skanning af hjernen) skal foretages. Overordnet set kan evalueringen af sundhedsstatus og sundhedsudfald udføres på tre niveauer: 1) Mikroniveauet. Vedrører det enkelte individ. Målingen udgør en kvantitativ vurdering af et individs udvikling og af effekten af den behandling, individet får. Det målte udfald kan anvendes som en vejledning for klinisk beslutningstagning, evaluering af effekter og bivirkninger, eller forudsigelse af en prognose. 2 Er oprindeligt tiltænkt blot at være et screeningsinstrument, men anvendes ofte i forbindelse med diagnosticeringen af mulige demente. 8

9 2) Mesoniveauet. Repræsenterer en gruppe af individer. Formålet er her at beskrive og sammenligne effektiviteten af forskellige behandlinger eller forskellige sundhedsprogrammer på definerede populationer fx undersøge behandlingens indflydelse på disses funktionsmæssige evner, eller deres velvære. 3) Makroniveau. Repræsenterer hele samfundet. Her er det omkostningseffektivitet, der er i fokus. Formålet er således at evaluere omkostningseffektiviteten eller nytten ved udbudte sundhedsbehandlinger. Dette kræver en mere generisk tilgang. (Ferreira et al., 1997, p. 30) 1.3. Operationalisering og måling af sundhed I de foregående afsnit er begrebet sundhed nævnt flere gange men hvad menes der egentlig med begrebet sundhed, og sundhed i forbindelse med demens? Såfremt man skal anvende et instrument til måling af heraf, må dette være baseret på en specifikt begrebsmæssig tilgang hertil. WHO definerer sundhed som a state of complete physical, mental and social well-being and not merely the absence of disease (WHO, 1958). WHO s definition vedrører en idealtilstand, der sjældent er opnåelig. Definitionen påpeger, at sundhed er et begreb med mange aspekter. Bl.a. kan sundhed indeholde aspekter vedrørende den kliniske status (tegn, symptomer, diagnosekategorier, biokemiske og psykologiske betingelser) eller den funktionsmæssige status (fysisk, kognitiv, psykologisk og social udfoldelse). I forbindelse med demens er en ofte overset dimension af sundhed de dementes livskvalitet og forbedringer heraf. Dette aspekt er relevant, idet det identificerer væsentligheden af udfald udover fysiske og mentale ændringer, ligesom det rejser etiske og filosofiske problemstillinger (jf. bl.a. Brod et al, 1999, Hughes et al., 2003). Definitionen af livskvalitet er dog ofte meget bred, hvilket WHOs definition er et godt eksempel på: an individual s 9

10 perception of their position in life in the context of the culture and value systems in which they live and in relation to their goals, expectations, standards and concerns. It is a broad ranging concept affected in a complex way by the person s physical health, psychological state, personal beliefs, social relationships and their relationship to salient features of their environment (WHO 2003). Definitionen forudsætter, at individer har intellektuel kapacitet til at varetage komplekse, subjektive vurderinger af eget liv. Der kan dog sættes spørgsmålstegn ved de dementes evner i denne henseende især er det et problem, hvor grænsen går mellem at være i stand til at vurdere eget liv, og hvornår man ikke længere kan. Hvilke områder, der bliver relevante at fokusere på i forbindelse med effektvurderinger af indsatser over for personer med demens, afhænger derfor af definitionen af sundhed, herunder livskvalitet, man lægger til grund herfor. Måling af sundhed finder ofte sted som en indirekte proces, der medfører anvendelse af en standard skala på hvert aspekt, hvormed man opnår en numerisk score for det pågældende aspekt af begrebet sundhed. Disse scorer kan evt. efterfølgende kombineres til en fælles score for sundhed - et såkaldt indeks - eller man kan bibeholde de enkelte scorer, som tilsammen udgør en profil. Dette uddybes i afsnit Sundhed er et begreb, der sjældent kan beskrives med kun en enkel parameter, men i stedet beskrives ved at anvende en række forskellige parametre, der hver især repræsenterer et element af begrebet sundhed. Hvilke parametre, der anvendes, afhænger af, hvorvidt man søger at besvare spørgsmål om den generelle sundhedstilstand eller om specifikke aspekter af sundhed. I forbindelse med udvælgelse af et instrument er det således væsentligt, at man præcist ved, hvem målepopulationen er, idet det ikke er sikkert, at et instrument, dannet til at vurdere sundhedsstatus eller sundhedsudfald i den generelle population (generiske mål), vil kunne anvendes på en specificeret delpopulation heraf fx på individer med 10

11 demens. Her vil det ofte være mere relevant at anvende et situationsbetinget mål. Ligeledes kan man ikke nødvendigvis anvende et instrument, udviklet til vurdering af sundhedsudfald for individer med demens, som fortsat er bosat hjemme, i andre omgivelser - fx for individer med demens bosat på plejehjem - idet konsekvenserne af sygdommen kan være forskellig, da der måske ikke er samme professionelle hjælp i hjemmet som på et plejehjem. Det er heller ikke sikkert, at instrumenter, udviklet til brug i ét land, direkte kan oversættes til brug i andet land, idet der kan være kulturelle forskelle, som spiller ind på anvendeligheden af instrumentet. Her er det nødvendigt med en korrekt oversættelse af instrumentet med bevarelse af den oprindelige mening, og en gentestning af instrumentets reliabiliet og validitet, inden det kan anvendes. Dette uddybes i afsnit Grundlæggende set er det væsentligt, at man i forbindelse med udvælgelsen af et instrument vælger, så denne indeholder de aspekter af sundhed, der er relevante i målepopulationen, samt den situation/de omgivelser, de befinder sig i. Et andet forhold, der skal tages højde for i forbindelse med valg af instrument, er, hvorvidt man ønsker at måle positive aspekter ved sundhed, fx psykologisk velvære og funktionelle evner, eller negative aspekter så som angst, depression og funktionel begrænsning (McColl et al, 1997, p.14). Endvidere er nogle instrumenter designet til at fremkomme med faktuelle resultater, mens andre måler fx intentionelle eller fortolkende informationer. Fx kan funktionelle statusskalaer enten anvendes til at måle hvorvidt en aktivitet faktisk er eller kan blive udført. Eksempelvis kan man spørge, om en mild dement selv finder vej til nærmeste købmand, eller om vedkommende ville kunne gøre det, om han eller hun blev bedt derom. Det er også forskelligt hvem, der har været med til at udvikle instrumenterne, og dermed vil perspektivet være forskelligt. Visse instrumenter og metoder er udviklet 11

12 ud fra et rent professionelt perspektiv mens andre vedrører målinger set fra patientens eller de pårørendes perspektiv.. Det er derfor væsentligt at få en klargøring af det begrebsmæssige grundlag for målingen af sundhed, inden det måles Videnskabelige overvejelser i forbindelse med målingen af sundhed I forbindelse med valg af instrumenter er det ikke nok blot at definere målet for udfaldsvurderingen og det begrebslige grundlag for måling af sundhed fokus på instrumentets videnskabelige eller psykometriske egenskaber er ligeledes yderst relevant. De psykometriske egenskaber vedrører grundlæggende kvaliteten af instrumentet: om man kan stole på de resultater, der opnås med instrumentet, samt om instrumentet faktisk måler det, det har til hensigt at måle. Der findes en række statistiske metoder til validering af instrumenter, og der foreligger efterhånden en vis konsensus om hvilke statistiske metoder, der som et minimum bør inddrages i valideringen deraf. Dette gør det lettere at sammenligne forskellige instrumenters pålidelighed og gyldighed, idet disses kvaliteter ofte vil være afprøvet efter stort set samme mønster. De efterfølgende afsnit er centrale, da de giver et billede af nogle af de metoder og kriterier, som anvendes ved kvalitetsvurdering af målingsinstrumenter. Egenskaberne, der skal vurderes, er: reliabiliteten, validiteten, diskriminationsevne og følsomhed over for ændring. 12

13 Reliabilitet (pålidelighed) Reliabilitet referer til reproduktionsegenskaben, dvs. instrumentets evne til at nå det samme resultat ved gentagne målinger. Hvis man tager et individs temperatur med 5 minutters mellemrum med samme termometer, må man forvente, at denne viser samme resultat. Hvis termometeret det ene øjeblik viser 36,5 C, det næste øjeblik 37,5 C for derefter det næste øjeblik at vise 37 C, er der tilsyneladende en vis tilfældig variation i resultaterne ved brug af det pågældende termometer. Med andre ord, instrumentet er ikke pålideligt, og termometeret bør derfor kasseres. På samme måde bør et instrument ikke anvendes, hvis det ikke har en acceptabel pålidelighed. Der er mange kilder til målefejl, og der eksisterer ikke kun én måde at udtrykke reliabiliteten på. De antagelser, der grundlæggende er indeholdt i reliabilitetsteorien, er, at enhver observeret score består af to komponenter: en sand score - det, der skal måles (er i virkeligheden ukendt) - og en tilfældig 3 målefejl som mulig følge af unøjagtigheder i instrumentet. Hvis fejlen er lille, er observationerne reliable. Hvis den er stor, har vi en dårlig reliabilitet. Det, man derfor er interesseret i at vide, er fejlens størrelse i forhold til den sande værdi. Det kan bemærkes, at reliabiliteten vil stige, når den sande variation stiger og fejlvariationen mindskes. Ordet reliabilitet bruges således som en generel betegnelse for datas pålidelighed. Reliabilitet bruges dog også som et mere specifikt teknisk udtryk, der referer til korrelationen mellem sæt af observationsværdier fx to eller flere individers bedømmelse af et antal objekter. Her står reliabiliten i modsætning til begrebet enighed, og denne sondring er væsentlig, idet man godt kan have en høj reliabilitet, men en ringe enighed. Denne 3 Normalt inddeles målefejl i to typer, en tilfældig og en systematisk målefejl (eller bias). I forbindelse med reliabilitet er det kun de tilfældige målefejl, der fokuseres på, idet den systematiske bias ikke har nogen indvirkning på reliabiliteten af instrumentet, da det er en bias konsistent i samme retning (Stewart, 1990, p. 5). De systematiske målefejl henhører i stedet til validitetsproblematikken. 13

14 situation kan fx opstå ved, at der er en systematisk bias i den ene observatørs vurdering af en situation, så denne konsekvent bedømmer fx et punkt anderledes på en skala end en anden observatør. Korrelation mellem de to observatører er lig 1, som er lig perfekt reliabilitet - dette til trods for at der ikke er enighed mellem de afgivne bedømmelser. Tabel 1. Forskellige korrelations- og enighedsmål. Type Beskrivelse Korrelation Korrelation (r) er et mål, som indikerer graden af lineær sammenhæng mellem to eller flere observationssæt. Der er forskellige formler, der kan bringes i anvendelse til estimeringen af korrelationens styrke; i hvert tilfælde er de indordnet mellem -1 og +1. En korrelation tæt på nul indikerer, at der ingen sammenhæng er mellem observationerne. Idet korrelationen stiger, bliver det muligt bedre at forudsige den anden observations værdi ud fra et kendskab til den første. Den formel, der oftest anvendes er Pearson s r, der er egnet til data målt på interval- eller rationiveau. Kendall s tau og Spearman s rho korrelationer kan anvendes til at udtrykke sammenhængen mellem variable målt på ordinalt niveau, og kaldes rangordningskorrelationer. Intraklasse I forbindelse med testning af et instruments reliabilitet kan korrelation korrelationskoefficienter, så som Pearson s r, anvendes til at (ICC) sammenligne to observatørers vurdering af et antal patienter. Intraklasse korrelation generaliserer denne procedure og udtrykker enigheden mellem flere end to observatører. I modsætning til Pearson s korrelation er intraklasse korrelation et mål for enighed, der viser den gennemsnitlige overensstemmelse mellem observatørers faktiske score på de observationer, der sammenlignes. Enighed Cohen s Kappa er en koefficient for graden af enighed mellem to observatører. Den kan anvendes på dikotone variable eller variable med flere kategorier. Kappaudregnes som den diagonale sum af relative hyppigheder, justeret for forventede værdier, og standardiseret med den maksimale værdi. Den udtrykker således graden af enighed, som er observeret udover det niveau, der ville være forventet ved en tilfældig fordeling i en bivariat tabel, givet marginalfordelingen. En formel for kappa er: κ = (p 0 p c )/(1 - p c ), hvor p 0 er den observerede andel af enighed og p c er den enighedsandel, der er forventet ved tilfældighed. Tilfældighedsenighed kan forstås som den enighed, der ville opstå hvis en observatør blot gættede eller lod en mønt bestemme vurderingen. p c er fastsat på følgende vis: p c = p 1 p 2 + (1 p 1 ) (1 14

15 p 2 ), hvor p 1 er sandsynligheden, og p 2 er den ækvivalente sandsynlighed for den anden observatør. Selvom spændevidden af Kappa ligger i området 0 til 1, er dets øvre grænse begrænset af instrumentets sensitivitet og specificitet. Cohen s Kappa anvendes, hvis items er nominal eller ordinalt skalerede. Undertiden udregnes en vægtet kappa, hvor afstande fra diagonalen vægtes med en eller anden valgt vægt. Et andet mål for associationsgraden mellem to binære variable er Phi koefficienten. Fortolkningsmæssigt er resultatet lig korrelationskoefficienten. Når der tales om reliabilitet, skelner man traditionelt set mellem fire begreber. Disse er: test-retest reliabilitet, intern konsistens, interrater reliabilitet, og reproducerbarhed (CR) og hver af disse reliabilitetstests fremkommer med forskellige koefficienter for reliabiliteten. Tabel 2. Oversigt over de mest almindelige reliabilitetstyper Reliabilitetstype Definition/beskrivelse Anvendelig for Test-retest Graden af overensstemmelse mellem to målinger af det samme fænomen under den forudsætning, at fænomenet ikke har ændret sig. Test-retest reliabilitet siger noget om en tests eller et instruments stabilitet over tid. Svarer til intra-rater reliabilitet. Intern konsistens (fx målt ved Cronbach s alpha se iøvrigt bilag 1) Inter-rater Reproducerbarhedskoefficient Kilde: Stewart (1990, p.7) Graden hvori alle items i skalaen måler det samme underliggende begreb, eller konvergensen af items på det begreb, der måles. Koefficienten stiger jo mere homogene items bliver, ligesom den stiger, jo flere items, der medtages i skalaen. Graden ved hvilken en observatørs vurdering er konsistent med en anden observatørs vurdering i samme måleseance. Reflekterer graden ved hvilken en persons item respons kan forudsiges fra kendskab til deres Guttman skalascore. Alle målingstyper (dvs. både single- og multi-itemsskalaer) Multi-item (Likert skalaer) Observatørvurderede målinger Guttman skalaer 15

16 Test-retest reliabilitet. De samme undersøgelsesenheder (individer) udsættes for den samme måling to gange i træk, og korrelationen mellem de 2 sæt måleresultater bestemmer reliabiliteten. Test-retest reliabiliteten angiver således et måleinstruments evne til at producere konsistente resultater, når måleinstrumentet benyttes igen under samme betingelser. Test-retest reliabiliteten af en skalas scorer har en tendens til at være højere end reliabiliteten af de enkelte items (McColl et al, 1997, p. 16). Resultatet angiver således stabiliteten eller manglen på samme. Der findes ingen faste regler for tidsrummet mellem de to besvarelser, og denne kan derfor variere på tværs af valideringsundersøgelser. Hvis der er for kort tid mellem besvarelserne, kan respondenterne måske huske besvarelserne på første måling, og det kan resultere i en meget høj korrelationskoefficient, som måske ikke afspejler instrumentets faktiske pålidelighed. Omvendt gælder, at hvis varigheden mellem de to besvarelser er relativ lang, kan der være sket en faktisk ændring (fx i velværen, livskvaliteten eller i et andet parameter). En lav test-retest korrelation over lang tid er således ikke nødvendigvis udtryk for en lav reliablilitet, men kan være udtryk for, at instrumentet er følsomt over for ændringer. Der kan derfor opstilles to betingelser for test-retest undersøgelsen: at disse skal udføres med et tidsinterval, der gør, at respondenterne ikke kan huske besvarelserne, men indenfor en tidsperiode, så tilstanden ikke er forværret/ændret. Hvis disse forudsætninger ikke er opfyldte, giver beregningen af test-retest korrelationskoefficienterne ingen mening. Intern konsistens. En anden ofte anvendt metode til vurderingen af instrumenters reliaibilitet er udregningen af graden af overensstemmelse mellem spørgsmål, som hævder at måle det samme - også kaldet skalaens interne konsistens. Intern konsistens reliabilitet anvendes kun for multiitem Likert skalaer, som fremkommer ved at addere flere items, som har en lignende responsskala (Stewart, 1990, p. 6). Mål for intern konsistens er baseret på en enkel gennemførelse af testen. Her korrelerer man spørgsmål, der adresserer samme dimension. Det forventes, at 16

17 resultaterne for hvert af spørgsmålene vil korrelere med hinanden, såfremt disse er placeret korrekt i samme skala. Grundlæggende er det homogeniteten af de forskellige items, man ønsker at undersøge for, dvs. i hvilken grad de forskellige items i en skala måler den samme egenskab. Homogenitet kan måles med: split halves, Kuder-Richardson, eller Cronbach s alpha, alternativt kan det måles med item-total korrelationer eller faktoranalyse. Tabel 3. Reliabilitetstests intern konsistens Metode Beskrivelse af metoden Split halves Et begreb undersøges med flere indikatormålinger (items/spørgsmål) og korrelationen mellem svarene på eksempelvis spørgsmål med lige nummer og svarene på spørgsmål med ulige nummer beregnes som et udtryk for reliabiliteten. Hvis skalaen er intern konsistent, skulle de to halvdele korrelere højt med hinanden. Et problem ved denne tilgang er, at korrelationen er en underestimering af skalaens reliabilitet, idet reliabiliteten af en skala er direkte proportional med antallet af items (observationer), der er indeholdt deri. Reliabilitetskoefficienten for den interne konsistens afhænger således af: graden, hvori items har noget fælles, samt antallet af items i skalaen. Ved et split halveres længden heraf. Dette kan dog korrigeres med Sperman-Browns prophesy formel (jf. fx Streiner, 1995, p. 63). Et af problemerne med denne test er dog, at der er mange måder, hvormed man kan dele, samt denne metode ikke siger noget om, hvilke(n) items der er med til at give en evt. lav reliabilitet. Kuder- Denne test tager hånd om problemerne ved ovenstående tests. Richardson 20 Den er anvendelig for skalaer indeholdende items, som besvares (KR-20) dikotomt. Cronbach s alpha (koefficient α) Formlen for Kurder-Richardson er: KR 20 = n n σ T pq i i hvor n er antallet af items, p i er andelen, som svarer korrekt på spørgsmål i, q i = (1-p) for hvert item, og σ T er standardafvigelsen på den totale score (Streiner, 1995, p. 64). Cronbachs alpha er en udvidelse af Kuder-Richardson testet, der kan anvendes, hvis der er mere end to responsalternativer. Såfremt alpha anvendes på dikotome udfald, vil resultatet være lig det resultat, Kuder-Richardson fremkommer med. Formlen, 17

18 Item-total korrelationer Multifaktor egenskaber for Cronbachs alpha er: α = 2 n σ i n 1 1 σ T 2. Begrebsmæssigt giver Kuder-Richardson og Cronbach s alpha gennemsnittet af alle mulige split-halve reliabiliteter af en skala. Hvis et item udelades, og alpha stiger, er dette ensbetydende med, at skalaens homogenitet ligeledes stiger. Der er dog problemer ved anvendelsen af Cronbach s alpha, hvorfor man ikke ukritisk bør accepterer høje alphaværdier. Det skyldes, at: alpha er afhængig af antal items i skalaen. Dvs. man opnår et mere homogent resultat ved at fordoble antallet af items, selvom korrelationen forbliver den samme. Det skyldes, at standardafvigelsen bliver mindre, hvorfor man får et mere akkurat estimat af middelværdien. en sammensætning af to skalaer, som undersøger noget forskelligt, kan resultere i en høj alpha. en (for) høj alpha kan være tegn på høj grad af item overflødighed; at der er for mange items, som stiller samme spørgsmål på forskellig vis (redundans). Hvis item interkorrelationer holdes på et moderat niveau, vil hvert item tillægge ny information til skalaen. En tommelfingerregel siger, at for en optimal reliabilitet bør alpha ikke være under 0,70, men heller ikke over 0,90 (Streiner, 1995, p. 65; McColl et al, 1997, p. 16). Grundlæggende set accepteres værdier helt ned til 0,50 dog som værende evidens for tilfredsstillende intern-konsistens reliabilitet (Stewart, 1990, p. 6). En anden anvendt indikator for intern konsistens er anvendelsen af item-total korrelationer. Homogenitet blandt items er som beskrevet nødvendig, såfremt alle items skal opfange forskellige aspekter ved den samme attribut. De forskellige items skal derfor ikke blot korrelere med hinanden (til en vis grad), men det enkelte item skal også korrelere med den totale skala score, hvor det specifikke item, hvis korrelation ønskes undersøgt, er udeladt fra den totale score 4. En tommelfingerregel er, at item-total korrelationer bør overstige 0,2 (McColl, 1997, p. 16, Streiner, 1995, p. 62), ellers bør den ikke medtages. Her er det således muligt at finde de items, der er med til at give en lav reliabilitet. Såfremt instrumentet er en del af en opgørelse bestående af flere skalaer (multifaktor eller multidimentionale opgørelser), eksisterer andre og mere sofistikerede (udvidede) analytiske 4 Anvendelse af Person s product-moment korrelation er, ifølge Streiner (1995, p. 62), den bedste koefficient at anvende. 18

19 teknikker til at undersøge for den interne homogenitet. Udvidelse af item-total proceduren: I item-total procedueren bliver et item korreleret med dets egen skalatotalscore. I den udvidede procedure bliver itemet ligeledes korreleret med totalen af de øvrige skalascorer i instrumentet. Da itemet ikke tilhører disse skalaer, bør denne korrelation være mindre end korrelationen med egen skala. Faktor analyse (bør ikke anvendes på dikotome udfald), hvor hvert item behandles som en individuel test. Hvert item skulle gerne korrelere med den skala, den tilhører, og ingen af de øvrige skalaer. Hvis den korrelerer med flere skalaer, eller blot med en forkert skala, er det sandsynligt, at itemet opfanger noget andet, end hensigten var hermed. Inter-rater reliabilitet. For observatør- og interview-baserede mål er det væsentligt, at der er en høj overensstemmelse mellem de forskellige observatører og deres vurdering af et individ (inter-observer reliabilitet). Herudover er det ligeledes væsentlig, at en observatør er konsistent i måden, hvorpå han vurderer et individ (intra-observer reliabilitet). Det er således væsentligt, at der ikke anvendes forskellige standarder fra dag til dag. En måde at undersøge en observatørs evalueringskonsistens er fx ved at videotape en situation og lade ham bedømme denne med ugers mellemrum. Interrater reliabilitets-forskrifter rangerer fra 0,80 til 1 (Stewart, 1990, p. 7). Reproducerbarhedskoefficient (CR 5 ). Reproducerbarhedskoefficienten udtrykker graden ved hvilken en Guttman (kumulativ skala) skalascore giver mulighed for præcist at kende et individs responsmønster. Hvorvidt en skala i virkeligheden er kumulativ, er et empirisk spørgsmål og afhænger af de svarmønstre, man finder hos respondenterne. For Guttman skalaen er der sat en reproducerbarheds-koefficient på 0,90 eller mere for at kunne acceptere en skala som kumulativ. Denne kan beregnes ud fra følgende formel : 5 Coefficient of reproducibility 19

20 reproducerbarhed ne I N = 1, hvor N er antallet af individer, n er antallet af individer hvor der var fejl i rangordenen, og I er lig antallet af items. Af hensyn til fortolkningen af reproducerbarhedskoefficienten kan der endvidere udregnes en minimal marginal reproducerbarhedskoefficient (MMR), som er baseret på, at et items reproducerbarhed ikke kan være mindre end andelen af svar i dets modale kategori. Således kan den totale reproducerbarhed ikke blive mindre end summen af andele af svar i de modale kategorier for hvert item i en skala, divideret med antallet af items. Kravet til skalaegenskaber, baseret på MMR, er bl.a., at den skal have en størrelse, så det er muligt at se en forbedring i prædiktionen af responsmønsteret ved at benytte CR. Med andre ord skal MMR være lavere end CR (McIver og Carmines, 1981, p. 48) Hvornår er noget reliabelt? Stort set alle målinger indeholder en eller anden form for tilfældig fejl. Reliabilitetsmålet giver dog ikke umiddelbart nogen intuitiv tolkning af et givent fænomens reliabilitet, idet koefficienten ikke kan tages ud af en sammenhæng. At en reliabilitetskoefficient på 0,80 indikerer, at 20% af den observerede varians skyldes målefejl kan derfor i nogle situationer være tegn på et meget pålideligt instrument, mens det i andre tilfælde ikke er det. Det primære spørgsmål bliver derfor: Hvad er den mindste værdi, der kan accepteres, før noget accepteres som værende pålideligt i en given sammenhæng? Her er der ikke fuld enighed i litteraturen. En tommelfingerregel er dog, at den interne konsistens bør være højere end 0,8 (ifølge Stewart, 1990, kan en reliabilitet på 0,50 accepteres), og interrater reliabiliteten, intra-observer reliabiliteten og test-retest reliabiliteten bør være højere end 0,5 (Streiner, 1995, p. 7). Afhængigt af hvad det er, der undersøges, kan der dog i visse situationer kræves endnu højere koefficientværdier, ligesom populationsstørrelsen har en indflydelse herpå. Således kan store populationer bedre tåle mindre reliable instrumenter end 20

FORORD. Ask Elklit Professor, cand. psych.

FORORD. Ask Elklit Professor, cand. psych. FORORD Den empiriske tradition inden for psykologien har i en årrække stået relativt svagt herhjemme sammenlignet med de andre nordiske lande. I de senere år har interessen for diagnostik og dokumentation

Læs mere

Region Hovedstaden Enheden for Brugerundersøgelser Spørg brugerne

Region Hovedstaden Enheden for Brugerundersøgelser Spørg brugerne Region Hovedstaden Enheden for Brugerundersøgelser Spørg brugerne - en guide til kvalitative og kvantitative brugerunder søgelser i sundhedsvæsenet Enheden for Brugerundersøgelser Spørg brugerne - en guide

Læs mere

Brugerundersøgelser - Som man spørger, får man svar

Brugerundersøgelser - Som man spørger, får man svar Brugerundersøgelser - Som man spørger, får man svar Inddragelse af brugerne er væsentlig for at sikre og udvikle kvaliteten af de leverede ydelser. Der gennemføres traditionelle brugerundersøgelser, der

Læs mere

Navn: Søren Dissing Jensen. Studienr.: A100139. Fag: Idræt. Faglig vejleder: Torben Vandet. Pædagogisk vejleder: Henrik Madsen

Navn: Søren Dissing Jensen. Studienr.: A100139. Fag: Idræt. Faglig vejleder: Torben Vandet. Pædagogisk vejleder: Henrik Madsen Hvis du vil bygge et skib, skal du ikke kalde folk sammen for at tilvejebringe tømmer eller tilvirke redskaber. Du skal ikke uddelegere opgaver til dem eller fordele arbejdet, men du skal vække deres længsel

Læs mere

Grundlag og metode for måling, dokumentation og forbedring af sygeplejefaglig kvalitet

Grundlag og metode for måling, dokumentation og forbedring af sygeplejefaglig kvalitet SYGEPLEJEFAGLIG KLARINGSRAPPORT Grundlag og metode for måling, dokumentation og forbedring af sygeplejefaglig kvalitet Brug af kvalitetsmål og indikatorer Rapporten er udarbejdet af: Sussie Laustsen, Vibeke

Læs mere

Web-håndbog om brugerinddragelse

Web-håndbog om brugerinddragelse Web-håndbog om brugerinddragelse Socialministeriet Finansministeriet www.moderniseringsprogram.dk Regeringen ønsker at skabe en åben og lydhør offentlig sektor. Ved at tage den enkelte med på råd skal

Læs mere

Vejen ud. En interviewundersøgelse med tidligere prostituerede

Vejen ud. En interviewundersøgelse med tidligere prostituerede Vejen ud En interviewundersøgelse med tidligere prostituerede Publikationen er udgivet af Socialstyrelsen Edisonsvej 18, 1. 5000 Odense C Tlf: 72 42 37 00 E-mail: servicestyrelsen@servicestyrelsen.dk www.servicestyrelsen.dk

Læs mere

Sundhedsprofessionelles forståelser

Sundhedsprofessionelles forståelser Sundhedsprofessionelles forståelser af patientinddragelse En kvalitativ undersøgelse VIDENSCENTER FOR BRUGERINDDRAGELSE i sundhedsvæsenet VIDENSCENTER FOR BRUGERINDDRAGELSE i sundhedsvæsenet Sundhedsprofessionelles

Læs mere

Compliance & Concordance

Compliance & Concordance Compliance & Concordance Uddannelseshæfte til programmet Sikker og effektiv medicinbrug Version 1.2 Compliance og concordance Uddannelseshæfte til programmet Sikker og effektiv medicinbrug Version 1.2

Læs mere

Kvalitative forskningsmetoder i fysioterapi - en introduktion

Kvalitative forskningsmetoder i fysioterapi - en introduktion Kvalitative forskningsmetoder i fysioterapi - en introduktion Af Bente Hovmand fysioterapeut M Sc og Jeanette Præstegaard fysioterapeut M Sc Historien om en tåre Den unge pige bøjede hovedet. Øjnene blev

Læs mere

Sundhedsøkonomisk analyse af rygestopkurser. en opgørelse af vundne leveår og omkostninger

Sundhedsøkonomisk analyse af rygestopkurser. en opgørelse af vundne leveår og omkostninger Sundhedsøkonomisk analyse af rygestopkurser en opgørelse af vundne leveår og omkostninger Kim Rose Olsen Betina Højgaard Charlotta Pisinger Dorte Gyrd-Hansen Hanne Tønnesen Henrik Hauschildt Juhl Marie

Læs mere

ICF anvendt som kommunikations- og kvalitetsudviklingsværktøj i det tværfaglige og tværsektorielle samarbejde

ICF anvendt som kommunikations- og kvalitetsudviklingsværktøj i det tværfaglige og tværsektorielle samarbejde ICF anvendt som kommunikations- og kvalitetsudviklingsværktøj i det tværfaglige og tværsektorielle samarbejde - omkring patienter med kroniske lænderygsmerter Helbredstilstand eller sygdom Kroppens funktioner

Læs mere

Ulf Hjelmar, Lene Holm Pedersen og Mats Joe Bordacconi. Det unødige bureaukrati sammenhængen med motivation, innovation og organisatoriske forhold

Ulf Hjelmar, Lene Holm Pedersen og Mats Joe Bordacconi. Det unødige bureaukrati sammenhængen med motivation, innovation og organisatoriske forhold Ulf Hjelmar, Lene Holm Pedersen og Mats Joe Bordacconi Det unødige bureaukrati sammenhængen med motivation, innovation og organisatoriske forhold Publikationen Det unødige bureaukrati sammenhængen med

Læs mere

Når lederen også er coach

Når lederen også er coach Kandidatafhandling Copenhagen Business School 2012 Cand.Merc.HRM Ditte Jensen: Lea Jørgensen: Når lederen også er coach - Et casestudie af 6 lederes praksisbrug af ledelsesbaseret coaching og de tilhørende

Læs mere

Jeg har hiv, hiv har ikke mig

Jeg har hiv, hiv har ikke mig DET SAMFUNDSVIDENSKABELIGE FAKULTET KØBENHAVNS UNIVERSITET Jeg har hiv, hiv har ikke mig En undersøgelse af identitetsudvikling og anerkendelsesmuligheder blandt unge hivsmittede i Danmark Sisse Liv Lauesen

Læs mere

Monitorering af forekomsten af fedme

Monitorering af forekomsten af fedme Monitorering af forekomsten af fedme Monitorering af forekomsten af fedme En rapport fra Motions- og Ernæringsrådet Af Thorkild I. A. Sørensen (formand) Pernille Due Bente Hansen Berit L. Heitmann Anne

Læs mere

GOD ARBEJDSLYST INDEKS 2015

GOD ARBEJDSLYST INDEKS 2015 Rapport udarbejdet i et partnerskab mellem Krifa og Institut for Lykkeforskning i samarbejde med TNS Gallup GOD ARBEJDSLYST INDEKS 2015 En kortlægning af danskernes arbejdslyst INSTITUT FOR LYKKEFORSKNING

Læs mere

Hvidbog om mentalt helbred, sygefravær og tilbagevenden til arbejde

Hvidbog om mentalt helbred, sygefravær og tilbagevenden til arbejde Hvidbog om mentalt helbred, sygefravær og tilbagevenden til arbejde Vilhelm Borg, Mette Andersen Nexø, Ida Viktoria Kolte og Malene Friis Andersen DET NATIONALE FORSKNINGSCENTER FOR ARBEJDSMILJØ Sammenfatning

Læs mere

Eudaimonia som moderne lykkebegreb

Eudaimonia som moderne lykkebegreb Asger Abel Sørensen Susanne Nørregård Christensen Eudaimonia som moderne lykkebegreb Filosofi & Vidensekabsteori Eudaimonia som Moderne Lykkebegreb Asger Abel Sørensen Susanne Nørregård Christensen Vejleder:

Læs mere

12 skridt til fremme af sund kost og fysisk aktivitet den gode kommunale model. Anbefalinger på basis af litteraturen og lokale erfaringer

12 skridt til fremme af sund kost og fysisk aktivitet den gode kommunale model. Anbefalinger på basis af litteraturen og lokale erfaringer 12 skridt til fremme af sund kost og fysisk aktivitet den gode kommunale model Anbefalinger på basis af litteraturen og lokale erfaringer 81 Sund By Netværket 12 skridt til fremme af sund kost og fysisk

Læs mere

Forældres brug af tid og penge på deres børn. Jens Bonke

Forældres brug af tid og penge på deres børn. Jens Bonke Forældres brug af tid og penge på deres børn Jens Bonke Forældres brug af tid og penge på deres børn Rockwool Fondens Forskningsenhed og Syddansk Universitetsforlag 2009 GRAFISK TILRETTELÆGGELSE: Kim Lykke

Læs mere

Forskelle på drenge og pigers brug af arbejdsark på naturfaglige museer

Forskelle på drenge og pigers brug af arbejdsark på naturfaglige museer Forskelle på drenge og pigers brug af arbejdsark på naturfaglige museer - Et observationsstudie på Experimentarium og Danmarks Akvarium Professionsbachelorprojekt, RESUME Afleveret 22. 12. 2011 Indholdsfortegnelse

Læs mere

Sprogtilegnelse i teori og praksis

Sprogtilegnelse i teori og praksis Sprogtilegnelse i teori og praksis Hvordan lærer børn sprog? Sprog er et komplekst fænomen, og det kan virke som et mysterium, hvordan små børn lærer sprog. De skal inden for meget kort tid af sig selv

Læs mere

Den Kreative Platform

Den Kreative Platform Den Kreative Platform Søren Hansen & Christian Byrge Kreativitetslaboratoriet, Aalborg Universitet 2. udgave 2 Indholdsfortegnelse Indholdsfortegnelse........................................................................................................................................................

Læs mere

Frafald på professionsbacheloruddannelserne

Frafald på professionsbacheloruddannelserne Kræn Blume Jensen, Christophe Kolodziejczyk og Torben Pilegaard Jensen Frafald på professionsbacheloruddannelserne Hvordan klarer uddannelsesinstitutionerne sig? Publikationen Frafald på professionsbacheloruddannelserne

Læs mere

12.1 Kollektiv etnografi... 47 12.2 Fra teori til empiri... 49 12.3 Erfaringer fra pilotetnografien... 51 13. Konklusion... 51 14.

12.1 Kollektiv etnografi... 47 12.2 Fra teori til empiri... 49 12.3 Erfaringer fra pilotetnografien... 51 13. Konklusion... 51 14. Indholdsfortegnelse 1. Indledning... 3 2. Problemfelt... 3 3. Problemformulering... 4 4. Metode... 4 5. Hvad er etnografi?... 5 6. Etnografi i historisk perspektiv... 9 7. Feltarbejdet... 12 7.1 Deltagerobservation...

Læs mere

af Sarah Midtgård Grau

af Sarah Midtgård Grau Kandidatspeciale En kvalitativ undersøgelse om sygeplejerskers brug af kliniske retningslinjer og fremmende faktorer for anvendelsen af forskningsbaseret viden i praksis af Sarah Midtgård Grau Publikation

Læs mere

Erkendelsens betydning for skolen og samfundet

Erkendelsens betydning for skolen og samfundet Erkendelsens betydning for skolen og samfundet - brudstykker til en forståelse Speciale ved kandidatuddannelsen i pædagogisk filosofi Af Niels Jakob Pasgaard Vejleder: Thomas Aastrup Rømer Skriftligt speciale,

Læs mere

TRIVSEL, SUNDHED OG SUNDHEDSVANER BLANDT 16-20-ÅRIGE I DANMARK

TRIVSEL, SUNDHED OG SUNDHEDSVANER BLANDT 16-20-ÅRIGE I DANMARK TRIVSEL, SUNDHED OG SUNDHEDSVANER BLANDT 16-20-ÅRIGE I DANMARK Forfattere: Sociolog Susanne Aaen (aaen@cancer.dk) & PhD. Gert Allan Nielsen (gnielsen@cancer.dk) Copyright Kræftens Bekæmpelse og Sundhedsstyrelsen,

Læs mere