Metoder og instrumenter til resultatmåling af indsatser over for demente psykometriske begreber

Størrelse: px
Starte visningen fra side:

Download "Metoder og instrumenter til resultatmåling af indsatser over for demente psykometriske begreber"

Transkript

1 Metoder og instrumenter til resultatmåling af indsatser over for demente psykometriske begreber Charlotte Horsted Terkel Christiansen Health Economics Papers 2004:3

2 Indhold Instrumenter til måling af sundhedsstatus og effektvurdering Måling af sundhedsstatus eller sundhedsudfald? Formålet med at måle sundhed Operationalisering og måling af sundhed Videnskabelige overvejelser i forbindelse med målingen af sundhed Reliabilitet (pålidelighed) Hvornår er noget reliabelt? Validitet (gyldighed) Diskriminationsstyrke og følsomhed Følsomhed over for ændringer Tekniske aspekter af mål for sundhedsstatus og sundheds-udfald Generiske versus sygdomsspecifikke mål En- versus flerdimensionale mål Et eller flere items Profiler versus indeks Numeriske sundhedsestimater: Skaleringsmetoder Vægtningsteknikker fra items til skala Praktiske overvejelser Valg af instrument opsummering Litteraturliste:...44 Sekundær litteratur...45 Bilag 1: Klassisk vs. klinimetrisk psykometrisk skala-analyse.48 Bilag 2: Ordliste...57

3 Forord Projektet Metoder og instrumenter til effektvurdering af indsatser over for demente er finansieret af Servicestyrelsen (Styrelsen for social service, socialministeriet) og er udført i et samarbejde mellem CAST (Center for Anvendt Sundhedstjenesteforskning og Teknologivurdering) og Forskningsenheden for Sundhedsøkonomi, IST (Institut for Sundhedstjenesteforskning), ved Syddansk Universitet, Odense. Der eksisterer i dag et stort antal metoder og instrumenter med det angivne formål at kunne vurdere og/eller måle effekten af en indsats over for demensramte. Formålet med projektet har været at give potentielle brugere en oversigt derover og i tilknytning hertil at beskrive instrumenternes egenskaber, så det bliver muligt at bedømme instrumenternes egnethed til et givet formål. Projektet afrapporteres ved 4 publikationer, som alle er tilgængelige på: 1) Charlotte Horsted og Terkel Christiansen. Metoder og instrumenter til effektvurdering af indsatsen over for demente en oversigt. Syddansk Universitet: Health Economics Papers 2004:2 2) Charlotte Horsted og Terkel Christiansen. Metoder og instrumenter til effektvurdering af indsatsen over for demente psykometriske begreber. Syddansk Universitet: Health Economics Papers 2004:3 3) Charlotte Horsted og Terkel Christiansen. Metoder og instrumenter til effektvurdering af indsatsen over for demente gennemgang og beskrivelse af instrumenterne. Syddansk Universitet: Health Economics Papers 2004:4 4) Charlotte Horsted. Vurdering af generiske livskvalitetsinstrumenter deres kvaliteter i forbindelse med anvendelse på demensramte. Syddansk Universitet: Health Economics Papers 2004:5. Den førstnævnte publikation indeholder en kortfattet oversigt over de metoder og instrumenter, der mere uddybende er gennemgået i den tredje publikation. Formålet med rapporten er at give læseren et hurtigt overblik over instrumenternes egenskaber dvs. anvendelse, antal items, håndtering, håndteringstid samt vurdering af instrumenternes reliabilitet og validitet. Den anden publikation indeholder en beskrivelse af nogle af de metoder og kriterier, som anvendes ved kvalitetsvurdering af instrumenter. En vis forståelse herfor kan være væsentlig for læsning af den tredje publikation. Den indeholder desuden en ordliste over de mest anvendte begreber i rapporterne. Den tredje publikation er en bilagsrapport til den første. Rapporten indeholder en gennemgang og beskrivelse af de udvalgte ca. 70 instrumenter. Fokus er på instrumenternes formål, deres begrebslige grundlag og psykometriske egenskaber (validitet, reliabilitet samt følsomhed over for ændring). Den fjerde publikation indeholder en beskrivelse af de mest almindelige generiske livskvalitetsinstrumenters egenskaber i forbindelse med anvendelse på demensramte individer. Dette drejer sig om instrumenterne DUKE, EQ5D, HUI, SIP, 15D, SF-36, QWB.

4 En stor tak til overlæge Kirsten Abelskov, Gerontopsykiatrisk afdeling i Århus Amt og professor, dr. med. Per Bech, Stressklinikken, Hillerød Sygehus, for deres kommentarer til rapporterne. Ligeledes tak til Charlotte Bruun Pedersen og Marie Holmgaard Kristiansen for korrekturlæsning og opsætning. Evt. resterende fejl og mangler er alene forfatternes. Forskningsassistent, Charlotte Horsted Professor Terkel Christiansen Syddansk Universitet

5 Instrumenter til måling af sundhedsstatus og effektvurdering Vurderingen af demensramtes sundhedsstatus, eller om en indsats over for individer med demens har en effekt eller ej, kan vanskeligt måles ved hjælp af traditionelle målemetoder som fx en måling af blodtrykket eller andre former for biomedicinske indikatorer, som kan observeres objektivt. I stedet må der tyes til andre metoder for at fremskaffe den nødvendige viden. Måling af mental status og kognitiv funktion 1 har længe været en del af den kliniske praksis, især i forbindelse med geriatrien, idet det især er blandt de ældre, man oplever kognitiv svækkelse. Epidemiologiske studier af demens og sundhedsundersøgelser for at undersøge den reelle kognitive svækkelse er dog først kommet til senere. Det skyldes, at individer lever længere i dag, hvilket forøger antallet af individer, der får kognitive funktionsproblemer (McDowell, 1996, p. 287, Sundhedsstyrelsen, 2001, p. 37). Formålet med at undersøge ændringerne i den kognitive funktion hos de demente er blandt andet: At følge det enkelte individs udvikling, dvs. de intra-personelle ændringer over tid At kunne evaluere den (sundheds)behandling, der tilbydes de demente At kunne sammenligne forskellige behandlingstyper og undersøge forskelle i udfaldet mellem grupper Begrebet kognitiv funktion er et begreb med mange facetter, hvorfor der ikke eksisterer en simpel operationalisering heraf, som er dækkende. Kognitiv funktion spænder vidt: Fra mild svækkelse (husker måske knapt så godt mere, forringet koncentrationsevne mv., som er en mulig følge af den almindelige ældningsproces) til en situation, hvor den demente faktisk ikke kan noget selv mere; hukommelsen 1 Ordet kognitiv betyder at opfatte, forstå, vide, og de kognitive funktioner vedrører funktioner med erkendelse, opfattelse og tænkning. 5

6 er væk, koncentrationsevnen er lav, den pågældende kan ikke tage vare på sig selv, og er måske ude af stand til at kommunikere meningsfuldt med omgivelserne. I de allersværeste tilfælde reagerer personen eventuelt kun på stimuli i form af berøring, lys eller lyde kendetegn ved meget svær demens). Demens medfører således en gradvist progredierende svækkelse af intellekt, følelsesliv og adfærd. Demens er en betegnelse for tab af kognitive færdigheder i en grad, så det går ud over personens dagligdagsfunktioner. Indholdet i de fleste tests af mental status er en vurdering af individets opfattelse af tid og sted, koncentrations- og opmærksomhedstests samt hukommelsestests for både kort- og langtidshukommelsen (McDowell, 1996, p.288). Anvendelsen af tests af mental status er især begrundet med, at man her har at gøre med den facet af demens, der kan måles mest objektivt, á la de biomedicinske instrumenter. Den kognitive svækkelse er dog ikke det eneste relevante kendetegn ved demens, hvorfor andre områder tillige ofte s analyseres i forbindelse med demensstudier. For at opnå en bedre oversigt over effekten af en behandling af patienter med Alzheimers eller andre demensformer vil områder, så som almindelig daglig levevis (ADL), adfærd, plejetyngde og livskvalitet være mulige områder, der ligeledes kan undersøges nærmere. Der eksisterer i litteraturen et utal af instrumenter, hvormed man kan forsøge at måle disse effekter. Faren for at vælge et uegnet instrument er dog nærliggende, idet det kan være vanskeligt at vurdere, hvilket instrument der er mest hensigtsmæssigt at anvende i en given kontekst. Hvert instrument har dets egne fordele og ulemper, hvorfor det er væsentligt, at det instrument, man anvender, udvælges med omhu, så de resultater, man opnår, er relevante, troværdige og informative for formålet med undersøgelsen (Schneider, 2001, p. S8). I indeværende notat vil nogle af de vigtige problemstillinger, som man generelt skal være opmærksom på og tage stilling til i forbindelse med valg af instrumenter 6

7 til effektvurdering, blive gennemgået. I denne forbindelse er det af betydning at kende de egenskaber, instrumentet besidder, hvorvidt det er reliabelt og validt, om det evt. kan anvendes til at måle ændringer over tid. Det skyldes, at ikke alle instrumenter er lige følsomme (sensitive), hvorfor ikke alle instrumenter er lige egnede til at måle ændringer i sundhedsstatus. Notatet er et teoretisk notat, der begynder med en definition af begreberne sundhedsstatus og sundhedsudfald, idet disse ofte i litteraturen anvendes i flæng. Notatet indeholder i øvrigt både videnskabelige overvejelser i forbindelse med måling af sundhed og tekniske aspekter i forbindelse med målinger Måling af sundhedsstatus eller sundhedsudfald? En væsentlig overvejelse i forbindelse med valg af instrument er, hvad det egentlig er, man ønsker, der skal måles. Er det sundhedsstatus (health status) eller sundhedsudfaldet (health outcome), der ønskes målt? Problemet med at skelne mellem de to begreber er, at de to begreber i litteraturen ofte anvendes i flæng på trods af, at der er en forskel mellem begreberne. Sundhedsstatus skal således forstås som et øjebliksbillede af et individs sundhed og velvære, mens sundhedsudfald defineres som en ændring i et individs sundhed og velfærd som følge af (fx) en intervention, eller som følge af mangel på (korrekt) pleje (Bentzen et al, 1998, p. 27). Dvs., at sundhedsudfaldsmålet refererer til forskellen mellem to målinger af sundhedsstatus. Et instrument, skabt til at måle et individs sundhedsstatus på et givet tidspunkt, vil ikke nødvendigvis kunne anvendes til at måle ændringen deri som følge af en intervention, idet det måske ikke er tilstrækkeligt følsomt. Valg af egnet instrument er således særligt vigtigt i interventionsstudier, idet spørgsmålet er, hvorvidt man måler det, der kan ventes (og ønskes) påvirket. 7

8 1.2. Formålet med at måle sundhed Hvorvidt man ønsker at måle sundhedsstatus eller forskellen deri, mellem to målinger (sundhedsudfald), afhænger således af formålet med en given analyse. For beslutningstagere vil populationens nuværende sundhedstilstand være væsentlig for en bedømmelse af, hvor der skal sættes ind i fremtiden: her vil det være relevant at undersøge individernes nuværende sundhedsstatus. For udøvere af en behandling, forskere mv., der gerne vil vide, hvorvidt en sundhedsintervention har en effekt, vil fokus derimod være på instrumenter, der kan anvendes til at måle sundhedsudfaldet af interventionen. Der findes også instrumenter til andre formål. Visse instrumenter er designet som diagnostiske redskaber. I forbindelse med diagnosticeringen af demens gælder dette fx instrumentet MMSE 2 (Mini-Mental-Status-Examination, Folstein et al., 1975), der består af en række simple spørgsmål, instrumentet CAMCOG (Roth et al., 1986) samt urskivetesten, der består i at en patient skal tegne og indsætte timetal i en urskive. Lægen kan, ud fra patientens besvarelse, samt grundigt kendskab til patientens sygehistorie, bedømme, hvorvidt patientens forringede hukommelse muligvis skyldes demens eller ej, og om yderligere undersøgelser (fx CT-skanning af hjernen) skal foretages. Overordnet set kan evalueringen af sundhedsstatus og sundhedsudfald udføres på tre niveauer: 1) Mikroniveauet. Vedrører det enkelte individ. Målingen udgør en kvantitativ vurdering af et individs udvikling og af effekten af den behandling, individet får. Det målte udfald kan anvendes som en vejledning for klinisk beslutningstagning, evaluering af effekter og bivirkninger, eller forudsigelse af en prognose. 2 Er oprindeligt tiltænkt blot at være et screeningsinstrument, men anvendes ofte i forbindelse med diagnosticeringen af mulige demente. 8

9 2) Mesoniveauet. Repræsenterer en gruppe af individer. Formålet er her at beskrive og sammenligne effektiviteten af forskellige behandlinger eller forskellige sundhedsprogrammer på definerede populationer fx undersøge behandlingens indflydelse på disses funktionsmæssige evner, eller deres velvære. 3) Makroniveau. Repræsenterer hele samfundet. Her er det omkostningseffektivitet, der er i fokus. Formålet er således at evaluere omkostningseffektiviteten eller nytten ved udbudte sundhedsbehandlinger. Dette kræver en mere generisk tilgang. (Ferreira et al., 1997, p. 30) 1.3. Operationalisering og måling af sundhed I de foregående afsnit er begrebet sundhed nævnt flere gange men hvad menes der egentlig med begrebet sundhed, og sundhed i forbindelse med demens? Såfremt man skal anvende et instrument til måling af heraf, må dette være baseret på en specifikt begrebsmæssig tilgang hertil. WHO definerer sundhed som a state of complete physical, mental and social well-being and not merely the absence of disease (WHO, 1958). WHO s definition vedrører en idealtilstand, der sjældent er opnåelig. Definitionen påpeger, at sundhed er et begreb med mange aspekter. Bl.a. kan sundhed indeholde aspekter vedrørende den kliniske status (tegn, symptomer, diagnosekategorier, biokemiske og psykologiske betingelser) eller den funktionsmæssige status (fysisk, kognitiv, psykologisk og social udfoldelse). I forbindelse med demens er en ofte overset dimension af sundhed de dementes livskvalitet og forbedringer heraf. Dette aspekt er relevant, idet det identificerer væsentligheden af udfald udover fysiske og mentale ændringer, ligesom det rejser etiske og filosofiske problemstillinger (jf. bl.a. Brod et al, 1999, Hughes et al., 2003). Definitionen af livskvalitet er dog ofte meget bred, hvilket WHOs definition er et godt eksempel på: an individual s 9

10 perception of their position in life in the context of the culture and value systems in which they live and in relation to their goals, expectations, standards and concerns. It is a broad ranging concept affected in a complex way by the person s physical health, psychological state, personal beliefs, social relationships and their relationship to salient features of their environment (WHO 2003). Definitionen forudsætter, at individer har intellektuel kapacitet til at varetage komplekse, subjektive vurderinger af eget liv. Der kan dog sættes spørgsmålstegn ved de dementes evner i denne henseende især er det et problem, hvor grænsen går mellem at være i stand til at vurdere eget liv, og hvornår man ikke længere kan. Hvilke områder, der bliver relevante at fokusere på i forbindelse med effektvurderinger af indsatser over for personer med demens, afhænger derfor af definitionen af sundhed, herunder livskvalitet, man lægger til grund herfor. Måling af sundhed finder ofte sted som en indirekte proces, der medfører anvendelse af en standard skala på hvert aspekt, hvormed man opnår en numerisk score for det pågældende aspekt af begrebet sundhed. Disse scorer kan evt. efterfølgende kombineres til en fælles score for sundhed - et såkaldt indeks - eller man kan bibeholde de enkelte scorer, som tilsammen udgør en profil. Dette uddybes i afsnit Sundhed er et begreb, der sjældent kan beskrives med kun en enkel parameter, men i stedet beskrives ved at anvende en række forskellige parametre, der hver især repræsenterer et element af begrebet sundhed. Hvilke parametre, der anvendes, afhænger af, hvorvidt man søger at besvare spørgsmål om den generelle sundhedstilstand eller om specifikke aspekter af sundhed. I forbindelse med udvælgelse af et instrument er det således væsentligt, at man præcist ved, hvem målepopulationen er, idet det ikke er sikkert, at et instrument, dannet til at vurdere sundhedsstatus eller sundhedsudfald i den generelle population (generiske mål), vil kunne anvendes på en specificeret delpopulation heraf fx på individer med 10

11 demens. Her vil det ofte være mere relevant at anvende et situationsbetinget mål. Ligeledes kan man ikke nødvendigvis anvende et instrument, udviklet til vurdering af sundhedsudfald for individer med demens, som fortsat er bosat hjemme, i andre omgivelser - fx for individer med demens bosat på plejehjem - idet konsekvenserne af sygdommen kan være forskellig, da der måske ikke er samme professionelle hjælp i hjemmet som på et plejehjem. Det er heller ikke sikkert, at instrumenter, udviklet til brug i ét land, direkte kan oversættes til brug i andet land, idet der kan være kulturelle forskelle, som spiller ind på anvendeligheden af instrumentet. Her er det nødvendigt med en korrekt oversættelse af instrumentet med bevarelse af den oprindelige mening, og en gentestning af instrumentets reliabiliet og validitet, inden det kan anvendes. Dette uddybes i afsnit Grundlæggende set er det væsentligt, at man i forbindelse med udvælgelsen af et instrument vælger, så denne indeholder de aspekter af sundhed, der er relevante i målepopulationen, samt den situation/de omgivelser, de befinder sig i. Et andet forhold, der skal tages højde for i forbindelse med valg af instrument, er, hvorvidt man ønsker at måle positive aspekter ved sundhed, fx psykologisk velvære og funktionelle evner, eller negative aspekter så som angst, depression og funktionel begrænsning (McColl et al, 1997, p.14). Endvidere er nogle instrumenter designet til at fremkomme med faktuelle resultater, mens andre måler fx intentionelle eller fortolkende informationer. Fx kan funktionelle statusskalaer enten anvendes til at måle hvorvidt en aktivitet faktisk er eller kan blive udført. Eksempelvis kan man spørge, om en mild dement selv finder vej til nærmeste købmand, eller om vedkommende ville kunne gøre det, om han eller hun blev bedt derom. Det er også forskelligt hvem, der har været med til at udvikle instrumenterne, og dermed vil perspektivet være forskelligt. Visse instrumenter og metoder er udviklet 11

12 ud fra et rent professionelt perspektiv mens andre vedrører målinger set fra patientens eller de pårørendes perspektiv.. Det er derfor væsentligt at få en klargøring af det begrebsmæssige grundlag for målingen af sundhed, inden det måles Videnskabelige overvejelser i forbindelse med målingen af sundhed I forbindelse med valg af instrumenter er det ikke nok blot at definere målet for udfaldsvurderingen og det begrebslige grundlag for måling af sundhed fokus på instrumentets videnskabelige eller psykometriske egenskaber er ligeledes yderst relevant. De psykometriske egenskaber vedrører grundlæggende kvaliteten af instrumentet: om man kan stole på de resultater, der opnås med instrumentet, samt om instrumentet faktisk måler det, det har til hensigt at måle. Der findes en række statistiske metoder til validering af instrumenter, og der foreligger efterhånden en vis konsensus om hvilke statistiske metoder, der som et minimum bør inddrages i valideringen deraf. Dette gør det lettere at sammenligne forskellige instrumenters pålidelighed og gyldighed, idet disses kvaliteter ofte vil være afprøvet efter stort set samme mønster. De efterfølgende afsnit er centrale, da de giver et billede af nogle af de metoder og kriterier, som anvendes ved kvalitetsvurdering af målingsinstrumenter. Egenskaberne, der skal vurderes, er: reliabiliteten, validiteten, diskriminationsevne og følsomhed over for ændring. 12

13 Reliabilitet (pålidelighed) Reliabilitet referer til reproduktionsegenskaben, dvs. instrumentets evne til at nå det samme resultat ved gentagne målinger. Hvis man tager et individs temperatur med 5 minutters mellemrum med samme termometer, må man forvente, at denne viser samme resultat. Hvis termometeret det ene øjeblik viser 36,5 C, det næste øjeblik 37,5 C for derefter det næste øjeblik at vise 37 C, er der tilsyneladende en vis tilfældig variation i resultaterne ved brug af det pågældende termometer. Med andre ord, instrumentet er ikke pålideligt, og termometeret bør derfor kasseres. På samme måde bør et instrument ikke anvendes, hvis det ikke har en acceptabel pålidelighed. Der er mange kilder til målefejl, og der eksisterer ikke kun én måde at udtrykke reliabiliteten på. De antagelser, der grundlæggende er indeholdt i reliabilitetsteorien, er, at enhver observeret score består af to komponenter: en sand score - det, der skal måles (er i virkeligheden ukendt) - og en tilfældig 3 målefejl som mulig følge af unøjagtigheder i instrumentet. Hvis fejlen er lille, er observationerne reliable. Hvis den er stor, har vi en dårlig reliabilitet. Det, man derfor er interesseret i at vide, er fejlens størrelse i forhold til den sande værdi. Det kan bemærkes, at reliabiliteten vil stige, når den sande variation stiger og fejlvariationen mindskes. Ordet reliabilitet bruges således som en generel betegnelse for datas pålidelighed. Reliabilitet bruges dog også som et mere specifikt teknisk udtryk, der referer til korrelationen mellem sæt af observationsværdier fx to eller flere individers bedømmelse af et antal objekter. Her står reliabiliten i modsætning til begrebet enighed, og denne sondring er væsentlig, idet man godt kan have en høj reliabilitet, men en ringe enighed. Denne 3 Normalt inddeles målefejl i to typer, en tilfældig og en systematisk målefejl (eller bias). I forbindelse med reliabilitet er det kun de tilfældige målefejl, der fokuseres på, idet den systematiske bias ikke har nogen indvirkning på reliabiliteten af instrumentet, da det er en bias konsistent i samme retning (Stewart, 1990, p. 5). De systematiske målefejl henhører i stedet til validitetsproblematikken. 13

14 situation kan fx opstå ved, at der er en systematisk bias i den ene observatørs vurdering af en situation, så denne konsekvent bedømmer fx et punkt anderledes på en skala end en anden observatør. Korrelation mellem de to observatører er lig 1, som er lig perfekt reliabilitet - dette til trods for at der ikke er enighed mellem de afgivne bedømmelser. Tabel 1. Forskellige korrelations- og enighedsmål. Type Beskrivelse Korrelation Korrelation (r) er et mål, som indikerer graden af lineær sammenhæng mellem to eller flere observationssæt. Der er forskellige formler, der kan bringes i anvendelse til estimeringen af korrelationens styrke; i hvert tilfælde er de indordnet mellem -1 og +1. En korrelation tæt på nul indikerer, at der ingen sammenhæng er mellem observationerne. Idet korrelationen stiger, bliver det muligt bedre at forudsige den anden observations værdi ud fra et kendskab til den første. Den formel, der oftest anvendes er Pearson s r, der er egnet til data målt på interval- eller rationiveau. Kendall s tau og Spearman s rho korrelationer kan anvendes til at udtrykke sammenhængen mellem variable målt på ordinalt niveau, og kaldes rangordningskorrelationer. Intraklasse I forbindelse med testning af et instruments reliabilitet kan korrelation korrelationskoefficienter, så som Pearson s r, anvendes til at (ICC) sammenligne to observatørers vurdering af et antal patienter. Intraklasse korrelation generaliserer denne procedure og udtrykker enigheden mellem flere end to observatører. I modsætning til Pearson s korrelation er intraklasse korrelation et mål for enighed, der viser den gennemsnitlige overensstemmelse mellem observatørers faktiske score på de observationer, der sammenlignes. Enighed Cohen s Kappa er en koefficient for graden af enighed mellem to observatører. Den kan anvendes på dikotone variable eller variable med flere kategorier. Kappaudregnes som den diagonale sum af relative hyppigheder, justeret for forventede værdier, og standardiseret med den maksimale værdi. Den udtrykker således graden af enighed, som er observeret udover det niveau, der ville være forventet ved en tilfældig fordeling i en bivariat tabel, givet marginalfordelingen. En formel for kappa er: κ = (p 0 p c )/(1 - p c ), hvor p 0 er den observerede andel af enighed og p c er den enighedsandel, der er forventet ved tilfældighed. Tilfældighedsenighed kan forstås som den enighed, der ville opstå hvis en observatør blot gættede eller lod en mønt bestemme vurderingen. p c er fastsat på følgende vis: p c = p 1 p 2 + (1 p 1 ) (1 14

15 p 2 ), hvor p 1 er sandsynligheden, og p 2 er den ækvivalente sandsynlighed for den anden observatør. Selvom spændevidden af Kappa ligger i området 0 til 1, er dets øvre grænse begrænset af instrumentets sensitivitet og specificitet. Cohen s Kappa anvendes, hvis items er nominal eller ordinalt skalerede. Undertiden udregnes en vægtet kappa, hvor afstande fra diagonalen vægtes med en eller anden valgt vægt. Et andet mål for associationsgraden mellem to binære variable er Phi koefficienten. Fortolkningsmæssigt er resultatet lig korrelationskoefficienten. Når der tales om reliabilitet, skelner man traditionelt set mellem fire begreber. Disse er: test-retest reliabilitet, intern konsistens, interrater reliabilitet, og reproducerbarhed (CR) og hver af disse reliabilitetstests fremkommer med forskellige koefficienter for reliabiliteten. Tabel 2. Oversigt over de mest almindelige reliabilitetstyper Reliabilitetstype Definition/beskrivelse Anvendelig for Test-retest Graden af overensstemmelse mellem to målinger af det samme fænomen under den forudsætning, at fænomenet ikke har ændret sig. Test-retest reliabilitet siger noget om en tests eller et instruments stabilitet over tid. Svarer til intra-rater reliabilitet. Intern konsistens (fx målt ved Cronbach s alpha se iøvrigt bilag 1) Inter-rater Reproducerbarhedskoefficient Kilde: Stewart (1990, p.7) Graden hvori alle items i skalaen måler det samme underliggende begreb, eller konvergensen af items på det begreb, der måles. Koefficienten stiger jo mere homogene items bliver, ligesom den stiger, jo flere items, der medtages i skalaen. Graden ved hvilken en observatørs vurdering er konsistent med en anden observatørs vurdering i samme måleseance. Reflekterer graden ved hvilken en persons item respons kan forudsiges fra kendskab til deres Guttman skalascore. Alle målingstyper (dvs. både single- og multi-itemsskalaer) Multi-item (Likert skalaer) Observatørvurderede målinger Guttman skalaer 15

16 Test-retest reliabilitet. De samme undersøgelsesenheder (individer) udsættes for den samme måling to gange i træk, og korrelationen mellem de 2 sæt måleresultater bestemmer reliabiliteten. Test-retest reliabiliteten angiver således et måleinstruments evne til at producere konsistente resultater, når måleinstrumentet benyttes igen under samme betingelser. Test-retest reliabiliteten af en skalas scorer har en tendens til at være højere end reliabiliteten af de enkelte items (McColl et al, 1997, p. 16). Resultatet angiver således stabiliteten eller manglen på samme. Der findes ingen faste regler for tidsrummet mellem de to besvarelser, og denne kan derfor variere på tværs af valideringsundersøgelser. Hvis der er for kort tid mellem besvarelserne, kan respondenterne måske huske besvarelserne på første måling, og det kan resultere i en meget høj korrelationskoefficient, som måske ikke afspejler instrumentets faktiske pålidelighed. Omvendt gælder, at hvis varigheden mellem de to besvarelser er relativ lang, kan der være sket en faktisk ændring (fx i velværen, livskvaliteten eller i et andet parameter). En lav test-retest korrelation over lang tid er således ikke nødvendigvis udtryk for en lav reliablilitet, men kan være udtryk for, at instrumentet er følsomt over for ændringer. Der kan derfor opstilles to betingelser for test-retest undersøgelsen: at disse skal udføres med et tidsinterval, der gør, at respondenterne ikke kan huske besvarelserne, men indenfor en tidsperiode, så tilstanden ikke er forværret/ændret. Hvis disse forudsætninger ikke er opfyldte, giver beregningen af test-retest korrelationskoefficienterne ingen mening. Intern konsistens. En anden ofte anvendt metode til vurderingen af instrumenters reliaibilitet er udregningen af graden af overensstemmelse mellem spørgsmål, som hævder at måle det samme - også kaldet skalaens interne konsistens. Intern konsistens reliabilitet anvendes kun for multiitem Likert skalaer, som fremkommer ved at addere flere items, som har en lignende responsskala (Stewart, 1990, p. 6). Mål for intern konsistens er baseret på en enkel gennemførelse af testen. Her korrelerer man spørgsmål, der adresserer samme dimension. Det forventes, at 16

17 resultaterne for hvert af spørgsmålene vil korrelere med hinanden, såfremt disse er placeret korrekt i samme skala. Grundlæggende er det homogeniteten af de forskellige items, man ønsker at undersøge for, dvs. i hvilken grad de forskellige items i en skala måler den samme egenskab. Homogenitet kan måles med: split halves, Kuder-Richardson, eller Cronbach s alpha, alternativt kan det måles med item-total korrelationer eller faktoranalyse. Tabel 3. Reliabilitetstests intern konsistens Metode Beskrivelse af metoden Split halves Et begreb undersøges med flere indikatormålinger (items/spørgsmål) og korrelationen mellem svarene på eksempelvis spørgsmål med lige nummer og svarene på spørgsmål med ulige nummer beregnes som et udtryk for reliabiliteten. Hvis skalaen er intern konsistent, skulle de to halvdele korrelere højt med hinanden. Et problem ved denne tilgang er, at korrelationen er en underestimering af skalaens reliabilitet, idet reliabiliteten af en skala er direkte proportional med antallet af items (observationer), der er indeholdt deri. Reliabilitetskoefficienten for den interne konsistens afhænger således af: graden, hvori items har noget fælles, samt antallet af items i skalaen. Ved et split halveres længden heraf. Dette kan dog korrigeres med Sperman-Browns prophesy formel (jf. fx Streiner, 1995, p. 63). Et af problemerne med denne test er dog, at der er mange måder, hvormed man kan dele, samt denne metode ikke siger noget om, hvilke(n) items der er med til at give en evt. lav reliabilitet. Kuder- Denne test tager hånd om problemerne ved ovenstående tests. Richardson 20 Den er anvendelig for skalaer indeholdende items, som besvares (KR-20) dikotomt. Cronbach s alpha (koefficient α) Formlen for Kurder-Richardson er: KR 20 = n n σ T pq i i hvor n er antallet af items, p i er andelen, som svarer korrekt på spørgsmål i, q i = (1-p) for hvert item, og σ T er standardafvigelsen på den totale score (Streiner, 1995, p. 64). Cronbachs alpha er en udvidelse af Kuder-Richardson testet, der kan anvendes, hvis der er mere end to responsalternativer. Såfremt alpha anvendes på dikotome udfald, vil resultatet være lig det resultat, Kuder-Richardson fremkommer med. Formlen, 17

18 Item-total korrelationer Multifaktor egenskaber for Cronbachs alpha er: α = 2 n σ i n 1 1 σ T 2. Begrebsmæssigt giver Kuder-Richardson og Cronbach s alpha gennemsnittet af alle mulige split-halve reliabiliteter af en skala. Hvis et item udelades, og alpha stiger, er dette ensbetydende med, at skalaens homogenitet ligeledes stiger. Der er dog problemer ved anvendelsen af Cronbach s alpha, hvorfor man ikke ukritisk bør accepterer høje alphaværdier. Det skyldes, at: alpha er afhængig af antal items i skalaen. Dvs. man opnår et mere homogent resultat ved at fordoble antallet af items, selvom korrelationen forbliver den samme. Det skyldes, at standardafvigelsen bliver mindre, hvorfor man får et mere akkurat estimat af middelværdien. en sammensætning af to skalaer, som undersøger noget forskelligt, kan resultere i en høj alpha. en (for) høj alpha kan være tegn på høj grad af item overflødighed; at der er for mange items, som stiller samme spørgsmål på forskellig vis (redundans). Hvis item interkorrelationer holdes på et moderat niveau, vil hvert item tillægge ny information til skalaen. En tommelfingerregel siger, at for en optimal reliabilitet bør alpha ikke være under 0,70, men heller ikke over 0,90 (Streiner, 1995, p. 65; McColl et al, 1997, p. 16). Grundlæggende set accepteres værdier helt ned til 0,50 dog som værende evidens for tilfredsstillende intern-konsistens reliabilitet (Stewart, 1990, p. 6). En anden anvendt indikator for intern konsistens er anvendelsen af item-total korrelationer. Homogenitet blandt items er som beskrevet nødvendig, såfremt alle items skal opfange forskellige aspekter ved den samme attribut. De forskellige items skal derfor ikke blot korrelere med hinanden (til en vis grad), men det enkelte item skal også korrelere med den totale skala score, hvor det specifikke item, hvis korrelation ønskes undersøgt, er udeladt fra den totale score 4. En tommelfingerregel er, at item-total korrelationer bør overstige 0,2 (McColl, 1997, p. 16, Streiner, 1995, p. 62), ellers bør den ikke medtages. Her er det således muligt at finde de items, der er med til at give en lav reliabilitet. Såfremt instrumentet er en del af en opgørelse bestående af flere skalaer (multifaktor eller multidimentionale opgørelser), eksisterer andre og mere sofistikerede (udvidede) analytiske 4 Anvendelse af Person s product-moment korrelation er, ifølge Streiner (1995, p. 62), den bedste koefficient at anvende. 18

19 teknikker til at undersøge for den interne homogenitet. Udvidelse af item-total proceduren: I item-total procedueren bliver et item korreleret med dets egen skalatotalscore. I den udvidede procedure bliver itemet ligeledes korreleret med totalen af de øvrige skalascorer i instrumentet. Da itemet ikke tilhører disse skalaer, bør denne korrelation være mindre end korrelationen med egen skala. Faktor analyse (bør ikke anvendes på dikotome udfald), hvor hvert item behandles som en individuel test. Hvert item skulle gerne korrelere med den skala, den tilhører, og ingen af de øvrige skalaer. Hvis den korrelerer med flere skalaer, eller blot med en forkert skala, er det sandsynligt, at itemet opfanger noget andet, end hensigten var hermed. Inter-rater reliabilitet. For observatør- og interview-baserede mål er det væsentligt, at der er en høj overensstemmelse mellem de forskellige observatører og deres vurdering af et individ (inter-observer reliabilitet). Herudover er det ligeledes væsentlig, at en observatør er konsistent i måden, hvorpå han vurderer et individ (intra-observer reliabilitet). Det er således væsentligt, at der ikke anvendes forskellige standarder fra dag til dag. En måde at undersøge en observatørs evalueringskonsistens er fx ved at videotape en situation og lade ham bedømme denne med ugers mellemrum. Interrater reliabilitets-forskrifter rangerer fra 0,80 til 1 (Stewart, 1990, p. 7). Reproducerbarhedskoefficient (CR 5 ). Reproducerbarhedskoefficienten udtrykker graden ved hvilken en Guttman (kumulativ skala) skalascore giver mulighed for præcist at kende et individs responsmønster. Hvorvidt en skala i virkeligheden er kumulativ, er et empirisk spørgsmål og afhænger af de svarmønstre, man finder hos respondenterne. For Guttman skalaen er der sat en reproducerbarheds-koefficient på 0,90 eller mere for at kunne acceptere en skala som kumulativ. Denne kan beregnes ud fra følgende formel : 5 Coefficient of reproducibility 19

20 reproducerbarhed ne I N = 1, hvor N er antallet af individer, n er antallet af individer hvor der var fejl i rangordenen, og I er lig antallet af items. Af hensyn til fortolkningen af reproducerbarhedskoefficienten kan der endvidere udregnes en minimal marginal reproducerbarhedskoefficient (MMR), som er baseret på, at et items reproducerbarhed ikke kan være mindre end andelen af svar i dets modale kategori. Således kan den totale reproducerbarhed ikke blive mindre end summen af andele af svar i de modale kategorier for hvert item i en skala, divideret med antallet af items. Kravet til skalaegenskaber, baseret på MMR, er bl.a., at den skal have en størrelse, så det er muligt at se en forbedring i prædiktionen af responsmønsteret ved at benytte CR. Med andre ord skal MMR være lavere end CR (McIver og Carmines, 1981, p. 48) Hvornår er noget reliabelt? Stort set alle målinger indeholder en eller anden form for tilfældig fejl. Reliabilitetsmålet giver dog ikke umiddelbart nogen intuitiv tolkning af et givent fænomens reliabilitet, idet koefficienten ikke kan tages ud af en sammenhæng. At en reliabilitetskoefficient på 0,80 indikerer, at 20% af den observerede varians skyldes målefejl kan derfor i nogle situationer være tegn på et meget pålideligt instrument, mens det i andre tilfælde ikke er det. Det primære spørgsmål bliver derfor: Hvad er den mindste værdi, der kan accepteres, før noget accepteres som værende pålideligt i en given sammenhæng? Her er der ikke fuld enighed i litteraturen. En tommelfingerregel er dog, at den interne konsistens bør være højere end 0,8 (ifølge Stewart, 1990, kan en reliabilitet på 0,50 accepteres), og interrater reliabiliteten, intra-observer reliabiliteten og test-retest reliabiliteten bør være højere end 0,5 (Streiner, 1995, p. 7). Afhængigt af hvad det er, der undersøges, kan der dog i visse situationer kræves endnu højere koefficientværdier, ligesom populationsstørrelsen har en indflydelse herpå. Således kan store populationer bedre tåle mindre reliable instrumenter end 20

21 meget små populationer (McDowell, 1996, p.41; Streiner, 1995, p. 121). Ligeledes har testens længde også en indflydelse på det fremkomne reliabilitetsresultat. Således har instrumenter, der indeholder mange items, større sandsynlighed for at være reliable end korte instrumenter Validitet (gyldighed) Overordnet set udtrykker et instruments reliabilitet ikke instrumentets evne til at måle eller beskrive hele det fænomen, som instrumentet antages at måle, men kun instrumentets egenskab til at opnå det samme måleresultat hver gang det anvendes. At et instrument er reliabelt, er ikke en stærk nok kriterium for valg af instrument. Reliabilitet kan heller ikke anvendes som substitut for validitet, idet et instrument kan være reliabelt uden at være validt. Validitet er grundlæggende et udtryk for, om et instrument måler det, som det er tænkt at skulle måle. Validitet er således et udsagn, som vedrører, om et instrument er gyldigt for et specifikt formål og ved brug over for en specifik befolkningsgruppe.. Spørgsmålet bliver derfor, om det valgte instrument succesfuldt måler en eksplicit og accepteret definition af fx kognitiv svækkelse, og til bedømmelse heraf kræves empirisk evidens for at dokumentere, at man faktisk får målt det, man ønsker at måle. Validitet kan ikke opnås uden at instrumentet samtidigt er reliabelt. Det skyldes, at reliabiliteten definerer den øvre grænse for validitet, de målte data kan besidde. Teknisk set er den maksimale validitetsgrænse kvadratroden af reliabiliteten. Dvs., jo mere reliabelt et instrument er, desto højere kan den maksimale validitet blive. En undtagelse fra denne regel er dog forholdet mellem intern konsistens og den validitetsform, der kaldes indholdsvaliditet. Det skyldes, at man kan manipulere med reliablitetsscoren for den interne konsistens: Hvis man undersøger et fænomen 21

22 med meget uhomogene karakteregenskaber, som fx voldelig adfærd blandt demente, er det muligt, at man ved den anvendte skala vil have lav intern konsistens, idet ikke alle demente med problematisk adfærd er voldelige. Den interne validitet kunne øges ved at eliminere de items, som ikke er højt korrelerede med hinanden eller den totale score. Problemet er her, at man ender med et indeks, der kun opfanger et aspekt ved problematisk adfærd voldelig opførsel hvorved man opnår en lav indholdsvaliditet. I sådanne situationer er det bedre at acceptere en lav intern konsistens (Streiner, 1995, p. 147). Der eksisterer flere aspekter af validitet end blot indholdsvaliditet, som egentlig ikke er testbar. De mest almindelige skal her nævnes sammen med en redegørelse for, hvordan man evt. kan teste validitet. Tabel 4. Oversigt over forskellige validitetstyper VALIDITETSTYPE DEFINITION OG EKSEMPLER Indholdsvaliditet Er alle relevante begreber repræsenteret i instrumentet eller i sættet af instrumenter? Indholdsvaliditet af et Er alle væsentlige aspekter af virke og velvære batteri eller samling repræsenteret i sættet af sundhedsmål? af flere instrumenter Indholdsvaliditet af en enkel multi-item skala Umiddelbar validitet Kriterie-relateret validitet Kriterievaliditet Kriterie-relateret validitet Prædiktiv validitet Begrebsvaliditet Er alle aspekter af definitionen af begrebet, der måles, repræsenteret i skalaen? Repræsenterer den anvendte betegnelse for skalaen de items der er indeholdt i denne? Synes de medtagne items umiddelbart at måle det ønskede begreb? Korrelerer et mål højt med det gyldne standardmål for begrebet? Korrelerer et nyt mål for fx depression højt med det gyldne standardmål herfor? Korrelerer en kort udgave af et mål for fx emotionel status højt med en valideret lang udgave af et mål for emotionel status? Kan en score på et mål for sundhedsopfattelse forudsige, hvorvidt individer anvender sundhedsydelser i det efterfølgende år, eller et ufavorabelt klinisk udfald? Korrelerer skalaen højt med mål for de øvrige variable, som hypoteserne herom har forudsagt? 22

23 Konvergent validitet Korrelerer et mål for fx smerte højt med et mål for effekterne af smerte? Diskriminant (eller Har et mål for fysisk virke en lavere korrelation med et divergent) validitet mål for mental sundhed end med et mål for mobilitet? Mulittrækmultimetode korrelation med en observatør vurdering af depression Har et selvrapporteret mål for depression en højere tilgangen end med et selvrapporteret mål for angst? Known groups Er den gennemsnitlige score af sundhedsopfattelse validitet signifikant lavere for en gruppe af patienter end for en general populationssample. Kilde: Stewart 1990, p. 9 Indholdsvaliditet 6 (content validity). Indholdsvaliditet er en kvalitativ tilgang til vurderingen af validiteten. Denne validitetstype udtrykker, i hvilken grad items i en skala/instrument repræsenterer universet af instrumentets mulige indhold. Indholdsvaliditet referer således til, om målingen indeholder alle de aspekter, der er vigtige for det, man ønsker at måle dvs. om målemetoden omfatter et repræsentativt udvalg af de (dys)funktioner, aktiviteter, mv., som er relevante for den aktuelle problemstilling. Indholdsvaliditet bliver kun sjældent formelt testet; i stedet vurderes ofte den umiddelbare validitet (face validity). Denne vurderes af eksperter (evt. i samråd med patienter og/eller pårørende), og disse bliver enige om, hvorvidt instrumentets forskellige items opfanger den væsentlige information for den definition af sundhed, man nu engang har valgt (McDowell, 1996, p. 31; Streiner, 1995, p. 5). Det er dog muligt at undersøge for indholdsvaliditeten via statistiske analyser, fx faktoranalyser af datamaterialet. Herved fås en indikation af, hvorvidt det teoretiske begreb, defineret af instrumentets udvikler, kan observeres empirisk, og om komponenterne falder i den forventede homogene gruppe, som de ifølge teorien bør gøre (McDowell, 1996, p. 35). 6 Nogle teoretikere argumenterer for, at bedre dækkende begreber ville være content relevance og content coverage (Streiner, 1995, p. 20). 23

24 Kriterievaliditet (criterion validity). Denne validitetstype betragtes ofte som det klassiske validitetsbegreb. Her undersøges i hvilken grad et instrumentet korrelerer med et andet mål, ideelt en gylden standard, som fx kan være fremkommet ved hjælp af et andet valideret måleredskab til undersøgelse af samme karaktertræk eller fænomen. Kriterievaliditeten kan både udføres på hele instrumentet eller blot på enkelte items indeholdt i denne (items-analyse). Kriterievaliditet er typisk inddelt i to typer, hvor testen vurderes i relation til objektive kriterier. For det første samtidig validitet, der drejer sig om, hvorvidt resultaterne ved en test stemmer overens med resultaterne ved andre etablerede tests, som antages at måle samme fænomen. Denne metode har dog en begrænsning: hvis andre måleinstrumenter for samme egenskaber eksisterer, er det vanskeligt at forsvare udviklingen af et nyt, med mindre dette er billigere eller mere simpelt at anvende end det eksisterende. Den anden type er prædiktiv validitet, der referer til et instruments evne til at forudsige noget centralt vedrørende det fænomen, man ønsker målt fx hvis man ønsker at kende et instruments evne til at forudsige en fremtidig tilstand. Det nye instrument anvendes til tid 1, og den gyldne standard til tid 2. Det nye instrument kan således ikke anvendes til beslutningstagning til tid 1; man må først vente og se, om det var godt nok til at forudsige fremtiden, når man sammenligner instrumentet med den gyldne standard i tid 2 (Streiner, 1995, p ). Begrebssvaliditet (construct validity). Såfremt der ikke eksisterer en gylden standard, man kan teste et karaktertræk op mod, er det nødvendigt at teste for validitet på anden vis. Blandt andet vil mange af de kendetegn, der er ved demens, kunne kaldes hypotetiske begreber, idet diagnosen demens er baseret på konstellationer af symptomer; man kan ikke se demens, men kan i stedet observere adfærd, som ifølge vores teori om demens er et resultat heraf. Et begreb kan derfor opfattes som en mini-teori til at forklare forskellige adfærdsformer eller attituder, som fx demensramte individer udviser (Streiner, 1995, p. 151). 24

25 Begrebsvaliditeten udtrykker derfor, om skalaen til at måle disse begreber kan siges at være dannet på baggrund af den rigtige teori. Denne validitetstype bliver understøttet, hvis forventede mønstre observeres empirisk. Et eksempel på en hypotese kunne være, at sværhedsgraden ved demens (eller anden sygdom) er negativt korreleret med individets livskvalitet. Det bør bemærkes om denne validitetstype, at den begrebsmæssigt set ikke afviger fra de øvrige (indholds- og kriterievaliditet), idet alle validitetstyper grundlæggende er en form for begrebsvaliditet. Der eksisterer forskellige metoder, hvormed man kan undersøge for begrebsvaliditet, jf. efterfølgende tabel. Tabel 5. Måling af begrebsvaliditet Known group En tilgang til at måle begrebsvaliditeten er via begrebet known validitet: group validitet. Her anvendes instrumentet på to grupper af Anvendelse af individer, som vides at divergere mht. begrebsinteressen (fx ekstreme grupper demens) fx sammenlignes svært demente med ikke-demente (men måske nok glemsomme) ældre individer. Her skulle de svært demente gerne score signifikant forskelligt fra de ikkedemente ældre individer på instrumentet. Der er dog mange problemer forbundet med denne metode blandt andet, at det ikke er på de to grupper, instrumentet (nødvendigvis) skal anvendes i praksis. I stedet er det fx på demente med varierende demensgrader, hvor spørgsmålet i forbindelse med fx diagnostik af demens er, hvorvidt individet er rent faktisk er dement eller ej. Instrumentet skal derfor være meget fintfølende, idet det skal anvendes i situationer, Konvergent- og diskriminant (eller divergent) validitet hvor man er i tvivl ikke i ekstreme situationer. Konvergent validitet siger noget om, hvorvidt der er association mellem forskellige mål og eller metoder. I forbindelse med undersøgelsen af konvergent validitet skal korrelationen være høj, men ikke for høj, med andre mål for samme begreb. En perfekt eller næsten perfekt korrelation mellem den nye skala og dens relation til øvrige variable og mål for samme begreb vil blot indikere, at de måler det samme. Konvergentvaliditet er derfor meget lig sensitivitet; et mål bør korrelere med andre mål for samme begreb. Man kan teste sammenhængen mellem to mål for samme begreb ved fx at anvende forskellige metoder (fx selv-rapporterede versus observerede data), og en anvendelig indikator for konvergent validitet er korrelationskoefficienten. Jo højere denne er, jo mere validt er instrumentet. Som minimum bør denne være 25

26 Multikaraktertrækmulitimetode Statistiske metoder 0,40 (Stewart, 1990, p. 13). Da det nye instrument ikke er dannet for at være en præcis kopi af det eksisterende instrument, kan der heller ikke være nogen perfekt korrelation herimellem. Generelt vil de nye instrumenter være dannet, så de er de gamle overlegne. I forbindelse med beregning af konvergentvaliditeten bør det derfor være kommenteret, hvad det forventede resultat vil være, inden dette beregnes empirisk. Diskriminant validitet drejer sig om, at målet skal være særegent. I forbindelse med diskriminantvaliditeten beskrives fraværet af sammenhæng mellem testen og andre mål. Hvis teorien om demens siger, at hukommelsesgraden er uafhængig af uddannelsesgraden for den demente, må der derfor ikke findes korrelation mellem disse to. Korrelationer på 0 er dog utænkelige, hvorfor det blot er nødvendigt at se efter korrelationer, der er lavere end korrelationerne, der er fundet ved undersøgelse af konvergent validitet. Generelt set kan den maksimale korrelation mellem de to instrumenter/metoder være lig kvadratroden af målet for deres reliabilitet. Såfremt disse er kendt, er det muligt at sammenligne den observerede korrelation med den teoretisk mulige. Dette hjælper i forbindelse med fortolkningen af konvergentvaliditeten. Således kan en lav korrelationskoefficient pludselig synes god, såfremt reliabilitetskoefficenten ligeledes er lav (McDowell, 1996, p. 34). En anden, men tæt relateret metode til at undersøge for begrebsvaliditet, er via anvendelsen af multikaraktertrækmultimetode teknikker, som kortlægger korrelationen mellem alternative tilgange til at måle samme begreb. Dette gælder, hvis der fx er anvendt mere end én metode til at indsamle data for en specifik variabel (selvrapporterede og observerede data). Essensen i denne tilgang er at undersøge, hvorvidt to mål for samme begreb, opgjort ved anvendelsen af forskellige metoder, korrelerer højere end to mål for forskellige begreber, der anvender samme metode (Stewart, 1990, p. 14). Faktoranalyse kan ligeledes anvendes i forbindelse med undersøgelse af begrebsvaliditeten. Her anvendes faktoranalysen til at indikere forbindelsen mellem forskellige målemetoder. Skalaer, der måler samme emne, forventes at blive grupperet i samme faktor test for konvergent validitet, mens skalaer, der måler forskellige emner, vil blive grupperet i forskellige faktorer - test for divergent validitet. Faktoranalyse bør dog kun anvendes, såfremt; 1) de items, der analyseres, er opgjort på intervalskaleret 26

27 niveau 2) responsfordelingen er approksimativt normalfordelt 3) der er mindst 5 gange flere respondenter i samplet end variable/items, der skal analyseres(mcdowell, 1996, p. 35) Diskriminationsstyrke og følsomhed Tidligere har der været tradition for, at visse typer instrumenter anvendes til at skelne imellem personer på baggrund af fx færdigheder (klassifikationsmål), mens andre instrumenttyper måler subjektive fænomener til beskrivelse af forskelle over tid hos samme individ. I forbindelse med visse undersøgelser er det dog hensigtsmæssigt, at de anvendte instrumenter både skal kunne anvendes til at finde forskelle imellem individer og forskelle hos samme individ over tid. Såfremt formålet med en undersøgelse er at kunne påvise mulige effekter af en intervention over for en bestemt målgruppe, er det væsentligt, at det valgte instrument evner at vise forskellen mellem et individs sundhedsstatus på forskellige tidspunkter. Det er således væsentligt, at instrumentet er forholdsvist følsomt Følsomhed over for ændringer Hvis det er biomedicinske mål, der indgår som effektmål i forbindelse med undersøgelse af et individ, kan man med en vis sikkerhed antage, at den behandling, som afprøves, er uden effekt, såfremt der ikke sker en ændring i de biomedicinske målinger før og efter interventionen. Anderledes forholder det sig med målinger af fx livskvalitet. Her kan en manglende forskel i målingen af livskvaliteten før og efter en intervention enten tilskrives en ineffektiv intervention og/eller manglende følsomhed i instrumentet over for ændringer. Inden instrumenter til måling af velvære anvendes til effektvurdering, er det derfor vigtigt, at følsomhedsgraden er afprøvet. Dette kan fx være gjort ved at 27

28 sammenholde ændringer i kliniske variable over tid med ændringer i fx velværen. Viser de kliniske variable således tegn på forværring, forventes svarpersonen at rapportere lavere velvære ved efterfølgende målinger, og omvendt såfremt det drejer sig om forbedring i velværen. Hvor følsomt et instrument er, er grundlæggende set et aspekt af validitetsproblematikken. Et måleredskab analogt de øvrige psykometriske egenskaber, der er vurderet, til at måle instrumentets evner til at opfange effektændringerne som følge af interventioner, vil være ønskeligt. Én mulig tilgang til vurderingen af et instruments følsomhed er at foretage multiple observationer vedrørende det aspekt, man ønsker undersøgt fx interventioner, der har til hensigt at bremse den kognitive svækkelse hos demente, idet denne aftager over tid og er forskellig individer imellem. Det vil derfor være ukorrekt kun at anvende resultater fra start og sluttidspunktet ved en intervention for at se, om denne har haft nogen effekt. Hvis man ønsker at vælge et instrument, der skal have potentiale for at være følsomt overfor ændringer, er der dog visse umiddelbare forholdsregler, man kan følge. Bl.a. en fokusering på instrumentets anvendte skalaniveau. Binære svarkategorier (fx ja/nej) er lette at besvare, men giver ikke mulighed for at nuancere besvarelsen. Disse itemstyper besidder derfor ofte lav grad af følsomhed, da der ofte skal ske store forandringer, før man flytter markeringen fra et ja til et nej eller omvendt. Likert-, VAS eller lignende skalaer synes at være bedre egnede m.h.t. følsomhed. Ligeledes kan instrumenttypen have indflydelse på følsomheden. Der vil ofte være en tendens til, at sygdomsspecifikke instrumenter er mere følsomme overfor ændringer end de generiske instrumenter, hvilket skyldes, at sygdomsspecifikke instrumenter indeholder spørgsmål om symptomer, der er relevante for den bestemte gruppe af individer. Specifikke instrumenter har ligeledes (oftest) færre problemer med gulv- og lofteffekter. Gulveffekt ses, hvor et instrument har en spændvidde, som ikke fuld ud dækker respondenternes, idet nogle respondenter vil kunne score lavere end 28

29 hvad instrumentet tillader. Omvendt ses en lofteffekt, hvor respondenterne ville kunne score højere end instrumentet tillader Tekniske aspekter af mål for sundhedsstatus og sundheds-udfald. I forbindelse med valg af instrumenter er det væsentligt at holde flere faktorer for øje, inden man vælger, hvilket instrument man ønsker at anvende i en given situation. I indeværende afsnit sættes fokus på visse tekniske aspekter ved sundhedsstatus- og sundhedsudfaldsmålene, hvoraf nogle allerede kort er berørt i forbindelse med tidligere afsnit Generiske versus sygdomsspecifikke mål Instrumenter er, som allerede nævnt, dannet men henblik på at belyse forskellige problemstillinger. Nogle instrumenter dannes, så de kan anvendes i mange forskellige omgivelser/populationer (generiske mål), andre har en mere specifik populationsgruppe for øje (situationsspecifikke mål). Hvilken type instrument man bør vælge, afhænger af formålet med det, der ønskes undersøgt. En af fordele med de generiske mål er, at de letter sammenligninger over sygdomsgrupper de er således mere genrealiserbare end de situationsspecifikke mål. En anden fordel er, at der som regel er mere dokumentation at finde vedrørende skalaens reliabilitet og validitet, end for de sygdomsspecifikke mål, idet de generiske mål oftere anvendes. Ulempen ved de generiske mål er, at de kan indeholde items, som er irrelevante for en specifik problemstilling. For eksempel er spørgsmål om inkontinens ret irrelevant i forbindelse astmapatienter, hvorfor sådanne spørgsmål blot vil være støj i instrumentet. Ligeledes kan der være mangel på items, som er meget relevante for en anden sygdomsgruppe fx fokus på diætrestriktioner blandt diabetikere. Et andet problem ved de generiske mål er, at de kan være ret upåvirkelige overfor små, men væsentlige ændringer, som følge 29

30 af en given sygdomsspecifik intervention. De generiske mål kan derfor have lavere følsomhed, end de mere sygdomsspecifikke mål. Man må derfor ofte opveje fordelene mod ulemperne, eller finde et generisk mål, der indeholder alle de komponenter, som gerne ses undersøgt i det mere situationsspecifikke mål. Det ideelle vil derfor i visse situationer være en kombination af de to måletyper (McColl et al, 1997, p. 18). Også fordi items tiltænkt at kunne diskriminere med indenfor en bestemt population (demente) måske ikke er anvendelige til at diskriminere blandt ikke-demente, idet stort set alle disse individer vil være i stand til at op nå maksimal score (Rabins, 1999, p. 39) En- versus flerdimensionale mål. Det begrebslige grundlag for opfattelsen af fx sundhed beror på, at sundhed er et multifacettet begreb, der ikke kan måles direkte. Begreber er ofte konstruktioner, der ikke kan måles direkte, men som udtrykker noget latent, som man ønsker empirisk undersøgt. Da begreber ofte er ret komplekse, består disse undertiden af flere domæner og dimensioner, der tilsammen udgør et begreb. Man vil i litteraturen se begreberne domæne, dimension og komponent benyttet forskelligt. Domæner refererer her til de forskellige facetter, som er indeholdt i et begreb, fx sundhed, se Figur 1. Domæner kan bestå af flere dimensioner hvorved forstås et sæt af beslægtede variable, der kan ses som forskellige aspekter ved samme egenskab/domæne. Eksempler på dimensioner af sundhed er: fysisk, psykisk og social sundhed. 30

31 Figur 1: Illustration af et domæne, dimensioner, komponenter og items for et begreb (sundhed) under undersøgelse. Domæne for sundhed (hele cirklen) Item/indikator - de enkelte items skal udvælges, så de dækker dimensionen Komponent Illustration af tre dimensioner indeholdt i domænet for sundhed - fx fysisk, kognitiv og social udfoldelse. Hvis de variable, som er indeholdende i et domæne, er meget forskellige, er egenskaben flerdimensional dvs., domænet består af flere dimensioner, indeholdende hver deres sæt af variable, der indbyrdes er meget lige, men forskellig dimensionerne imellem (Hellevik, 1997, p. 95). Dimensioner kan f.eks. være fysisk, psykisk eller social sundhed. En dimension kan igen være opdelt i komponenter. Fx kan en psykisk dimension være opdelt i positiv velvære og ængstelse og depression. De variable, der repræsenterer en komponent, kaldes ofte for indikatorer for komponenten Et eller flere items Hvordan det er valgt at operationalisere et begreb, har indflydelse på omfanget af instrumentets spørgsmål/items. Således rangerer instrumenter fra kun at indeholde et enkelt globalt spørgsmål (fx Hvorledes er dit helbred? ), til multidimensionale instrumenter - fx COOP/WONCA-skemaer, hvor seks primære aspekter af 31

32 individets funktionsstatus (fysiske form, følelser, daglige aktiviteter, sociale aktiviteter, ændring i sundhed og overordnet sundhedsstilstand) måles, eller instrumentet 15D (Sintonen, 2001), som indeholder 15 såkaldte dimensioner. Her opfanger et enkelt item dimensionen, alternativt domænet. Et instrument kan dog bestå af multi-item multidimensionale mål, hvor der for hvert domæne eksisterer flere dimensioner, som igen har forskellige komponenter, der beskrives ved flere items. Hver metode har sine fordele, men også sine begrænsninger. Bl.a. vil valget få indflydelse på instrumentets evne til at være følsomt over for individrelaterede ændringer over tid. Fordelen ved de globale spørgsmål er, at de er forholdsvis hurtige og lette at besvare og analysere. Ulempen ved disse og ved en-skala items er, at deres evner i forbindelse med diskriminering og følsomhed over for ændringer, er meget begrænsede (McColl, 1997, p. 19). Her vil multi-item multidimensionale instrumenter således være mere relevante Profiler versus indeks For multi-item multidimensionale instrumenter eksisterer der grundlæggende to måder, hvormed man kan præsentere resultaterne; nemlig som profiler eller som indeks. Profiler skal forstås som sæt af separate dimensionsscorer. Fortalere for profiltilgangen argumenterer, at da sundhed er et multidimensional begreb, bør scorerne på de forskellige dimensioner præsenteres separat, idet man ikke vil kunne tolke noget ud fra en samlet score. Især i de situationer, hvor det er nødvendigt at kunne bedømme et individs præstation på forskellige dimensioner, er profiler det mest anvendelige. Til forskel fra profiler er indeks et enkelt tal på grundlag af alle dimensioner. Grunden til, at man i visse situationer vælger at indeksere scorerne er bl.a., at det 32

33 gøres lettere at besvare spørgsmålet om, hvorvidt den ene behandlingsmetode synes bedre end en anden. I forbindelse med økonomiske analyser i tilknytning til politisk beslutningstagning vil indekstal derfor ofte blive anvendt (McDowell, 1996, p. 14). Der eksisterer dog mange problemer ved at indeksere de forskellige dimensioners scorer, især at man herved mister information blandt andet vedrørende variabiliteten blandt individerne. Således kan ens totalscore for de forskellige individer, hvis egenskaber søges målt, opnås på mange forskellige måder, alt efter deres præstationer i de forskellige dimensioner. Dette er især problematisk i forbindelse med studier over tid, idet et individs nettoscorer kan være lig nul, selvom der faktisk er sket en ændring. Det kan skyldes at der kan være sket en forbedring på nogle af dimensionerne i et domæne, mens der er sket en forværring i andre. Evalueringer af ændringer over tid vil derfor bedre kunne opfange de forskellige variationer, såfremt man holder sig til profiler Numeriske sundhedsestimater: Skaleringsmetoder For i det hele taget at kunne danne profiler eller indeks, er det nødvendigt at kunne tildele en dimension af begrebet sundhed en numerisk værdi. Der eksisterer forskellige metoder til at kvantificere sundhed. Generelt skelnes der mellem fire skaleringsmetoder, hvormed man kan udføre kvantitative målinger. Disse er: kategori-, ordinal-, interval- og ratioskalaer, som beskrives efterfølgende. Kategoriskala (nominalt niveau). Denne skaleringsmetode er ikke en egentlig målingsmetode, men referer i stedet til en klassificeringsmetode, så som inddelingen: Ja = 1, Nej = 0; Kvinde =1, Mand = 0 (dikotome udfald) eller farver: grøn = 1, blå = 2, rød = 3 gul = 4 hvid = 5. Tallet i en nominalskala siger i sig selv intet om objektets karakteristika, hvorfor man kan bytte om på rækkefølgen af objekterne, uden dette ville få nogen indflydelse, ligesom man kun kan lave få statistiske og matematiske beregninger på nominalskalerede data. 33

34 Rangordningsskalaer (ordinalt niveau). I andre situationer består måling i at klassificere enheder i kategorier, som udover at være gensidigt udelukkende også er rangordnede. I rangordningsskalaen foregår der en graduering fra meget til lidt, hvorfor det er meningsfuldt at tale om hvilken af to enheder, der sammenlignes, som er placeret højest eller lavest på en variabel, hvilket fremgår af kodetallets størrelse. Kendetegnende for de items, denne skalatype er baseret på, er derfor, at de danner en kumulativ serie. Det betyder, at man foretrækker A > B > C > D. Det er imidlertid kun rækkefølgen af tallene, som har betydning afstanden mellem to kodetal har ingen mening. Det skyldes, at en ordinal-skaleret svarfordeling blot indikerer i hvilken udstrækning et objekt/individ besidder visse karakteristika - dvs., det er muligt at bestemme, hvorvidt et individ har mere eller mindre af et givent karakteristikum sammenlignet med andre individer. Et eksempel på en rangordningsskala er en tilstand, der vurderes fra værende enten mild, moderat, eller alvorlig. Ulempen er, at individer kan vurdere de forskellige tilstande forskelligt, ligesom der ikke nødvendigvis er lige stor afstand mellem mild og moderat, som mellem moderat og slem, hvilket begrænser analysemulighederne, når dette niveau anvendes. Intervalskala (kontinuum). Til forskel fra måleenhederne anvendt i den ordinale skaleringsmetode, anvender intervalniveauet måleenheder med et nulpunkt, som ganske vist er arbitrært. Intervalniveauet anvendes i situationer, hvor det kræves, at der er lige stor afstand mellem målepunkterne - man kender intervallet mellem punkterne; nulpunktet er arbitrært, men afstanden mellem målepunkterne er ens. Når man sammenligner kodetallet mellem forskellige enheder, viser differencen mellem dem derfor hvor langt, de befinder sig fra hinanden på variablen. Dette gælder fx temperatur eller begyndelsestidspunktet for vor tidsregning. Brug af et arbitrært nulpunkt betyder dog, at fx skalaværdien 50 ikke er det dobbelte af 25, men afstanden mellem 0 og 25 er den samme som mellem 25 og 50. Man kan derfor ikke sammenligne forholdet mellem de forskellige værdier kun differencen mellem dem. 34

35 Ratioskala (forholdstal): Denne skaleringstype udtrykker, til forskel fra intervalskalaen, måleenheder med naturligt nulpunkt. Det gør det muligt at sige noget om, hvorvidt en score er dobbelt så god som en anden score. En ratio-skala indeholder alt fra nominal, ordinal og intervalskalerede data, men har samtidigt et naturligt nulpunkt. Det sætter én i stand til at: 1) identificere og klassificere objekter, 2) rangordne objekterne, 3) sammenligne intervaller og/eller forskelle. Eksempler på måleenheder med naturlige nulpunkter er fx: alder, afstande/længder og markedsandele. Tabel 5. giver en oversigt over de forskellige måleniveauer og deres matematiske egenskaber. Tabel 5. Egenskaber ved måleniveauerne Hvad fortæller kodetallene Nominal Ordinal Interval Ratio/forhold om? Forskel og lighed Rangorden Afstand Forhold Hvilke operationer kan Nominal Ordinal Interval Ratio/forhold udføres? Skelne mellem enheder med forskellige værdier fra hinanden Ordne enhederne efter - værdiernes størrelse Addition og subtraktion af - værdier Multiplikation og division af - værdier Kilde: Hellevik, 1997, p. 156 Anmærkning: Et minus i tabellen betyder at en variabel målt på dette niveau mangler den pågældende egenskab. Bemærkning: Måleniveauerne danner en kumulativ skala. Variablene på et niveau har alle egenskaberne, som variabler på lavere niveauer besidder. Ligeledes er alle operationer, som er mulige på et lavere niveau, mulige på et højere niveau. 35

36 Hvilke skalaniveauer instrumentets forskellige items (spørgsmål) består af, har indflydelse på hvilke test, man kan udføre herpå. Jo højere niveau, jo flere statistiske tests og hermed information kan man trække ud af data. Man bør derfor eksempelvis være tilbageholdende med at diktomisere en kontinuert variabel (over nominelt niveau), idet man herved vil miste information, ligesom instrumentets effektivitet mindskes, og dets korrelation med øvrige mål reduceres (Streiner, 1995, p. 30). Som følge heraf vil man ved at reducere instrumentets skalaniveau mindske instrumentets reliabilitet. Det er derfor vigtigt at vurdere, hvorvidt de enkelte spørgsmåls skalaniveau er hensigtsmæssigt. I forbindelse med valg af instrument er der derfor visse overvejelser, man bør gøre sig vedrørende maksimering af præcision og minimering af bias. Nogen af disse overvejelser gengives i tabel 6. Tabel 6. Skalaovervejelser hvordan vurderes items i instrumentet? Overvejelse Kommentar Antal Hvis der vælges for få, kan resultatet blive tab af information. inddelinger i Undersøgelser har vist, at der mindst bør være 5 til 7 skalaen inddelinger, idet antallet har indvirkning på reliabilitetskoefficienten. Jo færre kategorier, en skala er Maksimalt antal af kategorier inddelt i, desto lavere reliabilitet. Undersøgelser har vist, at individer har vanskeligt ved at håndtere for mange ting på én gang, hvorfor man bør begrænse sig til maksimalt 7 kategorier. Lige eller ulige antal kategorier? Bør alle punkter på en skala være givet en betegnelse, eller kun endepunkterne? Giver tillægsordene (adjektiverne) I bipolare skalaer (uenig enig), giver ulige antal inddelinger individer mulighed for ikke at have nogen mening, altså være neutrale, hvorimod et lige antal tvinger respondenterne til at have en mening, uanset at det måtte være misvisende. Undersøgelser har vist, at der er relativ lille forskel i besvarelser mellem skaler, hvor kun endepunkterne er givet betegnelser, og skalaer, hvor de intermediære tilstande ligeledes er givet en betegnelse. Betydningen vil afhænge af konteksten, ligesom individer kan tillægge ordene forskellige fortolkninger; hvor ofte er eksempelvis ofte? Er det tættere på næsten altid eller på 36

37 altid samme mening? Påvirker tal under skalaen individernes respons? Skal rækkefølgen af successive spørgsmål tilkendegive ændring? en gang imellem? Individer kan anvende tallene til at tolke tillægsordenes betydning. En negativ skala kan frembringe en anden betydning end en positiv skala. Visse instrumenter skifter retning af spørgsmål eller udsagn, så efterfølgende spørgsmål fx går fra enig uenig, i stedet for fra uenig enig, for at tvinge respondenterne til at tænke over hvert enkelt svar i stedet for fortløbende at sætte kryds det samme sted (responsmønster bias). Problemet er imidlertid, at ikke alle respondenter bider mærke heri, hvorfor man kan opnå resultater, der er utolkelige. Kan det antages, at data er på intervalniveau? Kilde: Streiner, 1995, p Rangordningsskalaer er ordinale af natur. Det skyldes, at det ikke med sikkerhed kan antages, at afstanden mellem fx meget enig og enig er den samme som fx afstanden mellem enig og neutral. I forbindelse med analyse heraf behandles rangordnings-skalerne dog (ofte), som var de intervalskalerede Vægtningsteknikker fra items til skala Det er forskelligt, hvor mange items skalaer består af. Fx består VAS 7 kun af et enkelt. I visse tilfælde er det dog mere hensigtsmæssigt at have flere items, der kan være med til at vurdere et underliggende karakteristisk træk ved et begreb. Spørgsmålet er, hvordan man sammenlægger disse forskellige items til en enkelt værdi? I de fleste instrumenter tildeles items samme vægt i forbindelse med beregningen af en overordnet skalascore. Denne tilgang er simpel både matematisk og forståelsesmæssigt. Spørgsmålet er blot, hvorvidt items altid kan tænkes at vægte ens? Det kan tænkes, at der i visse situationer er items, der er mere vigtige end øvrige, og at man bør tage højde herfor. I disse situationer kan man tildele de forskellige items i skalaen 7 Visuel Analog Skala (Jf. temperaturskalaer ). 37

38 forskellige vægte. Et problem ved denne metode er at afgøre hvordan de forskellige vægte skal bestemmes, samt at der er mere regnearbejde forbundet hermed. Der er forskellige tilgange til udledningen af vægte. Man kan fx bede eksperter eller et panel, som repræsenterer befolkningen, om at allokere værdier til hver item eller tilstand. Disse skulle gerne være overensstemmende med det begrebsmæssige grundlag for målingen og omgivelserne, hvori instrumentet anvendes. Det er således ikke sikkert, at vægte, anvendt i forbindelse med én omgivelse, kan anvendes i en anden. Her må vægtene reevalueres. Som alternativ til eksperternes/panelets vurdering af vægte kan disse eventuelt udledes empirisk gennem anvendelsen af statistiske metoder - fx multipel regressionsmetoden, hvor man forsøger at forudsige en score fra et antal uafhængige items, der tillægges forskellige vægte, der vælges, så ligningens forudsigelsesevne maksimeres, eller faktoranalyse, hvor de enkelte items score på en faktor bruges som relative vægte. Hvorvidt anvendelsen af forskellige vægte empirisk viser sig at have nogen indflydelse på de psykometriske egenskaber, afhænger af hvilke kilder, man spørger. Således viser nogle fund, at vægtene ikke har megen indflydelse herpå, mens andre finder, at det signifikant øger et indeks evne til at forudsige en score for et karaktertræk eller adfærd. Dette synes dog til en vis grad at afhænge af, hvor mange items der er med. Hvis der er mange (ca. 40) vil vægtning ikke påvirke den samlede score, mens man ved færre items kan opnå en vis effekt (Streiner, 1995, p. 87). Ligeledes kan vægtning være relevant, såfremt man har mange urelaterede items, som ofte set i forbindelse med funktionel statusmåling. Ellers er konklusionen ofte den, at vægtning som regel ikke er anstrengelserne herved værd. 38

39 1.7. Praktiske overvejelser Ud over den grundlæggende teori bag instrumenterne og skalaerne indeholdt i disse, er der andre overvejelser, der må vurderes, inden valg af instrument og/eller metode kan træffes. Dette gælder blandt andet, hvad der overhovedet er muligt og mest praktisk, givet en specifik situation. Håndteringsmetoder. Hvilken metode til praktisk håndtering (administrationsmetode), man bør vælge at anvende, afhænger meget af omgivelser og målepopulation. I forbindelse med demente vil brug af spørgeskemaer, som skal udfyldes af dem selv, måske være knapt så anvendelige, med mindre det er en population af meget mildt demente. I stedet vil anvendelse af observatører eller proxy-respondenter oftest være mere relevant. Hvilken metode man vælger til håndtering af instrumentet, har indflydelse på biaskilder og svarprocenten 8, ligesom omkostningerne herved kan divergere meget, alt efter om man vælger at lade respondenterne udfylde et spørgeskema, om man lader proxy-respondenter udfylde dette, eller om man optræner nogle interviewere/observatører til at interviewe/bedømme respondenterne, hvilket ofte kan være relevant i forbindelse med netop vurderingen af demente. Håndteringsvarighed. Alt efter instrumentets kompleksitet og antallet af items heri, kan en håndtering af et instrument enten forløbe forholdsvis hurtigt, eller tage lang tid. I forbindelse med (mild) demente kan dette have indflydelse på responsraten; hvis de selv skal være med til at udfylde spørgeskemaet/instrumentet, skal denne være kort og let at gå til, mens den kan være længere og spørgsmålene være mere komplekse, såfremt det er observatører, hvis arbejde det er at observere andre mennesker, der skal udfylde denne, eller vurderingerne pålægges proxy-respondenter. 8 Der henvises til gængse metodebøger (fx Hellevik, 1997) for en uddybning af mulige biaskilder forbundet med forskellige håndteringsmetoder. 39

40 Oversættelsesproblemer. Hvis det instrument, der synes mest anvendelig i en given situation, ikke er tilgængelig på dansk, er det nødvendig med en oversættelse og en tilpasning til den danske kultur. Det skyldes, at instrumenter kan være meget kulturspecifikke, hvorfor en direkte oversættelse til dansk (eller andet sprog) kan være problematisk. Det er derfor nødvendigt, at der anvendes en accepteret metode for oversættelse - fx i form af paneler, bestående af eksperter (defineret ved sprog, profession eller begge dele) eller lægfolk. Deres opgave er at fremkomme med det mest dækkende indhold og sprogbrug. Én af de mest anvendte procedurer i forbindelse med tilpasningen af et instrument til brug i et nyt land/kultur er at anvende oversættelse og tilbage-oversættelse, hvilket skal gøres af individer, der er flydende i begge sprog. Den første oversættelse bør gøres af individer, hvis modersmål er det sprog, instrumentet skal oversættes til (her dansk), mens tilbageoversættelsen skal foretages af individer, hvis modersmål er det sprog, det originale instrument er skrevet i (Bentzen, 1998, p. 32). Translatørerne skal være opmærksomme på de underliggende karakteristika ved begreberne/spørgsmålene, der skal oversættes, da man ikke blot kan oversætte direkte: et eksempel på problem ved direkte oversættelse er fx begrebet angst fra det engelske anxiety. Hvor begrebet angst på dansk er tættere forbundet med skræk, er det engelske begreb anxiety tættere forbundet med bekymring. Sådanne forskelle er ikke altid umiddelbart tydelige, og der er risiko for, at de ikke vil blive opdaget. At der kan være problemer ved direkte oversættelse af et instrument til et andet sprog end oprindeligt tiltænkt, er følgende et klassisk eksempel på. En ukorrekt oversættelse af spørgsmål i Nottingham Health Profile til bengalsk blev for følgende spørgsmål: I m feeling on edge i oversættelsen til I m walking along. I m finding it hard to make contact with people blev til I don t have a phone and can t write og I feel there is nobody I am close to blev til All my immediate family are dead. (New Scientist, p. 56, 1994) 40

41 Et eksempel på et kulturelt problem er, at man i amerikansk sammenhæng har anvendt hyppigheden af kirkegang som udtryk for graden af social integration. Hyppigheden af kirkegang har i dansk kontekst ikke samme betydning, hvorfor anden tilgang til måling af social integration må anvendes. En oversættelse af et instrument skal derfor tilstræbe ækvivalens i det, der måles. Kravene til oversættelsen er således: Indholdsmæssig ækvivalens: man må udskifte et spørgsmål med et tilsvarende, men mere kulturelt overensstemmende. Dette kan dog være vanskeligt og ikke altid muligt. Semantisk ækvivalens: oversættelsen skal bevare den samme mening. Downhearted and blue vil på dansk kræve en omskrivning for at fange meningen. Ligeledes vil det danske ord hygge være vanskelig at overføre til et andet sprog, som ikke har det begreb. Kulturbundne begreber, forskelle i grammatik, syntaks og idiomer er kun nogle blandt mange af de fænomener, der umuliggør den absolutte semantiske ækvivalens. Krav om teknisk ækvivalens, kriterieækvivalens og begrebsmæssig ækvivalens (validering). Man skal revalidere instrumentet for at sikre, at der ikke er gået noget tabt i oversættelsen. En oversættelse af et instrument er ikke noget, man blot lige gør det kan, såfremt det skal gøres korrekt, tage ligeså lang til at få oversat et instrument fra et andet sprog til dansk, som det tager at udvikle et nyt instrument. For yderligere information, se fx Meadows et al, Valg af instrument opsummering Ud fra de foregående afsnits diskussion/gennemgang bør det fremstå klart, at det at skulle træffe et valg vedrørende hvilket instrument, man skal/bør anvende i en given situation, ikke er nogen simpel beslutning. I stedet er der flere overvejelser, 41

42 der bør gøres, inden det endelige valg træffes. McColl et al. (1997, p ) opstiller nogle trin, man kan gennemgå, førend dette valg træffes. Disse trin er: Oplys formålet med målingen af sundhed Definer det begrebslige grundlag for sundhedsvurderingen i den pågældende situation. Oprems domænerne indeholdt i sundhedsdefinitionen, der skal måles. Identificer de psykometriske egenskaber, der er nødvendige for den pågældende vurdering. Høj validitet og reliabilitet er altid væsentlig, men hvilke typer afhænger at den specifikke situation; inter-rater reliablitet bør fx kun overvejes, såfremt håndteringen af instrumentet er via observatører eller interviews. Ligeledes afhænger væsentligheden af instrumentets evne til at diskriminere, samt evt. følsomhed over for ændringer, af de specifikke omstændigheder, instrumentet skal anvendes i. Identificer følgende: o Omgivelserne for dataindsamling o Hvor megen tid, personale, ressourcer(penge), der til råde o Indsamlingsmetode: information direkte fra patienterne selv eller skal der anvendes proxy-respondenter? Bestem hvorvidt et generisk eller situations-specifikt instrument er påkrævet måske en kombination. Bestem hvorvidt resultaterne skal præsenteres via profiler eller som indeks. Indsaml information om de forskellige instrumenter. Evaluer hvert af disse mod eksplicitte kriterier: o Var instrumentet designet eller har det været anvendt til det formål, som pågældende undersøgelse omhandler? o Matcher instrumentets begrebslige grundlag, det begrebslige grundlag for sundhed for den forestående vurdering? o Er alle relevante sundhedsdomæner dækket enten ved et enkelt instrument eller ved en kombination? o Er der tilstrækkelig evidens for reliabilitet, validitet, diskriminationsevne og følsomhed over for ændring? Er denne evidens udledt i en omgivelse tilsvarende de omgivelser, som den forestående evaluering skal udføres i? o Er tids-referencen anvendelig i konteksten af den forestående evaluering? Hvis data skal indsamles 2 uger efter en intervention, kan der opstå fortolkningsproblemer, hvis der anvendes et instrument, der udspørger om sundhed inden for de sidste fire uger. o Hvilke ressourcer er påkrævede. Matcher de ressourcer der er til rådighed for dataindsamlingen? o Hvor acceptabel forventes instrumentet at være? Vil responsraten være tilstrækkelig? Vælg det instrument, der bedst opfylder de eksplicitte kriterier. Hvis nødvendigt, udfør kulturel tilpasning af instrumentet 42

43 Hvis nødvendigt, udfør pilotstudie og reevaluer de psykometriske egenskaber ved instrumentet/instrumenterne. Overvej valg af instrument(er) hvis dette viser svaghedstegn på et eller flere områder. Det er blandt andet disse trin, der ligger til grund for strukturen/undersøgelsen af de for indeværende arbejdsnotat undersøgte instrumenter. 43

44 Litteraturliste: 1. Allerup, P. (1987): Raschmodeller principper og anvendelse. Danmarks pædagogiske Institut. 2. Andrich, D. (1988): Rasch models for measurement. Quantitative Applications in the Social Sciences. John L. Sullivan (Series editor). SAGE Publications 3. Bech, P. (2002): Measurement Issues. In: D haenen, H., JA. Den Boer and P. Willner (eds). Biological Psychiatry. II. NY, John Wiley, pp Bech, P. (2004a): Modern psychometrics in clinimetrics. Psychotherapy and Psychosomatics; 73; Bech, P., R. Licht, K. Stage, W. Abildgaard, G. Bech-Andersen, S. Søndergaard, K. Martiny. (2004): Kompendium: Rating Scales for affective lidelser. Psykiatrisk Forskningsenhed, Psykiatrisk Sygehus. Hillerød. 6. Bentzen, N., T. Christiansen, E. McColl, K. Meadows (1998): Selection and cross-cultural adaptation of health outcome measures. European Journal of General Practice, vol Brod, M., A. L. Stewart, L. Sands, P. Walton (1999): Conceptualization and Measurement of Quality of Life in Dementia: The Dementia Quality of Life Instrument (DqoL). The Gerontologist, vol. 39(1) p Ferreira, P., J. Heyrman, K. van Hoeck (1997): Some concepts of health in outcome assessment. In Hutchinson. A, N. Bentzen, C. König-Zahn (red.): Cross Cultural Health Outcome Assessment; a user s guide. European Research Group on Health Outcomes. 9. Folstein,M.F., S.E. Folstein, P.R. McHugh (1975): Mini-Mental State : a practical method for rading the cognitive state of patients for the clinician. Journal of Psychiatric Research 12: Hellevik, O. (1997): Forskningsmetode i sociologi og statsvitenskap. Universitetsforlaget, Oslo. 11. Hughes, J.C. (2003): Quality of life in dementia: an ethical and Philosophical perspective. Expert Rev. Pharmacoeconomics Outcomes Res. 3(5), Kiresuk, T., Smith, A. & Cardillo, J. (Eds.). (1994): Goal Attainment Scaling: Applications, Theory, and Measurement Hillsdale, NJ: Lawrence Erlbaum Associates. 13. McColl, E, T. Christiansen, C. König-Zahn (1997): Making the right choice of outcome measure. In Hutchinson. A, N. Bentzen, C. König-Zahn (red.): Cross Cultural Health Outcome Assessment; a user s guide. European Research Group on Health Outcomes. 14. McDowell, I., C. Newell (1996): Measuring Health. A Guide to Rating Scales and Questionnaires. Oxford University Press. 15. McIver, J.P., Carmines, E.G. (1981): Unidimensional Scaling. Quantitative Applications in the Social Sciences. John L. Sullivan (Series editor). Sage Publications, Indiana University 44

45 16. Meadows, K. N. Bentzen, F. Touw-Otten (1997): Cross-cultural issues: an outline of the important principles in establishing cross-cultural validity in health outcome assessment. In Hutchinson. A, N. Bentzen, C. König-Zahn (red.) (199x): Cross Cultural Health Outcome Assessment; a user s guide. European Research Group on Health Outcomes. 17. Mokken, R.J, C. Lewis (1982): A non-parametric approach to the analysis of dichotomous responses. Applied Psychological Measuremtent. 18. New Scientist (maj 1994). 19. Rabins, P. J. D. Kasper, L. Kleinman, B. S. Black (1999): Concepts and Methods in the Development of the ADRQL: An Instrument for Assessing Health-Related Quality of Life in Persons With Alzheimer s Disease. Journal of Mental Health and Aging, vol. 5, no.1, p Roth, M., E. Tym, C.Q. Mountjoy et al. (1986): CAMDEX. A standardised instrument for the diagnosis om mental disorder in the elderly with special reference to the early detection of dementia. British Journal of Psychiatry 149: Schneider, L.S. (2001): Assessing Outcomes in Alzheimer Disease. Alzheimer Disease and Associated Disorders, vol. 15, suppl. 1, pp. S8-S Sintonen H. The 15D instyrumenmt of health-related quality of life: properties and applications. Ann Med 2001; 33: Streiner, D.L., G. R. Norman (1995): Health Measurement Scales A Practical Guide to Their Development and Use. Oxford University Press. 24. Sundhedsstyrelsen (2001): Demens den fremtidige tilrettelæggelse af sundhedsvæsnets indsats vedrørende diagnostik og behandling. Redegørelse fra Sundhedsstyrelsens arbejdsgruppe vedrørende demens. 25. WHO (1958) World Health Organisation: The first ten years: the health organisation. Geneva: World Health Organisation. 26. WHO (jan 2003): (jan. 2003) Sekundær litteratur 27. Alzheimerforeningen: Alzheimer Insight. An overview of rating scales used in dementia research (1996). Alzheimer Insights online An international Educational Newsletter. Volume 2, No Bowling, A (1991): Measuring Health. A review of quality of life measurement scales. Open University Press, Buckingham, England 29. Brazier J., M. Deverill (1999): A Checklist for Judging Preference-based Measures of Health Related Qoulity of Life: Learning from Psychometrics. Health Economics. 8:

46 30. Christiansen, T (1990a): Measurement of Health Status I. Descriptions of the Instruments Used in the Danish Health Study. Odense Universitets Trykkeri. 31. Christiansen, T (1990b): Measurement of Health Status I. Scalability of the Instruments Used in the Danish Health Study. Odense Universitets Trykkeri. 32. Christiansen, T (1990c): Measurement of Health Status I. Reliability and Validity of Scores in the Danish Health Study. Odense Universitets Trykkeri. 33. Cohen, M. (1998): Goal Attainment Scaling GAS. Orientering og erfaringsopsamling. Center for Evaluering, Psykiatrien i Århus Amt. (Rapporten kan downloades fra ) 34. Doody, Rachelle Smith (1998): Test Scores in Clinical Trials vs. Performance in Real Life: Can Clical Global Assessment Bridge the Gap? In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of Dementia. John Wiley & Sons, England. 35. Fratiglioni, L. (1998): Classification and Diagnosis. In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of Dementia. John Wiley & Sons, England. 36. König-Zahn C., J. Heyink, B. Meyboom-de Jong (1997): Using the reviews: a user s guide to the manual. In Hutchinson. A, N. Bentzen, C. König-Zahn (red.): Cross Cultural Health Outcome Assessment; a user s guide. European Research Group on Health Outcomes. 37. Larsen, J.K (2003): Kompetenceændringer og økonomiske aspekter ved rehabiliterings-indsats blandt senhjerneskadede. Master of Public Health, Aarhus Universitet, Udgivelse nr Lee, A. (2003): Pleje- og omsorgsmetoder til demensramte: Et litteraturstudie af den dokumenterede effekt. (2004) 39. Licht, R.W et al. (2004): Is the total score a valid measure of items severity. Acta Psychiatr Scand (in press). 40. MacKeigan L.D., A. Gafni, B.J. O Brien (2003): Double discounting of QALYs. Health Economics. Vol. 12(3), p Netdoktor (jan 2003): (2003) 42. Nygård, L. (1998): Assessing ADL/IADL in Persons with Dementia. In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of Dementia. John Wiley & Sons, England. 43. Pedersen, A.F., Zachariae,B (2003): Livskvalitetsmåling i sundhedsvæsnet en introduktion. Delpublikation nr. 3 i skriftserien om De mellemmenneskelige relationer. 46

47 44. Reisberg, B. E. Franssen, L. Souren, S. Kenowski, S. Auer (1998): Severity Scales. In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of Dementia. John Wiley & Sons, England. 45. SACMOT (Scientific Advisory Committee of the Medical Outcomes Trust) (2002): Assessing health status and quality-of-life instruments: Attributes and review criteria. Quality of Life Research 11: Sharma, S. (1996): Applied Multivariate Techniques. John Wiley & Sons, Inc (NY). 47. Steward, A.L (1990): Psychometric Considerations in Functional Status Instruments. In Lipkin Jr, M. (Series Ed.) Functional Status Masurement in Primary Care. Springer-Verlag, New York. 48. Swedner, H. (1979): Sociologisk Metod. En bok om konskapsproduktion och förändringsarbete. Bröderna Ekstrands Tryckeri AB, Lund. 49. Torrance G. (1986): Measurement of health state utilities for economic appraisal a review. Journal of Health policy, vol.5, p (2003) 47

48 Bilag 1: Klassisk vs. klinimetrisk psykometrisk skala-analyse Det er som udgangspunkt valgt at anvende den klassiske begrebstilgang til reliabilitets- og validitets-vurderingen i modsætning til den klinimetriske tilgang, som er en mere moderne tilgang til valideringen af vurderinsgsskalaer. At udgangspunktet for vurderingerne er foretaget via den klassiske begrebsterminologi skyldes, at de fleste af de vurderede skalaer/instrumenter er vurderet via de begreber, der netop anvendes heri. Ligeledes er der et overlap mellem de to begrebstilgange, hvorfor et instrument, der er vurderet via den klinimetriske vurderingstilgang, godt kan passes ind under de klassiske valideringsbegreber. Forskelle og ligheder mellem de to begrebstilgange til psykemetrien søges kort belyst i det følgende. I den klinimetriske tilgang benyttes begreberne intern- og ekstern validitet samt reliabilitet som illustreret i Figur 1A. Fortolkningen heraf fremgår af det følgende 9 9 Professor, overlæge, dr.med. Per Bech, Psykiatrisk Forskningsenhed, Psykiatrisk Sygehus, Frederiksborg Amt, har bidraget til dette afsnit. Ansvaret for den endelige udformning er dog alene forfatternes. 48

49 Figur 1A. Psykometrisk skala-analyse klinimetrisk tilgang til vurdering af skalaegenskaber Intern validitet Endimensionale skalaer Total score tilstrækkelig flerdimensionale skalaer Profil score nødvendig Ekstern validitet Diagnostiske screeningsskalaer Sensitivitet og specificitet Skalaer for behandlingseffekt Acceptabel effekt størrelse over for placebo Reliabilitet Spørgeskemaer Test-retest reliabilitet Interviewskalaer Inter-rater reliabilitet Kilde: Efter Bech, Intern validitet Ifølge den klinimetriske tilgang vedrører intern validitet spørgsmålet, hvorvidt den kliniske tilstand, der ønskes målt, er en- eller flerdimensional. Idet demens i sig selv er et flerdimensionalt begreb (rummer bl.a. en kognitiv, en funktionel og en adfærdsmæssig dimension), er det nødvendigt at få indholdsmæssigt afdækket, hvilken af disse dimensioner en skala tilhører. Herefter kan der foretages en analyse, der afklarer, hvorvidt en totalscore er et tilfredsstillende statistisk udtryk for skalaens interne validitet, se nedenfor. Dette svarer grundlæggende set til begrebet intern konsistens (reliabilitetsvurdering), som anvendes under den klassiske tilgang, samt begrebsvaliditet - om den totale skalascore er et tilfredsstillende mål for det kliniske syndrom/tilstand. 49

50 Reliabilitet Reliabilitet udtrykkes ofte ved test-retest reliabilitet eller, hvor der ikke er tidsforskel mellem observationerne, ved en split-half koefficient, som udtrykker korrelationen mellem den ene og den anden halvdel af items i en skala. Den hyppigst anvendte koefficient er Chronbach s alpha koefficient. Der er imidlertid, som påpeget af Bech (2002), nogle problemer med anvendelsen af Chronbach s alpha koefficient. Således vil en høj værdi af koefficienten kunne skyldes, at alle items er lige svære. Endvidere kan selve skalaens længde bidrage til en høj koefficient, idet antallet af items indgår i formlen. Herudover indikerer Cronbach s alpha ikke nødvendigvis endimensionalitet, da alpha er en funktion af item kovarians. Kovarians mellem items kan således definere mere end én faktor i en faktoranalyse Den klinimetriske analyse-tilgang til vurderingen af en skalas egenskab anvender som regel den ikke-parametriske item-response-teori analyse (Mokken-analyse) eller Rasch-analyse (parametrisk item-respons analyse) (Bech, 2002). En kort beskrivelse af Mokken- og Rasch-analyse gives i afsnit 1.A. Ekstern validitet Den eksterne validitet i den klinimetriske tilgang kan opdeles i kriterier, der vedrører dels screeningsskalaer, dels behandlingseffekt skalaer. Kriterierne omfatter hhv. skalaernes sensitivitet og specificitet (for diagnostiske screenings skalaer), samt lydhørhed over for ændring (eng: responsiveness) og følsomhed (eng: sensitivity) (for behandlingsskalaer). En skalas lydhørhed over for en ændring refererer til dens evne til at måle ændringer i en patients symptomatologi i en behandlingsperiode. En skalas følsomhed drejer sig om, hvorvidt en skala kan diskriminere mellem en aktiv terapi og placebo. Dette kan vurderes ved en effektstørrelse, der viser størrelsen af forbedringen i en skalas score i en given behandlingstid, når en aktiv behandling sammenlignes med inaktiv behandling, og kan defineres som den gennemsnitlige forskel divideret med spredningen. 50

51 I den klassiske begrebsterminologi eksisterer ligeledes begreberne responsiveness og sensitivity. Begreberne tilhører grundlæggende set validitetsproblematikken, men da et instruments følsomhed/lydhørhed over for ændringer kan være en vanskelig egenskab af få bekræftet, og da der ikke er konsensus om, hvilken tilgang, der er mest korrekt, beskrives vurderingen heraf ofte separat. Én måde, hvormed man vurdere følsomheden over for ændringer, er ved gentagne anvendelser af en skala på et individ (test-retest tilgang). En anden er via vurderinger af gulv/loft-effekter, samt vurdering af de anvendte svarmuligheder i forbindelse med itemsvurderingen (dikotomt ja/nej vs. fx Likertskalaer (altid - aldrig). Endelig kan selve effektstørrelsen vurderes. Følsomheden kan også vurderes ved at sammenholde ændring i et instrument med ændring i et andet klinisk instrument. Hvis der forekommer en ændring i det ene instrument, vil det forventes, at der ligeledes vil kunne observeres en ændring i det andet instrument. Såfremt der ikke fremkommer en signifikant effektstørrelse, kan dette dog både tilskrives en ineffektiv intervention, og/eller manglende følsomhed i instrumentet over for ændringer, eller at instrumentet ikke har kunnet anvendes i den situation, det er blevet anvendt i. 1.A. Skalaers homogenitet Det grundliggende problem med den klassiske psykometriske tilgang til vurderingen af en skalas interne konsistens (vurderet ved Cronbach s alpha og/eller faktor analyse) bliver bl.a. refereret til som det psykosociale forskerproblem. Problemet her er, at visse af de forskere, der udvikler nye skalaer, mangler en solid klinisk erfaring, hvorfor deres fokus fæstnes på fremkomne korrelationskoefficienter, som måske nok er statistiske, men ikke nødvendigvist klinisk signifikante (Bech, 2004a). 51

52 I forbindelse med klinisk vurdering af en patient anvendes ofte vurderingsskalaer, der vurderer en dimensions sværhedsgrad. For at kunne summere de individuelle items til en enkelt score, skal skalaen opfylde kriterierne for endimensionalitet. Dette betyder, at de individuelle skalaitems skal være rangordnet i henhold til deres relation til patientens funktionsindskrænkning, hvormed forstås, at et respons på et højere liggende item (tilstedeværelsen af symptom eller tegn) vil indeholde informationen vedrørende respons på de lavere liggende items. Dette er i modsætning til en Likert skala, hvor scoren opnås ved at summere responsscoren for de enkelte items. De enkelte items/udsagn i en Likertskala vurderes fx ud fra graden af enighed eller uenigheden i et udsagn på et item, hvor man fx kan være meget enig, enig, neutral, uenig eller meget uenig i denne. Den specifikke respons på de enkelte items kombineres, så individer med den mindst favorable attitude/tilstand vil opnå lavest score (eller højest), og individer med mest favorable attitude/tilstand vil opnå højest (eller lavest) score (McIver og Carmines, 1981). 1.A.1. Mokken-analyse Mokken skalaanalyse (Mokken, 1982) er en hierarkisk skaleringsmetode meget lig Guttman skalering 10. Begge teknikker antager eksistensen af en underliggende latent (ikke-observerbar) attribut, som er repræsenteret ved et sæt af items relateret hertil. Den hierarkiske egenskab betyder, at items kan rangordnes efter sværhedsgraden heraf, så et individ, som opnår et bestemt itemniveau, også vil kunne opnå alle de itemsniveauer, der ligger lavere i rangordenen. Et individs skalascore er derfor scoren på det højeste item, individet kan give tilslutning til. Den primære forskel mellem Guttman- og Mokken skalering er, at Mokken

53 skalering er probabilistisk 11 af natur, medens Guttman skalering er deterministisk 12. Reproducerbarhed måles i Mokken-analysen ved Loevinger s koefficient H i for hvert item i, og H for hele skalaen. Beregningen af H i og H afhænger af sammenligning af sandsynligheden for fejl i rangordningen over for sandsynligheden for, at en sådan rangorden opstod, hvis items var urelaterede. H i og H vil antage værdier mellem 0 og 1. En skala anses for dimensionalt svag hvis Loevinger koefficienten er mellem 0,30-0,39, acceptabel ved koefficienter mellem 0,40-0,49, og stærk ved koefficienter fra 0,50 og opefter. 1.A.2. Rasch-model Rasch 13 modellerne er specifikt udviklet med det formål at kunne anvendes til objektiv sammenligning af patienter, og er ligesom Mokken metoden probablistisk af natur. En grundliggende antagelse bag Rasch analyse er, at forholdet mellem et individs besvarelse på et item og den latente attribut kan beskrives ved en item karakteristisk kurve (ICC). 11 Kan opfattes som uperfekte Guttman skalaer, hvor sandsynligheden for respons på et item gradvist øges med den latente attribut (fx med øget kognitiv svækkelse) i stedet for at hoppe fra 0 til 100 %, som ved Guttman skalering (i stedet for trinfunktion er forløbsgrafen s-formet). 12 Guttman skalering er deterministisk. Deterministiske modeller kan ikke tage højde for målefejl (som udgangspunkt). Som følge heraf vil sandsynligheden for en given respons være 0 eller 1. Probablistiske modeller tillader målefejl. Som følge heraf kan sandsynligheden for respons på et item ligge et sted mellem 0 og 1 (McIver og Carmines 1981). 13 George Rasch ( ) var en dansk statistiker, som udviklede de psykometriske metoder, der i dag går under betegnelsen item-response-teori-modeller (eller Raschmodeller). 53

54 Figur 2A viser tre hypotetiske kurver (ICC), der viser responsen på tre spørgsmål/opgaver, i forbindelsen med vurderingen af en latent egenskab. Figur 2A. Item karakteristik kurver (ICC) Sandsynlighed 100% Item A Item B Item C 0,5 0% Latente træk Kilde: Streiner og Norman, Bemærkning: Items A og B, har samme evne til at diskriminere (indikeret ved parallelle kurver) men forskellige sværhedsgrader (indikeret ved de forskellige placeringer). Item C er dårligere til at diskriminere end både A og B, da denne har en fladere hældning. Anmærkning: Indtegnet i figuren er en horisontal linje, hvor sandsynligheden er 50%. Dette betyder, at vis man tog 100 individer med samme mængde af den latente egenskab, da ville 50 af dem svare på én måde og 50 på anden måde (ved dikotome svarmuligheder). 54

55 ICC har visse fælles kendetegn Er S-formede Er monotone; sandsynligheden for at score i en positiv retning øges, når scoren på den latente attribut stiger. ICC afviger fra hinanden i relation til hældningen (stejl eller flad?). Jo mere stejl hældning, jo bedre er itemet til at diskriminere. Det skyldes, at andelen af individer, der reagerer/svarer i positiv retning, ændres relativt hurtigere på en stejl kurve (fx A og B i figur A2), når værdien af det latente træk øges. hvor på den latente træk, de er placeret hvor de flader ud (i bunden) I Rasch modellerne antages det, at der er en lineær sammenhæng mellem patienternes funktionsevne og items/opgavers sværhedsgrad. Det betyder i realiteten, at det ikke altid er nødvendigt at håndtere alle items på alle individer, men kan nøjes med subtests. Man kan nøjes med at vurdere de items, der ligger i det kritiske område dvs. det område, hvor man er i tvivl om hvorvidt et individ fx kan besvare et spørgsmål eller ej (Streiner og Norman, 1995). 1.A.2.1. Rasch-analyse En Rasch-analyse er en empirisk baseret statistisk analyse, der kræver data fra relativt mange individer (minimum 200, hvis det forventes at items har samme evne til at diskriminere, Streiner og Norman (1995)) til udledningen af ICC. En Rasch-analyse kræver, at en score på items med lav prævalens er gået forud af en score på items med højere prævalens. Det skyldes, at items med lav prævalens måler de mere alvorlige eller sværere grader af den dimension (latente træk), som ønskes målt, medens items med høj prævalens måler de lettere grader. 55

56 I de tilfælde hvor empiriske data ikke kan tilpasses Rasch modellen (dvs. enkeltbesvarelserne ikke kan ikke reduceres til en total, som dækker informationsindholdet i alle enkeltbesvarelserne), kan objektive mål ikke udledes fra data. Kun i de tilfælde, hvor empirisk data behørigt passer en Rasch-model, kan summarisk statistisk over data (total vurderingsskalascore) anvendes til en objektiv patientsammenligning (Bech, 2004). For yderligere information vedrørende Raschanalyse til vurdering af skalas endimensionalitet henvises til Andrich (1988) eller Allerup (1987). 56

57 Bilag 2: Ordliste 14 Cronbach s alpha: Reliabilitetsestimat, der er baseret på inter-itemkorrelationsmatrixen. Anvendes ofte som mål for en skalas interne konsistens. Begrebsvalidietet (Construct validity): Hvorvidt måleresultater ved brug af et instrument er korreleret med andre variable på en teoretisk begrundet forventet måde. Omfatter konvergent og diskriminant begrebsvaliditet, multitrækmultimetoder (multitrait-multimethod approach) samt kendt gruppe validitet (known group validity). Se disse. Se også: validitet. Bias: Hvorvidt score på en skala er systematisk højere eller lavere end den sande score. Årsager til bias kan være systematiske responsfejl. Diskriminant begrebsvaliditet: Hvorvidt f.eks. et mål for fysisk funktionsevne korrelerer lavere med et mål for mental sundhed end med et mål for mobilitet. Se: validitet. Endimensionalitet: En vurderingsskala kan siges at være endimensional, hvis den er accepteret som sådan gennem fx en Rasch-, Mokken- eller Guttman-analyse. Se disse. Ekstern validitet: Benyttes i epidemiologien som udtryk for mulighederne for at generalisere måleresultater til andre personer end de, der indgik i en konkret undersøgelse. I den klinimetriske tilgang opdeles ekstern validitet i kriterier, der vedrører dels screeningsskalaer, dels behandlingseffektskalaer. Kriterierne omfatter hhv. skalaernes sensitivitet og specificitet (for diagnostiske screeningsskalaer) samt lydhørhed over for ændring og følsomhed (for behandlingsskalaer). Omfatter f.eks. en analyse af, hvorvidt en skala korrelerer 14 Som kilder er især benyttet. Stewart (1990) samt Bech et al. (2004). 57

58 med variable uden for skalaen (fx alder), eller kan diskriminere mellem aktiv og inaktiv behandling. Se: validitet, intern validitet. Effektstørrelse: Størrelsen af forbedringen i en skalas score i en given behandlingstid, når en aktiv behandling sammenlignes med en inaktiv behandling. Vurderes ved at tage den gennemsnitlige forskel og dividere denne med spredningen. Face validity (umiddelbar validitet): Hvorvidt items i en skala forekommer at måle det begreb, der måles. Er ikke testbar. Se: validitet. Guttman skala: Skala i hvilken items udgør en endimensional serie, således at et svar på et givent item forudsiger svaret på alle de tidligere items i serien. Det betyder, at en respondent, som har svaret positivt på et item, ligeledes må besvare et mindre vanskeligt item positivt. Intern validitet: Benyttes i epidemiologien som udtryk for gyldigheden af fundne måleresultater; kræver bl.a. fravær af bias i måleresultater. I den klinimetriske tilgang til vurdering af skalaer benyttes begrebet som udtryk for, hvorvidt de enkelte symptomer i en skala tilhører den samme kliniske dimension, således at summen af de enkelte symptomer er et sufficient eller adækvat mål for tilstandens sværhedsgrad. Se: validitet, ekstern validitet. Intraklasse koefficient (ICC): Et statistisk udtryk for graden af overensstemmelse når flere observatører vurderer den samme patientgruppe (inter-rater reliabilitet). Se: reliabilitet. Indholdsvaliditet vedrørende 1) et sæt af flere mål: Hvorvidt alle vigtige aspekter af f.eks. funktionsevne eller velvære er repræsenteret i instrumentet; vedrørende 2) en enkel multi-item skala: Hvorvidt alle aspekter af definitionen af det begreb, der måles, er repræsenteret i skalaen. Under indholdsvaliditet henføres undertiden face validity (umiddelbar validitet), se face validity. Se også: validitet. 58

59 Inter-item korrelationer: Anvendes til vurderingen af hvilke items, der muligvis er overflødige i en skala, eller urelateret til det begreb, der undersøges. Anvendes i forbindelse med vurdering af intern konsistens. Se også: intern konsistens. Intern konsistens (alfa koefficient): Den grad, hvori alle items i en skala måler det samme underliggende (latente) begreb, eller konvergensen af items vedrørende det begreb, der måles: koefficienten vokser, når de anvendte items bliver mere ensartede, og når antallet af items vokser. Anvendes i forbindelse med multi-item skaler. Se: reliabilitet, item-total korrelationer, inter-item korrelationer, Cronbach s alpha. Interrater reliabilitet: Den grad, hvori en observatørs vurdering (rating) af et fænomen er konsistent med en anden observatørs vurdering. Anvendes i forbindelse med målinger, der er baseret på observatør vurderinger. Se: reliabilitet. Item-total korrelationer: Korrelation af individuelle items med skalaens totalscore. Itemet, der er under undersøgelse, udelades fra skalaen. Gøres for at undersøge om items vurderer forskellige begreber eller forskellige komponenter af samme begreb. Anvendes til vurderingen en skalas interne konsistens. Se også: Intern konsistens, reliabilitet, Cronbach s alpha. Kendt gruppe validitet (known groups validity): Hvorvidt f.eks. en score på en mental sundhedsskala for en gruppe af patienter er lavere end for befolkningen som helhed. Se også: begrebsvaliditet. Klinimetri: Er videnskaben om kliniske målinger. Er et medicinsk udtryk for måling af kliniske symptomer, bivirkninger, sociale faktorer og livskvalitet. Vurderingsinstrumenter/ skalaer er klinimetriske instrumenter. Konvergent begrebsvaliditet: Hvorvidt f.eks. et mål for demensgrad korrelerer med et mål for konsekvenserne af demens. Se: validitet. 59

60 Kriterie og kriterie-relateret validitet: Hvorvidt et mål korrelerer højt med den gyldne standard for måling af pågældende begreb. Omfatter kriterie-validiet, kriterie-relateret validitet og prædiktiv validitet (se disse). Se: validitet. Kriterie validitet: Hvorvidt et nyt mål på et fænomen eller tilstand korrelerer med en gylden standard for måling af fænomenet. Se: validitet, begrebsvaliditet. Kriterie-relateret validitet: Hvorvidt målinger ved brug af f.eks. en kort form af et instrument korrelerer højt med målinger ved brug af en valideret, længere form af instrumentet. Se: validitet. Kumulativ skalering: Minder meget om summeret skalering, man kan kun anvendes når der er to svaralternativer for hvert spørgsmål. Som for summeret skalering (Likert skalering) er der tale om monotone items og en persons skalaværdi udregnes som antal positive svar. Et yderligere krav er, at personens svar skal danne et kumulativt mønster. Dette betyder, at hvis items ordnes efter antal positive svar, vil en person med fx 3 positive svare have svaret positivt på de tre første items og negativt på resten, jf. Guttman skalering (se dette). Likert skala: Svaret på hvert udsagn er gradueret på en vuderingsskala fra 1 til fx 5, hvor 5 fx betyder, meget enig i et udsagn og 1 betyder meget uenig i et udsagn. En persons skalaværdi måles ved summen af points på alle udsagn. Mokken analyse: Er en latent strukturanalyse, der fremkommer med en koefficient for homogenitet/endimensionalitet (Loevinger koefficient). Det er en ikke-parametrisk item-respons analyse af datas struktur, som udtrykker graden, ved hvilken en ekstra item passer ind i den struktur, der ydes af de øvrige skalaitems. Ved Mokken-analyen undersøges hypotesen om, at hver skalaitem i skalaen under observation kun reflekterer én latent parameter. En skala anses for dimensionalt svag, hvis Loevinger koefficienten er mellem 0,30-0,39, acceptabel ved koefficienter mellem 0,40-0,49, og stærk ved koefficienter fra 0,50 og opefter. 60

61 Multitræk-multi metode (multitrait-multimethod approach) tilgang til begrebsvaliditet: Hvorvidt f.eks. et selvrapporteret mål for depression har en højere korrelation med en observatør-vurdering deraf end med selvrapporteret ængstelse. Se: validitet, begrebsvaliditet. Proxy-respondent: Respondent, som svarer på vegne af den person, som er genstand for undersøgelse. Prædiktiv validitet: Hvorvidt det er muligt på grundlag af kendskab til værdien af en variabel at forudsige værdien af en anden variabel, f.eks. hvorvidt en score på et instrument til måling af funktionsindskrænkning forudsiger brug af sundhedsydelser til afhjælpning af problemet. I modsætning hertil benyttes begrebet samtidig validitet (concurrent validity), se dette, om validitetsvurderinger, der er baseret på samtidige målinger. Se: validitet. Psykometri: Den videnskabsgren, der analyser en skalas reliabilitet og validitet på et statisk grundlag. Rasch: George Rasch var dansk statistiker ( ), som udviklede itemreponse-teori-modellerne, der anvendes til undersøgelser af endimensionalitet. Se: Rasch-modeller. Rasch-modeller er modeller, som specifikt er udviklet med det formål at kunne være objektive i forbindelse med patientsammenligninger. Rasch modellerne antager, at der er en lineær struktur mellem patienternes funktionsindskrænkning og item-sværhedsgraden (prævalens). En Rasch-analyse kræver således, at en score på items med lav prævalens er forudgået af en score på items med højere prævalens, idet items med lav prævalens måler de mere alvorlige eller sværere grader af dimensionen, mens items med høj prævalens måler de lettere grader. Reliabilitet: Den grad, hvormed en score er fri for tilfældige fejl. Hypotetisk er det den grad, hvori samme score kan opnås igen ved brug af samme måleinstrument 61

62 under de samme betingelser. Udtrykkes undertiden også som konsistens, reproducerbarhed og mulighed for gentagelse. De fire mest anvendt reliabilitetsmål er: intern konsistens (alfa kofficient), test-retest, inter-rater og reproducerbarhedskoefficient (se disse). Reproducerbarhedskoefficient: Den grad, hvori en persons respons på et item kan forudsiges ud fra kendskab til skala-score på en Guttman skala. Se: Guttman skala. Samtidig validietet (concurrent validitet): Vurdering af kriterie-relateret validitet, som er baseret på samtidige målinger af score på et instrument og andre variable, i modsætning til prædiktiv validitet. Se: prædiktiv validitet og validitet. Skalering: Konstruktionen af en sammensat skala (flere variable/items). Der anvendes skalering til at sammenfatte flere svar i et instrument/spørgeskema. Summeret skalering: Bygger på en type spørgsmål (monotone items) hvor tilbøjeligheden til at give et positivt svar eller erklære sig enig enten stiger eller falder monotont med stigende skalaværdi. Likert skalering er eksempel på summeret skalering. Test-retest reliabilitet: Den grad, hvori gentagne anvendelser af det samme mål er konsistent, udtrykt ved korrelation af den samme måling, udført ved forskellige tidspunkter. Anvendes ved alle typer af instrumenter. Se: reliabilitet. Validitet udtrykker den grad, hvori et mål faktisk måler, hvad der ønskes, at det skal måle, og omvendt ikke måler det, som det ikke ønskes, at det skal måle. Validitet er ikke et spørgsmål om enten eller, men om grad. Validitetsbegrebet knytter sig ikke til et instrument alene (det giver ikke mening alene at sige, at et instrument er validt), men det knytter sig også til, om det er gyldigt for et specifikt formål og ved brug over for en specifik befolkningsgruppe. F.eks. kan et instrument til måling af depression i den ældre befolkning være et gyldigt udtryk 62

63 for depression deri, men ikke nødvendigvis for depression hos demente. At et instrument er valideret, er ikke et tilstrækkeligt grundlag at vælge instrument på; dels kræves der oplysning om formål og befolkningsgruppe, dels kræves der oplysninger om resultatet af valideringsarbejdet. Der benyttes forskellige typer af validitetsmål: indholdsvaliditet, kriterievaliditet, begrebsvaliditet samt studier af bias (se disse). Se også ekstern og intern validitet. VAS: Visuel Analog Scala (VAS) er betegnelsen for en ret linje, hvor de to yderpunkter repræsenterer hhv. den bedst og den værst tænkelige tilstand. Her anmodes respondenten om at markere sin aktuelle tilstand med et kryds på linjen mellem de to yderpunkter. 63

FORORD. Ask Elklit Professor, cand. psych.

FORORD. Ask Elklit Professor, cand. psych. FORORD Den empiriske tradition inden for psykologien har i en årrække stået relativt svagt herhjemme sammenlignet med de andre nordiske lande. I de senere år har interessen for diagnostik og dokumentation

Læs mere

Region Hovedstaden Enheden for Brugerundersøgelser Spørg brugerne

Region Hovedstaden Enheden for Brugerundersøgelser Spørg brugerne Region Hovedstaden Enheden for Brugerundersøgelser Spørg brugerne - en guide til kvalitative og kvantitative brugerunder søgelser i sundhedsvæsenet Enheden for Brugerundersøgelser Spørg brugerne - en guide

Læs mere

Brugerundersøgelser - Som man spørger, får man svar

Brugerundersøgelser - Som man spørger, får man svar Brugerundersøgelser - Som man spørger, får man svar Inddragelse af brugerne er væsentlig for at sikre og udvikle kvaliteten af de leverede ydelser. Der gennemføres traditionelle brugerundersøgelser, der

Læs mere

Navn: Søren Dissing Jensen. Studienr.: A100139. Fag: Idræt. Faglig vejleder: Torben Vandet. Pædagogisk vejleder: Henrik Madsen

Navn: Søren Dissing Jensen. Studienr.: A100139. Fag: Idræt. Faglig vejleder: Torben Vandet. Pædagogisk vejleder: Henrik Madsen Hvis du vil bygge et skib, skal du ikke kalde folk sammen for at tilvejebringe tømmer eller tilvirke redskaber. Du skal ikke uddelegere opgaver til dem eller fordele arbejdet, men du skal vække deres længsel

Læs mere

Grundlag og metode for måling, dokumentation og forbedring af sygeplejefaglig kvalitet

Grundlag og metode for måling, dokumentation og forbedring af sygeplejefaglig kvalitet SYGEPLEJEFAGLIG KLARINGSRAPPORT Grundlag og metode for måling, dokumentation og forbedring af sygeplejefaglig kvalitet Brug af kvalitetsmål og indikatorer Rapporten er udarbejdet af: Sussie Laustsen, Vibeke

Læs mere

Web-håndbog om brugerinddragelse

Web-håndbog om brugerinddragelse Web-håndbog om brugerinddragelse Socialministeriet Finansministeriet www.moderniseringsprogram.dk Regeringen ønsker at skabe en åben og lydhør offentlig sektor. Ved at tage den enkelte med på råd skal

Læs mere

Vejen ud. En interviewundersøgelse med tidligere prostituerede

Vejen ud. En interviewundersøgelse med tidligere prostituerede Vejen ud En interviewundersøgelse med tidligere prostituerede Publikationen er udgivet af Socialstyrelsen Edisonsvej 18, 1. 5000 Odense C Tlf: 72 42 37 00 E-mail: [email protected] www.servicestyrelsen.dk

Læs mere

Sundhedsprofessionelles forståelser

Sundhedsprofessionelles forståelser Sundhedsprofessionelles forståelser af patientinddragelse En kvalitativ undersøgelse VIDENSCENTER FOR BRUGERINDDRAGELSE i sundhedsvæsenet VIDENSCENTER FOR BRUGERINDDRAGELSE i sundhedsvæsenet Sundhedsprofessionelles

Læs mere

Compliance & Concordance

Compliance & Concordance Compliance & Concordance Uddannelseshæfte til programmet Sikker og effektiv medicinbrug Version 1.2 Compliance og concordance Uddannelseshæfte til programmet Sikker og effektiv medicinbrug Version 1.2

Læs mere

Kvalitative forskningsmetoder i fysioterapi - en introduktion

Kvalitative forskningsmetoder i fysioterapi - en introduktion Kvalitative forskningsmetoder i fysioterapi - en introduktion Af Bente Hovmand fysioterapeut M Sc og Jeanette Præstegaard fysioterapeut M Sc Historien om en tåre Den unge pige bøjede hovedet. Øjnene blev

Læs mere

Sundhedsøkonomisk analyse af rygestopkurser. en opgørelse af vundne leveår og omkostninger

Sundhedsøkonomisk analyse af rygestopkurser. en opgørelse af vundne leveår og omkostninger Sundhedsøkonomisk analyse af rygestopkurser en opgørelse af vundne leveår og omkostninger Kim Rose Olsen Betina Højgaard Charlotta Pisinger Dorte Gyrd-Hansen Hanne Tønnesen Henrik Hauschildt Juhl Marie

Læs mere

ICF anvendt som kommunikations- og kvalitetsudviklingsværktøj i det tværfaglige og tværsektorielle samarbejde

ICF anvendt som kommunikations- og kvalitetsudviklingsværktøj i det tværfaglige og tværsektorielle samarbejde ICF anvendt som kommunikations- og kvalitetsudviklingsværktøj i det tværfaglige og tværsektorielle samarbejde - omkring patienter med kroniske lænderygsmerter Helbredstilstand eller sygdom Kroppens funktioner

Læs mere

Ulf Hjelmar, Lene Holm Pedersen og Mats Joe Bordacconi. Det unødige bureaukrati sammenhængen med motivation, innovation og organisatoriske forhold

Ulf Hjelmar, Lene Holm Pedersen og Mats Joe Bordacconi. Det unødige bureaukrati sammenhængen med motivation, innovation og organisatoriske forhold Ulf Hjelmar, Lene Holm Pedersen og Mats Joe Bordacconi Det unødige bureaukrati sammenhængen med motivation, innovation og organisatoriske forhold Publikationen Det unødige bureaukrati sammenhængen med

Læs mere

Når lederen også er coach

Når lederen også er coach Kandidatafhandling Copenhagen Business School 2012 Cand.Merc.HRM Ditte Jensen: Lea Jørgensen: Når lederen også er coach - Et casestudie af 6 lederes praksisbrug af ledelsesbaseret coaching og de tilhørende

Læs mere

Jeg har hiv, hiv har ikke mig

Jeg har hiv, hiv har ikke mig DET SAMFUNDSVIDENSKABELIGE FAKULTET KØBENHAVNS UNIVERSITET Jeg har hiv, hiv har ikke mig En undersøgelse af identitetsudvikling og anerkendelsesmuligheder blandt unge hivsmittede i Danmark Sisse Liv Lauesen

Læs mere

Monitorering af forekomsten af fedme

Monitorering af forekomsten af fedme Monitorering af forekomsten af fedme Monitorering af forekomsten af fedme En rapport fra Motions- og Ernæringsrådet Af Thorkild I. A. Sørensen (formand) Pernille Due Bente Hansen Berit L. Heitmann Anne

Læs mere

GOD ARBEJDSLYST INDEKS 2015

GOD ARBEJDSLYST INDEKS 2015 Rapport udarbejdet i et partnerskab mellem Krifa og Institut for Lykkeforskning i samarbejde med TNS Gallup GOD ARBEJDSLYST INDEKS 2015 En kortlægning af danskernes arbejdslyst INSTITUT FOR LYKKEFORSKNING

Læs mere

Hvidbog om mentalt helbred, sygefravær og tilbagevenden til arbejde

Hvidbog om mentalt helbred, sygefravær og tilbagevenden til arbejde Hvidbog om mentalt helbred, sygefravær og tilbagevenden til arbejde Vilhelm Borg, Mette Andersen Nexø, Ida Viktoria Kolte og Malene Friis Andersen DET NATIONALE FORSKNINGSCENTER FOR ARBEJDSMILJØ Sammenfatning

Læs mere

Eudaimonia som moderne lykkebegreb

Eudaimonia som moderne lykkebegreb Asger Abel Sørensen Susanne Nørregård Christensen Eudaimonia som moderne lykkebegreb Filosofi & Vidensekabsteori Eudaimonia som Moderne Lykkebegreb Asger Abel Sørensen Susanne Nørregård Christensen Vejleder:

Læs mere

12 skridt til fremme af sund kost og fysisk aktivitet den gode kommunale model. Anbefalinger på basis af litteraturen og lokale erfaringer

12 skridt til fremme af sund kost og fysisk aktivitet den gode kommunale model. Anbefalinger på basis af litteraturen og lokale erfaringer 12 skridt til fremme af sund kost og fysisk aktivitet den gode kommunale model Anbefalinger på basis af litteraturen og lokale erfaringer 81 Sund By Netværket 12 skridt til fremme af sund kost og fysisk

Læs mere

Forældres brug af tid og penge på deres børn. Jens Bonke

Forældres brug af tid og penge på deres børn. Jens Bonke Forældres brug af tid og penge på deres børn Jens Bonke Forældres brug af tid og penge på deres børn Rockwool Fondens Forskningsenhed og Syddansk Universitetsforlag 2009 GRAFISK TILRETTELÆGGELSE: Kim Lykke

Læs mere

Forskelle på drenge og pigers brug af arbejdsark på naturfaglige museer

Forskelle på drenge og pigers brug af arbejdsark på naturfaglige museer Forskelle på drenge og pigers brug af arbejdsark på naturfaglige museer - Et observationsstudie på Experimentarium og Danmarks Akvarium Professionsbachelorprojekt, RESUME Afleveret 22. 12. 2011 Indholdsfortegnelse

Læs mere

Sprogtilegnelse i teori og praksis

Sprogtilegnelse i teori og praksis Sprogtilegnelse i teori og praksis Hvordan lærer børn sprog? Sprog er et komplekst fænomen, og det kan virke som et mysterium, hvordan små børn lærer sprog. De skal inden for meget kort tid af sig selv

Læs mere

Den Kreative Platform

Den Kreative Platform Den Kreative Platform Søren Hansen & Christian Byrge Kreativitetslaboratoriet, Aalborg Universitet 2. udgave 2 Indholdsfortegnelse Indholdsfortegnelse........................................................................................................................................................

Læs mere

Frafald på professionsbacheloruddannelserne

Frafald på professionsbacheloruddannelserne Kræn Blume Jensen, Christophe Kolodziejczyk og Torben Pilegaard Jensen Frafald på professionsbacheloruddannelserne Hvordan klarer uddannelsesinstitutionerne sig? Publikationen Frafald på professionsbacheloruddannelserne

Læs mere

12.1 Kollektiv etnografi... 47 12.2 Fra teori til empiri... 49 12.3 Erfaringer fra pilotetnografien... 51 13. Konklusion... 51 14.

12.1 Kollektiv etnografi... 47 12.2 Fra teori til empiri... 49 12.3 Erfaringer fra pilotetnografien... 51 13. Konklusion... 51 14. Indholdsfortegnelse 1. Indledning... 3 2. Problemfelt... 3 3. Problemformulering... 4 4. Metode... 4 5. Hvad er etnografi?... 5 6. Etnografi i historisk perspektiv... 9 7. Feltarbejdet... 12 7.1 Deltagerobservation...

Læs mere

af Sarah Midtgård Grau

af Sarah Midtgård Grau Kandidatspeciale En kvalitativ undersøgelse om sygeplejerskers brug af kliniske retningslinjer og fremmende faktorer for anvendelsen af forskningsbaseret viden i praksis af Sarah Midtgård Grau Publikation

Læs mere

Erkendelsens betydning for skolen og samfundet

Erkendelsens betydning for skolen og samfundet Erkendelsens betydning for skolen og samfundet - brudstykker til en forståelse Speciale ved kandidatuddannelsen i pædagogisk filosofi Af Niels Jakob Pasgaard Vejleder: Thomas Aastrup Rømer Skriftligt speciale,

Læs mere

TRIVSEL, SUNDHED OG SUNDHEDSVANER BLANDT 16-20-ÅRIGE I DANMARK

TRIVSEL, SUNDHED OG SUNDHEDSVANER BLANDT 16-20-ÅRIGE I DANMARK TRIVSEL, SUNDHED OG SUNDHEDSVANER BLANDT 16-20-ÅRIGE I DANMARK Forfattere: Sociolog Susanne Aaen ([email protected]) & PhD. Gert Allan Nielsen ([email protected]) Copyright Kræftens Bekæmpelse og Sundhedsstyrelsen,

Læs mere