Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten? John Brodersen, speciallæge i almen medicin, ph.d., lektor Forskningsenheden og Afdeling for Almen Praksis, Københavns Universitet john.brodersen@sund.ku.dk
MTV-rapport om skulderlidelser Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 2
Indhold Indholdsvaliditet Psykometrisk skalavaladering MTV-rapports konklusioner Constant score Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 3
Indholdsvaliditet Bygges på en teori eller model Konceptualisering af begreb(er) Indholdsrelevans Relevante items Ingen irrelevante items Dækningsgrad Høj dækningsgrad af hvad der ønskes målt Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 4
Teori og/eller model Disposition og struktur Symptomer Funktion Helbreds-relateret Behovs-baseret livskvalitet livskvalitet Impairments (Forbigående) Disability (Nedsat evne) Impairment, disability & noget livskvalitet Behovs-baseret livskvalitet HADS HAQ NHP SF-36 QoL-depression QoL-leddegigt Klinisk perspektiv Patient perspektiv
Hvor findes et egnet/måske egnet spørgeskema? Systematisk litteratursøgning Kontakt til eksperter http://www.proqolid.org/ Mere eller mindre tilfældigt Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 6
Undgå faldgruber Begræns antal spørgsmål Ingen negationer Spørg kun om én ting Begræns instruktionerne og gentag dem Ensartede svarkategorier, hvis det er muligt Undgå slang og gammeldags ord Undgå overspringelsesmønstre Gem kontroversielle spørgsmål til sidst Enkelt og appetitligt layout Afprøv for forståelighed og funktionalitet Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 7
Forståelighed og funktionalitet Feltundersøgelse Kognitiv debriefing Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 8
Hvad er en skala? To eller flere items, der måler forskellige aspekter (eller samme) af det samme overordnede begreb Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 9
Guttmans mønster Items 1 2 3 4 5 6 7 8 9 10 Personer A 1 0 0 0 0 0 0 0 0 0 B 1 1 0 0 0 0 0 0 0 0 C 1 1 1 0 0 0 0 0 0 0 D 1 1 1 1 0 0 0 0 0 0 E 1 1 1 1 1 0 0 0 0 0 F 1 1 1 1 1 1 0 0 0 0 G 1 1 1 1 1 1 1 0 0 0 H 1 1 1 1 1 1 1 1 0 0 I 1 1 1 1 1 1 1 1 1 0 J 1 1 1 1 1 1 1 1 1 1 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 10
Den virkelige virkelighed Items 1 2 3 4 5 6 7 8 9 10 Personer A 1 1 1 1 1 1 1 0 0 1 B 1 1 1 1 1 1 1 1 1 0 C 0 1 0 1 O 0 0 0 0 0 D 1 1 1 1 0 1 0 0 0 0 E 1 1 0 0 1 1 0 0 0 0 F 0 1 1 1 1 1 1 0 0 0 G 1 1 1 1 1 1 0 0 0 1 H 0 1 0 0 0 0 0 0 0 0 I 1 1 1 1 1 1 1 1 1 1 J 0 1 0 0 1 1 0 0 0 0 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 11
Det mildeste item Items 1 2 3 4 5 6 7 8 9 10 Personer A 1 1 1 1 1 1 1 0 0 1 B 1 1 1 1 1 1 1 1 1 0 C 0 1 0 1 O 0 0 0 0 0 D 1 1 1 1 0 1 0 0 0 0 E 1 1 0 0 1 1 0 0 0 0 F 0 1 1 1 1 1 1 0 0 0 G 1 1 1 1 1 1 0 0 0 1 H 0 1 0 0 0 0 0 0 0 0 I 1 1 1 1 1 1 1 1 1 1 J 0 1 0 0 1 1 0 0 0 0 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 12
Den mest angste person Items 1 2 3 4 5 6 7 8 9 10 Personer A 1 1 1 1 1 1 1 0 0 1 B 1 1 1 1 1 1 1 1 1 0 C 0 1 0 1 O 0 0 0 0 0 D 1 1 1 1 0 1 0 0 0 0 E 1 1 0 0 1 1 0 0 0 0 F 0 1 1 1 1 1 1 0 0 0 G 1 1 1 1 1 1 0 0 0 1 H 0 1 0 0 0 0 0 0 0 0 I 1 1 1 1 1 1 1 1 1 1 J 0 1 0 0 1 1 0 0 0 0 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 13
Data flyttet rundt Items 2 5 4 6 1 3 10 9 7 8 Personer H 1 0 0 0 0 0 0 0 0 0 C 1 0 1 0 0 0 0 0 0 0 J 1 1 0 1 0 0 0 0 0 0 E 1 1 0 1 1 0 0 0 0 0 D 1 0 1 1 1 1 0 0 0 0 F 1 1 1 1 0 1 0 0 1 0 G 1 1 1 1 1 1 1 0 0 0 A 1 1 1 1 1 1 1 0 1 0 B 1 1 1 1 1 1 0 1 1 1 I 1 1 1 1 1 1 1 1 1 1 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 14
Ikke et perfekt mønster Items 2 5 4 6 1 3 10 9 7 8 Personer H 1 0 0 0 0 0 0 0 0 0 C 1 0 1 0 0 0 0 0 0 0 J 1 1 0 1 0 0 0 0 0 0 E 1 1 0 1 1 0 0 0 0 0 D 1 0 1 1 1 1 0 0 0 0 F 1 1 1 1 0 1 0 0 1 0 G 1 1 1 1 1 1 1 0 0 0 A 1 1 1 1 1 1 1 0 1 0 B 1 1 1 1 1 1 0 1 1 1 I 1 1 1 1 1 1 1 1 1 1 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 15
IRT tillader et ikke-perfekt mønster Items 2 5 4 6 1 3 10 9 7 8 Personer H 1 0 0 0 0 0 0 0 0 0 C 1 0 1 0 0 0 0 0 0 0 J 1 1 0 1 0 0 0 0 0 0 E 1 1 0 1 1 0 0 0 0 0 D 1 0 1 1 1 1 0 0 0 0 F 1 1 1 1 0 1 0 0 1 0 G 1 1 1 1 1 1 1 0 0 0 A 1 1 1 1 1 1 1 0 1 0 B 1 1 1 1 1 1 0 1 1 1 I 1 1 1 1 1 1 1 1 1 1 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 16
Sandsynlighedszonen 1 10 10 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 17
Rasch modeller Højdespringer A B C D E F G H I J Overlægger 1 2 3 4 5 6 7 8 9 10 P Højde Styrke og teknik Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 18
Sandsynlighedsmodel P(β) = e (β δ) 1 + e (β δ) P(β) = sandsynligheden for at en person, som er påvirket graden β vil bekræfte et item der måler sværhedsgraden δ Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 19
Rasch modeller Har ikke nogen antagelse om normalfordeling af data Kan inkludere data på en ordinalskala Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 20
Interval- vs. ordinalskala Patient 1 + 1 Patient 2 + 2.7 +3 +1.2 Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 21
Forkølelses-skala Det sidste døgn, har du da haft: Nej, Slet ikke Ja, lidt Ja, meget Tør hoste? Øjne, der løber i vand? Rune Aabenhus, Hanne Thorsen, Volkert Siersma, John Brodersen.The development and validation of a questionnaire to measure patient-reported severity and functional impairment in acute respiratory tract infections. Working paper. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 22
Rasch modeller - gevinster Kriterie-relateret begrebsvaliditet Én-dimensionalitet Additivitet Specifik objektivitet (invarians) Sufficiens Reliabilitet Praktisk information: vægtning af items, funktion af svarkat., etc. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 23
Differentiel Itemfunktion - DIF Et item der ikke fungerer ens i forskellige grupper, f.eks.: Køn Aldersgruppe Sprog Kultur Tid Patienter Etc. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 24
Differentiel Itemfunktion - DIF Gruppe 1 Gruppe 2 Item 1 Item 1 Item 2 Item 2 Item 3 Item 3 Item 4 Item 4 Item 5 Item 5 Item 6 Item 6 Item 7 Item 7 Item 8 Item 9 Item 9 Item 9 Samme score og dermed også samme mønster Item 10 Item 10 Er der samme score i item 10? Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 25
Uniform DIF Absence of evidence of interaction between the covariates and the estimated trait parameters is taken as evidence of DIF being uniform Hagquist C,.Andrich D. Is the Sense of Coherence-instrument applicable on adolescents? A latent trait analysis using Rasch-modelling. Personality and Individual Differences 2004;36:955-68. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 26
Uniform DIF Jeg har betragtet mit bryst i spejlet Abnorme, falsk-positive + brystkræft Normale J. Brodersen, H. Thorsen, and S. Kreiner. Validation of a condition-specific measure for women having an abnormal screening mammography. Value in Health 10 (4):294-304, 2007. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 27
Non-uniform DIF Evidence of interaction between the covariates and the estimated trait parameters is taken as evidence of nonuniform DIF Hagquist C,.Andrich D. Is the Sense of Coherence-instrument applicable on adolescents? A latent trait analysis using Rasch-modelling. Personality and Individual Differences 2004;36:955-68. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 28
Non-uniform DIF I felt that I could not shake off the blues even with help from my family J. Brodersen et al. Methodological Aspects of Differential Item Functioning in the Rasch Model. Journal of Medical Economics 10 (3):309-324, 2007. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 29
Brystundersøgelses-dimension Nej, Slet ikke Ja, lidt Ja, noget Ja, meget Jeg har undersøgt mit bryst Jeg har betragtet mit bryst i spejlet J. Brodersen, H. Thorsen, and S. Kreiner. Validation of a condition-specific measure for women having an abnormal screening mammography. Value in Health 10 (4):294-304, 2007. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 30
Jeg har undersøgt mit bryst Abnorme, falsk-positive + normale Brystkræft Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 31
Jeg har betragtet mit bryst i spejlet Abnorme, falsk-positive + brystkræft Normale Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 32
Brystundersøgelses-dimension Nej, Slet ikke Ja, lidt Ja, noget Ja, meget Jeg har undersøgt mit bryst 0 1 2 3 Jeg har betragtet mit bryst i spejlet 0 1 2 3 J. Brodersen, H. Thorsen, and S. Kreiner. Validation of a condition-specific measure for women having an abnormal screening mammography. Value in Health 10 (4):294-304, 2007. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 33
Brystundersøgelses-dimension 1=abnorme og falsk-positive, 2=brystkræft & 3=normale Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 34
Brystundersøgelses-dimension Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 35
Brystundersøgelses-dimension Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 36
DIF over tid However, comparison of separate NHP-items across time and across age groups disclosed strong evidence of DIF of Item 1 relative to Age (p = 0.001) and of Item 3 relative to time of measurement (p < 0.001). The DIF relative to time is particular disturbing since it will confound measurement of the general energy levels across time if this is disregarded. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 37
MTV-rapport konklusion På baggrund af den sundhedsøkonomiske analyse og med forbehold for begrænsningerne i den bagvedliggende litteratur konkluderes det, at kirurgisk behandling ikke er omkostningseffektiv for patienter med impingement syndrom/rotator cuff syndrom, mens kirurgisk behandling er omkostningseffektiv for patienter med rotator cuff ruptur, såfremt der antages en betalingsvilje på mindst 950 kr. per Constant score point, svarende til ca. 10.000 kr. per patient for en klinisk relevant mereffekt. Konklusionerne er ikke følsomme over for ændringer i antagelserne bag de sammenlignede modeller. Constant CR, Murley AH. A clinical method of functional assessment of the shoulder. Clin Orthop Relat Res 1987;214:160 4. Constant CR, Gerber C, Emery RJ, Sojbjerg JO, Gohlke F, Boileau P. A review of the Constant score: modifications and guidelines for its use. J Shoulder Elbow Surg 2008;17:355 61. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 38
Constant score Benævnes også Constant Murley Shoulder Assessment Score for skulderfunktion Skulderfunktionen måles på en skala fra 0 100, hvor 100 er optimal funktion En subjektiv del smerter og funktion (35 point) En objektiv del bevægelighed og styrke (65 point) Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 39
Constant score Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 40
Constant score Relevante med ikke dækkende Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 41
Validitet of reliabilitet af den danske version af Constant score Et Validitets- og Reliabilitetsstudie af den danske oversættelse af Oxford Shoulder Score - sammenhængen mellem dansk Oxford Shoulder Score og Constant Shoulder Score Professionsbachelor Fysioterapeutuddannelsen, jan 2009. University College Lillebælt Forfattere: Peter Elkjær, Heidi Egmose Busch og Niels Fryd Interne Vejleder: Line Nielsen Eksterne vejledere: Lars Henrik Frich og Peder Berg Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 42
Smerte- og styrkekategorierne fylder påfaldende meget i udregningen af CSS. Mange forfattere og læger stiller sig tvivlende overfor, om de to har for stor indflydelse i det samlede resultat, og om det er med til at give et forkert resultat. Fylder smerten og styrken i forhold til for eksempel bevægeligheden i en patients dagligdag så meget, at man kan retfærdiggøre den høje vægtning. Dette kunne måske også give anledning til bias i resultaterne. Blandt andet i hvordan målingen foretages og også hvordan der spørges ind til smertespørgsmålet. Man kunne godt forestille sig, at terapeuten kan præge patientens svar. Det samme kan gøre sig gældende i spørgsmålene omkring ADL kategorien. Her er det måske ikke så meget måden, der bliver spurgt ind til, men mere opfattelsen af spørgsmålet. Har man eksempelvis med en pensionist at gøre, kan det give problemer med differentieringen af fritid og dagligdag. Et andet eksempel på forståelsesproblematikken kunne være ved spørgsmål omkring sports- og fritidsinteresser, fordi mange her kun hører ordet sport og ikke ordet fritid, og derfor kan der være situationer, hvor svaret ikke stemmer overens med det reelle billede af skulderens funktion, fordi patienten svarer, at de ikke dyrker sport og på den baggrund scorer højt. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 43
Constant score - dansk Er din daglige beskæftigelse eller dagligdag begrænset pga. din skulder? Er din fritids eller sportsaktiviteter begrænset pga. din skulder? Begge spørgsmål er dobbelttydige Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 44
MTV-rapport omregning en stigning på 41,4 point således omregnes til en stigning på mellem 0,048 og 0,2 QALY, hvorfor en stigning på 1 point svarer til en stigning på mellem 0,0012 og 0,0048 QALY. I litteraturen anvendes ofte en tærskelværdi for betalingsviljen for 1 QALY på 300.000 kr., som er den værdi der anvendes af det engelske National Institute for Health and Clinical Excellence (NICE) (98;99). Med en betalingsvilje på 300.000 kr./qaly kan betalingsviljen for en stigning på 1 point på Constant score estimeres til at ligge i intervallet mellem 360 kr. til 1.440 kr. per point. Constant CR, Murley AH. A clinical method of functional assessment of the shoulder. Clin Orthop Relat Res 1987;214:160 4. Constant CR, Gerber C, Emery RJ, Sojbjerg JO, Gohlke F, Boileau P. A review of the Constant score: modifications and guidelines for its use. J Shoulder Elbow Surg 2008;17:355 61. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 45
Constant score - pålidelighed We have analysed the Constant-Murley (1987) assessment for 25 patients with shoulder pathology. We found the score easy to use, with low inter- and intraobserver errors, but sufficiently imprecise in repeated measurements to give concern in its use for clinical follow-up of patients. We have calculated 95% confidence limits for a single assessment to be within 16 to 20 points in most cases. In addition, we found that all our subjects with instability as their main problem scored within five points of the maximum; this suggests that the scoring method may need to be revised for use on these patients. Conboy VB, Morris RW, Kiss J, Carr AJ. An evaluation of the Constant- Murley shoulder assessment. J Bone Joint Surg Br 1996;78:229-32. Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 46
Constant score - konklusion Ingen teori eller model som grundlag for måling Lav indholdsvaliditet Face validity flere begreber der måles Ingen evidens for én-dimensionalitet Ingen undersøgelse for DIF (f.eks. mht. forskellige skulderlidelser og alder) Ingen evidens for den anvendte vægtning De få psykometriske metoder der er anvendt er parametriske med antagelse om intervalskala Hvordan sikrer man sig, at et spørgeskema fungerer efter hensigten 47