TESTNORMER Af Erik Lykke Mortensen

19 TESTNORMER Af Erik Lykke Mortensen Udenlandske test ILLUSTRATION: LISBETH CHRISTENSEN på dansk grund Der vil kunne rettes kritik mod danske psykologer, hvis de vurderer danskeres testpræstationer på basis af udenlandske normer I forbindelse med et stort danskamerikansk udviklingspsykologisk forskningsprojekt er godt 1.200 unge danskere testet med WAIS og en række andre kognitive test. Projektet er detaljeret beskrevet af Reinisch et al. (1). Alle undersøgelsesdeltagerne indgår i Rigshospitalets Mor-Barn Kohorte og er født i perioden 1959-61. De blev undersøgt som henholdsvis 20-26-årige og 29-34-årige i 1982-86 og 1990-94. For hver undersøgelsesperiode er der udvalgt 200 deltagere (lige mange mænd og kvinder), som med hensyn til skoleuddannelse er repræsentative for den pågældende generation. Beregning af IK baseres på en sammenligning af et individs præstationer med en repræsentativ jævnaldrende population, og resultaterne for disse 2 x 200 individer udgør

20 Tabel 1: Gennemsnit og standardafvigelse i WAIS IK beregnet på basis af amerikanske normer for 400 20-34 årige danskere. Gn.snit SA grundlaget for de danske WAISnormer for henholdsvis 20-26-årige og 29-34-årige. Til sammenligning er Wechslers oprindelige normer baseret på 200 20-24-årige og 300 25-34-årige, herunder 148 30-34-årige (2,3). Ud over alder, køn og uddannelse vurderede Wechsler repræsentativiteten i forhold til geografisk område, bymæssig/landlig boligområde, erhverv og race. Den eneste af disse faktorer af betydning i et så lille og homogent land som Danmark er antagelig erhverv, men eftersom en væsentlig del af de 20-26-årige er under uddannelse, er der ikke taget hensyn til erhvervsmæssig indplacering ved udvælgelsen af de to standardiseringsgrupper. Danske og amerikanske WAIS-normer WAIS blev oversat til dansk i 1950 erne, uden at der blev gennemført en standardisering, og der udvikledes efterhånden tradition for at anvende amerikanske normer ved vurdering af prøveresultatet. Det var naturligvis betænkeligt af mange grunde og for visse delprøver næsten absurd. Det gælder ikke mindst ordforrådsprøven, hvor der stort set ikke er overlap mellem den danske og amerikanske version. Imidlertid indsamledes efterhånden et erfaringsgrundlag for testens anvendelse i Danmark, og det generelle indtryk var, at flere delprøver var lidt lettere for danskere end amerikanere. Alligevel kom det nok som en overraskelse for mange, at Hess og Klevens store population af 50-årige opnåede en gennemsnitlig IK på 107 (4). Deraf var mange tilsyneladende Verbal IK 107.23 12.32 Performance IK 10.90 11.58 Full scale IK 109.39 1.56 Tabel 2: Gennemsnit og standardafvigelse i scaled scores beregnet på basis af amerikanske normer for 400 20-34-årige danskere. Gn.snit SA Informationsprøve 11.49 2.34 Omtankeprøve 11.23 3.05 Hovedregningsprøve 10.85 2.99 Lighedsprøve 13.38 2.85 Talspændviddeprøve 8.55 2.57 Ordforrådsprøve 12.07 2.24 Talsymbolprøve 11.05 2.67 Billedkompl.prøve 11.06 2.33 Blokmønsterprøve 13.06 2.81 Billedordningsprøve 11.36 2.54 Puslespilsprøve 11.91 2.63

21 Et individ, som opnår en amerikansk IK på fx 85, er i realiteten to standardafvigelser under gennemsnittet og derfor kun opnå en IK på 70 på en korrekt IK-skala tilbøjelige til at drage den lære, at de amerikanske normer kunne anvendes for danskere, hvis de beregnede IK-værdier justeredes nedad med cirka 7 points. For at vurdere konsekvenserne af denne fremgangsmåde er det nødvendigt systematisk at undersøge sammenhængen mellem IK-værdier beregnet på basis af henholdsvis amerikanske og danske normer. Figur 1 viser sammenhængen mellem de to typer af full-scale IK-værdier for de 400 unge danskere, som indgår i standardiseringsgrupperne: Selv om sammenhængen ikke er helt lineær, er korrelationskoefficienten meget høj: 0.99. Det væsentlige er imidlertid, at forskellen mellem de amerikanske og danske IK-værdier afhænger af, hvor på IK-skalaen man befinder sig. I den nedre ende er forskellen op mod 20 IK-points, medens den i den øvre ende af skalaen er omkring 5 points. Og en statistisk analyse viser, at de danske IK-værdier gennemgående vokser 1.3 point, når man bevæger sig 1 point op på den amerikanske skala. Det er derfor ganske uholdbart at anvende den samme IK-justering over hele skalaen, og i det hele taget forekommer det uforsvarligt at anvende de amerikanske normer uden et nøjagtigt kendskab til, hvorledes de fungerer under danske forhold. En meget sandsynlig konsekvens af den udbredte anvendelse af amerikanske normer er, at der er blevet diagnosticeret for få svagtbegavede, eftersom det er for denne del af IKskalaen, forskellen mellem de amerikanske og danske IK-værdier er størst. Forklaringen på disse forhold fremgår af tabel 1, som viser IK-værdier beregnet ud fra amerikanske normer. I Wechslers intelligenstest er IK defineret som en skala med et gennemsnit på 100 og en standardafvigelse på 15. For de 400 danskere, som indgår i standardiseringsmaterialet, afviger de amerikanske IK-værdier imidlertid ikke alene med hensyn til de gennemsnitlige værdier, men også med hensyn til standardafvigelserne, som ligger væsentligt under 15. For full-scale IK er gennemsnittet cirka 109 og standardafvigelsen cirka 12. Det betyder, at et individ, som opnår en amerikansk IK på fx 85, i realiteten er to standardafvigelser under gennemsnittet og derfor kun vil opnå en IK på 70 på en korrekt IK-skala (med et gennemsnit på 100 og en standardafvigelse på 15). Omvendt svarer en amerikansk IK på 133 til et resultat, som er to standardafvigelser over gennemsnittet, og altså på en korrekt IK-skala til en IK på 130. Den empiriske relation mellem de danske og amerikanske IK-værdier bekræfter fuldstændigt disse forhold, og det viser samtidig, at WAIS baseret på danske normer opfører sig som en korrekt IK-skala. En del danske psykologer vil indvende mod disse overvejelser, at det mest interessante ved et individs præstationer i WAIS ikke er de opnåede IK-værdier, men den profil, som fremgår af mønstret i WAIS-delprøverne. Tabel 2 viser imidlertid, at profiler i praksis ikke lader sig fortolke på basis af amerikanske normer: Scaled scores er defineret ved et gennemsnit på 10 og en standardafvigelse på 3, men den danske standardiseringsgruppe opnår i delprøverne vidt for-

22 skellige scaled score-gennemsnit og standardafvigelser, når de amerikanske normer anvendes. Laveste resultat opnås i spændvidde, medens de højeste gennemsnitlige scores opnås i lighedsprøven og blokmønsterprøven. For at fortolke afvigelserne fra det teoretiske gennemsnit på 10 er det imidlertid også her nødvendigt at tage hensyn til standardafvigelserne, som varierer fra 2.24 til 3.05 og altså i nogle tilfælde afviger væsentligt fra den teoretiske værdi på 3.00. Vanskelighederne ved at fortolke profilen i delprøverne ses imidlertid umiddelbart af det forhold, at en person med scaled scores på 10 i alle delprøver klarer sig markant under gennemsnittet i fx lighedsprøven og over gennemsnittet i spændvidde. Profilanalyse er således mindst lige så vanskelig som vurdering af IK-værdier, når de amerikanske normer anvendes. Til tider vurderes begavelsesniveauet ud fra enkelte WAIS-delprøver. Det siger sig selv, at det er yderst problematisk, hvis det sker på grundlag af amerikanske normer og uden reelt kendskab til danskeres præstationsmønster i delprøverne. WAIS og WAIS-R Konklusionen af ovenstående må være, at danske normer altid er at foretrække frem for amerikanske selv i tilfælde, hvor de danske normer ikke lever helt op til idealstandarder (fx på grund af forældelse eller ikke sikker repræsentativitet). Det vækker på den baggrund at det af Brun og Knudsens bog om psykologisk undersøgelsesmetodik (5) fremgår, at danske psykologer rutinemæssigt anvender WAIS-R, og at Dansk psykologisk Forlag ikke længere forhandler komplette WAISudgaver. Er det historiske WAISforløb ved at gentage sig på den måde, at man systematisk anvender amerikanske normer ved vurdering af WAIS-R-præstationer? Baggrunden for denne bekymring er naturligvis det forhold, at der for WAIS-R ikke findes danske normer. Mig bekendt er det eneste systematiske danske erfaringsgrundlag den opgørelse, som Nielsen et al. (6) indsamlede for 101 danskere i alderen 20-54 år. I denne undersøgelse var antallet af individer i de forskellige aldersgrupper imidlertid for ringe til at udvikle egentlige normer (35 i aldersgruppen 20-29 år), og desuden anvendte man ikke udvælgelsesprocedurer, som sikrede repræsentativitet i de forskellige aldersgrupper. Endelig indgik kun 7 af de 11 delprøver i undersøgelsen, som således kun i meget begrænset omfang kan anvendes som grundlag for en dansk standardisering. Helt anderledes forholder det sig med WAIS, hvor der ud over normerne for 20-34 årige findes en række normer fra Glostrup-undersøgelserne. Kyng (7) publicerede således normer for 50-, 60- og 70-årige, og nyere undersøgelser giver mulighed for reviderede 70-års normer og nye 80-års normer (8,9). For psykologisk praksis er 50- og 60-års-normerne utvivlsomt de vigtigste, og det er derfor uheldigt, at de er baseret på den såkaldte 1914-kohorte og altså indsamlet i 1964 og 1974. Nutidens 50- og 60-årige er født i slutningen af fyrrerne og trediverne, og det vil derfor være en god idé at

23 Der er naturligvis knyttet væsentlige oversættelsesproblemer til anvendelsen af udenlandske test af spørgeskematypen her i landet revidere normerne for disse aldersgrupper ved fra 1914-kohorten at udvælge subpopulationer med et uddannelsesniveau svarende til tidens 50- og 60-årige. Det skal tilføjes, at WAIS-delprøver også indgik i Rigshospitalets oprindelige standardiseringsprojekt fra begyndelsen af firserne, og at disse delprøver spiller en væsentlig rolle for vurdering af præstationerne i Rigshospitalets basisbatteri (10). Uden WAIS-delprøver vil man således ikke fuldt ud kunne udnytte det program, som er udviklet til at vurdere intellektuel reduktion (11). Det er vigtigt at kunne integrere forskellige standardiseringsprojekter, og blandt andet derfor har man valgt også at anvende WAIS-delprøver i Rigshospitalets nye standardiseringsprojekt (12). På denne baggrund må det konkluderes, at det i de fleste situationer vil være mest hensigtsmæssigt at anvende WAIS frem for WAIS-R. Jeg er naturligvis ganske klar over, at specielt den verbale del af WAIS i en række henseender kan virke forældet for yngre danskere. Dertil kommer, at den danske WAIS er biased i den forstand, at den favoriserer mænd i forhold til kvinder (3,13). Der er imidlertid ingen garanti for, at det ikke også vil være tilfældet med WAIS-R, der som bekendt kun er revideret i meget begrænset omfang i forhold til WAIS (14). Der er stadig væsentlige ligheder med Wechsler-Bellevue prøven, og WAIS-R er således baseret på psykometriske principper fra slutningen af trediverne. Synes danske psykologer alligevel, at der er væsentlige fordele ved at anvende WAIS-R, bør der hurtigst muligt tages initiativ til en dansk standardisering. Andre test Af tabel 1 og 2 fremgår det, at danske præstationer i de nonverbale WAISdelprøver er lige så afvigende fra amerikanske standarder som præstationerne i de sproglige prøver. Dette illustrerer problemerne ved at forudse, hvad der sker, når nonverbale kognitive tests anvendes i et nyt sprog- og kulturområde. Man må gå ud fra, at det er endnu vanskeligere, for så vidt gælder personlighedstests, og det er derfor yderst problematisk, at traditionen herhjemme har været at anvende udenlandske kriterier og normer for vurdering af både projektive personlighedstests og selvrapporteringsinstrumenter af spørgeskematypen. Der er naturligvis knyttet væsentlige oversættelsesproblemer til anvendelsen af udenlandske test af spørgeskematypen her i landet (15).

24 FOTO: BILLEDHUSET Jeg har selv været med til at oversætte og afprøve adskillige af disse tests, og min erfaring er, at de i psykometrisk henseende aldrig fungerer helt svarende til den originale udenlandske version. Det er blandt andet af den grund sagligt uforsvarligt at vurdere danskeres besvarelser af sådanne test på basis af udenlandske normer, og det må anses for særdeles betænkeligt, at der herhjemme forhandles flere edb-programmer, hvor personlighedstests opgøres i forhold til udenlandske standarder. Konklusion Jeg er af og til stødt på den misforståelse, at præcise normer er vigtigere i forskningssammenhæng end i klinisk praksis. I forskning sammenligner man ofte grupper af individer, og blandt andet derfor spiller kvaliteten af testnormer sjældent en afgørende rolle. I klinisk praksis træffes væsentlige dispositioner vedrørende det enkelte individ, og det forudsætter i langt højere grad præcise normer. Der vil derfor med god grund kunne rettes kritik mod danske psykologers faglige niveau, hvis de med WAIS-R viderefører traditionen med at vurdere danskeres testpræstationer på basis af udenlandske normer. Uanset om der er tale om kognitive eller personlighedstests, er der ingen saglig begrundelse for at anvende udenlandske normer, og det er egentlig overraskende, at denne tradition har kunnet udvikles blandt universitetsuddannede psykologer. Der har for nylig været rejst stærk kritik mod de danske psykologuddannelser. Dårlige uddannelser er ikke kun et problem for tidens psykologistuderende, idet uddannelsernes kvalitet naturligvis også smitter af på psykologisk praksis. Et markant eksempel på dette er anvendelse af udenlandske normer ved vurdering af danskeres testpræstationer. Erik Lykke Mortensen er cand.psych. og lektor i medicinsk psykologi ved Institut for Folkesundhedsvidenskab, Københavns Universitet. Han har deltaget i dataindsamlingen til det omtalte forskningsprojekt og har omfattende erfaring med WAIS-testninger af yngre, normale danskere.

25 Referencer 1. Reinisch, J. M., Mortensen, E. L. and Sanders, S. A. (1993): Prenatal development project. Acta Psychiatrica Scandinavica, vol. 87, Supplementum 370, 54-61. 2. Wechsler, D. (1955): Manual for the Wechsler Adult Intelligence Scale. New York: The Psychological Corporation. 3. Wechsler, D. (1958): The Measurement and Appraisal of Adult Intelligence. Baltimore: The Williams & Wilkins Company. 4. Hess, G. (1974): WAIS anvendt på 698 50-årige. København: Akademisk Forlag. 5. Brun, B. and Knudsen, P. (1998): Psykologisk Undersøgelsesmetodik en basisbog. København: Dansk psykologisk Forlag. 6. Nielsen, H., Knudsen, L. and Daugbjerg, O. (1989): Normative data for eight neuropsychological tests based on a Danish sample. Scandinavian Journal of Psychology, 30, 37-45. 7. Kyng, M. (1978): WAIS anvendt på 70-årige. København: Dansk psykologisk Forlag. 8. Mortensen, E. L. and Kleven, M. (1993): A WAIS longitudinal study of cognitive development during the life span from ages 50 to 70. Developmental Neuropsychology, 9, 115-130. 9. Mortensen, E. L. (1997). Aldring og intelligens. Gerontologi og Samfund, 13, 76-78. 10. Mortensen, E. L. and Gade, A. (1993): On the relation between demographic variables and neuropsychological test performance. Scandinavian Journal of Psychology, 34, 305-317. 11. Mortensen, E. L. and Gade, A. (1994): SCORING version 3.1. Program til skoring af neuropsykologiske tests. Upubliceret fotokopi. 12. Rigshospitalets neuropsykologer (1994): Standardiseringsprojekt S-94. Instruktion og scoring. Upubliceret fotokopi. 13. Mortensen, E. L. & Reinisch, J. (1986): Psychological Differences between Normal Danish Young Males and Females (abstract). In: Juel-Nielsen, N. & Wang, A. G. (eds.): Trends in Scandinavian Psychiatry. Report on XXI Congress of Scandinavian Psychiatrists, Odense, 39. 14. Wechsler, D. (1981): Manual for the Wechsler Adult Intelligence Scale-Revised. New York: The Psychological Corporation. 15. Simonsen, E. and Mortensen, E. L. (1990). Difficulties in translation of personality scales. Journal of Personality Disorders, 4, 290-296. De danske WAIS-normer De danske WAIS-normer kan fås ved henvendelse til artiklens forfatter. Dette gælder også normer for 15 ordpar og en række personlighedstests som fx EPQ, 16PF og MCMI. For visse test findes kun normer for den ene af de to standardiseringsgrupper.