Analyse af PISA data fra 2006. Svend Kreiner Indledning PISA undersøgelsernes gennemføres for OECD og de har det primære formål er at undersøge, herunder rangordne, en voksende række af lande med hensyn til elevers præstationer på tre områder (læsning, matematik og science) ved hjælp af pædagogiske test. Til dette formål anvender de en speciel statistisk model, der omtales som en Rasch model. Modellen, der har en vis interesse i Danmark, fordi den er udviklet af den danske statistiker Georg Rasch, er specielt interessant, fordi man kan argumentere for at pædagogiske test, der passer til Rasch modellen, har alle de egenskaber, som man mener pædagogiske test skal have. Det er derfor ikke unaturligt at ACER (Australian Counsil for Educational Research), der står for analysen af de data, som indsamles i forbindelse med PISA, har valgt at basere analyserne på denne model. Problemet er, at de pædagogiske test kun har de mange ideelle egenskaber, hvis svarene på spørgsmålene i PISAs 1 test rent faktisk opfører sig, som om de kom fra en Rasch model. Når det overordnede formål er at sammenligne testresultater fra forskellige lande er det vigtigste af de mange krav, som Rasch modellen stiller til data, at opgavernes rækkefølge, hvis de sorteres efter sværhed (de relative sværhedsgrader) er de samme i alle lande. De letteste opgaver i ét land skal også være de letteste i alle andre lande og tilsvarende for de sværeste opgaver. Dette krav, omtaler psykometrikerne (eksperter i statistik på testområdet) som at der ikke må være DIF (differentiel itemfunktion). Princippet er at lige dygtige elever skal lige stor chance for at svare rigtigt uanset om de er drenge eller piger, jyder eller bornholmere, danske eller engelske. Kravet om at der ikke må være DIF er vigtigt, fordi der ellers er en risiko for, at resultatet af sammenligningerne mellem de forskellige lande bliver afhængigt af om de opgaver der tilfældigvis er brugt, favoriserer den ene eller anden gruppe.. Kravet om, at der ikke er DIF, er generelt accepteret som et centralt krav til pædagogiske test, og der er udviklet mange forskellige metoder til at kontrollere, om det er opfyldt. PISA har i deres 1 Det er ikke altid tydeligt hvem der drager konklusionerne, herunder skriver PISA-rapporterne om det er ACER, OECD eller andre. Jeg vælger for nemheds skyld at kalde afsenderen PISA. 1
rapporter givet udtryk for det samme synspunkt, og har i deres tekniske rapporter beskrevet, hvordan de kontrollerer at deres data passer til Rasch modellen og hvorledes de har undersøgt at der ikke er differentiel item funktion. De har også oplyst, at visse opgaver, som de omtaler som dodgy (dvs. tvivlsomme) er blevet elimineret blandt andet pga. DIF, men de har aldrig publiceret resultater, der viser at Rasch modellen rent faktisk kan bruges til de tilbageværende opgaver og specielt at alle opgaverne fungerer på samme måde i alle lande. Mangelen på dokumentation har selvfølgelig givet forskere indenfor feltet anledning til bekymring. Da gentagne opfordringer til at de dokumenterede at det statistiske grundlag for deres analyser var i orden ikke førte til noget, besluttede jeg mig for selv at se på det. Da PISAs data er offentligt tilgængelige og relativt godt organiserede var det en overkommelig opgave. Jeg har, med udgangspunkt i det som kom ud af dette arbejde, skrevet en artikel med titlen Is the foundation under PISA solid? A critical look at the scaling model underlying international comparisons of student attainment. Den er målrettet forskere og eksperter på det statistisk område og vil blive sendt til Journal of the Royal Statistical Society: Series A (Statistics in Society). Hvad er det så jeg har gjort? Der er mange ting man kan gøre, for at kontrollere Rasch modellen. Jeg har ikke gjort det hele i denne sammenhæng, men jeg har gjort præcis det, som PISA selv siger, at de har gjort. Det har jeg gjort for at tjekke, om jeg kunne reproducere en acceptabel tilpasning til den statistiske model på PISAs egne vilkår. Havde det lykkedes ville jeg have gået videre til lidt mere følsomme metoder, men det viste sig desværre, at var der ikke brug for. PISAs egne metoder afviste fuldstændigt, at deres data, kunne minde om noget, der kom fra en Rasch model. Og hvad der var værst. Kravet om at der ikke måtte være nogen form for differentiel item funktion blev totalt afvist. Konsekvensen af at der er DIF er, at forskellige sammensætninger af de pædagogiske test kan (men ikke nødvendigvis behøver at) give meget forskellige resultater når landene sammenlignes. For at afprøve, om den DIF, der er i PISAs tests, har denne konsekvens, har jeg forsøgt at se på, om jeg ved at vælge opgaver på den rigtige måde, kan flytte rundt med landenes placering efter forgodtbefindende. Det viser sig i allerhøjeste grad at være muligt. Ved at vælge opgaver på den rigtige måde kan jeg f.eks. enten få Danmark op som nr. 3 eller ned som nr. 42 ud af 56 lande. Forskydningerne (der også findes for de fleste andre lande) er så dramatiske, at der kun kan drages 2
én konklusion: Den manglende tilpasning mellem PISAs data og PISAs statistiske model er så massiv, at en rangordning af landene mister enhver mening. Konsekvensen er, at vi på det foreliggende grundlag overhovedet ikke kan udtale os om hvor Danmark ligger i forhold til de lande vi gerne vil sammenligne os med. Danmark kan være nr. 5, 10, 15, 25 eller værre. Vi ved det ikke. Frem til dette punkt har min artikel fokuseret på at afdække problemer. I den sidste del af artiklen har jeg forsøgt at være konstruktiv ved at illustrere hvad man (dvs. PISA) kunne have gjort for at redde noget af PISA undersøgelserne. Jeg gør det ved at undersøge, om det var muligt at finde en alternativ statistiske model for et udvalg af opgaver, der i det mindste kunne danne grundlag for en sammenligning af læsefærdigheden i Danmark og England. Jeg valgte de to lande fordi de sprogligt og kulturelt ligger relativt tæt på hinanden og fordi de bruger (næsten) samme alfabet. Forsøget var vellykket fordi det lykkedes for mig at finde otte opgaver, der faktisk passede til Rasch modellen i de to lande, og fandt statistiske modeller, der kunne kompensere for nogle af fejlene for de øvrige opgaver. Konsekvensen af dette er naturligvis ikke kun, at der findes muligheder for at sammenligne Danmark og England, men først og fremmest at det giver håb om, at noget tilsvarende kunne være muligt for andre lignende lande. At det hele ikke behøvede at være tabt, at der er en mulighed for at etablere sammenlignelige læseresultater for nogle (næppe alle) lande, men at det kræver en ordentlig statistisk analyse af data. Hvad er det så, der er problemet med PISA sammenligninger af landene? Der er faktisk flere problemer, fordi PISAs statistiske model stiller flere forskellige krav til data, der alle er overtrådt, men det problem, der overskygger dem alle er problemet med den differentiel item funktion. Kravet om at der ikke må være DIF er et krav om at opgavernes relative sværhedsgrader er de samme for alle elever uanset, om der er tale om drenge eller piger, elever fra store eller små klasser eller elever fra forskellige lande. Hvis to læsere en fra Danmark og en fra England er præcis lige dygtige til at læse, så skal de have præcis den samme chance for at svare rigtigt på hvert eneste spørgsmål i læseprøven. Chancerne skal selvfølgelig være mindre, hvis der er tale svære opgaver eller dårlige læsere, og større, hvis der er tale om dygtige læsere og/eller lette opgaver, men 3
chancerne skal være de samme, hvis eleverne er lige dygtige. Det er faktisk det, der ifølge PISA og modellen er definitionen på at to læsere er lige dygtige. Antag nu, at vi ønsker at sammenligne danske og engelske læsere, men at der i realiteten er tre forskellige typer opgaver: Type I er en type opgaver, der af forskellige årsager alt andet lige (dvs. inklusiv den faktiske læsefærdighed) er lettere for danske elever end engelske. Type II er neutrale opgaver, der er lige lette for danske og engelske elever. Type III er en type opgaver, der er lettere for engelske end for danske elever. Antag derefter at man beder to forskellige testorganisationer om at konstruere en læsetest, som skal bruges til at sammenligne danske og engelske elever, og at ingen af organisationerne er klar over at der er tre typer opgaver. Den første organisation konstruerer en test, med 50 % type I, 40 % type II og 10 % type III. Den anden organisation konstruerer en test med 20 % type I, 20 % type II og 60 % type III Under disse omstændigheder ville de to testorganisationer komme frem til forskellige og forkerte konklusioner, hvis der ikke er forskel danske og engelske læsere. Den første ville konkludere, at danske elever læser bedst og den anden ville konkludere, at engelske elever læser bedst. Når vi udvikler pædagogiske test, plejer vi altid at kontrollere at opgaverne fungerer på samme måde for drenge og piger. I USA tester de altid om opgaverne fungerer end for sorte og hvide (det var faktisk det problem, som gjorde at psykometrikerne begyndte at interessere sig for DIFproblemet for mange år siden) I forbindelse med de nationale test i Danmark har man også lagt vægt på om opgaverne fungere ens i store og små byer og øst og vest for Storebælt. Generelt opdager man i sådanne situationer ganske få opgaver af type I og III, men man fjerner dem alligevel for en sikkerheds skyld. I PISA er der for hvert land mange opgaver af type I og type 4
III. Så mange, at det i virkeligheden er uklart, hvordan læsetesten som helhed er skruet sammen. Det jeg har gjort er at se på, hvordan landene bliver rangordnet, hvis man kun bruger type I opgaver og kun bruger type III items. For Danmark betyder det, at man enten bliver placeret som nummer 41 eller som nummer 3. deler man op i typer defineret af de andre lande bliver resultatet et andet for Danmark, men i de fleste andre lande varierer rangordenen lige så dramatisk som for Danmark 2 og det er faktisk muligt at få ikke mindre end 19 lande op som nr. 1-5 ved at massere PISAs tal på den rigtige måde. Nu er sammensætningen af opgaverne i PISAs læsetest naturligvis ikke så ekstrem som antaget i disse beregninger, men situationen er så uklar, at det er umuligt at klargøre, hvordan testen er mikset, således at det eneste vi egentlig kan sige er, at Danmark ligger et eller andet sted mellem nummer 41 og nummer 3. Præcis hvor er helt uklart. Som dansker ville jeg naturligvis gerne kunne sige, at Danmark i virkeligheden hører til blandt de bedste, men det er lige så umuligt at udtale sig om det på grundlag af PISAs testresultater, som det er at sige at Danmark hører til i den tunge ende af de lande, som det er relevant at sammenligne Danmark med. Afslutning Der er rigtig mange andre ting (både fagligt og i relation til videnskabelig redelighed), som fortjener at blive diskuteret og mange spørgsmål, som man kunne have lyst til at stille (først og fremmest hvordan de kunne ignorere den manglende tilpasning mellem deres data og deres model og de helt åbenlyse tegn på DIF i deres data). Det har jeg undladt at gøre noget ud af, ligesom jeg har undladt overvejelser om motiverne til den valgte handlemåde. Jeg har med andre ord valgt at holde mig til det jeg ved med sikkerhed i stedet for at kaste mig ud i gætterier. Den efterfølgende tabel, som jeg forestiller mig skal med i den endelige udgave af min artikel viser rangordenen af landene, hvis man sorterer landede efter opgaver, der er påfaldende vanskelige i landene og opgaver, der er påfaldende lette 3. Læg mærke til, at Finland og Korea er de eneste lande, der ligger højt, uanset hvordan læsetesten skrues sammen og at Kyrgyzstan og Quatar er de to eneste som altid ender i den absolutte bagtrop. 2 For blot at tage nogle få eksempler: Taipei fra nr 40 som det værste til nr. 2 som det bedste. Estland fra nr. 30 til nr. 1! Japan fra nr. 39 til nr. 4. Frankrig fra nr. 40 til nr. 2. Tyskland fra nr. 36. til nr. 6. Tyrkiet fra nr. 45 til nr. 5. 3 Den endelige version af tabellen vil indeholde oplysninger om hvilke opgaver, der trækker landene op, og hvilke opgaver, der trækker dem ned. Det er meget forskelligt fra land til land. 5
6