Analyse af PISA data fra 2006.

Advertisement


Advertisement
Relaterede dokumenter
PISA Problemløsning 2012: Kort opsummering af de væsentligste resultater

Nationale test. v. Marie Teglhus Møller. Slides er desværre uden eksempelopgaver, da disse ikke må udleveres.

Appendiks 1: Om baggrund og teori bag valg af skala

Svensk model for bibliometri i et norsk og dansk perspektiv

FORDELING AF ARV. 28. juni 2004/PS. Af Peter Spliid

Forældreperspektiv på Folkeskolereformen

Senere skolestart har ingen effekt på uddannelsesniveau

Om opbygningen af de nationale læsetest. Hvordan og hvorfor?

DANMARKS FORSKNINGSUDGIFTER I INTERNATIONAL SAMMENLIGNING

Danmarks samlede resultater i PISA 2006

DANMARKS PLACERING I EU MHT. DEN VIDENSBASEREDE ØKO-

10 tips til panorering og motiver i bevægelse

VIA University College. Læreruddannelsen i Aarhus. Tale ved dimissionen, fredag den 21. juni Af uddannelsesleder Martin Søland Klausen

Lidt historisk om chancelære i grundskolen

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Indledende bemærkninger

Børnefattigdom i Grønland

============================================================================

Bilag om folkeskolens resultater 1

KØBENHAVNS UNIVERSITET, ØKONOMISK INSTITUT THOMAS RENÉ SIDOR,

Alt værktøj skal bruges korrekt - også modeller

SSOG Scandinavian School of Gemology

Indkomster. Indkomstfordelingen :2. 1. Indledning

SUPPLEMENT TIL EVALUERING AF DE NATIONALE TEST RAPPORT

Det sorte danmarkskort:

TILLIDEN MELLEM DANSKERE OG INDVANDRERE DEN ER STØRRE END VI TROR

OECD-analyse: Danske sygehuse er omkostningseffektive

Appendiks 3 Beregneren - progression i de nationale matematiktest - Vejledning til brug af beregner af progression i matematik

Europaudvalget beskæftigelse m.v. Offentligt

Jagt. Den 1. maj 1999 blev det tilladt at gå på jagt med bue og pil. i Danmark. I dag er der 700 mennesker, som har tilladelse til at

Kræft var sjældent i oldtiden 25. december 2010 kl. 07:30

Kommentar til Kulturministerens svar på Mogens Jensens (S) spørgsmål nr. 150 til Kulturministeren.

RAPPORT FRA KOMMISSIONEN TIL EUROPA-PARLAMENTET OG RÅDET. om systemer, der fastholder kvæg drejet om på ryggen eller i enhver anden unaturlig stilling

Magnetfelter og børnekræft - er der en sammenhæng?

Københavns åbne Gymnasium Elevudsagn fra spørgeskemaundersøgelsen i 2q

Ib Hedegaard Larsen, afdelingsleder og cand. pæd. psych., Østrigsgades Skole, København. Afskaf ordblindhed!

Danske elevers oplevelser af og syn på udeskole

Har PISA tabt pusten?

Kan Danmark fordoble talentmassen med et trylleslag?

Håndtering af stof- og drikketrang

Fejlagtige oplysninger om P1 Dokumentar på dmu.dk

BILLEDER Familie Nr

Forskellige skoler til forskellige børn

Supplerende notat om kommunale kontrakter

Guide til lønforhandling

OVERENSKOMSTSTATISTIK 2014

PISA 2015 Danske unge i en international sammenligning. Orienteringsmøder januar 2015

En intro til radiologisk statistik

Anvendelse af testresultater fra de nationale test for skoleledere og kommuner

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik Allan C

Så kald det lige hvad du vil

Flertal for offentliggørelse af skoletests men størst skepsis blandt offentligt ansatte

Profilmodel 2012 Højeste fuldførte uddannelse

Jobanalyserapport. for. Salgskonsulent (demo) Sidst ændret:

Sitecore - basisvejledning Version 2. September 2010

Egenskaber ved Krydsproduktet

Fremstillingsformer i historie

Udviklingen i matematik målt i de danske PISA rapporter

MJ: 28 years old, single, lives in Copenhagen, last semester student at university.

Ansøger Navn Styrke Lægemiddelform Indgivelsesvej. GLIMEPIRIDE PFIZER 4 mg, 4 mg Tablet Oral anvendelse. comprimé. comprimé.

Computerens anatomi. Flashklip for børn

Er fremtiden sikret i Aalborg Skolevæsen?

Fig. 1 Billede af de 60 terninger på mit skrivebord

Den sikre vej til job. Ph.d.:

,, I perioden ,, En væsentlig. Cafeerne får nye kunder har cafeerne. flere kunder, mens branchen

Indholdsfortegnelse. DUEK vejledning og vejleder Vejledning af unge på efterskole

Statistik Med sammenlignende statistik Af Ove Fuglsang Jensen

Tjek. lønnen. Et værktøj til at undersøge lokal løndannelse og ligeløn på offentlige arbejdspladser udgave Varenr. 7520

Teknologihistorie. Historien bag FIA-metoden

Social kapital og arbejdsmiljøet

Lobbyismen boomer i Danmark

Ichthyosis Support Group 2009 Connference

Procedure for udvikling og revision af det danske PEFC certificeringssystem

Bestyrelsens mundtlige beretning 2006.

REGIONAL RAPPORT LANDSDÆKKENDE PATIENTUNDERSØGELSER Afsnitsrapport for ambulante patienter på

1,2 5,4 2,9 1,4 0,1 0,6 2,3 3,7 5,0 4,3. Østrig. Finland. Kabelmodem mv.

Evaluering af den skriftlige prøve i musik A-niveau studentereksamen maj/juni 2011

Regneark II Calc Open Office

Faktaark: Iværksættere og jobvækst

BOLIG&TAL 9 BOLIGØKONOMISK VIDENCENTER. Et nyhedsbrev, der præsenterer tendenser, de seneste tal og oversigter om boligmarkedet 1

Statistik i basketball

Skatteudvalget SAU Alm.del endeligt svar på spørgsmål 408 Offentligt

Kapitel 1. Kort og godt

Maple 11 - Chi-i-anden test

Vi adskiller os fra mængden

Notat om uddannelsesmæssig og social ulighed i levetiden

SPSS introduktion Om at komme igang 1

Baggrundsnotat: Lærernes gymnasiekarakterer og elevernes eksamensresultater

Anvendelse af testresultater fra de nationale test for skoleledere og kommuner

Flere års tab af eksportperformance er bremset op

PROTOTYPE MATEMATIKFORLØB 8. KLASSE: LÆRINGSMÅL OG MEDBESTEMMELSE

Rapport om anmodninger om oplysninger

Bilag 6: Transskription af interview med Laura

11.s.e.trin. I 2015, Bejsnap 9.00, Ølgod /

Kick-off på Måling af elevernes faglige progression. Aarhus d. 12. april 2016 v/jakob Wandall, NordicMetrics

Gode testresultater er ikke forudsigelige

85 svar. Tilhørsforhold (85 svar) Trivsel. Er du glad for at gå på Gylling Efterskole? (12 svar) Har du nære venner på efterskolen?

Evaluering der peger fremad. Evaluering. Tunnelsyn og indikatorfiksering. Husk alle målene! 30. november

Fokusområde Matematik: Erfaringer fra PISA 2012

Vedr: Afslag på ansøgning om merudgiftsydelse af d (KLE G01)

Advertisement
Transkript:

Analyse af PISA data fra 2006. Svend Kreiner Indledning PISA undersøgelsernes gennemføres for OECD og de har det primære formål er at undersøge, herunder rangordne, en voksende række af lande med hensyn til elevers præstationer på tre områder (læsning, matematik og science) ved hjælp af pædagogiske test. Til dette formål anvender de en speciel statistisk model, der omtales som en Rasch model. Modellen, der har en vis interesse i Danmark, fordi den er udviklet af den danske statistiker Georg Rasch, er specielt interessant, fordi man kan argumentere for at pædagogiske test, der passer til Rasch modellen, har alle de egenskaber, som man mener pædagogiske test skal have. Det er derfor ikke unaturligt at ACER (Australian Counsil for Educational Research), der står for analysen af de data, som indsamles i forbindelse med PISA, har valgt at basere analyserne på denne model. Problemet er, at de pædagogiske test kun har de mange ideelle egenskaber, hvis svarene på spørgsmålene i PISAs 1 test rent faktisk opfører sig, som om de kom fra en Rasch model. Når det overordnede formål er at sammenligne testresultater fra forskellige lande er det vigtigste af de mange krav, som Rasch modellen stiller til data, at opgavernes rækkefølge, hvis de sorteres efter sværhed (de relative sværhedsgrader) er de samme i alle lande. De letteste opgaver i ét land skal også være de letteste i alle andre lande og tilsvarende for de sværeste opgaver. Dette krav, omtaler psykometrikerne (eksperter i statistik på testområdet) som at der ikke må være DIF (differentiel itemfunktion). Princippet er at lige dygtige elever skal lige stor chance for at svare rigtigt uanset om de er drenge eller piger, jyder eller bornholmere, danske eller engelske. Kravet om at der ikke må være DIF er vigtigt, fordi der ellers er en risiko for, at resultatet af sammenligningerne mellem de forskellige lande bliver afhængigt af om de opgaver der tilfældigvis er brugt, favoriserer den ene eller anden gruppe.. Kravet om, at der ikke er DIF, er generelt accepteret som et centralt krav til pædagogiske test, og der er udviklet mange forskellige metoder til at kontrollere, om det er opfyldt. PISA har i deres 1 Det er ikke altid tydeligt hvem der drager konklusionerne, herunder skriver PISA-rapporterne om det er ACER, OECD eller andre. Jeg vælger for nemheds skyld at kalde afsenderen PISA. 1

rapporter givet udtryk for det samme synspunkt, og har i deres tekniske rapporter beskrevet, hvordan de kontrollerer at deres data passer til Rasch modellen og hvorledes de har undersøgt at der ikke er differentiel item funktion. De har også oplyst, at visse opgaver, som de omtaler som dodgy (dvs. tvivlsomme) er blevet elimineret blandt andet pga. DIF, men de har aldrig publiceret resultater, der viser at Rasch modellen rent faktisk kan bruges til de tilbageværende opgaver og specielt at alle opgaverne fungerer på samme måde i alle lande. Mangelen på dokumentation har selvfølgelig givet forskere indenfor feltet anledning til bekymring. Da gentagne opfordringer til at de dokumenterede at det statistiske grundlag for deres analyser var i orden ikke førte til noget, besluttede jeg mig for selv at se på det. Da PISAs data er offentligt tilgængelige og relativt godt organiserede var det en overkommelig opgave. Jeg har, med udgangspunkt i det som kom ud af dette arbejde, skrevet en artikel med titlen Is the foundation under PISA solid? A critical look at the scaling model underlying international comparisons of student attainment. Den er målrettet forskere og eksperter på det statistisk område og vil blive sendt til Journal of the Royal Statistical Society: Series A (Statistics in Society). Hvad er det så jeg har gjort? Der er mange ting man kan gøre, for at kontrollere Rasch modellen. Jeg har ikke gjort det hele i denne sammenhæng, men jeg har gjort præcis det, som PISA selv siger, at de har gjort. Det har jeg gjort for at tjekke, om jeg kunne reproducere en acceptabel tilpasning til den statistiske model på PISAs egne vilkår. Havde det lykkedes ville jeg have gået videre til lidt mere følsomme metoder, men det viste sig desværre, at var der ikke brug for. PISAs egne metoder afviste fuldstændigt, at deres data, kunne minde om noget, der kom fra en Rasch model. Og hvad der var værst. Kravet om at der ikke måtte være nogen form for differentiel item funktion blev totalt afvist. Konsekvensen af at der er DIF er, at forskellige sammensætninger af de pædagogiske test kan (men ikke nødvendigvis behøver at) give meget forskellige resultater når landene sammenlignes. For at afprøve, om den DIF, der er i PISAs tests, har denne konsekvens, har jeg forsøgt at se på, om jeg ved at vælge opgaver på den rigtige måde, kan flytte rundt med landenes placering efter forgodtbefindende. Det viser sig i allerhøjeste grad at være muligt. Ved at vælge opgaver på den rigtige måde kan jeg f.eks. enten få Danmark op som nr. 3 eller ned som nr. 42 ud af 56 lande. Forskydningerne (der også findes for de fleste andre lande) er så dramatiske, at der kun kan drages 2

én konklusion: Den manglende tilpasning mellem PISAs data og PISAs statistiske model er så massiv, at en rangordning af landene mister enhver mening. Konsekvensen er, at vi på det foreliggende grundlag overhovedet ikke kan udtale os om hvor Danmark ligger i forhold til de lande vi gerne vil sammenligne os med. Danmark kan være nr. 5, 10, 15, 25 eller værre. Vi ved det ikke. Frem til dette punkt har min artikel fokuseret på at afdække problemer. I den sidste del af artiklen har jeg forsøgt at være konstruktiv ved at illustrere hvad man (dvs. PISA) kunne have gjort for at redde noget af PISA undersøgelserne. Jeg gør det ved at undersøge, om det var muligt at finde en alternativ statistiske model for et udvalg af opgaver, der i det mindste kunne danne grundlag for en sammenligning af læsefærdigheden i Danmark og England. Jeg valgte de to lande fordi de sprogligt og kulturelt ligger relativt tæt på hinanden og fordi de bruger (næsten) samme alfabet. Forsøget var vellykket fordi det lykkedes for mig at finde otte opgaver, der faktisk passede til Rasch modellen i de to lande, og fandt statistiske modeller, der kunne kompensere for nogle af fejlene for de øvrige opgaver. Konsekvensen af dette er naturligvis ikke kun, at der findes muligheder for at sammenligne Danmark og England, men først og fremmest at det giver håb om, at noget tilsvarende kunne være muligt for andre lignende lande. At det hele ikke behøvede at være tabt, at der er en mulighed for at etablere sammenlignelige læseresultater for nogle (næppe alle) lande, men at det kræver en ordentlig statistisk analyse af data. Hvad er det så, der er problemet med PISA sammenligninger af landene? Der er faktisk flere problemer, fordi PISAs statistiske model stiller flere forskellige krav til data, der alle er overtrådt, men det problem, der overskygger dem alle er problemet med den differentiel item funktion. Kravet om at der ikke må være DIF er et krav om at opgavernes relative sværhedsgrader er de samme for alle elever uanset, om der er tale om drenge eller piger, elever fra store eller små klasser eller elever fra forskellige lande. Hvis to læsere en fra Danmark og en fra England er præcis lige dygtige til at læse, så skal de have præcis den samme chance for at svare rigtigt på hvert eneste spørgsmål i læseprøven. Chancerne skal selvfølgelig være mindre, hvis der er tale svære opgaver eller dårlige læsere, og større, hvis der er tale om dygtige læsere og/eller lette opgaver, men 3

chancerne skal være de samme, hvis eleverne er lige dygtige. Det er faktisk det, der ifølge PISA og modellen er definitionen på at to læsere er lige dygtige. Antag nu, at vi ønsker at sammenligne danske og engelske læsere, men at der i realiteten er tre forskellige typer opgaver: Type I er en type opgaver, der af forskellige årsager alt andet lige (dvs. inklusiv den faktiske læsefærdighed) er lettere for danske elever end engelske. Type II er neutrale opgaver, der er lige lette for danske og engelske elever. Type III er en type opgaver, der er lettere for engelske end for danske elever. Antag derefter at man beder to forskellige testorganisationer om at konstruere en læsetest, som skal bruges til at sammenligne danske og engelske elever, og at ingen af organisationerne er klar over at der er tre typer opgaver. Den første organisation konstruerer en test, med 50 % type I, 40 % type II og 10 % type III. Den anden organisation konstruerer en test med 20 % type I, 20 % type II og 60 % type III Under disse omstændigheder ville de to testorganisationer komme frem til forskellige og forkerte konklusioner, hvis der ikke er forskel danske og engelske læsere. Den første ville konkludere, at danske elever læser bedst og den anden ville konkludere, at engelske elever læser bedst. Når vi udvikler pædagogiske test, plejer vi altid at kontrollere at opgaverne fungerer på samme måde for drenge og piger. I USA tester de altid om opgaverne fungerer end for sorte og hvide (det var faktisk det problem, som gjorde at psykometrikerne begyndte at interessere sig for DIFproblemet for mange år siden) I forbindelse med de nationale test i Danmark har man også lagt vægt på om opgaverne fungere ens i store og små byer og øst og vest for Storebælt. Generelt opdager man i sådanne situationer ganske få opgaver af type I og III, men man fjerner dem alligevel for en sikkerheds skyld. I PISA er der for hvert land mange opgaver af type I og type 4

III. Så mange, at det i virkeligheden er uklart, hvordan læsetesten som helhed er skruet sammen. Det jeg har gjort er at se på, hvordan landene bliver rangordnet, hvis man kun bruger type I opgaver og kun bruger type III items. For Danmark betyder det, at man enten bliver placeret som nummer 41 eller som nummer 3. deler man op i typer defineret af de andre lande bliver resultatet et andet for Danmark, men i de fleste andre lande varierer rangordenen lige så dramatisk som for Danmark 2 og det er faktisk muligt at få ikke mindre end 19 lande op som nr. 1-5 ved at massere PISAs tal på den rigtige måde. Nu er sammensætningen af opgaverne i PISAs læsetest naturligvis ikke så ekstrem som antaget i disse beregninger, men situationen er så uklar, at det er umuligt at klargøre, hvordan testen er mikset, således at det eneste vi egentlig kan sige er, at Danmark ligger et eller andet sted mellem nummer 41 og nummer 3. Præcis hvor er helt uklart. Som dansker ville jeg naturligvis gerne kunne sige, at Danmark i virkeligheden hører til blandt de bedste, men det er lige så umuligt at udtale sig om det på grundlag af PISAs testresultater, som det er at sige at Danmark hører til i den tunge ende af de lande, som det er relevant at sammenligne Danmark med. Afslutning Der er rigtig mange andre ting (både fagligt og i relation til videnskabelig redelighed), som fortjener at blive diskuteret og mange spørgsmål, som man kunne have lyst til at stille (først og fremmest hvordan de kunne ignorere den manglende tilpasning mellem deres data og deres model og de helt åbenlyse tegn på DIF i deres data). Det har jeg undladt at gøre noget ud af, ligesom jeg har undladt overvejelser om motiverne til den valgte handlemåde. Jeg har med andre ord valgt at holde mig til det jeg ved med sikkerhed i stedet for at kaste mig ud i gætterier. Den efterfølgende tabel, som jeg forestiller mig skal med i den endelige udgave af min artikel viser rangordenen af landene, hvis man sorterer landede efter opgaver, der er påfaldende vanskelige i landene og opgaver, der er påfaldende lette 3. Læg mærke til, at Finland og Korea er de eneste lande, der ligger højt, uanset hvordan læsetesten skrues sammen og at Kyrgyzstan og Quatar er de to eneste som altid ender i den absolutte bagtrop. 2 For blot at tage nogle få eksempler: Taipei fra nr 40 som det værste til nr. 2 som det bedste. Estland fra nr. 30 til nr. 1! Japan fra nr. 39 til nr. 4. Frankrig fra nr. 40 til nr. 2. Tyskland fra nr. 36. til nr. 6. Tyrkiet fra nr. 45 til nr. 5. 3 Den endelige version af tabellen vil indeholde oplysninger om hvilke opgaver, der trækker landene op, og hvilke opgaver, der trækker dem ned. Det er meget forskelligt fra land til land. 5

6