Forcensur ved folkeskolens 9. Klasses afgangsprøver 2015



Relaterede dokumenter
Bilagsnotat til: De nationale tests måleegenskaber

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning

De nationale tests måleegenskaber

Evaluering af forsøg med ordforslagsprogrammer. Udarbejdet af DAMVAD Analytics for Styrelsen for Undervisning og Kvalitet

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

September Resume: Efterskolerne og uddannelsesmobilitet. Udarbejdet af DAMVAD for Efterskoleforeningen

05/09/14. PISA-relatering af de kriteriebaserede. Delrapport 2 teknisk rapport og dokumentation

Nationale test. v. Marie Teglhus Møller. Slides er desværre uden eksempelopgaver, da disse ikke må udleveres.

De nationale test foråret National præstationsprofil

Resultatrapport Fremtidsskolen 2011

Matematik. Evaluering, orientering og vejledning

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Socioøkonomisk reference for grundskolekarakterer 2017/2018: Resultater på tværs af prøver og skoletyper

NOTAT. Folkeskolen afsluttende evaluering INAARUTAASUMIK NALILIINEQ AFSLUTTENDE EVALUERING. Vedr.: Folkeskolens landsdækkende afsluttende prøver 2014

Socioøkonomisk reference: I hvilke prøver og på hvilke skoletyper klarer eleverne sig bedre end forventet i 9. klasse i 2016/2017?

Karakterrapport Afgangsprøverne maj juni Ishøj Kommune

Grundskolekarakterer 9. klasse Prøvetermin maj/juni

Analyse af PISA data fra 2006.

HVAD ER UNDERVISNINGSEFFEKTEN

Socioøkonomiske referencer for grundskolekarakterer 2013.

Resultatet af den kommunale test i matematik

Kvantitative Metoder 1 - Efterår Dagens program

1. oktober Delanalyse: Analyse af forholdet mellem flyruter i Københavns Lufthavn og beskæftigelse i turismesektoren

Notat. Orientering vedr. Kvalitets- og Tilsynsstyrelsens kvalitetstilsyn med folkeskolen Børn og Unge-udvalget.

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Læring af test. Rapport for. Aarhus Analyse Skoleåret

En prøveform for piger?

For at skabe overblik i forbindelse med analysen over perioden , opererer notatet med en opdeling af eleverne i fire grupper:

Statusredegørelsen for folkeskolens udvikling

Indhold SOLRØD KOMMUNE SKOLE OG DAGTILBUD NOTAT. Emne: Solrød Folkeskoler i tal. Til: Orientering. Dato: 17. november 2014

FORÆLDRENES SKOLEVALG

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Baggrundsnotat: Lærernes gymnasiekarakterer og elevernes eksamensresultater

Kvalitetsrapport. Center for Børn og Læring. Skoleåret 2016/17. Lokalrapport for: Aulum-Hodsager skole

En prøveform for piger?

FORDELING AF ARV. 28. juni 2004/PS. Af Peter Spliid

Appendiks 3 Beregneren - progression i de nationale matematiktest - Vejledning til brug af beregner af progression i matematik

Kvantitative Metoder 1 - Forår Dagens program

Om opgavetyper og usikkerhed i de nationale test

De socioøkonomiske referencer for grundskolekarakterer 2016

MIDTTRAFIK 2010 UNDERSØGELSE AF TILFREDSHEDEN MED DEN SIDDENDE PATIENTBEFORDRING (PERSONALE)

Bilag 8.1 Faglige kvalitetsresultater for 9. klasser i skoleåret 2015/2016

Den sociale arv afspejler sig tydeligt i børns karakterer

De socioøkonomiske referencer for gymnasiekarakterer 2016

Kvalitetsrapport. Center for Børn og Læring. Skoleåret 2016/17. Lokalrapport for: Vildbjerg Skole

De socioøkonomiske referencer for gymnasiekarakterer 2014

07/08/15. Konsekvensberegninger af forslag til ny dagpengemodel. Foretaget for a-kassen Ase

Notat om faglige resultater ved folkeskolens prøver og i de nationale test 2016/2017

Forside. Nationale test. information til forældre. Januar Titel 1

Børne- og Undervisningsudvalget BUU Alm.del Bilag 51 Offentligt. De socioøkonomiske referencer for grundskolekarakterer 2014

Kapitel 2: Evaluering af elevernes udbytte af undervisningen

Kvalitetsrapport. Center for Børn og Læring. Skoleåret 2016/17. Lokalrapport for: Kibæk skole

For Myndighedsafdelingen Voksenhandicap 2013

Notat 5.1.: Elevers karaktergennemsnit og fordeling på almene efterskoler

Afgangsprøver %-vis fordeling af afgivne karakterer

Grundskolekarakterer Prøvetermin maj/juni 2010

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Sådan har karaktererne i grundskolens 9. klasse udviklet sig de seneste fem år, 2012/ /17

Evaluering af optagelsesprocedurer ved Det Sundhedsvidenskabelige Fakultet, Syddansk Universitet

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Baggrundsnotat om 10. klasse: Søgemønstre, elevsammensætning og effekt

Engelsk på langs. Spørgeskemaundersøgelse blandt lærere på gymnasiale uddannelser Gennemført af RAMBØLL Management fra februar til april 2005

Rapport om brugerevaluering af pilotprojektet Bedre Breve i Stevns Kommune

Udviklingen i karakterer i grundskolen, 9. klasse, 2013/2014

Faglige resultater for folkeskolen i København og øvrige resultater i tilknytning hertil

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

05/09/14. PISA-relatering af de kriteriebaserede. Delrapport 1 formidling af resultater

Kvalitetsrapport. Center for Børn og Læring. Skoleåret 2016/17. Lokalrapport for: Herningsholmskolen

Nye resultatmål. Inspirationsmøde om skolereform og Aarhusaftale Den 21. januar 2015

Matematik. Evaluering, orientering og vejledning

Analyse af læring og trivsel - Kvalitetsanalyse 2017 T R Ø R Ø D S K O L E N

De socioøkonomiske referencer for gymnasiekarakterer 2013

Evaluering af den skriftlige prøve i musik ved studentereksamen maj 2008

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Undersøgelse af karakterudviklingen på de gymnasiale uddannelser

Kvalitetsrapport. Center for Børn og Læring. Skoleåret 2016/17. Lokalrapport for: Lind skole

BAGGRUND OG FORMÅL MED UNDERSØGELSEN

Susanne Ditlevsen Institut for Matematiske Fag susanne

Appendiks 1: Om baggrund og teori bag valg af skala

Evaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen

Religion og filosofi. Evaluering, orientering og vejledning

Karakterer fra folkeskolens afgangseksamen 2017/2018

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Sammenhængen mellem folkeskolens faglige niveau og sandsynligheden for at gennemføre en ungdomsuddannelse

Samfundsfag. Maj-juni 2008

Bilag 1 til Kvalitetsrapport 2014

af integrationsrådenes høringsret og økonomiske midler

KVALITETSRAPPORT

Samlede resultater af KL's tilfredshedsmåling af kommunal service i bygge- og miljøsager for Næstved Kommune 2018

Et kritisk blik på 7-skalaen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Resultaterne fra de obligatoriske nationale test 2017

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Sammenligning af Forsvarets intelligenstest og IQ-skalaen

Dansk Erhvervs gymnasieeffekt - sådan gjorde vi

Kvalitetsrapport. Center for Børn og Læring. Skoleåret 2016/17. Lokalrapport for: Læringscenter Syd

BAGGRUND OG FORMÅL MED UNDERSØGELSEN

Transkript:

8. april 2016 Forcensur ved folkeskolens 9. Klasses afgangsprøver 2015 Udarbejdet af DAMVAD Analytics i samarbejde med Svend Kreiner for Styrelsen for Undervisning og Kvalitet, Ministeriet for Børn, Undervisning og Ligestilling

2 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

For information on obtaining additional copies, permission to reprint or translate this work, and all other correspondence, please contact: DAMVAD Analytics Havnegade 39 DK-1058 Copenhagen K info@damvad.com damvad.com Copyright 2015, Damvad Analytics A/S FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 3

Indhold 1 Sammenfatning 5 1.1 Ingen risiko for systematiske fejl 5 1.2 Resultaterne lever overordnet op til kravene til sikkerhed 5 1.3 Perspektiver for Forcensur 2016 7 2 Indledning, formål og kort om de anvendte metoder 8 2.1 Hvilke metoder ligger bag forcensur? 8 2.2 Hvordan blev forcensurprojektet gennemført 9 2.3 Rapportens fokus 9 2.4 Læsevejledning 9 3 Metodegennemgang 11 3.1 Normbaserede karakterer 11 3.2 Test-ækvivalerede karakterer 11 3.2.1 Percentilmetoden 13 3.3 Modelmetoden 13 3.4 Afsluttende bemærkninger 14 4 Vurdering af usikkerhed og usystematiske fejl 17 4.1 Konklusion 17 4.2 Hvorfor opstår usystematiske fejl? 18 4.3 Matematisk problemløsning 18 4.4 Usikkerheden i forbindelse med afgangsprøverne 19 4.5 Den statistiske usikkerhed 21 4.6 Sammenfatning af resultater for alle fire prøver 23 4.7 Afsluttende kommentarer 29 5 Vurdering af risikoen for systematiske fejl ved ækvivalering af resultater fra afgangsprøver og generalprøver 30 5.1 Konklusion 30 5.2 Hvorfor opstår systematiske fejl? 30 6 Resultater fra spørgeskemaundersøgelsen til lærere 34 6.1 Konklusion 34 6.2 Forhold med betydning for valg af tilmelding til generalprøve 34 6.3 Elevernes indstilling til prøven 35 6.4 Forberedelse og planlægning til prøven 36 6.5 Faglig relevans og udgangspunkt 37 6.6 Ideer til at forbedre afviklingen af generalprøven i 2016 38 6.7 Oversigt over deltagende skoler 39 4 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

1 Sammenfatning Denne sammenfatning opsummerer rapportens hovedkonklusioner og fremstiller en række perspektiver, der bør overvejes i forbindelse med gennemførelse af en eventuel forcensur 2016. 1.1 Ingen risiko for systematiske fejl Der kan være tre årsager til systematisk forkerte resultater fra testækvivaleringen: 1. Generalprøven er low-stake, mens afgangsprøven er high-stake. 2. Elever, der har deltaget i generalprøven, har aktuelle erfaringer med opgaver i afgangsprøver. 3. Afgangsprøven afholdes nogle uger efter generalprøven. Eleverne må derfor forventes at være lidt dygtigere, når de går til afgangsprøve, end da de deltog i generalprøven. 4. Det pågældende års prøvesæt vil typisk være mest opdateret i forhold til seneste læringsmål, metoder mv. 5. Eleverne er mindre nervøse ved generalprøven 6. Eleverne har evt. kendskab til generalprøvesættet, der ligger tilgængeligt på nettet De første tre faktorer trækker i samme retning og vil i givet fald få det til at se ud som, om eleverne underpræsterer i generalprøven i forholdt til afgangsprøven. Hvis denne mistanke er korrekt, kan det betyde, at karaktererne i afgangsprøven defineres for venligt og derfor giver for høje karakterer i forhold til den karakter, som eleverne ville have fået, hvis den prøve, der blev anvendt som generalprøve var blevet brugt som afgangsprøve i 2015. Spørgeskemaundersøgelen til lærerne (kapitel 6) afviser ligeledes denne bekymring. Eleverne tog generalprøven lige så seriøst som afgangsprøven og brugte lige så megen tid på at løse opgaverne, selvom ca. halvdelen af lærerne ikke havde fortalt eleverne, at generalprøven ville få indflydelse på deres standpunktskarakter. Eleverne havde i det store og hele samme faglige udgangspunkt til generalprøven som afgangsprøven, og undervisningen i de sidste uger havde ikke nogen konsekvenser for resultatet ved afgangsprøven, hvis det var blevet afholdt på samme tidspunkt som afgangsprøven. I forbindelse med vurderingen af den usikkerhed, der er knyttet til afgangsprøven fandt vi flere situationer, hvor eleverne fik lidt forskellige karakterer i general- og afgangsprøven, men der er ingen systematisk tendens til, at karaktererne var dårligere i generalprøven end i afgangsprøven. De data, som ministeriet indsamlede i forbindelse med forcensuren i 2012 har givet mulighed for at sammenligne generalprøveresultater fra prøverne i dansk i 2012 med afgangsprøveresultater i de samme danskprøver. Resultaterne heraf afslører heller ingen systematiske forskelle på general- og afgangsprøveresultater. Alt i alt er der således intet, der antyder, at der er systematisk fejl i ækvivaleringen af general- og afgangsprøver, fordi eleverne underpræsterer i generalprøverne i forhold til de senere afgangsprøver. Risikoen for at der er tale om systematiske forcensurfejl er blevet belyst på tre forskellige måder (kapitel 4-5), der alle drager den samme konklusion. Der er intet, der antyder, at der skulle være systematiske fejl i forbindelse med forcensuren. 1.2 Resultaterne lever overordnet op til kravene til sikkerhed Det forhold, at der ikke er systematiske fejl i ækvivaleringen mellem general- og afgangsprøver er FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 5

ikke et udtryk for, at der ikke kan forekomme fejl i de kriterier, der definerer karaktererne for 2015. Kriterierne består af grænseværdier på de skalaer, der angiver antal korrekte svar eller antal point i de besvarede opgaver. Da de grænseværdier, som forcensuren beregner, er statistiske estimater af de sande grænseværdier, vil der i sagens natur være tale om en vis grad af tilfældige fejl. Denne usikkerhed skyldes to forhold. Det afhænger for det første af, hvor mange elever, der deltager i forcensuren og for det andet af selve eksamensformen, fordi denne indebærer en vis grad af usikkerhed, som gør, at nogle elever vil få karakterer lige over eller lige under det, der svarer til deres faglige niveau, og som derfor også vil påvirke ækvivaleringen. Den første del af usikkerheden kan reduceres ved at udvide antallet af elever, der deltager i undersøgelsen, hvilket vi anbefaler i forbindelse med en eventuel forcensur 2016. Den anden usikkerhed kan ikke elimineres. Uanset hvad usikkerheden skyldes, er det nødvendigt at vurdere størrelsesordenen af den statistiske usikkerhed. Dette gøres ved at beregne standardfejlen på grænseværdierne, eller ved at lægge en eller anden form for konfidensinterval omkring dem. Da der er brugt to forskellige metoder til at beregne grænseværdierne, er det andet spørgsmål, om der er forskel på sikkerheden knyttet til de to metoder, og om hvilken metode, der derfor er at foretrække. I lyset af, at der under alle omstændigheder vil være en vis grad af usikkerhed på beregningerne, er der i denne rapport lagt særlig stor vægt på sandsynligheden for, at grænseværdien højst afviger et point fra den grænseværdi, som ækvivaleringen forslår, og på et krav om, at disse sandsynligheder skal være mindst 80 %. Resultaterne kan sammenfattes, som følger. Modelmetoden giver generelt sikrere resultater end percentilmetoden. Percentilmetoden fungerer tilsyneladende bedst i forbindelse med definition af grænseværdien mellem karaktererne 00 og 02. Resultaterne fra forcensuren i 2015 lever med nogle enkelte undtagelser op til kravene til sikkerheden. Undtagelserne er først og fremmest, at der, bortset fra prøven i matematiske færdigheder, er en betragtelig usikkerhed omkring grænseværdien mellem 00 og 02, og at usikkerheden også er mindre tilfredsstillende i forbindelse med grænseværdien mellem 02 og 04 i retskrivning. Lærernes vurderinger af forholdene omkring forcensuren og de efterfølgende beregninger af risikoen af systematiske og ikke-usystematiske fejl giver ingen anledning til bekymring. Det må dog konkluderes, at usikkerheden i forbindelse af fastlægningen af grænseværdierne mellem karaktererne 00 og 02 er for stor. Usikkerheden skyldes, at datagrundlaget for definitionen af disse grænseværdier er for spinkelt, fordi antallet af elever, der får karakteren 00 er meget lille. Ud over en generel opstramning af procedurerne omkring indsamlingen af data, er antallet af elever, der deltager i forcensuren den eneste faktor, som det er vigtigt at ændre. Spørgsmålet om, hvilke faktorer, der havde betydning for eventuelle systematisk fejl, kunne kun besvares for prøverne i dansk. Da dette spørgsmål er af helt central betydning for forcensuren, er det vores forslag, at der indsamles data i 2016, der giver mulighed for både at afprøve dette i forhold til matematikprøverne og for at efterprøve denne rapports resultater fra analysen af danskprøverne. 6 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

Det ligger uden for rammerne af denne rapport at diskutere, hvorledes indsamlingen af data skal designes, men vi stiller os gerne til rådighed med henblik på en diskussion af mulighederne. Den samlede konklusion er, at ækvivalering ved anvendelse af generalprøver fungerer efter hensigten. ville være med et meget stort antal deltagende elever med henblik på en vurdering af det optimale antal elever. Det har ikke ligget inden for rammerne af forcensurprojektet i 2015 at gøre det, men mulighederne foreligger og bør efter vores opfattelse udnyttes. 1.3 Perspektiver for Forcensur 2016 Hvis Ministeriet for Børn, Undervisning og Ligestilling beslutter at gennemføre en tilsvarende forcensur i 2016, vil vi i lyset af de opsamlede erfaringer, anbefale at: Der afsøges nye muligheder for mere struktureret indsamling af data Engagere et større antal lærere, som skal sikre stikprøver på minimum 500 elever. Dette er især vigtigt for definitionen af karaktererne 00 og 02. Man fremover benytter begge metoder til at fastlægge grænseværdierne mellem karaktererne for at have et bedre grundlag til at definere grænseværdierne mellem karaktererne 00 og 02. Man i forbindelse med efterbehandlingen af resultaterne er særlig opmærksom på grænseværdien mellem karaktererne 00 og 02, fordi denne grænseværdi er fastlagt med en særlig stor usikkerhed. Resultaterne af usikkerhedsberegningerne fremover fremlægges på samme tidspunkt som grænseværdierne således, at man kan vurdere denne i forbindelse med de endelige beslutninger om, hvor grænseværdierne skal lægges. Da usikkerheden omkring beregningerne både afhænger af den indbyggede usikkerhed i eksamenssituationen og af antallet af deltagende elever, vil det være nyttigt at beregne, hvor lille usikkerheden FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 7

2 Indledning, formål og kort om de anvendte metoder DAMVAD Analytics har i samarbejde med professor emeritus Svend Kreiner gennemført Forcensur 2015 for Styrelsen for Undervisning og Kvalitet (STUK) under Ministeriet for Børn, Undervisning og Ligestilling. Forcensur er foregået i forbindelse med folkeskolens afgangsprøver i foråret 2015. Forcensur i forbindelse med folkeskolens afgangsprøver har til formål at fastlægge de kriterier for elevernes præstationer, der svarer til bestemte trin på karakterskalaen. Hvis afgangsprøven består af en række opgaver, hvor eleverne kan score et vist antal point, vil kriterierne for karaktergivning typisk bestå af en række pointintervaller svarende til hvert af trinene på karakterskalaen. Herefter vil karaktergivningen ske i henhold til, hvilket interval en score falder inden for. Hvis ovenstående er udgangspunktet for karaktergivning, er selve udfaldet af forcensuren at fastlægge de grænseværdier, der adskiller de forskellige pointintervaller. 2.1 Hvilke metoder ligger bag forcensur? Der er grundlæggende to tilgange til at fastlægge karakterer: 1. Normbaseret karaktergivning 2. Testækvivaleret karaktergivning Afgangsprøverne er i princippet konstrueret på samme måde som pædagogiske test, og de to metodetilgange er hentet netop fra pædagogisk testteori. Den 7-trins karakterskala, som benyttes i forbindelse med afgangsprøverne fra den danske folkeskole, blev indført fra den 1. august 2007. Den blev indført, fordi den tidligere anvendte 13-skala blev kritiseret for ikke ordentligt at kunne omregnes til den internationale ECTS-skala. ECTS skalaen er en normbaseret skala, der rangordner eleverne i forhold til hinanden og ikke i forhold til en faglig målestok, hvor karaktererne skal fordele sig som vist i tabel 2.1. TABEL 2.1 Fordeling af elever i forhold til ETCS skalaen og den danske 7-trinsskala i 2007 Relativ andel ECTS af elever A 10 12 B 25 10 C 30 7 D 25 4 E 10 02 FX 00 F -3 Den danske 7-trinsskala Den danske 7-trinsskala var altså i sit udgangspunkt en normbaseret skala, og der er mange, der stadig tror, at det er tilfældet 1. Det er derfor vigtigt at understrege, at dette ikke længere er tilfældet, fordi Ministeriet for Børn, Undervisning og Ligestilling efterfølgende har anvendt testækvivalering til at fastlægge kriterierne for de enkelte karakterer. Den testækvivalerede metode forsøger at fastlægge kriterierne for karaktererne på en sådan måde, at en given karakter i det seneste år modsvarer det samme faglige niveau, som den samme karakter krævede de foregående år uanset, at den ak- 1 Jf. artiklen fra Folkeskolen.dk om karaktererne i afgangsprøven, http://www.folkeskolen.dk/574437/eleverne-scorede-bedre-karaktererved-proeverne-i-aar-end-i-2014 8 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

tuelle afgangsprøve var en smule lettere eller vanskeligere end prøverne fra de foregående år. Testækvivaleret karaktergivning gør det derfor muligt at sammenligne karakterer på tværs af år således, at sammenligning af karakterer for elever fra forskellige år bliver mere ensartet, samt at eventuelle forskydninger af fordelingerne af karaktererne fra år til år afspejler forskydninger i det faglige niveau i elevpopulationen. 2.2 Hvordan blev forcensurprojektet gennemført Forcensurprojektet 2015 kunne ikke være gennemført uden aktiv deltagelse fra de medvirkende lærere. Lærerne har indsamlet scorer fra generalprøverne, som ellers ikke registreres centralt på samme måde som afgangsprøveresultaterne. Er der forhold, der antyder, at der kan være systematiske fejl i definitionen af karaktererne, der i givet fald kan føre til, at karaktererne i 2015 afviger fra de karakter, som eleverne ville have fået i afgangsprøverne fra tidligere år. Forslagene til karaktererne i 2015 fastlægges på grundlag af statistiske analyser, der er blevet indsamlet i forbindelse med forcensuren. Statistiske analyser vil altid være præget af tilfældig usikkerhed, som afhænger af datamaterialets størrelse. Spørgsmålet er derfor, om den statistiske usikkerhed i forbindelse med forcensuren i 2015 er af en sådan størrelsesorden, at der er en uacceptabel risiko for usystematiske fejl i forbindelse med karaktergivningen i 2015. 2.4 Læsevejledning Forcensurprojektet var tiltænkt fem fag: Dansk Matematik Engelsk Biologi Geografi Af de fem fag var det kun muligt at gennemføre testækvivalering i dansk (retskrivning og læsning) og matematik (problemløsning og færdigheder). Årsagen var manglende datamateriale, da der var for stort frafald blandt lærere i engelsk, biologi og geografi, hvilket bevirkede, at der ikke blev indsamlet nok data til at gennemføre robuste statistiske beregninger. Rapporten er opbygget, som følger: Kapitel 3 er en metodegennemgang af Forcensur 2015 Kapitel 4 indeholder en vurdering af usikkerhed og usystematiske fejl Kapitel 5 indeholder en vurdering af risikoen for systematiske fejl ved ækvivalering af resultater fra afgangsprøver og generalprøver I kapitel 6 gennemgår vi resultater fra den gennemførte spørgeskemaundersøgelse med de medvirkende lærere Følgende temaer er behandlet i rapporten på tværs af kapitlerne: 2.3 Rapportens fokus Formålet med denne rapport er at besvare følgende spørgsmål i forhold til gennemførelsen af forcensur 2015: Tema Hvor (afsnit) Effekt af high/low 5.2 stake Erfaring med prøvesituation 6.4 Statistiske test 4.1-4.7 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 9

Tværgående konklusion Forslag til ændringer, jf. opgavebeskrivelsen Kapitel 1, 4.1, 5.1 og 6.1 Afsnit 1.3. og 6.6 10 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

3 Metodegennemgang Forcensurprojektet i forbindelse med folkeskolens afgangsprøver har til formål at fastlægge de kriterier for elevernes præstationer, der svarer til bestemte trin på karakterskalaen. Hvis afgangsprøven består af en række opgaver, hvor eleverne kan score et vist antal point, vil kriterierne typisk bestå af en række intervaller, svarende til de forskellige trin på karakterskalaen, og hvor en samlet score over alle opgaver fører til den karakter, der svarer til det interval, som den samlede score befinder sig i. I sådanne tilfælde er det forcensurens opgave at fastlægge de grænseværdier, der adskiller de forskellige intervaller. Der er i to forskellige måder, man kan bruge til at fastlægge disse grænseværdier. Da afgangsprøverne i princippet er konstrueret på samme måde som pædagogiske test, er det ikke overraskende, at disse metoder er hentet fra pædagogisk test-teori. Den første metode, som Ministeriet for Børn, Undervisning og Ligestilling tidligere har benyttet sig af, kan beskrives som norm-baseret. Den anden metode, som ministeriet har benyttet sig af siden indførelsen af den nye karakterskala i 2007, og som også har været udgangspunktet for forcensuren i 2015, svarer til det, der i den pædagogiske test-teori omtales som test-ækvivalering. Da disse metoder er principielt helt forskellige og derfor fører til karakterer, der ikke er sammenlignelige, vil de begge blive kortfattet beskrevet i dette afsnit, så der efterfølgende ikke kan være nogen tvivl om, hvorledes grundlaget for karaktererne i 2015 er fastlagt. 3.1 Normbaserede karakterer Normbaserede karakterer er baseret på en antagelse om, at fordelingen af karakterne kan fastlægges, før karaktererne gives, således at man f.eks. ved, at en vis (lille) procentdel af eleverne skal have bundkarakterer og en bestemt procentdel af eleverne skal have topkarakterer. For at fastlægge grænseværdier, der lever op til sådanne krav, er det nødvendigt først at kortlægge fordeling af den samlede score i afgangsprøven. Dette kan hvis prøverne er it-baserede i princippet ske i dagene efter, at afgangsprøven er afholdt. Hvis prøverne ikke er it-baserede, vil det være nødvendigt først at indsamle testresultater for et repræsentativt udvalg af eleverne og derefter definere grænseværdierne ud fra det statistiske estimat af fordelingen af den samlede afgangsprøve-score. Problemet med normbaserede karakterer er, at der er tale om relative karakterer, der placerer eleven i forhold til alle andre elever i det pågældende år. For at sammenligne normbaserede karakterer over tid skal to forhold være opfyldt. For det første skal opgaverne have præcis den samme sværhedsgrad fra år til år. For det andet må der ikke være nogen forskydninger eller ændringer i det faglige niveau i elevbestandene på forskellige år. 3.2 Test-ækvivalerede karakterer Hvis man ønsker at sikre, at karakterer kan sammenlignes på tværs af tid uden hensyntagen til, at afgangsprøverne kan have (lidt) forskellige sværhedsgrader i forskellige år, og uden hensyntagen til at det faglige niveau kan variere fra år til år, må man anvende test-ækvivalerede karakterer i stedet for normbaserede karakterer. Test-ækvivalering mellem to forskellige pædagogiske prøver forudsætter, at man indsamler resultater fra en række elever, der har besvaret begge prøver, således at man i den efterfølgende censur kan fastlægge, hvilke resultater i den ene test, der modsvarer resultater i den anden test. FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 11

I forbindelse med forcensurprojektet i 2015 er karaktererne fastlagt ved test-ækvivalering, idet man har bedt et udvalg af elever om at deltage i en såkaldt forcensurprøve med en tidligere anvendt afgangsprøve, hvor grænseværdierne for karaktererne er fastlagt et par uger før den egentlige afgangsprøve. fænomen vil blive yderligere diskuteret i det efterfølgende afsnit om usikkerhed i forbindelse med testækvivalering. Det kan her bemærkes, at forskellene i prøveresultaterne kan falde ud til fordel for begge prøver. Der er ingen tendens, der antyder en systematisk effekt af, at generalprøven var en såkaldt low-stake test. Figur 3.1 viser sammenhængen mellem generalprøven i matematisk problemløsning fra 2014 og den efterfølgende forcensurprøve i det samme fag i 2015. Der kan iagttages en tydelig, men ikke lineær sammenhæng mellem de to prøveresultater, men det kan også bemærkes, at der er eksempler på elever, der scorer meget forskelligt i de to prøver. Dette Test-ækvivalering kan foretages ved hjælp af flere forskellige metoder. Vi har i forcensur 2015 benyttet to metoder, som burde give samme resultater, hvis forudsætningerne for test-ækvivaleringen er opfyldt. Den første omtales som percentilmetoden og den anden som modelmetoden. FIGUR 3.1 Sammenhæng mellem generalprøveresultater ved hjælp af prøven i matematisk problemløsning fra 2014- afgangseksamen og afgangsprøven i det samme fag i 2015 Kilde: Forcensur 2015 12 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

3.2.1 Percentilmetoden Percentilmetoden har tidligere været anvendt af Ministeriet for Børn, Undervisning og Ligestilling. Metoden bygger på den antagelse, at fordelingen af karaktererne i afgangsprøven skal være præcis den samme som fordelingen af karaktererne i den efterfølgende afgangsprøve, fordi der er tale om de samme elever, og fordi generalprøven afholdes så tæt på afgangsprøven, at man kan forvente, at forskellen på elevernes faglige niveau på de to tidspunkter er yderst begrænset. For at sikre dette ækvivalerer man en værdi på skalaen i generalprøven med den værdi på skalaen i afgangsprøven, der har den samme percentilværdi som generalprøveresultatet. Værdien 28 i generalprøven fra 2014 har percentilværdien 16,9 i fordelingen af resultaterne fra generalprøven. Da værdien 33 i afgangsprøven har præcis den samme percentilværdi i fordelingen af resultaterne fra afgangsprøven, foreslår percentilmetoden, at disse to værdier betragtes som ækvivalente prøveresultater. Problemet med percentilmetoden er, at den ikke antager, at de to prøver måler en og samme egenskab. Man kan altså i princippet ækvivalere resultater i læsning med resultater i matematik og dermed sikre, at fordelingen af karaktererne i matematik svarer fuldstændig til fordelingen af karakterer i læsning, uden at det betyder, at ækvivaleringen har mening på elevniveau. 3.3 Modelmetoden For at sikre, at de to prøver måler et og samme faglige niveau, er det nødvendig at benytte en statistisk model, hvor det faglige niveau indgår som en eksplicit faktor, der påvirker sandsynlighederne for prøveresultaterne. Vi har i denne forbindelse brugt en model, som udover at antage et og samme faglige niveau for de to prøver, også antager, at den samlede score over alle opgaverne i prøven giver et dækkende (statistisk sufficient) udtryk for det faglige niveau en ideel antagelse, som vi forventer ligger bag udformningen af opgaverne. Den statistiske model omtales som en power-series model. Ifølge denne model er sandsynligheden for, at en elev opnår en samlet score, x, på generalprøven givet ved: x dgx s s s Pr(x) dg I denne formel angiver d elevens dygtighed (det faglige niveau), mens score-parameteren gx er en parameter, der påvirker chancerne for, at eleven scorer præcis x point. Hvis det antages, at g s s =1, kan score parameteren gx tolkes som sandsynligheden for, at en elev med dygtigheden 1 opnår præcis x point, men denne tolkning er uden betydning i forbindelse med testækvivaleringen og vil derfor ikke blive yderligere diskuteret. Det, der er vigtigt er, at det er præcis den samme formel, der skal benyttes til at beregne sandsynlighederne for udfaldet af afgangsprøven, bortset fra, at parametrene gx erstattes af parametre hy, der beskriver chancerne for, at score y point i afgangsprøven, hvor dygtigheden er lig med d. y dhy s s s Pr(y) dh Der er flere muligheder for at afprøve holdbarheden af denne model. En af de bedste er at undersøge, om modellen er i stand til at forudsige, hvor stærk korrelationen mellem de to prøver skal være, idet en FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 13

observeret korrelation, der er signifikant svagere, end den, der forventes, er et udtryk for, at testresultater enten afhænger af forskellige former for fagligt niveau eller af andre forstyrrende faktorer. I tabel 3.2 neden for er den observerede rangkorrelation på 0,63 en anelse stærkere end den korrelation på 0,62, der kunne forventes, hvis de to prøveresultater afspejler en og samme faglige niveau. Tilpasningen mellem model og data er overbevisende. Tabellen viser de forventede og observerede korrelationer for alle fire prøver. Konklusionen er den samme for de øvrige prøver. Scoreparametrene bestemmes ved hjælp af såkaldte betingede maksimum likelihood estimater ud fra den betingede fordeling af resultaterne på de to prøver givet den samlede score på de to prøver. Testækvivalering ved hjælp af modelmetoden er herefter en to-trins analyse. I første trin estimeres elevens færdighedsniveau ud fra resultatet af den ene prøve. I det næste trin beregnes den forventede score på den anden prøve ud fra estimatet af det faglige niveau. Ifølge disse resultater ækvivaleres et resultat på 28 i generalprøven for matematisk problemløsning med resultatet 32,3 i den tilsvarende generalprøve, mens et resultat på 33 i afgangsprøven ækvivalerer et resultat på 28,7 i generalprøven. Resultaterne ligger tæt på resultaterne af percentilmetoden, hvilket også er at forvente, når der er så god tilpasning mellem data og model. Tabellerne 3.3-3.6 neden for viser resultaterne af ækvivaleringen for alle fire prøver. Bemærk, at gennemsnitskaraktererne i generalprøven ville svare til gennemsnitskaraktererne i afgangsprøven, hvis man anvendte de karakterer, som test-ækvivaleringen foreslår. Bemærk også, at gennemsnitskarakterer for de elever, der deltog i generalprøven i dansk er lidt bedre end gennemsnittet for alle eleverne i 2012. Forskellen er især slående for retskrivning. I matematik svarer gennemsnittene for de elever, der deltog i generalprøven, til gennemsnittene blandt alle elever i 2014. 3.4 Afsluttende bemærkninger Det skal understreges, at ækvivaleringen er præget af en vis grad af usikkerhed, der dels hænger sammen med antallet af elever, der deltager og dels TABEL 3.2 Observerede og forventede korrelationer mellem resultater i general- og afgangsprøver Fag Generalprøve Observeret Forventet Læsning 2012 0,57 0,57 Retskrivning 2012 0,71 0,70 Matematiske færdigheder 2014 0,78 0,78 Matematisk problemløsning 2014 0,63 0,62 Kilde: Forcensur 2015 14 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

skyldes, at definitionen af grænseværdierne indebærer, at de ækvivalerede grænseværdier er afrundede udgaver af ækvivalerede scores, som i sagens natur er reelle tal. Usikkerheden på beregningerne vil blive diskuteret og vurderet i kapitel 4. Hverken percentilmetoden eller modelmetoden stiller i øvrigt krav til udtrækket af elever. Da usikkerheden for begge metoder vil ære størst, der hvor der er færrest elever, vil det faktisk være en fordel, hvis der er en overrepræsentation af elever med meget svage og elever med meget gode prøveresultater. TABEL 3.3 LÆSNING: Ækvivalering af karakterer i læsning i 2012 med karakterer i det samme fag i 2015 2012-prøve Percentilmetoden Modelmetoden Karakter Interval Percentil Interval Percentil Interval Percentil 00 1-23 3,0 1-19 3,0 1-18 2,2 02 24-29 8,3 20-22 7,4 19-23 9,1 4 30-38 42,2 23-35 40,9 24-35 40,9 7 39-45 77,8 36-43 77,0 36-43 77,0 10 46-48 92,2 44-46 91,3 44-46 91,3 12 49-50 100,0 47-50 100,0 47-50 100,0 Karaktergennemsnit 6,3 6,4 6,4 Landsgennemsnit i 6,5 2012 Kilde: Forcensur 2015 TABEL 3.4 RETSKRIVNING: Ækvivalering af karakterer i retskrivning i 2012 med karakterer i det samme fag i 2015 2012-prøve Percentilmetoden Modelmetoden Karakter Interval Percentil Interval Percentil Interval Percentil 00 1-31 0,9 1-36 0,9 1-37 1,3 02 32-51 9,6 37-56 9,6 38-56 9,6 4 52-64 25,4 57-69 26,8 57-68 24,1 7 65-77 62,7 70-79 64,9 69-78 60,5 10 78-84 86,4 80-83 86,0 79-83 86,0 12 85-90 100,0 84-90 100,0 84-90 100,0 Karaktergennemsnit 7,4 7,3 7,5 Landsgennemsnit i 6,5 2012 Kilde: Forcensur 2015 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 15

TABEL 3.5 MATEMATISKE FÆRDIGHEDER: Ækvivalering af karakterer i matematiske færdigheder i 2014 med karakterer i det samme fag i 2015 2014-prøve Percentilmetoden Modelmetoden Karakter Interval Percentil Interval Percentil Interval Percentil 00 1-10 4,1 1-13 3,7 1-11 3,3 02 11-17 17,3 14-21 17,3 12-21 17,3 4 18-27 38,0 22-28 37,3 22-29 39,5 7 28-38 67,9 29-39 68,6 30-39 68,6 10 39-46 88,6 40-45 88,9 40-45 88,9 12 47-50 100,0 46-50 100,0 46-50 100,0 Karaktergennemsnit 6,6 6,6 6,6 Landsgennemsnit i 6,8 2014 Kilde: Forcensur 2015 TABEL 3.6 MATEMATISK PROBLEMLØSNING: Ækvivalering af karakterer i matematisk problemløsning i 2014 med karakterer i det samme fag i 2015 2014-prøve Percentilmetoden Modelmetoden Karakter Interval Percentil Interval Percentil Interval Percentil 00 1-15 6,4 1-19 6,6 1-18 6,0 02 16-29 18,0 20-34 17,8 19-33 16,9 4 30-47 41,3 35-53 40,9 34-52 40,3 7 48-68 72,3 54-72 71,9 53-73 73,6 10 69-82 91,7 73-86 90,9 74-86 90,9 12 83-100 100,0 87-100 100,0 87-100 100,0 Karaktergennemsnit 6,3 6,3 6,3 Landsgennemsnit i 6,3 2014 Kilde: Forcensur 2015 16 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

4 Vurdering af usikkerhed og usystematiske fejl Dette kapitel beskriver vores vurdering af usikkerhed og usystematiske fejl i forbindelse med gennemførelsen af forcensurprojektet i 2015. 4.1 Konklusion bedst, hvis man bruger modelmetoden. I læsning, retskrivning og (måske) matematisk problemløsning, er percentilmetoden at foretrække ved estimation af skæringspunktet mellem karaktererne 00 og 02. Selvom sammenligninger mellem model- og percentilmetoderne ikke fører til fuldstændig konsistente resultater, indeholder figurerne 4.3-4.6 tilstrækkelige informationer til at drage konklusioner vedrørende anvendeligheden af test-ækvivalering i forbindelse med forcensur. Det første og helt centrale spørgsmål om resultaterne er tilstrækkeligt sikre til, at man kan stole på dem kan besvares positivt, med et enkelt forbehold. I vurderingen af sikkerheden er det vigtigt at holde fast på, at modus-værdien og den forventede værdi skal lige tæt på hinanden således, at man kan gå ud fra at disse tal repræsenterer den sande værdi, som skal estimeres. Selvom dette krav er opfyldt er det nødvendigt at respektere, at der er tale om en vis grad af usikkerhed, og at det er urealistisk, at grænseværdien kan estimeres uden fejl. I vores vurdering af om estimationen har været tilstrækkelig sikker, har vi lagt vægt på, at sandsynligheden for, at der rammes ved siden af med mere end et point skal være relativt lille og helst mindre end 20 %. Dette krav er opfyldt i langt de fleste tilfælde bortset fra estimationen af skæringspunktet mellem karaktererne 02 og 04 i forbindelse med retskrivning og skæringspunkterne mellem karaktererne 00 og 02 i læsning og matematisk problemløsning. Det næste spørgsmål er, om hvilken af de to metoder, der giver de mest sikre resultater. Også her er svaret relativt entydig, men igen med et enkelt forbehold. Sikkerheden er i de fleste tilfælde klart En del af forklaringen på de relativt usikre estimater af grænseværdier mellem de laveste karakterer er, at der er forholdsvis få elever, der er i nærheden af karakteren 0. Datagrundlaget er derfor meget spinkelt, og usikkerheden vil næppe være til at komme uden om, medmindre man indsamler generalprøveresultater for et større antal elever, end det var muligt i forbindelse med forcensur 2015. Bortset fra usikkerheden i den lave ende af karakterskalaen indeholder figurerne 4.3-4.6 kun en enkelt antydning af et muligt problem. I læsning og matematisk problemløsning er andelen af elever med meget store forskelle på karaktererne i general- og afgangsprøven måske større, end man kunne ønske sig. I forbindelse med læsningen skyldes det formodentlig, at læseprøverne i praksis fungerer som pædagogiske test med godt 30 enkeltopgaver, fordi den samlede score for langt de fleste elever fordeler sig mellem 20 og 50. Læseopgaverne er med andre ord for lette, hvis man gerne vil have en sikker ækvivalering af præstationerne blandt de svage læsere. Hvad angår den matematiske problemløsning er problemet et andet, fordi eleverne fordeler sig med stor spredning fra 0 til 100 point. Om årsagen skyldes problemer med scoringen af resultaterne, eller om der er andre forhold, der forstyrrer det billede, som den samlede score giver af elevens faglige niveau, er det ikke muligt at udtale sig om på det givne grundlag. Vi kan derfor ikke gøre andet end at pege på, at der måske er et problem. FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 17

4.2 Hvorfor opstår usystematiske fejl? Der er to forskellige grunde til usystematiske fejl i forbindelse med karaktergivningen efter forcensur ved hjælp af test-ækvivalering. Den ene grund er knyttet til selve afgangsprøven, der indebærer den samme form for usikkerhed, som kendes i forbindelse med pædagogiske test. Den anden grund skyldes, at resultater af test-ækvivalering består af estimater af grænseværdierne mellem de forskellige karakterer, og disse estimater vil være behæftet med en vis grad af usikkerhed på samme måde, som det er tilfældet for alle andre estimater af ukendte størrelser i statistiske analyser. Formålet med dette afsnit er at vurdere hvor stor risikoen for forekomst af usystematiske fejl er. Metoden vil i første omgang blive illustreret med udgangspunkt i resultaterne for matematisk problemløsning, hvorefter resultaterne for samtlige prøver vil blive opsummeret og kommenteret. 4.3 Matematisk problemløsning Test-ækvivaleringen blev foretaget ved sammenkobling af 516 elevers resultater fra generalprøven med afgangsprøven fra 2014 og de samme elevers resultater fra afgangsprøven i 2015. Afgangsprøverne i matematisk problemløsning indeholder en række opgaver, hvor man kan score op til 100 point. Karaktererne i matematisk problemløsning defineres efterfølgende ved en række intervaller på skalaen fra 0-100 adskilt ved en række skæringspunkter, hvor selve skæringspunktet hører til den laveste af de to karakterer, som intervallerne definerer. Tabel 4.1 viser de skæringspunkter, der blev anvendt i forbindelse med afgangsprøven i 2014 samt skæringspunkterne for 2015 beregnet ved henholdsvis model- og percentilmetoden. Tabellen viser, at der er god overensstemmelse mellem skæringspunkterne fastlagt ved de to metoder, men at der alligevel er små forskelle. Sådanne resultater er at forvente. Da kontrollen af den statistiske model, der benyttes til beregningerne, i alle tilfælde accepterede modellen, kan det imidlertid forudsiges, at de to metoder vil give næsten samme resultater. De små forskelle, der kan iagttages, er konsekvenser af den usikkerhed, der er knyttet til statistiske beregninger, fordi der benyttes helt forskellige metoder til at estimere skæringspunkterne. Udover at bekræfte, at begge metoder er på rette spor, stiller disse forskelle derfor et konkret spørgsmål om, hvilken af de to metoder, der er behæftet TABEL 4.1 Definition af karakterer i afgangsprøven i matematisk problemløsning i 2014 og ækvivalente karakterer for afgangsprøven i 2015 bestemt ved henholdsvis model- og percentilmetoden Karakter 00 02 04 07 10 12 Afgangsprøve 2014 1-15 16-29 30-47 48-68 69-82 83-100 Modelbaseret, 2015 1-18 19-33 34-52 53-73 74-86 87-100 Percentilbaseret, 2015 1-19 20-34 35-53 54-72 73-86 87-100 Kilde: Forcensur 2015 Note: Skæringspunkterne, der adskiller karaktererne er skrevet med fed skrift 18 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

med den mindste usikkerhed. Det er et af formålene med dette kapitel at besvare dette spørgsmål. 4.4 Usikkerheden i forbindelse med afgangsprøverne Tabel 4.2 og 4.3 viser sammenhængen mellem elevernes karakterer i generalprøven og den efterfølgende afgangsprøve. Karaktererne i generalprøven er fastlagt ved den samme omsætningstabel, der blev benyttet i 2014. Karaktererne i afgangsprøven blev fastlagt ved ækvivalering vha. både modelmetoden (tabel 4.2) og percentilmetoden (tabel 4.3). Tabellerne viser en tydelig sammenhæng mellem karaktererne i generalprøven og karaktererne i afgangsprøven, men afslører samtidig den form for usikkerhed, som må forventes i forbindelse med den anvendte prøveform, fordi en del elever får forskellige karakterer på de to prøver. Ideen med afgangsprøverne og de karakterer, som grænseværdierne definerer, er, at den samlede score på alle opgaver skulle afspejle elevens faglige niveau. Afprøvningen af de modeller, som benyttes til ækvivaleringen bekræfter, at dette er en rimelig antagelse, og at prøverne fra 2014 og 2015 definerer det faglige niveau på en og samme måde. Det betyder imidlertid ikke, at elever altid vil få den samme karakter i de to prøver, men at det må forventes, at der forekommer situationer, hvor elever enten får en for høj eller for lav karakter. Antag f.eks., at en elev har et fagligt niveau, hvor den forventede score på samtlige opgaver ligger lige over en grænseværdi mellem to karakterer. På grund af den form for tilfældighed, som altid er knyttet til pædagogiske test, vil der være en vis risiko for, at eleven scorer lidt mindre end det, der kan forventes ud fra elevens niveau, og derfor ender med en karakter, der er mindre end den karakter, som det faglige niveau berettiger. Eller omvendt. Der må derfor både forventes elever, der får for høje karakterer, og elever, der får for lave karakterer i forhold til deres rigtige faglige niveau. Tabel 4.2 og tabel 4.3 viser, at dette vil være tilfældet, uanset om man benytter de ækvivalerede karakterer, der er defineret af model-metoden eller de karakterer, der er defineret af percentilmetoden. I begge tabeller findes adskillige elever, hvor karaktererne i afgangsprøven fra 2015 ikke svarer til den karakter, som de har fået i generalprøven vha. prøven fra 2014. Det forhold, at der er elever, hvor karakteren afhænger af, hvilken prøve der stilles, bør ikke være overraskende. Det eneste, som man måske kan være bekymret over, er, at andelen af elever, hvor der er to eller flere trins forskel på karaktererne, er forholdsvis stor (7.8 % hvis karaktererne er defineret ved modelmetoden, og 8.3 % hvis de er fastlagt ved percentilmetoden). I forbindelse med spørgsmålet om hvilken af de to estimationsmetoder, der ser ud til at fungere bedst, falder vurderingen ud til fordel for modelmetoden, fordi risikoen for alvorlige forskelle på general- og afgangsprøvekarakterer er lidt mindre for modelmetoden. Forskellen er dog marginal og bør kun tages alvorligt, hvis tilsvarende tendenser findes for de andre prøver. Udover at konstatere, at der er en ikke ubetydelig risiko for, at en elev får en karakter, der er væsentligt større eller mindre end den, der svarer til elevens faglige niveau, er det eneste der er værd at bemærke, at tendensen i forskellene på de to karakterer er usystematisk. Man kunne på forhånd være bekymret for, at der er systematisk forskel på lowstake tests (generalprøven) og high-stake tests (afgangsprøven), og at der derfor ville være en tendens til, at de store forskelle på karaktererne forekom i situationer, hvor karakteren i afgangsprøven er væsentligt bedre end karakteren i generalprøven. FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 19

Denne bekymring er dog ubetydelig, fordi andelen af elever med en meget højere karakter i afgangsprøven end i generalprøven ikke er tilnærmelsesvis signifikant anderledes end andelen af elever med et meget bedre resultat i generalprøven end i afgangsprøven. Resultaterne i tabellerne 4.2 og 4.3 antyder, at forskellen på low- og high-stake tests har været uden betydning for karaktererne. TABEL 4.2 Definition af karakterer i afgangsprøven i matematisk problemløsning i 2014 og ækvivalente karakterer for afgangsprøven i 2015 bestemt ved henholdsvis model- og percentil-metoden General- Afgangsprøve 2015 prøve 2014 0 2 4 7 10 12 Total -------------------------------------------------------- 0 13 11 9 0 0 0 33 2 13 23 21 3 0 0 60 4 5 17 49 43 5 1 120 7 0 4 37 91 24 4 160 10 0 1 3 32 42 22 100 12 0 0 2 3 18 20 43 Total 31 56 121 172 89 47 516 Kilde: Forcensur 2015 Note: Forekomst af afvigelse på to eller flere trin på karakterskalaen er angivet ved fed skrift TABEL 4.3 Sammenhæng mellem karakterer i generalprøven og karakteren i afgangsprøven, hvis afgangsprøvekaraktererne fastlægges ud fra de grænseværdier, der blev fastlagt ved modelmetoden. General- Afgangsprøve 2015 prøve 2014 0 2 4 7 10 12 Total -------------------------------------------------------- 0 14 10 9 0 0 0 33 2 15 22 20 3 0 0 60 4 5 21 46 40 7 1 120 7 0 4 38 84 30 4 160 10 0 1 4 30 43 22 100 12 0 0 2 3 18 20 43 Total 34 58 119 160 98 47 516 -------------------------------------------------------- Kilde: Forcensur 2015 Note: Forekomst af afvigelse på to eller flere trin på karakterskalaen er angivet ved fed skrift 20 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

4.5 Den statistiske usikkerhed Man kan på forhånd sige, at den statistiske usikkerhed afhænger af antallet af elever, der deltager i undersøgelsen, og at usikkerheden vil være størst i de områder, hvor der er færrest elever dvs. i forbindelse med grænseværdien, der adskiller karakteren 00 fra karakteren 02. Men bortset fra det kan vi ikke på forhånd sige, hvor stor usikkerheden er, eller om usikkerheden er større eller mindre i forbindelse med percentilmetoden end i modelmetoden. Der foreligger ingen matematiske resultater, der kan bruges til generelle beregninger af den statistiske usikkerhed. Vi har i stedet anvendt såkaldt bootstrapping til at estimere fordelingen af estimaterne i den aktuelle situation ud fra 400 tilfældigt udtrukne datamaterialer ved sampling med tilbagelægning fra de foreliggende data. Vi viser indledningsvis resultaterne for prøven i matematisk problemløsning for at illustrere, hvad det er, der kommer ud af sådanne bootstrap-undersøgelser og sammenfatter derefter resultaterne for alle prøver i dansk og matematik, før der drages konklusioner vedrørende anvendeligheden af test-ækvivalering i forbindelse med forcensuren. Formålet med kortlægningen af fordelingerne for estimaterne af tærskelværdierne er at besvare følgende spørgsmål vedrørende estimaternes sikkerhed. 1) Hvilken tærskelværdi har størst sandsynlighed for at forekomme, og hvor stor er sandsynligheden? Tærskelværdien med størst sandsynlighed omtales som tærskelværdiens modus. være, hvis man gennemførte et stort antal undersøgelser med det samme antal elever udtrukket på præcis samme måde som i den aktuelle undersøgelse? Denne værdi omtales som den forventede værdi. Den forventede værdi skal ligge tæt på modus, hvis man skal kunne tale om estimater af tærskelværdier uden systematisk bias. 3) Standardfejlen på tærskelværdierne kan naturligvis også beregnes ud fra fordelingerne, men det vil ikke have nogen mening at beregne egentlige konfidensintervaller omkring estimaterne, fordi der under alle omstændigheder er tale om diskrete fordelinger med relativt få værdier. I stedet for konfidensintervaller vil der blive foretaget beregninger af sandsynligheden for, at estimatet af tærskelværdien højst afviger et enkelt point fra modusværdien, idet en afvigelse på et enkelt point under alle omstændigheder må betragtes som acceptabelt i lyset af, at der altid vil være en vis form for usikkerhed på statistiske beregninger. Ækvivaleringen af general- og afgangsprøveresultater gav lidt forskellige resultater for de to metoder, idet modelmetoden foreslog, at skæringspunktet mellem karaktererne 0 og 2 skulle være lig med 18, mens percentilmetoden foretrak en grænseværdi på 19. Figur 4.1 viser fordelingerne af estimaterne af skæringspunktet mellem karaktererne 0 og 2 ved hjælp af henholdsvis model- og percentilmetoden. Der kan iagttages en ikke uvæsentlig grad af usikkerhed for begge metoder. Usikkerheden synes at være størst for modelmetoden, hvor værdierne spreder 2) Hvad ville den gennemsnitlige tærskelværdi FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 21

FIGUR 4.1 Fordeling af estimatet af skæringspunktet mellem karaktererne 0 og 2 ved hjælp af modelmetoden (M0) og Percentilmetoden (P0) Kilde: Forcensur 2015 22 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

sig fra 8-23 og noget mindre for percentilmetoden, hvor værdierne fordeler sig i intervallet 13 25. Det hyppigst forekommende estimat er 18 for begge metoder. I forbindelse med modelmetoden vil denne værdi forekomme i 19,2 % af tilfældene, mens den ifølge percentilmetoden har sandsynligheden 22,4 % for at forekomme. Disse forhold plus det forhold, at standardfejlene på estimatet er henholdsvis 1,9 for percentilmetoden og 2,1 for modelmetoden peger på percentilmetoden som marginalt bedre end modelmetoden. standardfejlen på estimaterne også er klart mindre for modelmetoden end for percentilmetoden (0,9 mod 1,3), falder sammenligningen af fordelingerne ud til modelmetodens fordel. 4.6 Sammenfatning af resultater for alle fire prøver Figuren 4.3 4.6 opsummerer resultaterne for samtlige fire prøver, idet der for både model- og percentilmetoden rapporteres: Imod denne konklusion kan det dog bemærkes, at sandsynligheden for, at estimatet af grænseværdien højst afviger et point fra den hyppigst forekommende værdi er lidt større for modelmetoden (53,6 %) end for percentilmetoden (52,3 %), samt at forskellen på modusværdien på 18 og de forventede værdier er lig med henholdsvis 18,9 for percentilmetoden og 17,6 for modelmetoden, hvilket antyder, at percentilmetoden kan have en svag tendens til at placere grænseværdien for højt. Grænseværdien mellem karaktererne 7 og 10 lægges ved værdien 73 for modelmetoden og ved værdien 72 for percentilmetoden. Tendensen til, at grænseværdierne lægges højere for percentilmetoden genfindes altså ikke, når det drejer sig om højere karakterer. Figur 4.2 viser fordelingen af grænseværdierne mellem karaktererne 7 og 10. De estimerede grænseværdier svarer i dette tilfælde til de værdier, som har størst sandsynlighed for at forekomme. I forbindelse med modelmetoden er sandsynligheden lig med 43,4 % for, at værdien 73 forekommer, og der er en sandsynlighed på 91,5 % for, at den estimerede værdi højst afviger et point fra modusværdien. I forbindelse med percentilmetoden, hvor modusværdien er lig med 72 point, er de tilsvarende sandsynligheder lig med henholdsvis 31,9 % og 76,5 %. Da Estimatet af grænseværdien mellem to karakterer. Grænseværdien tælles med blandt den laveste af de to karakterer Sandsynligheden for, at dette estimat forekommer (skal helst være så stor som muligt). Sandsynligheden for, at grænseværdien højst afviger med et point fra estimatet af grænseværdien (skal helst være så stor som mulig). Den forventede grænseværdi (må ikke afvige systematisk fra det faktisk forekommende estimat. Standard afvigelsen af estimatet. Den gennemsnitlige afgangsprøvekarakter baseret på metoden skal ligge tæt på den gennemsnitlige generalprøvekarakter. Hyppigheden af elever, hvor generalprøvekarakteren og afgangsprøvekarakteren afviger med mindst to trin (bør være meget lille). Da fordelingen af den samlede score på prøverne påvirker både usikkerheden på grænseværdierne og risikoen for, at eleven får forskellige karakterer i general- og afgangsprøver, ledsages tabellerne med ovenstående resultater af figurer, der viser disse fordelinger. FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 23

FIGUR 4.2 Fordeling af estimatet af skæringspunktet mellem karaktererne 7 og 10 ved hjælp af modelmetodel (M7) og Percentilmetoden (P7) Kilde: Forcensur 2015 24 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

FIGUR 4.3 Læsning 2012, 230 elever Metode 0/2 2/4 4/7 7/10 10/12 Model Estimat 18 23 35 43 46 Modus sandsynlighed % 19.0 42.1 58.6 60.1 55.4 Sandsynlighed modus 1 % 50.6 86.3 97.1 100 100 Forventet 18.1 23.1 34.9 43.4 46.4 Standard afvigelse 2.1 1.0 0.7 0.5 0.5 Percentil Estimat 19 22 35 43 46 Modus sandsynlighed % 26.2 31.4 48.1 56.6 65.6 Sandsynlighed modus 1 % 72.1 86.0 95.9 100 100 Forventet 18.3 22.4 35.3 43.2 46.2 Standard afvigelse 1.6 1.0 0.7 0.6 0.6 Andel af elever med store Gennemsnits karakter forskelle i karaktererne Generalprøve 6.4 Afgangsprøve - modelbaseret 6.4 9.1 % Afgangsprøve - percentilbaseret 6.4 9.1 % Kilde: Forcensur 2015 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 25

FIGUR 4.4 Retskrivning 2012, 228 elever Metode 0/2 2/4 4/7 7/10 10/12 Model Estimat 37 56 68 78 83 Modus sandsynlighed % 35.2 20.2 37.2 65.8 61.6 Sandsynlighed modus 1 % 53.2 45.7 87.1 94.3 99.8 Forventet 39.3 55.2 68.0 77.8 82.7 Standard afvigelse 2.9 2.2 1.0 0.6 0.5 Percentil Estimat 36 56 69 79 83 Modus sandsynlighed % 60.1 23.4 38.2 52.4 71.3 Sandsynlighed modus 1 % 76.6 50.3 76.1 88.4 99.8 Forventet 37.1 56.0 68.3 78.4 82.9 Standard afvigelse 2.8 1.9 1.3 0.8 0.5 Andel af elever med store Gennemsnits karakter Forskelle i karaktererne Generalprøve 7.5 Afgangsprøve - modelbaseret 7.6 1.3 % Afgangsprøve - percentilbaseret 7.5 1.8 % Kilde: Forcensur 2015 26 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

FIGUR 4.5 Matematiske færdigheder 2014, 271 elever Metode 0/2 2/4 4/7 7/10 10/12 Model Estimat 11 21 29 39 45 Modus sandsynlighed % 53.1 50.9 57.6 53.4 71.8 Sandsynlighed Modus 1 % 92.7 94.6 97.3 97.1 100 Forventet 11.4 20.7 28.8 38.9 45.1 Standard afvigelse 0.8 0.8 0.7 0.6 0.5 Percentil Estimat 13 21 28 39 45 Modus sandsynlighed % 16.5 49.1 47.6 70.3 67.3 Sandsynlighed modus 1 % 53.7 94.3 91.3 94.3 100 Forventet 12.7 20.8 28.4 38.8 44.9 Standard afvigelse 1.6 0.8 0.8 0.5 0.6 Andel af elever med store Gennemsnits karakter Forskelle i karaktererne Generalprøve 6.7 Afgangsprøve - modelbaseret 6.7 0.4 % Afgangsprøve - percentilbaseret 6.7 0.4 % Kilde: Forcensur 2015 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 27

FIGUR 4.6 Matematisk problemløsning 2014, 516 elever Metode 0/2 2/4 4/7 7/10 10/12 Model Estimat 18 33 52 73 86 Modus sandsynlighed % 19.2 27.9 38.4 43.4 39.4 Sandsynlighed modus 1 % 53.6 74.1 84.8 91.5 85.5 Forventet 17.6 33.3 52.2 72.9 86.2 Standard afvigelse 2.1 1.4 1.0 0.9 1.0 Percentil Estimat 19 34 53 72 86 Modus sandsynlighed % 22.4 29.2 24.9 31.9 29.4 Sandsynlighed Modus 1 % 52.3 57.7 75.7 76.5 74.2 Forventet 18.9 34.0 52.9 72.0 86.5 Standard afvigelse 1.9 1.8 1.3 1.3 1.0 Andel af elever med store Gennemsnits karakter Forskelle i karaktererne Generalprøve 6.3 Afgangsprøve - modelbaseret 6.3 7.8 % Afgangsprøve - percentilbaseret 6.3 8.3 % Kilde: Forcensur 2015 28 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

4.7 Afsluttende kommentarer Det er vigtigt at have en konkret vurdering af usikkerheden på de grænseværdier, som test-ækvivaleringen definerer, når resultaterne skal efterbehandles og de endelige grænseværdier fastlægges. De metoder, der er beskrevet i dette afsnit, er udviklet til lejligheden og var ikke til stede, da forcensuren i maj/juni 2015 blev gennemført. Da metoderne nu er implementeret i de programmer, der benyttes til ækvivaleringen, kan de bruges, hvis man fremover beslutter at gennemføre forcensuren på samme måde, som det blev gjort i 2015. Fremtidige beslutninger om, hvor grænserne mellem karaktererne skal lægges kan med andre ord baseres både på statistiske estimater af, hvor grænsen skal lægges, men også på hvor sikre eller usikre estimaterne er. FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 29

5 Vurdering af risikoen for systematiske fejl ved ækvivalering af resultater fra afgangsprøver og generalprøver Dette kapitel beskriver vores vurdering af risikoen for systematiske fejl ved ækvivalering fra afgangsprøver og generalprøver. 5.1 Konklusion Vores resultater viser, at der på det foreliggende grundlag ikke er grund er til at foretage korrektioner pga. forskellen på high- og low-stakes, tiden fra general- til afgangsprøve eller pga. af de aktuelle erfaringer, som deltagerne i generalprøven har i forhold til andre elever. 5.2 Hvorfor opstår systematiske fejl? Risikoen for usystematiske fejl er beskrevet i foregående kapitel. Risikoen er størst for resultater, der ligger i bunden af karakterskalaen. Der kan være tre årsager til systematisk forkerte resultater fra testækvivaleringen: Generalprøven er low-stake, mens afgangsprøven er high-stake. Elever, der har deltaget i generalprøven, har aktuelle erfaringer med opgaver i afgangsprøver. Det er der sikkert mange andre, der også har, men der vil måske også være elever, hvor det ikke er tilfældet. Afgangsprøven afholdes nogle uger efter generalprøven. Eleverne må derfor forventes at være lidt dygtigere, når de går til afgangsprøven, end da de deltog i generalprøven. Alle tre faktorer trækker i samme retning. Der er en risiko for, at det kan se ud som om, eleverne underpræsterer i generalprøven i forholdt til afgangsprøven. Hvis denne mistanke er korrekt, kan det betyde, at karaktererne i afgangsprøven defineres for venligt og derfor giver for høje karakterer i forhold til den karakter, som eleverne ville have fået, hvis den prøve, der blev anvendt som generalprøve var blevet brugt som afgangsprøve i 2015. Problemstillingen er blevet berørt tidligere i kapitel 3 og 4, hvor der ikke var fundet tendenser, der understøtter bekymringen for, at eleverne underpræsterede i generalprøven i forhold til afgangsprøven. De data, som ministeriet indsamlede i forbindelse med ækvivaleringen af karaktererne i læsning og retskrivning i 2012 i forhold til afgangsprøverne i 2010, kan imidlertid benyttes til en mere omhyggelig vurdering af problemet. For at forenkle diskussionen vil vi nøjes med at omtale problemet som et spørgsmål om high-stake testning i forhold til low-stake testning, men det skal understreges, at alle tre faktorer spiller ind, og at der ikke med de givne data kan skelnes mellem de tre faktorer. Forcensuren i 2012 giver mulighed for at ækvivalere: 2010 low-stake 2012 high-stake Forcensuren i 2015, hvor der blev foretaget ækvivalering i forhold til både prøven fra 2010 og prøven fra 2012 giver mulighed for at ækvivalere: 2010 low-stake 2015 high stake 2012 low-stake 2015 high stake Da den modelbaserede ækvivalering fungerer symmetrisk i den forstand, at vi kan ækvivalere resultater i afgangsprøven i forhold til generalprøverne og generalprøverne i forhold til afgangsprøven, betyder det, at vi kan ækvivalere low-stake resultater fra 2010 med low-stake resultater fra 2012. 2010 low 2015 high 2012 low Det følger heraf, at det er muligt at sammenligne ækvivalering af 2012 high-stake resultater med ækvivalering af 2012 low-stake resultater for både 30 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

læsning og retskrivning. Hvis disse sammenligninger viser, at high-stake resultater systematisk er bedre end low-stake resultaterne, må vi konkludere, at de tre nævnte faktorer formodentlig har en effekt og må derefter forsøge at vurdere, om det er muligt at korrigere for den systematiske fejl. Hvis der ikke er systematiske forskelle, må vi konkludere, at der ikke kan påvises systematiske fejl pga. de tre nævnte faktorer, hvorfor vi ikke behøver at gøre yderligere. Figurerne 5.1-5.4 viser resultaterne for henholdsvis læsning og retskrivning. Figurerne 5.1 og 5.3 plotter high-stake resultater mod low-stake resultater. Hvis der er tale om en systematisk high-stake effekt, skal punkterne ligge over identitetslinjen. Figurerne 5.2 og 5.4 viser forskellen mellem high-stake og lowstake resultater fra 2012 i forhold til low-stake resultatet fra 2010. Resultaterne fjerner bekymringerne for en systematisk high-stake effekt. I læsning er low-stake resultaterne en smule bedre end high-stake resultaterne for de svage elever og på fuldstændig samme niveau for de stærkeste elever. Og afvigelserne er i øvrigt ikke større end, at det kan ses som konsekvenser af den tilfældige usikkerhed, som ækvivaleringen er behæftet med. For retskrivning er high-stake resultaterne bedre end low-stake resultaterne blandt de absolut svageste elever. For alle andre elever ligger low-stake resultaterne bedre end high-stake resultaterne, selvom forskellene igen kan forklares ved den usystematiske usikkerhed. FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 31

FIGUR 5.1 Sammenhæng mellem low- og high-stake resultater i læseprøven fra 2012 FIGUR 5.2 Sammenhæng mellem forskel på high- og low-stake resultater i læsning i 2012 i forhold til low-stake resultater i prøven fra 2010 Kilde: Forcensur 2015 32 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

FIGUR 5.3 Sammenhæng mellem low- og high-stake resultater i prøven i retskrivning fra 2012 FIGUR 5.4 Sammenhæng mellem forskel på high- og low-stake resultater i retskrivning i 2012 i forhold til low-stake resultater i prøven fra 2010 Kilde: Forcensur 2015 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 33

6 Resultater fra spørgeskemaundersøgelsen til lærere I det følgende præsenteres resultaterne fra spørgeskemaundersøgelsen, hvor 27 lærere fra 18 forskellige skoler og kommuner har deltaget. 13 af de tilmeldte klasser har været op til generalprøve i dansk, mens 14 af klasserne har været til generalprøve i matematik. 6.1 Konklusion Resultaterne fra spørgeskemaundersøgelsen tyder ikke på, at der er nogen systematiske fejl i forbindelse med gennemførelsen af forcensur 2015. De medvirkende lærere vurderer, at eleverne i høj grad eller i nogen grad har taget generalprøven ligeså seriøst som afgangsprøven og forberedt sig lige så godt herpå. Der har ikke været nogen uforudsete afbrydelser i generalprøven eller grund til, at eleverne ikke har haft samme mulighed for at koncentrere sig i generalprøven. Langt hovedparten af de medvirkende lærere vurderer, at eleverne havde samme faglige udgangspunkt til begge prøver, og eleverne har ikke haft kendskab til opgavesættet til generalprøven på forhånd. Endelig mener lærerne ikke, at undervisningen i de sidste par uger op til prøven har påvirket resultatet af generalprøven. 6.2 Forhold med betydning for valg af tilmelding til generalprøve FIGUR 6.1 FORHOLD SOM HAVDE BETYDNING FOR TILMELDING TIL GENERALPRØVEN Ønske fra min skoleleder 7% 19% 30% 44% Ønske om at give mine elever eksamenstræning 70% 30% Ønske om at sikre kvaliteten af bedømmelsen af folkeskolens prøver 44% 33% 19% 4% I høj grad I nogen grad I mindre grad Slet ikke Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: I hvilken grad havde følgende forhold betydning for, at du tilmeldte din klasse til generalprøven? n=27 34 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

Det fremgår af spørgeskemaundersøgelsen, at ønsket om at give eleverne eksamenstræning har været den grundlæggende årsag bag lærernes beslutning om at tilmelde deres klasse til generalprøven jf. figur 6.1. Alle lærere i undersøgelsen erklærer sig enige i dette ønske. Dernæst kommer ønsket om at sikre kvaliteten af bedømmelsen af folkeskolens prøver. Mere end tre fjerdedel af lærerne (77 %) føler, at dette gælder i nogen til høj grad. Det viser sig, at kun en mindre del af lærerne har valgt at tilmelde deres klasse til generalprøven på baggrund af et ønske fra skolelederens side. Dette gør sig nemlig kun gældende for ca. en fjerdedel af lærerne (26 %). I de åbne besvarelser skriver en lærer, at hendes bevæggrund for at melde sig var: Jeg ville selv prøve, hvad forcensur indebar og hvilken betydning det havde for omsætningstabellen. 6.3 Elevernes indstilling til prøven Generelt viser spørgeskemaundersøgelsen, at eleverne har taget generalprøven seriøst jf. figur 6.2. Alle lærere vurderer, at eleverne i nogen eller høj grad har taget generalprøven lige så seriøst som den endelige afgangsprøve. Ligeledes mener størstedelen (96 %), at eleverne brugte den samme mængde tid på at løse generalprøvens opgavesæt som til folkeskolens afgangsprøve. Samme andel lærere vurderer i nogen eller høj grad, at eleverne havde de samme muligheder for at koncentrere sig FIGUR 6.2 VURDERING AF ELEVERNE UNDER GENERALPRØVEN At eleverne tog generalprøven lige så seriøst som den endelige afgangsprøve 56% 44% At eleverne anvendte lige så meget tid på at løse opgavesættet til generalprøven som til folkeskolens afgangsprøve 74% 22% 4% At prøvesituationen ved generalprøven gav eleverne samme muligheder for at koncentrere sig som til afgangsprøven (fx ro i klassen) 85% 11% 4% I høj grad I nogen grad I mindre grad Slet ikke n=27 Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: I hvilken grad vurderer du følgende? FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 35

til generalprøven sammenlignet med afgangsprøven. Der er kun en lærer, som angiver, at der var afbrydelser i generalprøven grundet uforudsete forhold jf. figur 6.3. Læreren vurderer imidlertid, at afbrydelsen kun i mindre grad havde en negativ indflydelse på elevernes præstationer i generalprøven. FIGUR 6.4 ELEVERNES VIDEN OM GENERAL- PRØVENS INDFLYDELSE PÅ STANDPUNKT- KARAKTERER Ja, det gjorde jeg Nej, det gjorde jeg ikke 44% 48% FIGUR 6.3 UFORUDSETE AFBRYDELSER TIL GENERALPRØVEN Kan ikke huske / ved ikke 7% Ja Nej 4% 96% n=27 Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: Var der afbrydelser i generalprøven pga. uforudsete forhold (fx brandalarm, udefrakommende, der kom ind i lokalet, eller andre forstyrrelser udefra)? Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: Fortalte du eleverne inden generalprøven, at den ville få indflydelse på deres standpunktskarakter? Figur 6.5 viser, at størstedelen af eleverne, ifølge lærerene, (93 %) ikke havde kendskab til opgavesættet der blev brugt til generalprøven på forhånd. Kun en lærer havde fortalt eleverne om opgavesættet inden afholdelse af generalprøven. n=27 6.4 Forberedelse og planlægning til prøven Af figur 6.4 fremgår det, at 44 % af lærerne har fortalt eleverne, at generalprøven vil få indflydelse på deres standpunktskarakter. FIGUR 6.5 KENDSKAB TIL OPGAVESÆTTET Ingen af eleverne havde kendskab til opgavesættet Nogle af eleverne havde kendskab til opgavesættet 4% 93% Alle eleverne havde kendskab til opgavesættet 4% n=27 Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: Vurderer du, at eleverne havde kendskab til opgavesættet, der blev brugt til generalprøven, på forhånd? 36 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

Til spørgsmålet om, hvor lang tid lærerne har brugt på at planlægge og afvikle generalprøven varierer timeantallet fra 1 til 80 timer. Medianen ligger på 5 timers planlægning og afvikling per klasse. Lærerne bliver ligeledes spurgt ind til, hvor lang tid de har brugt på at rette generalprøven. Her ligger median på 20 minutter per elevbesvarelse med en variation fra 5 til 80 minutter lærerne imellem. 6.5 Faglig relevans og udgangspunkt Tre fjerdedel af lærerne vurderer, at det opgavesæt, der blev anvendt til generalprøven, var dækkende for læringsmålene jf. figur 6.6. Kun 4 % angiver i mindre grad, mens ingen af lærerne angiver, at det slet ikke var tilfældet. FIGUR 6.6 VURDERING AF OPGAVESÆT- TETS RELEVANS FOR LÆRINGSMÅL I høj grad I nogen grad I mindre grad Slet ikke Ved ikke 0% 4% 11% 26% 59% n=27 Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: I hvilken grad vurderer du, at det opgavesæt, der blev anvendt til generalprøven, også var dækkende for de nuværende læringsmål? FIGUR 6.7 VURDERING AF ELEVERNES FAGLIGE UDGANGSPUNKT TIL GENERALPRØVEN IFT. AF- GANGSPRØVEN Ja, eleverne havde i det store og hele samme faglige udgangspunkt til begge prøver 89% Nej, eleverne havde et lidt bedre fagligt udgangspunkt til generalprøven end i afgangsprøven Nej, eleverne havde et meget bedre fagligt udgangspunkt til generalprøven end i afgangsprøven 0% 0% Nej, eleverne havde et lidt dårligere fagligt udgangspunkt til generalprøven end i afgangsprøven 11% Nej, eleverne havde et meget dårligere fagligt udgangspunkt til generalprøven end i afgangsprøven 0% Ved ikke/kan ikke vurdere 0% Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: Vurderer du, at eleverne i det store og hele havde samme faglige udgangspunkt til generalprøven som til afgangsprøven? n=27 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 37

Når det kommer til elevernes faglige udgangspunkt, vurderer hovedparten af lærerne (89 %), at eleverne i det store og hele havde det samme faglige udgangspunkt til generalprøven som til afgangsprøven, jf. figur 6.7 ovenfor. Omvendt vurderer 11 %, at eleverne havde et lidt dårligere fagligt udgangspunkt til generalprøven. Næsten halvdelen af de adspurgte lærere (49%) mener slet eller næsten ikke, at undervisningen i ugerne op til prøven har påvirket resultaterne af generalprøven, jf. figur 6.8 på næste side. 37% af lærerne mener, at det kun i begrænset omfang har påvirket prøven, men at det har været uden konsekvenser for karakterne i generalprøven. FIGUR 6.8 HVOR MEGET PÅVIRKER UNDER- VISNINGEN I DE SIDSTE PAR UGER OP TIL PRØVEN RESULTATET AF GENERALPRØ- VEN? Slet ikke Næsten ikke I begrænset omfang men uden konsekvenser for Så meget, at det kunne ses i fordelingen af Ved ikke 7% 7% 19% Kilde: DAMVAD Analytics juni 2015 Spørgsmålstekst: Forestil dig den hypotetiske situation, at generalprøven i stedet blev afholdt samme dag som, et par timer inden, afgangsprøven i maj. Hvor meget tror du, at undervisningen i de sidste par uger op til prøven i så fald ville påvirke resultatet af generalprøven? I relation til ovenstående spørgsmål nævner en lærer følgende i de åbne tekstbesvarelser: 30% 37% n=27 Generalprøven må meget gerne ligge TIDLIGERE - både af hensyn til lærere og elever. Som lærer er det vigtigt, at vi også kan bruge forcensuren i vores forberedelse af eleverne til de endelige prøver. Afslutningsvis spørges lærerne ind til, hvor mange undervisningstimer (á 45 minutter) deres klasse har modtaget mellem generalprøve og afgangsprøve i det pågældende fag. Medianen ligger på 8 undervisningstimer inden for en varians fra 0 til 70 timer. 6.6 Ideer til at forbedre afviklingen af generalprøven i 2016 I det følgende ses de åbne tekstbesvarelser, hvor lærerne har haft mulighed for at give deres kommentarer til generalprøven/forcensur. Kommentarerne er opdelt efter temaer og er ikke behandlet/redigeret rent tekst- eller forståelsesmæssigt. Mere og bedre information om forløbet Informationsniveauet har været usandsynligt dårligt. Forløbet har været fyldt med fejl og mangler. Udmeldingen om, hvilket prøvesæt der skulle anvendes kom meget sent, og at man kun giver mulighed for at anvende et bestemt prøvesæt er problematisk. Ydermere, når man vælger at bruge et komplet prøvesæt fra tidligere prøver, der ligger frit tilgængeligt på nettet med komplette løsninger til en prøve, hvor der er, og skal være, ubegrænset adgang til at søge informationer, vil man få misvisende resultater. I det mindste kunne man have kombineret tidligere opgaver og ændret lidt på ordlyden (fx lade 9q sælge te og kakao i stedet for 9a kaffe osv.). Hele projektet virker dybt useriøst og som en lang hovsa løsning Skrivelserne fra ministeriet var lange og upræcise. Jeg måtte fx. maile for at få svar på nogle ting. Sørg for, at informationer, der bliver sendt fra UVM, er gennemtænkte inden afsendelse. Jeg synes, at det var meget vanskelig for ikke at sige umuligt at få fat i de personer, der skrev 38 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

ud, at man kunne henvende sig til dem, hvis man havde brug for hjælp. De personer, jeg fik fat i, kunne ikke svare på mine spørgsmål, og hende jeg blev henvist til reagerede ikke på mine telefonbeskeder, mails og sms'er. Det var noget træls tid, jeg brugte på den del. Det gik dog alligevel, og jeg ville ikke være bekymret for at være med igen. Tidligere udsendelse af opgavesæt I bør forbedre selve logistikken. Prøvesættene kom ikke til den først lovede tid, og de prøvesæt, vi modtog, var ikke dem, vi skulle bruge, så vi måtte ud at kopiere prøvesættene til eleverne mindre end to timer, før generalprøven skulle afprøves. Hvis en af mine kolleger ikke havde kopieret for mig, havde jeg måtte aflyse generalprøven, da jeg selv havde undervisning helt op til. Noget ringe, at prøverne ikke blev sendt ud i rette tid. Prøvematerialet skal sendes ud, så det er på skolerne inden første mulige prøvedag Det havde været optimalt, hvis der ikke havde været forvirring og forsinkelser på udlevering af opgavesættene. Desuden skal der meget tidligere komme en klar udmelding omkring det prøvesæt, der anvendes! Regnearket fungerede godt. Sørg for at give besked om datoer, deadlines og retningslinjer i god tid - og lad være med at ændre dem i sidste øjeblik. Sørg for, at opgaver kommer til skolen i god tid. Vi har brugt al for meget tid på mails med fejloplysninger og rettelser m.m. (denne tid er slet ikke medtaget i denne registrering). Administrationen af forcensuren har for os fremstået som en rodebutik. Stort arbejdspres lige op prøverne grundet uvished, fremskaffelse af prøveoplæg, tjekke mail og udfylde registreringsark. Blandet Vil forsøget i matematik fortsætte, når det kun er censorer, der skal rette elevernes skriftlige prøver næste år? Jeg har haft 3 klasser - og det er vanskeligt præcist at regne ud, hvor mange timer jeg har benyttet. At afholde prøve samme dag er slet ikke godt. Det er dog ikke antallet af dansktimer, der tæller. Træning med passende mellemrum er godt. Det skal være i orden, inden I sender det ud til skolerne. 6.7 Oversigt over deltagende skoler I det følgende ses en tabel over de kommuner og skoler som har deltaget i spørgeskemaundersøgelsen. Kommune Skole Antal lærere i undersøgelsen Aarhus Rosenvangskolen 2 Dragør Dragør Skole Syd 3 Egedal Ganløse Skole 1 Esbjerg Kvaglundskolen 1 Faxe Midtskolen, afd. 1 Møllevang Hedensted Stjernevejskolen 1 Herning Hammerum Skole 1 Hjørring Taars Skole 1 Holbæk Skolen ved Tuse 2 Næs afdeling Tuse Horsens Dagnæsskolen 1 København Jinnah International 1 School Lejre Trællerupskolen 1 Næstved Susålandets 3 Skole Rebild Skørping Skole 1 Skanderborg Skanderborg Realskole 1 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM 39

Sønderborg Varde Friskolen Østerlund Blåbjergskolen, Nr. Nebel afd. Aalestrup Realskole Vesthimmerland 1 1 4 40 FORCENSUR VED FOLKESKOLENS 9. KLASSES AFGANGSPRØVER 2015 DAMVAD.COM

Havnegade 39 DK-1058 Copenhagen K Tel. +45 3315 7554 Norsk adresse N-2390 Oslo Tel +47 2345 1254