Notat. Den adaptive algoritme i De Nationale Test. Opbygning af test og testforløb. januar 2015

Relaterede dokumenter
Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning

De nationale tests måleegenskaber

Bilagsnotat til: De nationale tests måleegenskaber

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

De nationale test foråret National præstationsprofil

Læring af test. Rapport for. Aarhus Analyse Skoleåret

Vejledning til nye resultatvisninger i de nationale test

Nationale test i Danmark - fra et fagdidaktisk perspektiv

Appendiks 1: Om baggrund og teori bag valg af skala

Appendiks 2: Progression i de nationale test og Beregneren

Beregneren Skole-Hjem-udgaven - Tillæg til vejledning til brug af Beregneren med kriteriescorer

Nationale test. v. Marie Teglhus Møller. Slides er desværre uden eksempelopgaver, da disse ikke må udleveres.

Appendiks 3 Beregneren - progression i de nationale matematiktest - Vejledning til brug af beregner af progression i matematik

National præstationsprofil dansk, læsning

Forside. Nationale test. information til forældre. Januar Titel 1

Test- og prøvesystemet De nationale test Brugervejledning for skoler Brugervejledning Indledning Testafvikling

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Test- og prøvesystemet De nationale test Brugervejledning for skoler Brugervejledning Indledning Testresultater

Test- og prøvesystemet De nationale test Brugervejledning for skoler. Brugervejledning Indledning Testafvikling

Forside. Vejledning om de nationale test. til kommuner. Januar Titel 1

Introduktion til Beregneren og arbejde med progression i DNT Vejen kommune, Brørup, marts Jakob Wandall, NordicMetrics ApS

Udregning af score teknisk bilag

Test- og prøvesystemet De nationale test Brugervejledning for skoler Brugervejledning Indledning Booking

Forside. Vejledning om de nationale test. til lærere i alle fag. Januar Titel 1

Kemi Evaluering af skriftlig eksamen kemi A, stx Maj juni 2015

Forside. Vejledning om de nationale test. til skoleledere. Januar Titel 1

Kick-off på Måling af elevernes faglige progression. Aarhus d. 12. april 2016 v/jakob Wandall, NordicMetrics

De frivillige nationale test i dansk som andetsprog. 5. og 7. klasse. De frivillige nationale test i dansk som andetsprog 1

NATIONAL TEST DANSK, LÆSNING 2., 4., 6. OG 8. KLASSE

6 Medicinrådets kategorisering af den kliniske merværdi (Forslag til ny formulering af afsnit 6)

Bilag til. Kvalitetsrapport

Kemi Evaluering af skriftlig eksamen kemi A, htx Maj juni 2015

Dansk Erhvervs gymnasieanalyse Sådan gør vi

I det nedenstående gives en kort beskrivelse af den metodik og procedure, som anvendes i forhold til en vurdering af vejenes trafikfarlighed.

Indhold SOLRØD KOMMUNE SKOLE OG DAGTILBUD NOTAT. Emne: Solrød Folkeskoler i tal. Til: Orientering. Dato: 17. november 2014

05/09/14. PISA-relatering af de kriteriebaserede. Delrapport 2 teknisk rapport og dokumentation

Fordeling af midler til specialundervisning

I skoleåret 2016/2017 gennemføres de nationale test i fire perioder:

Elever med ikke-vestlig herkomst halter bagefter i de nationale test

Om opbygningen af de nationale læsetest. Hvordan og hvorfor?

8:30-14:30 Sproglig udvikling Kort aktivitet Planlægning af undervisningsforløb Fremlæggelse af undervisningsforløb

Trivsel hos eleverne i folkeskolen, 2017

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

I skoleåret 2016/2017 gennemføres de nationale test i fire perioder:

- Vejledning til brug af beregner af læseudvikling

Test, prøver og evaluering i grundskolen - MONA-konference. 27/ : Evaluering af kundskaber og færdigheder i matematik og naturfagene

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Vejledning for anvendelse af Beregneren til Matematik. Måling af progression i de nationale til i matematik

Introduktion til kompetenceudvikling: Beregneren og Lærings- progression i DNT Aalborg, Gigantium, 4.-5.marts 2015

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

Testplan Nordbyskolen Testplan Matematik

Studieretningsprojektet i 3.g 2007

TANKERNE BAG DE NYE VEJLEDENDE SÆT I MATEMATIK

generelle indlæringsvanskeligheder

elever sig bedre i de Nationale test

Produkt og marked - matematiske og statistiske metoder

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Undersøgende opgaver Opgave 6 er i begge prøvesæt med som sidste opgave en undersøgende opgave af en ny type, som var lidt udfordrende for eleverne.

Newton-Raphsons metode

NATIONAL TEST MATEMATIK 3. OG 6. KLASSE

NATIONAL TEST ENGELSK 7. KLASSE

Brug testresultaterne. - inspiration til brug af de nye kriteriebaserede testresultater i matematik. Titel 1

Det er en af de hyppigst forekommende udregninger i den elementære talbehandling at beregne gennemsnit eller middeltal af en række tal.

NATIONAL TEST BIOLOGI 8. KLASSE

NATIONAL TEST MATEMATIK 3. OG 6. KLASSE

En sumformel eller to - om interferens

Transkript:

Notat Vedrørende: Den adaptive algoritme i De Nationale Test Olof Palmes Allé 38 8200 Aarhus N Tlf.nr.: 35 87 88 89 E-mail: stil@stil.dk www.stil.dk CVR-nr.: 13223459 Den adaptive algoritme i De Nationale Test januar 2015 Dette dokument beskriver i hovedtræk hvordan den adaptive algoritme fungerer i De Nationale Test og hvordan elevdygtigheden bliver beregnet ved anvendelse af Rasch modellen. Opbygning af test og testforløb Eleverne skal igennem deres skoletid gennemføre 10 obligatoriske nationale test inden for forskellige fag. Hver test består af tre såkaldte profilområder. Eksempelvis består dansk, læsning i 2. klasse af profilområderne: Sprogforståelse, Afkodning og Tekstforståelse. De nationale test er selvscorende og adaptive. At testene er selvscorende betyder, at lærerne ikke selv skal rette testene, men får leveret resultaterne direkte. Når testen er afsluttet, kan der beregnes en elevdygtighed for hvert profilområde. Udregningen af elevdygtigheden sker ved anvendelse af Rasch modellen 1. Denne elevdygtighed er udtrykt på en såkaldt logit-skala, men kan efterfølgende transformeres til anden skala med henblik på formidling. Percentilskalaen (1-100) er et eksempel på dette. At testene er adaptive betyder, at testene tilpasser sig den enkelte elevs dygtighed undervejs i testforløbet. Eleven testes skiftevis i de tre profilområder, indtil usikkerheden i elevens estimerede dygtighed i et profilområde kommer under en fastsat grænse 2. Hvis usikkerheden i elevens dygtighed i ét profilområde kommer under den fastsatte grænse før de øvrige profilområder, koncentreres testafviklingen omkring de øvrige områder. Testafviklingen fortsætter, indtil usikkerheden i elevdygtigheden i alle profilområder ligger under 1 Se bilag 1 for forklaringer på statistiske og tekniske termer. 2 I testsystemet anvendes en grænse på usikkerheden på elevdygtigheden (SEM) på 0,55.

2 den fastsatte grænse, og den afsatte tid 3 til afvikling af testen er gået. Læreren kan forlænge testen, hvis der ikke er opnået tilstrækkelig præcision, inden tiden er gået. I praksis består et testforløb således af tre individuelle test, som i forløbet blandes i mønsteret 1, 2, 3, 1, 2, 3, indtil usikkerheden er under den fastsatte grænse indenfor et profilområde. Derefter kunne mønsteret eksempelvis fortsætte med..., 1, 3, 1, 3, 3, 3, så usikkerheden i elevdygtigheden i alle tre profilområder til sidst ligger under den fastsatte grænse. Afviklingen af et testforløb indenfor hvert af de 3 profilområder forløber helt ens. Først beskrives afviklingen af et testforløb i ét enkelt profilområde. Testforløbet består af to dele: Opgavevalg Beregning af elevdygtighed Opgavevalg i forbindelse med afvikling af et testforløb Første del af afviklingen af et testforløb afdækker, hvilken opgave eleven skal præsenteres for. Opgaverne stilles ikke tilfældigt, men udvælges på baggrund af den viden, som testen indtil da har givet om elevens dygtighed. Udvælgelsesmetoden er forskellig for tre faser i testforløbet. De tre faser gentages for hvert profilområde. De første to faser kaldes samlet for run-in perioden. 1. Den første opgave er speciel, idet alle test påbegyndes ved at anvende en opgave med en sværhedsgrad 4, der ligger på middelniveauet for det pågældende profilområde. Middelniveauet afhænger af profilområdet og er på enten 0,0 eller 0,5 med undtagelse af profilområde 2 i dansk, læsning, hvor middelniveauet er 1,5 eller 2,0 afhængig af klassetrin. Der anvendes kun den type opgaver, som kan besvares enten rigtig eller forkert. Dette kaldes opgaver med kompleksitet på 1 eller for dikotome opgaver. 2. Opgave 2 og 3 er ligeledes specielle, idet det også her sikres, at kompleksiteten i opgaven er 1. Til gengæld afhænger opgavens sværhedsgrad nu af elevens svar på den forrige opgave. Har eleven svaret rigtigt på forrige opgave, vælges en opgave med en sværhedsgrad som er omkring 0,5 højere. Ved forkert svar vælges en opgave med sværhedsgrad 0,5 lavere. For enkelte profilområder er ændringen dog kun på 0,25. 3. Fra og med opgave 4 kan eleven få stillet alle typer opgaver, også opgaver med kompleksitet over 1, altså opgaver, som har flere 3 Der afsættes 45 minutter 4 Værdierne for sværhedsgraden (også benævnt location værdier) befinder sig i intervallet -7 til 7 på logit-skalaen (Rasch skalaen).

3 delspørgsmål, og som derfor samlet set kan være delvist rigtigt besvaret. Endvidere vil sværhedsgraden af opgave 4 og fremefter være baseret på en beregning af elevens dygtighed, som inkluderer alle indtil nu afgivne svar. Elevens dygtighed måles på samme skala som opgavernes sværhedsgrad, så eleven vil i næste opgave blive præsenteret for en opgave med en sværhedsgrad, der ligger tæt på den beregnede elev dygtighed. Eleven kan på intet tidspunkt tildeles en opgaven, som eleven har haft før i testforløbet. Hvis eleven undlader at besvare en opgave, bliver besvarelsen håndteret som en fejlbesvarelse i det videre forløb. Dermed trækker en blank besvarelse ned i beregning af elevdygtigheden. Beregning af elevdygtighed i forbindelse med afvikling af et testforløb Når eleven har besvaret den 3. opgave, sker der en statistisk behandling af elevens besvarelser. Elevens dygtighed estimeres her første gang. Herefter beregnes elevdygtigheden efter besvarelse af hver opgave. Beregningen af elevdygtigheden sker ved anvendelse af Rasch modellen 5. Den beregnede elevdygtighed danner udgangspunkt for udvælgelse af den efterfølgende opgave, der stilles til eleven (se afsnit vedr. opgavevalg). Efter 3. opgave beregnes endvidere usikkerheden (SEM) på den estimerede elevdygtighed. Usikkerheden på den estimerede elevdygtighed beregnes efter elevens besvarelse af hver af de følgende opgaver. Usikkerheden bliver mindre, des flere opgaver eleven besvarer. I figur 1 er testcyklus i form af det adaptive princip illustreret. 5 Se bilag 1 for forklaringer på statistiske og tekniske termer.

Elevdygtighed og opgavesværhed 4 Figur 1: Testcyklus efter besvarelse af opgave 3 og fremefter Beregn den statistiske usikkerhed i elevdygtigheden (SEM) Stil en opgave med sværhed indenfor et interval omkring elevdygtigheden Beregn elevdygtigheden på baggrund af den sekvens af opgaver eleven har besvaret Afvent eleven svarer Er den beregnede usikkerhed over den fastsatte grænse på 0,55 fortsættes med flere opgaver i det pågældende profilområde. Eksempel på et testforløb for et enkelt profilområde Figur 2 viser udviklingen i henholdsvis opgavernes sværhedsgrad, elevens dygtighed og den beregnede usikkerhed på elevdygtigheden (SEM) under et testforløb. Figur 2: Testforløb for et enkelt profilområde 2,5 2 1,5 1 0,5 0-0,5-1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Antal opgaver Niveau for statistisk sikkerhed Beregnet elevdygtighed Statistisk usikkerhed Faktisk opgavesværhed

Elevdygtighed (logit-skala) 5 Som skitseret i figuren er forløbet af de tre første opgaver specielt. Først efter den 3. opgave beregnes elevens dygtighed ved anvendelse af algoritmen, og de efterfølgende opgaver udvælges, så de har en sværhedsgrad, der ligger så tæt som muligt på den seneste estimerede elevdygtighed. I det konkrete tilfælde svarer eleven rigtigt på de to første opgaver og afslutter således run-in perioden med en foreløbig dygtighed på +1,0. Den tredje opgave er også besvaret rigtigt, og ved 4. opgave er det algoritmen, der har bestemt elevdygtigheden (1,21) og dermed udgangspunktet for den næste opgaves sværhedsgrad. Opgaven, som eleven 4. gang præsenteres for, har dog en faktisk opgavesværhed på 1,14, idet der først findes et passende antal opgaver i et interval omkring den beregnede elevdygtighed på 1,21 og dernæst udvælges en opgave tilfældigt blandt disse mulige opgaver. SEM-værdien beregnes første gang efter den 3. opgave, og som det fremgår af figuren er det, i dette konkrete tilfælde, først efter 11 opgaver, at eleven krydser grænsen på 0,55. Herefter kan elevens dygtighed i profilområdet estimeres med den fastsatte præcision. Eksempel på et fuldt testforløb Figur 3 viser et eksempel på et fuldt testforløb, som eleven oplever det. Figur 3: Fuldt testforløb med alle tre profilområder 2 1,5 1 0,5 0-0,5-1 -1,5 11:47 11:45 11:44 11:42 11:41 11:39 11:38 11:36 11:35 11:34 11:32 11:31 11:29 11:28 11:26 11:25 11:24 11:22 11:21 11:19 11:18 11:16 11:15 11:13 11:12 11:11 11:09 11:08 11:06 11:05 Profilområde1 Profilområde2 Profilområde3

6 Hver opgave er markeret med en prik på graferne, og det ses, at eleven får tildelt opgaver skiftevis i de tre profilområder, indtil grænseværdien for SEM opnås (markeret med farvet pile på tidsaksen). Omkring kl. 11:28 er usikkerheden på elevdygtigheden i profilområde 1 kommet under grænseværdien, og testafviklingen koncentreres efterfølgende omkring profilområde 2 og 3. Efter kl. 11:32 er usikkerheden på elevdygtigheden for alle profilområder kommet under grænseværdien, og i den resterende tid bliver der igen uddelt opgaver i alle profilområder. Ved afslutning af testforløbet bliver der beregnet den endelige elevdygtighed på logit-skalaen i hvert af de 3 profilområder.

7 Bilag 1: Ordforklaringer og definitioner Kompleksitet, dikotom og polytom Alle opgaver har registreret et tal for opgavens kompleksitet (kaldes også Items). Hvis tallet er 1, så er opgaven stillet på en sådan måde, at svaret altid kan vurderes som enten rigtigt eller forkert. Hvis tallet er højere, eksempelvis 2, giver opgaven mulighed for, at svaret kan vurderes som fx værende 50 % korrekt. Algoritmen til beregning af elevdygtighed tager højde for dette. En opgave betegnes som dikotom, hvis kompleksiteten er 1, og svaret herved kun kan være rigtigt eller forkert. Den maksimale score for en dikotom opgave er derfor altid 1. Polytome opgaver er opgaver, hvor der er flere delspørgsmål, der til sammen kan udtrykke om hele opgaven er svaret rigtigt, eller om kun nogle dele heraf er rigtige. Det kan fx være opgaver, hvor mere end et valg er rigtigt svar. Herved kan man eksempelvis for kompleksiteten 4 opnå at svare 2 rigtige ud af 4 mulige rigtige. Den maksimale score vil altid være større end 1 for polytome opgaver og i eksemplet med kompleksiteten 4 vil den maksimale score være 4. Da en dikotom opgave blot er et særtilfælde af en polytome opgave, behandles de to opgavetyper ens af algoritmen. I den nuværende opgavebank er ca. 2/3 af opgaverne dikotome, mens de øvrige 1/3 er polytome, og de har hyppigst en kompleksitet mellem 2 og 5, men der findes også en række opgaver med over 5 i kompleksitet. Opgavesværhed Hver opgave har en opgavesværhed (i nogle sammenhænge også benævnt location værdi), der udtrykker den enkelte opgaves relative sværhedsgrad, dvs. hvor den enkelte opgave er placeret, når man rangordner alle opgaver efter sværhedsgrad og indplacerer opgaverne på en kontinuert logit-skala fra -7 til 7. Opgaverne indenfor hvert profilområde er fordelt i sværhedsgrad, og sværhedsgraden fastsættes ved en såkaldt opgaveafprøvning og en efterfølgende Rasch analyse af svarene herfra. Elevdygtighed Er en værdi i intervallet fra ca. -7 til 7, som er angivet på en logit-skala. Skalaen er den samme som for opgavesværheden. Elevdygtigheden er en beregnet værdi på baggrund af den sekvens af opgaver, som eleven allerede har løst for et givent profilområde. Elevdygtigheden er dermed et udtryk for, hvordan eleven klarer sig i det pågældende profilområde. Elevdygtigheden for en elev estimeres ved anvendelse af formlen for den multiplikative Rasch model: max score S = (x x=1 φ s γ s φ t ) γ t max score t=0

8 hvor s er elevens samlede score og max score er summen af max scores for alle de opgaver, som eleven har fået. γ s er summen af alle produkter af item parametre, svarende til responsmønstret med samlet score lig med s γ s = γ iyi (y 1, y k : i y i =s) hvor y 1, y k er k opgaver, som er besvaret med en total score på s. Elevdygtigheden er udtrykt ved θ = exp (φ) og bestemmes iterativt ved anvendelse af Newton-Raphson metoden. Elevdygtigheden beregnes efter hvert afgivet svar, og bruges til at udvælge næste opgaves sværhedsgrad. SEM Standard Error of Measurement SEM er et mål for hvor sikkert elevens beregnede elevdygtighed kan bestemmes ud fra den sekvens af opgaver eleven har besvaret. Med andre ord hvor stor variation der er i elevens evne til at besvare de stillede opgaver. SEM er defineret som: SEM = 1 s 2 hvor s 2 er summen af varianserne af de opgaver, der er forsøgt besvaret, dvs. s 2 = (SS i M 2 i ) i i hvor i er den i te opgave der er forsøgt besvaret og, og k SS i = (x 2 φ x γ ix k ) φ z γ iz x=1 k z=0 φ x γ ix M i = (x k ) φ z γ iz x=1 z=0