Om opgavetyper og usikkerhed i de nationale test

Størrelse: px
Starte visningen fra side:

Download "Om opgavetyper og usikkerhed i de nationale test"

Transkript

1 Om opgavetyper og usikkerhed i de nationale test Af Svend Kreiner, juni

2 Indholdsfortegnelse side 1. Indledning 3 2. Baggrunden 3 3. Udfordringer 4 4. Datagrundlaget 7 5. Om fejl i pædagogiske test 8 6. Om usikkerhed ifølge klassisk testteori 9 7. Om usikkerhed ifølge moderne testteori Om usikkerheden i de nationale test Analyser Resume af resultater og konklusioner 20 Referencer 22 Appendiks 1: Beregning af item-information i polytome opgaver 23 2

3 1. Indledning Styrelsen for Undervisning og Kvalitet (STUK) og Styrelsen for It og Læring (STIL) bidrager hvert år med viden til opgavekommissionerne for at sikre testopgaver til de nationale test (herefter DNT) af høj kvalitet. Visse opgavetyper er af faglige årsager mere egnet end andre i fagene, og dette vægtes højt. STUK og STIL har imidlertid bedt konsulentfirmaet Svend Kreiner om at undersøge, hvorvidt der ud fra statistiske betragtninger er nogle opgavetyper, som er mere velegnede end andre. I denne rapport foreligger konsulentfirmaets teoretiske bud på dette. DNT skal gennemføres på 45 min. Formålet er, at bestemme elevens dygtighed i hvert af testens tre profilområder med størst mulig statistisk sikkerhed. Den statistiske usikkerhed på elevens testresultat afhænger af flere forhold. Først og fremmest skal elevens testadfærd være sådan, at svarene på opgaverne svarer til det, som Rasch-modellen forventer, idet testresultatet vil være systematisk skævt, hvis dette ikke er tilfældet. Hvis dette ikke er et problem, afhænger usikkerheden af det antal opgaver, som eleven besvarer og af den information (den såkaldte iteminformation), som opgaven kan bidrage med i forhold til elevens faglige niveau. Hvis iteminformationerne for de opgaver, som eleven har besvaret, er høj, vil usikkerheden være begrænset. Item-informationen afhænger af to ting. For det første af om opgavens sværhedsgrad passer til elevens niveau og for det andet af antallet af svarkategorier og af de item-parametre, der omtales som opgavernes tærskel-værdier, når der er tale om polytome items. Forholdet mellem tærskelværdierne på den ene side og den information, som opgaven kan levere, er kompliceret, og der foreligger så vidt ministeriet eller forfatter af denne rapport ved ingen teoretiske eller praktiske undersøgelser heraf. Det primære formål med dette projekt er derfor at undersøge sammenhængen mellem tærskel-værdier og item-information på den ene side og forskellige former for opgavetyper på den anden side for at afklare, om der er visse opgavetyper, som indebærer en højere grad af information end andre typer, og som derfor i højere grad bør anvendes i de nationale test. Den adaptive algoritme i de nationale test vælger opgaver blandt de opgaver, hvor iteminformationen er maksimeret i nærheden af elevens niveau. Det uklare forhold mellem opgavernes tærskelværdier og den maksimale information, som opgaverne kan levere, betyder, at denne måde at udvælge opgaver på ikke nødvendigvis er den optimale. Det er derfor et sekundært formål at undersøge, om der ud fra statistiske overvejelser er andre og bedre måder at vælge opgaver på, end den der i øjeblikket benyttes. 2. Baggrunden DNT benytter flere forskellige opgave-formater defineret ved en kombination af opgavetype og antallet af spørgsmål, der stilles i forbindelse med opgaven. 3

4 I det efterfølgende omtales de enkelte spørgsmål, som stilles i forbindelse med en opgave som items. En DNT-opgave kan således indeholde ét item eller flere forskellige items. I forbindelse med opgørelsen af resultaterne beregnes en opgave-score lig med antallet af items, som blev korrekt besvaret. Opgaver, som kun består af et enkelt item, omtales som dikotome opgaver, fordi den samlede score kun omfatter to værdier, 0 eller 1. Opgaver med flere items omtales som polytome opgaver, fordi den samlede opgave-score omfatter mere end to forskellige værdier. Opgaverne i DNT antages at opføre sig som items fra såkaldte Rasch-modeller, hvor svaret på opgaverne kun antages at afhænge af en elev-parameter, der er et udtryk for elevens dygtighed, og af en eller flere opgaveparametre, der karakteriserer opgaven. Værdierne af opgaveparametrene er beregnet i forbindelse med afprøvningen af tilpasningen mellem opgaver og Raschmodellen, hvor opgaver, der ikke passede til modellen, blev elimineret. I forbindelse med senere anvendelser af DNT, antages opgave-parametrene derfor at være kendte. Det eneste, der står tilbage, når elevernes svar på opgaverne er registreret, er derfor at estimere værdien af elevparameteren. Det er dette estimat, der opfattes som målingen af elevens dygtighed. Da der er tale om et statistisk estimat af dygtigheden, er der som for alle andre statistiske estimater tale om målinger med en usikkerhed, der kan beskrives vha. estimatets standardfejl. Det er denne standardfejl som i forbindelse med pædagogiske test omtales som målingens standard error of measurement, SEM. 3. Udfordringer Standardfejl i forbindelse med statistiske estimater afhænger af, hvor stort datamateriale man har til rådighed. I almindelige statistiske undersøgelse er der som regel tale om store datamaterialer og derfor en forholdsvis beskeden standardfejl. På dette punkt afviger estimater af elevparameteren fra almindelige statistiske estimater, fordi det datamateriale, der er til rådighed for estimationen dvs. svarerne på de opgaver, som eleven har besvaret er beskedent. Sammenlignet med den form for standardfejl, som man almindeligvis har at gøre med i statistiske undersøgelser, vil SEM for målinger af elevernes dygtighed være væsentlig større. Målinger ved hjælp af pædagogiske test er altid uanset hvilken pædagogisk test der anvendes målinger med usikkerhed. Udover antallet af opgaver afhænger usikkerheden også af, hvilke opgaver eleven har besvaret. Hvis opgaverne enten er for lette eller for vanskelige for en elev, vil målingen af denne elevs dygtighed være behæftet med en meget stor usikkerhed. Det er dette problem, som man forsøger at løse ved at anvende adaptive test, hvor opgaverne vælges således, at den statistiske usikkerhed af målingen af elevdygtigheden i princippet kun kommer til at afhænge af, hvor mange opgaver eleven har besvaret, fordi eleven i mindre grad bliver bedt om at besvare opgaver, som er for lette eller for svære. 4

5 Debatten omkring DNT har blandt andet handlet om usikkerheden. Det har tilsyneladende været en overraskelse for mange, at pædagogiske testresultater er behæftet med usikkerhed, og det er blevet påstået, at usikkerheden i DNT er større end i andre pædagogiske test. Dette er rent faktisk ikke tilfældet, hvis der tales om test med det samme antal opgaver som i DNT. Selvom det ikke er hensigten at komme nærmere ind på detaljerne i denne debat, skal det understreges, at diskussionen ofte er baseret på utilstrækkelig viden om, hvad der faktisk menes med usikkerhed, hvad de SEM størrelser, som DNT beregner, er udtryk for, og hvad SEM kan forventes at være i almindelige ikke-adaptive test. Der er flere årsager til dette. Den vigtigste er naturligvis, at vurdering af usikkerhed i pædagogiske test er et relativt kompliceret problem, men det hører også med, at den psykometriske terminologi er uhensigtsmæssig og kan være direkte vildledende. Derudover at der ikke findes andre almindeligt brugte danske pædagogiske test, hvor usikkerheden beregnes og rapporteres på den måde, som DNT gør det 1. Uanset at diskussionen af usikkerheden i DNT i et vist omfang er behæftet med utilstrækkelig viden om dette forhold, er usikkerheden uomgængelig og en udfordring for brugerne af testene, og det er nødvendigt at gøre så meget som muligt for at reducere usikkerheden til det mindst mulige. I den forbindelse er det værd at bemærke, at der er en række specielle forhold i forbindelse med den måde opgaverne i DNT er konstrueret på, der kan påvirke usikkerheden, og at der derfor er grund til at se nærmere på, om usikkerheden i DNTs målinger af elevdygtigheden kan reduceres ved at forbedre opgaverne og/eller at ændre den måde, som DNTs adaptive rutiner udvælger opgaver på i forbindelse med testforløbet. Det er disse spørgsmål, som denne rapport vil forsøge at kaste lys over. En af de faktorer, som komplicerer tingene, er, at DNT bruger både dikotome opgaver, hvor hver opgave kun indeholder ét item, der enten kan besvares korrekt eller forkert og polytome opgaver af den type, som teorien for adaptive test omtales som testlets 2 med to eller flere items, hvor svaret på opgaven defineres som antallet af items, der blev korrekt besvaret. Almindelige pædagogiske test anvender kun dikotome opgaver, hvor spørgsmål om sværhedsgraden og hvor meget et svar på opgaven kan bidrage til at forbedre sikkerheden af den samlede test, forenkles i en sådan grad, at man kan bevise, at valget af opgavetyper, ikke kan have nogen konsekvenser for usikkerheden af målinger i forbindelse med adaptive test, hvis opgaverne passer til den såkaldte Rasch-model. Under forudsætning af, at der er tale om dikotome Rasch opgaver, vil adaptive test altid give mere sikre resultater end ikke-adaptive test med det samme antal opgaver, hvis de adaptive algoritmer fungerer efter hensigten, og hvis der er tilstrækkelig mange opgaver på alle niveauer af sværhedsgraden. 1 Dette udsagn skal naturligvis forstås på den måde, at forfatteren til denne rapport ikke kender til andre danske test, hvor SEM rutinemæssigt rapporteres. En kontakt til medarbejdere på Hogrefe i forbindelse med udarbejdelsen af denne rapport bekræftede også, at de heller ikke kendte til danske test, hvor usikkerheden vurderes ved hjælp af beregninger af SEM. 2 Testlet opgaver er beskrevet i Wainer (2000, s ). Testlet begrebet blev introduceret af Wainer og Kiely (1987, s. 190), der beskrev det på følgende måde: ( ) a group of items related to a single content area that is developed as a unit and contains a fixed number of predetermined paths that an examinee may follow. 5

6 Så enkelt er det ikke, når det drejer sig om test med polytome opgaver. I forbindelse med sådanne test, er der grund til at stille spørgsmål, der både drejer sig om det fornuftige i at anvende polytome opgaver, og om der er visse opgavetyper, som giver mere sikre målinger end andre. Sådanne spørgsmål er f.eks. følgende. 1) Giver DNTs polytome opgaver mere usikre målinger end et tilsvarende antal dikotome opgaver? 2) DNT benytter flere forskellige opgavetyper defineret ved en kombination af en opgavetype og antal af items inden for opgaven. Spørgsmålet er, om der er visse opgavetyper, der giver mere sikre målinger af elevdygtigheden end andre, og om det er godt med få eller mange items i opgaven. 3) Vælger DNTs adaptive algoritme opgaverne på den bedst tænkelige måde? 4) Udover spørgsmålet om usikkerheden på målingerne er der et spørgsmål, om der er tilstrækkeligt med opgaver til ethvert niveau af elevdygtighederne. Hvis dette ikke er tilfældet, kan det vises at påvirke usikkerheden af resultaterne for de dygtigste og de svageste elever. Det er derfor også nødvendigt at spørge, om der er visse opgavetyper, der har problemer med at levere lette eller vanskelige opgaver, og om antallet af items i polytome opgaver har betydning for dette. For at besvare disse spørgsmål er man nødt til, at beregne hvor megen information som svarene på de enkelte opgaver i givet fald kan bidrage med, og hvor meget denne information kan bidrage med til at forbedre sikkerheden. Spørgsmål 1 er derfor et spørgsmål om, der er mere eller mindre information i polytome opgaver end i dikotome. Spørgsmål 2 er et spørgsmål om, hvilke opgavetyper og formater, der giver mest information. Den adaptive algoritme skal altid forsøge, at vælge de opgaver der giver mest information, og spørgsmål 3 er derfor et spørgsmål om, hvorvidt det rent faktisk er tilfældet. Baggrunden for spørgsmål 4 er, at hvis der ikke er tilstrækkelig mange lette og vanskelige opgaver, må den adaptive algoritme udtrække enten for nemme eller svære opgaver til eleven, og dermed vil svaret bidrage med relativ lidt information. Derfor er det værd at undersøge, om visse opgavetyper særligt egner sig til lette og svære opgaver. Spørgsmålet om, hvordan man beregner den information, som svarene på en opgave kan bidrage med, og hvordan man kan beregne usikkerheden (SEM) ud fra informationen i de opgaver, der er besvaret, vil blive forklaret i afsnit 7. 6

7 4. Datagrundlaget Ovenstående spørgsmål vil blive besvaret for 438 polytome og 672 dikotome opgaver fra profilområdet tekstforståelse i dansk, læsning i 4. klasse og for de tre profilområder i fysik/kemi i 8. klasse. I disse profilområder anvendes der syv forskellige opgavetyper i forbindelse med de polytome opgaver, og antallet af items pr. opgave varierer fra 2 til 9. Opgavetyperne er (jf. tabel 1) imidlertid meget forskelligt fordelt på disse fire profilområder, og der er visse opgavetyper, der næsten ikke bruges. Det er påfaldende, at fysik/kemi er domineret af multiple choice opgaver med skemaformat. Der er derfor grund til at være særlig opmærksom på, om denne opgavetype vanskeliggør, at der opnås tilfredsstillende statistisk sikkerhed af målingerne af elevdygtighederne i fysik/kemi i 8. klasse. Tabel 1. Fordeling af polytome opgaver med hensyn til opgavetype og profilområde. Tekstforståelse Dansk, læsning 4. klasse Energi Fysik/kemi 8. kl. Fænomener mm. Fysik/kemi 8. kl. Anvendelser mm. Fysik/kemi 8.kl. Cloze-test Indsættelse Match MC 1 skemaformat MC 1 korrekte svar Hotspot 1 3 Indsæt i billede 1 I alt : Multiple choice Udover opgavetypen og antallet af items pr. opgave vil usikkerheden i målingerne først og fremmest afhænge af, hvor mange opgaver der stilles, og hvor mange items eleven besvarer. Tabellerne 2 og 3 giver disse oplysninger for de fire profilområder i forbindelse med afviklingen af de nationale test i foråret I disse tabeller indgår alle opgaver, altså både polytome og dikotome. Hvis man er bekymret over situationer, hvor usikkerheden er større end forventet, er det ikke nok at se på, hvor mange opgaver eleverne i gennemsnit kan nå at besvare. Man er nødt til at se på fordelingen af antal opgaver og items pr. elev og især på, hvor få opgaver, der i værste fald besvares. 5 % fraktilerne i tabel 2 og 3 giver et indtryk af dette. I værste fald må man forvente, at eleverne når at besvare ca. 10 opgaver i løbet af den tid, der er til rådighed. I forbindelse med tekstfor- 7

8 ståelse i 4. klasse vil det svare til ca. 14 items. I fysik/kemi, hvor der tilsyneladende bruges flere polytome opgaver end i tekstforståelse, er antallet af items i værste fald omkring 20 items. Tabel 2. Antallet af opgaver elever i gennemsnit nåede i hvert profilområde i foråret 2015 Test Profilområde 5 % fraktil Gennemsnit 95 % fraktil Dansk, læsning 4. kl. Tekstforståelse Fysik/kemi 8. kl. Energi Fænomener Anvendelser Tabel 3. Antallet af items elever i gennemsnit nåede i hvert profilområde i foråret 2015 Test Profilområde 5 % fraktil Gennemsnit 95 % fraktil Dansk, læsning 4. kl. Tekstforståelse Fysik/kemi 8. kl. Energi Fænomener Anvendelser Om fejl i pædagogiske test Der er to forskellige kilder til fejl i forbindelse med pædagogiske test: systematiske fejl og usystematiske fejl på grund af den statistiske usikkerhed, som altid vil være til stede i forbindelse med statistiske opgørelser og analyser. Systematiske fejl i forbindelse med pædagogiske test kan forekomme, og de vil typisk forekomme: 1) hvis de psykometriske modeller og metoder, som anvendes i forbindelse med bearbejdningen af testresultaterne, er forkert specificeret. For eksempel fordi opgaverne afhænger af flere forskellige færdigheder eller fordi opgaverne ikke er lokalt uafhængige, 2) hvis sværhedsgraderne er forkerte, 3) hvis elevens testadfærd er afvigende i forhold til det, som de psykometriske modeller og metoder forventer. Risikoen for de to første former for fejl kan minimeres, hvis afprøvningen af tilpasningen mellem opgaver og skalamodellen har været tilstrækkelig omhyggelig. Systematiske fejl, der skyldes, at eleven af den ene eller anden grund ikke samarbejder, kan aldrig undgås fuldstændigt, men den indledende afprøvning af testen kan afsløre, om det forekommer i et væsentligt omfang. For at undgå målefejl af denne årsag, kan man afprøve opgaverne 8

9 før de anvendes i egentlig test. Afprøvning afslører, at eleven svarer forkert (eller for så vidt korrekt) på opgaver, der burde være lette for eleven i forhold til det, som eleven har præsteret i starten af testforløbet, således at testresultatet ikke tages for gode varer. Dette afprøves allerede i forhold til DNT. Denne rapport handler kun om usystematiske fejl på grund af den statistiske usikkerhed og om hvad, der kan gøres for at reducere usikkerheden til det mindst mulige. Det antages derfor 1) at tilpasningen mellem den Rasch-model, som anvendes i forbindelse med analyserne af DNT resultater, er blevet afprøvet, 2) at opgavernes sværhedsgrader er korrekt estimeret med så stor sikkerhed, at værdierne af sværhedsgraderne betragtes som kendte parametre, og 3) at testadfærd, der afviger fra det, som Rasch-modellen forventer, kun forekommer i meget begrænset omfang. 6. Om usikkerhed ifølge klassisk testteori Psykometrien skelner mellem klassisk- og moderne testteori. Selvom udviklingen og anvendelsen af DNT er baseret på moderne testteori, vil det være nyttigt med et kort resume af den klassiske testteori. Mange af de centrale begreber, der dukker op i forbindelse med diskussionen af pædagogiske tests kvaliteter, er nemlig først defineret i den klassiske testteori. Klassisk testteori betragter et testresultat, S som en funktion af en sand score, TS, og en fejl, E. S = TS + E Den klassiske testteori antager desuden, at fejlen er uafhængig af den sande score, og at den er normalfordelt med middelværdi lig med 0 en standardafvigelse, der omtales som standard error of measurement, SEM. Det er denne størrelse, SEM, der er et udtryk for, hvor usikker testen er. Inden for den klassiske testteori defineres desuden reliabiliteten, som forholdet mellem variansen af den sande score og variansen af den observerede score, som fordi TS og E antages at være uafhængige kan omskrives som en funktion af variansen af den sande score og SEM. Var(TS) Var(TS) r Var(S) Var(TS) SEM 2 Grunden til, at reliabiliteten omtales her, er, at denne størrelse af mange opfattes som et udtryk for testens sikkerhed. Da reliabiliteten blandt andet afhænger af variansen af den sande score i en konkret elevpopulation, er denne opfattelse forkert. Reliabiliteten er et udtryk for, hvorledes testen fungerer i en konkret population, og tallet kan hverken generaliseres til andre populationer eller bruges som et udtryk for, hvor store forskelle man kan forvente at observere, hvis testen gentages, eller hvis der (som for eksempel i forbindelse med adaptive test) bruges andre opgaver, når testen gentages. Reliabiliteten fortæller, hvor god testen er til at sortere eleverne i den 9

10 konkrete population, fordi reliabiliteten er tæt på sandsynligheden for, at den dygtigste af to tilfældigt udvalgte elever får den bedste score. Men reliabiliteten er ikke et udtryk for, om målingen i sig selv er usikker. For at vurdere om det skulle være tilfældet, er det nødvendigt at beregne et tal for SEM og at lade det stå alene uden reference til spredningen af elever i den population, som man har undersøgt. På trods af dette forbehold over for forståelsen af reliabiliteten indeholder klassisk testteori nogle tommelfingerregler, der knytter størrelsen af SEM til reliabiliteten. Ifølge en tommelfingerregel betragtes en SEM på 0,30 som acceptabel, fordi reliabiliteten vil være tæt på 0,90, hvis SEM er lig med 0,30 og variansen af den sande score er lig med 1 3. Det er bevidst, at ovennævnte forudsætning om spredningen af eleverne er kursiveret, fordi forudsætningen ofte glemmes, når man diskuterer usikkerheden i forbindelse med pædagogiske test i almindelighed og DNT. Da der ikke er formuleret forudsætninger om, at testresultaterne fra DNT skal have en varians, der er lig med 1 i den elevpopulation, som testene er beregnet til, har et krav om, at SEM skal være lig med 0,30 ingen substantiel mening Om usikkerhed ifølge moderne testteori Moderne testteori, der omtaler opgaverne som items, antager, at svarene på opgaverne kun afhænger systematisk af en bagvedliggende latent (ikke observerbar) variabel, der er et udtryk for den færdighed eller den egenskab, som testen forsøger at måle og af en række egenskaber ved opgaven. For at beskrive den måde, som færdigheden påvirker svarene på opgaverne på, opstilles en statistisk model, der for hvert enkelt item angiver sandsynligheden for, at en elev med en dygtighed angivet ved en parameter,, svarer korrekt på opgaven. Sådanne modeller omtales som Item response theory, IRT modeller. IRT modellen angiver altså den betingede sandsynlighed, P(Item i ), for, at den i te opgave besvares korrekt, hvis dygtigheden er lig med. Udover at det antages, at IRT modellen indeholder de korrekte matematiske funktioner, der definerer sandsynlighederne, antages det også, at svarene på de enkelte opgaver kun afhænger af færdigheden, og at svarene på én opgave ikke påvirker eller påvirkes af svarene på andre opgaver. Denne egenskab, som psykometrien omtaler som et krav om lokal uafhængighed, findes i alle gængse IRT modeller. Værdien,, optræder sammen med en række item-parametre, som en person-parameter i de funktioner, der definerer sandsynlighederne. Da dette er et udtryk for elevens færdighed, er det denne parameter, som man gerne vil vide noget om, når testresultatet gøres op. Og da det drejer sig om en ukendt parameter i en statistisk model, bruges et statistisk estimat af som et mål for, 3 Jf. kapitel 7 i Wainer (2000). 4 Hvis man endelig vil definere et krav svarene til kravet om SEM=0,30, når fordelingen af den sande scorer ikke er standardiseret, skal det være, at SEM = 0,30 standardafvigelsen af den sande score i den aktuelle elevpopulation. 10

11 hvor dygtig eller mindre dygtig eleven er. For at skelne mellem på den ene side den sande parameter og estimatet af parameteren på den anden side, vil estimatet blive omtalt som ˆ. svarer altså til det, der betragtes som den sande score i klassisk testteori, mens ˆ svarer til den observerede score. Da der er tale om et statistisk estimat, er der også en statistisk standardfejl knyttet til estimatet, på samme måde som for alle andre statistiske estimater. Det er denne standardfejl, som moderne testteori opfatter som målingens SEM. DNT bruger Rasch-modellen til at beregne sandsynlighederne for korrekte svar på opgaver, hvor der kun skelnes mellem rigtige og forkerte svar. Ifølge Rasch-modellen er en opgave karakteriseret ved en enkelt item-parameter,, og sandsynligheden for et positivt svar på det i te item afhænger af forskellen på personparameteren og parameteren for item et: P(Item i ) = exp( i) 1 exp( ) i Item-parameteren omtales som opgavens sværhedsgrad. Rasch-modellen påstår altså, at sandsynligheden for et korrekt svar er en funktion af forskellen mellem elevens dygtighed og opgavens sværhedsgrad, og at eleven har en 50 % chance for et rigtigt svar på en opgave, hvis dygtigheden er lig med sværhedsgraden. En opgaves sværhedsgrad er altså et udtryk for, hvor dygtig man skal være for at have 50 % chance for et rigtigt svar. Udover antallet af opgaver afhænger SEM af både personparameteren og af sværhedsgraderne af de opgaver, som eleven har besvaret, uanset om der er tale om adaptive eller ikke-adaptive test. Beregningerne af SEM foregår i tre trin, hvor man starter med at beregne et mål for informationen fra de enkelte opgaver og slutter med at beregne SEM: 1) Først beregnes den såkaldte item-information, der er et kvantitativt mål for, hvor megen information svaret på en enkelt opgave indeholder om elevens dygtighed. Item-informationen er lav, hvis opgaven enten er alt for let eller alt for vanskelig for eleven, og den er størst, hvis sværhedsgraden er præcis den samme som dygtigheden. 2) Derefter beregnes test-informationen som summen af item-informationerne. 3) Til sidst kan SEM beregnes som SEM() = 1/ Test inf( ) Hvis dikotome opgaver passer til en Rasch-model, er beregningen af item-informationen særlig enkel. Ifølge Rasch-modellen er item-informationen lig med: exp( i) Item-information for item i = 1 exp( ) Item-informationen er altså en funktion af person-parameteren. Informationen går mod 0, når person-parameteren går imod - og +. Den er størst, hvis person-parameteren er lig med item- i 2 11

12 parameteren, hvor den altid er lig med 0,25, når der er tale om et dikotomt item fra en Raschmodel. Det følger heraf, at en dikotom opgave højst kan bidrage med en item-information, der er lig 0,25, og at den højeste testinformation der kan opnås, hvis der stilles dikotome opgaver, derfor er lig med k0,25 svarende til en SEM lig med 2 / k. Det forhold, at item-informationen går mod 0, jo dygtigere eller mindre dygtig eleven er, er et udtryk for, at opgaver, der er alt for lette eller alt for vanskelige for eleven ikke bidrager med noget, der kan gøre målingen af elevens færdighed mere sikker. I almindelige ikke-adaptive test vil opgaverne have forskellige sværhedsgrader. Testinformationen vil derfor ikke være maksimal for nogen elever, og den vil for eksempel være beskeden for de meget dygtige elever, hvis testen indeholder meget få vanskelige opgaver og mange lette opgaver. Det er dette problem, der har motiveret udviklingen af adaptive test 5. I stedet for at benytte opgaver, som vil bidrage med relativt lidt information for mange elever, forsøger adaptive test, at vælge opgaver, der i så høj grad som muligt bidrager med maksimal item-information for at opnå størst mulig testinformation og mindst mulig usikkerhed. Tabel 4 viser den maksimale testinformation og den minimale SEM, som en adaptiv test med dikotome opgaver kan levere i forhold til antallet af opgaver, der besvares. Hvis den adaptive algoritme fungerer optimalt, og hvis item-banken indeholder tilstrækkelig mange lette og vanskelige opgaver, vil SEM ligge tæt på (men aldrig under) den usikkerhed, som man kan se i tabellen. Hvis der for eksempel stilles 20 dikotome opgaver, kan SEM aldrig blive mindre end 0,45. Tallet 0,45 kan derfor bruges som en benchmark værdi, hvis man både vil vurdere, hvor godt den adaptive algoritme har fungeret for en adaptiv test med 20 dikotome opgaver, og hvor godt en ikke-adaptiv test fungerer for elever med forskellige grader af dygtighed. Det kan for eksempel beregnes, at en ikke-adaptiv test med 20 opgaver, hvor sværhedsgraden er ligeligt fordelt fra -2,5 til +2,5, i bedste fald vil resultere i SEM = 0,54 og i værste fald (for meget dygtige og meget svage elever) med SEM = 0,82. Altså dårligere end en fungerende adaptiv test. Eller med andre ord: Hvis den adaptive algoritme fungerer efter hensigten vil usikkerheden på elevdygtigheden i en adaptiv test altid være mindre end usikkerheden i almindelige ikke-adaptive test. Hvor meget mindre afhænger af opgavernes sværhedsgrader og af elevernes dygtighed. 5 Wainer (2000), Kapitel 1, Introduction and History. 12

13 Tabel 4. Optimal test-information og SEM i forhold til antal dikotome opgaver i adaptive test Antal items Testinformation SEM 10 2,50 0, ,75 0, ,00 0, ,25 0, ,50 0, ,75 0, ,00 0, ,25 0, ,50 0,28 Som supplement til tabel 4 viser tabel 5, hvorledes usikkerheden ville være i en adaptiv test med dikotome items, hvis antallet af opgaver svarer til dem, som man kan se i tabel 3, og hvis den adaptive algoritme fungerer, som den skal. Tabel 5. Den mindste SEM, som en adaptiv test med dikotome opgaver kan opnå Test Profilområde 5 % fraktil Median 95 % fraktil Dansk læsning 4. kl. Tekstforståelse 0,53 0,40 0,30 Fysik/kemi 8. kl. Energi 0,45 0,32 0,25 Fænomener 0,47 0,33 0,26 Anvendelser 0,44 0,31 0,24 8. Om usikkerheden i de nationale test Beregningen af usikkerheden i de nationale test er kompliceret af forekomst af opgavetyper, som betyder, at forudsætningerne om lokal uafhængighed ikke kan være opfyldt, fordi der stilles flere forskellige delspørgsmål til samme emne. I forbindelse med afprøvningen af DNT, blev det derfor besluttet at betragte antallet af korrekte svar på delspørgsmål til et enkelt emne, som et superitem med flere forskellige svarmuligheder og at undersøge om disse super-items passede til Raschmodeller for polytome items (såkaldte partial credit eller PCM modeller). I teorien for adaptive test, omtales sådanne opgaver som testlet-opgaver. Hvis afprøvningen af testlet-opgaver faldt heldigt ud, kunne målingen (estimationen af personparameteren) beregnes på samme måde som for Rasch-modeller for dikotome items, men beregningen af usikkerheden vil blive lidt mere kompliceret. Matematisk set er modellen mere kompliceret end modellen med dikotome opgaver. I stedet for en enkelt sværhedsgrad afhænger antallet af korrekt besvarede delspørgsmål af en række opgave- 13

14 parametre omtalt som tærskelværdier. Disse kan ikke på nogen enkel måde sammenfattes som et udtryk for opgavens sværhedsgrad. For at give et indtryk af PCM modellens kompleksitet viser tabel 6 sandsynlighederne for en model for en opgave med tre items, hvor man kan score 0, 1, 2 eller 3 point. Modellen afhænger af tre tærskel værdier, hvor ij, er den j te tærskelværdi for den i te opgave. Udover, at tabellen er inkluderet for at illustrere kompleksiteten i modellen, er hensigten også at gøre det klart, at der ikke findes samme enkle svar på, hvad det er, der karakteriserer opgavens sværhedsgrad, fordi opgaven er karakteriseret ved tre og ikke én parameter. Tabel 6. Partial credit model for super-item, der optæller antal rigtige svar på tre delspørgsmål Antal rigtige på 3 delspørgsmål Sandsynlighed 1 1 exp( ) exp(2 ) exp(3 ) i1 i1 i2 i1 i2 i3 exp( i1) 1 exp( ) exp(2 ) exp(3 ) i1 i1 i2 i1 i2 i3 exp(2 i1 i2) 1 exp( ) exp(2 ) exp(3 ) i1 i1 i2 i1 i2 i3 exp(3 i1 i2 i3) 1 exp( ) exp(2 ) exp(3 ) i1 i1 i2 i1 i2 i3 Uanset kompleksiteten i modellen er det muligt at beregne opgave-informationen ud fra PCM modellen 6 og derefter at beregne test-informationen som summen af opgave-informationerne. I forbindelse med polytome opgaver defineres item-informationen herefter som opgave-informationen divideret med antallet af items i opgaven. Item-informationen i forbindelse med DNTs opgaver er altså defineret på en lidt anden måde end, når der normalt tales om pædagogiske test. For dikotome DNT opgaver er opgave-informationen dog lig med item-informationen i både den forstand, som der tales om her og i den forstand, som der normalt tales om i forbindelse med pædagogiske test. 6 Item-informationen for items fra Rasch-modeller er uanset, om der er tale om dikotome eller polytome items lig med variansen af item-scoren givet værdien af personparameteren. Der henvises til Kreiner & Christensen (2013) for yderligere information om estimation af personparameteren i Rasch-modeller. Interesserede læsere kan finde de konkrete formler, der skal til for at beregne item-informationen for polytome opgaver med tre items i Appendiks 1. 14

15 I forbindelse med dikotome opgaver er det enkelt at udvikle en adaptiv algoritme, der vælger opgaver, der svarer til det aktuelle estimat af elevens dygtighed, fordi opgave-informationen er størst, hvis opgavens sværhedsgrad er lig med dygtigheden. Den adaptive algoritme skal derfor blot vælge en ny opgave blandt de opgaver, der har sværhedsgrader tæt ved det aktuelle estimat af dygtigheden. I forbindelse med polytome opgaver er dette mindre enkelt, fordi definitionen af opgavens sværhedsgrad og relationen mellem tærskelværdierne, sværhedsgraderne og opgave-informationen er kompliceret. I stedet for at kunne nøjes med et enkelt tal der karakteriserer opgaven, er der mindst tre forskellige indikatorer, der kan benyttes, når næste opgave skal vælges: Opgavens location Opgavens difficulty Opgavens target = gennemsnittet af tærskelværdierne. = den dygtighed, der skal til for, at det i statistisk forstand forventede resultat på opgaven er lig med halvdelen af antal items. = den dygtighed, hvor opgave-informationen er maksimeret. For dikotome opgaver er location, difficulty og target en og samme værdi. Det samme kan vises at være tilfældet for de fleste polytome opgaver med to items og for polytome opgaver, hvor tærskelværdierne ligger symmetrisk omkring opgavens location. Target-værdierne kan dog i ekstreme tilfælde ligge langt fra location og difficulty, hvilket kan føre til valg af informationsløse opgaver, hvis man bruger location eller difficulty som kriterie. I andre tilfælde kan der derimod være stor forskel på de tre værdier. For at illustrere dette viser tabel 7 tallene for to opgaver med fem items i tekstforståelse i dansk, læsning i 4. klasse. For at kunne sammenligne den måde de to polytome DNT opgaver fungerer på, indeholder tabel 7 også en søjle med tærskelværdier og information fra en polytom opgave defineret som summen af fem dikotome opgaver med (næsten) samme target som de to polytome opgaver 7. 7 Summen af et vist antal dikotome Rasch items kan vises altid at følge samme fordeling som et polytomt Rasch item (jf. Mesbah & Kreiner, 2013). 15

16 Tabel 7. To opgaver med fem items i dansk, læsning i 4. klasse Opgave Opgave A Opgave B 5 dikotome items Tærskel 1-0,61 1,10-1,96 Tærskel 2-0,68-0,06-1,04 Tærskel 3-0,26-0,48-0,35 Tærskel 4 0,58-0,76 0,34 Tærskel 5 1,72-1,51 1,26 Location 0,15-0,34-0,35 Difficulty -0,02-0,35-0,35 Target -0,33-0,36-0,35 Opgave-information i target 1,59 4,72 1,25 Item-information 0,32 0,94 0,25 Opgave A og B er karakteriseret ved at maksimere opgave-informationen i næsten samme værdi (henholdsvis -0,33 og -0,36) af dygtigheden. Da formålet med den adaptive algoritme i DNT er at vælge opgaver, der giver så megen opgave-information dermed så lav SEM som muligt, vil disse opgaver være blandt kandidaterne, hvis dygtigheden ser ud til at ligge i nærheden af -0,35. Konsekvenserne af valget er imidlertid meget forskellige for de to opgaver. For det første kan det bemærkes, at sværhedsgraderne er forskellige. For den anden opgave (B) er difficulty næsten lig med target. En elev, som præsenteres for denne opgave vil derfor have en forventet opgave-score på 2,5. Sværhedsgraden for den første opgave (A) er derimod større. Hvis eleven i stedet for præsenteres for denne opgave, vil den forventede opgave-score være mindre en 2,5. Hvis man derfor mener, at det er et problem, at eleverne præsenteres for udfordrende opgaver med en stor risiko for fejl, er det klart, at den anden og lettere opgave vil være at foretrække frem for den første. I forbindelse med ønsket om at estimere dygtigheden med så stor sikkerhed som muligt er sværhedsgraden et mindre problem i forhold til det, at der er meget stor forskel på den information, som de to opgaver kan levere. Den anden opgave med opgave-information lig med 4,72 giver næsten tre gange så megen information som den første, hvor opgave-informationen er lig med 1,59. Problemet er illustreret i figur 1, der viser opgave-informationerne som funktioner af dygtigheden. Udover at vise den dramatiske forskel på opgave-informationerne for personer, der ligger i target for de to opgave, viser figuren, at opgave B (rød) kun fungerer bedst i intervallet fra -1,03 til 0,27. Mens opgave A (blå) til gengæld giver lidt bedre information for personer, der ligger længere fra target. 16

17 Figur 1. Opgave-information (omtalt som iteminf i figuren) for opgaverne A (blå) og B (rød) som funktion af dygtigheden Udover at vise, at den ene polytome opgave er meget mere informativ end den anden, afslører tabel 7 også, at begge opgaver er mere informative end en polytom opgave bestående af fem uafhængige dikotome opgaver med sværhedsgrader, der svarer til target for de to DNT opgaver. Opgave-informationen for en sådan opgave er lig med 1,25, fordi hver af de fem dikotome opgaver bidrager med en item-information på 0,25 og fordi, alle fem opgaver havde den samme sværhedsgrad. Hvis sværhedsgraderne havde været forskellige, men med en gennemsnitsværdi tæt på -0,35, ville den samlede opgave-information være mindre end 1,25. Altså endnu dårligere end opgave A. 9. Analyser Den adaptive algoritme i den aktuelle udgave af DNT vælger opgaver med target-værdier, der ligger tæt på det aktuelle estimat af dygtigheden, men uden hensyntagen til den opgave-information, som opgaverne leverer. Ovenstående opgave A og B vil derfor have næsten samme chance for at blive udvalgt, hvis det aktuelle estimat af dygtigheden er lig med -0,35, men udbyttet i form af større sikkerhed ville være meget mindre, hvis opgave A blev valgt i stedet for opgave B. Det skal understreges, at den nuværende adaptive algoritme ikke kan betragtes som dårlig. Den leverer allerede pædagogiske test med høj statistisk sikkerhed. På trods af at det ikke er muligt at generalisere ud fra et enkelt eksempel med to opgaver, illustrerer eksemplet, at den adaptive algoritme måske kan forbedres, og at de indledende spørgsmål i afsnit 3 er relevante at få besvaret. 17

18 Derfor blev target-værdien, opgave-informationen og item-informationen beregnet for hver opgave, hvorefter opgaverne blev klassificeret i forhold til, hvor megen information opgaverne kunne give sammenlignet med den information, som kan opnås ud fra et tilsvarende dikotome opgaver. Der kan skelnes mellem følgende fire grupper: 1) Opgaver med item-information der er mindre end 0,20, som derfor fungerer dårligere end et tilsvarende antal dikotome opgaver. 2) Opgaver med item-information fra 0,20 0,30 der fungerer på samme måde som et tilsvarende antal dikotome items. 3) Opgaver med item-information fra 0,31 0,50 der fungerer bedre end et tilsvarende antal dikotome opgaver. 4) Opgaver med item-information der er større end 0,50, og som derfor fungerer meget bedre end et tilsvarende antal dikotome opgaver. Opdelingen af opgaver med hensyn til item-informationen set i forhold til item-informationen fra dikotome opgaver skulle kun tjene som et første forsøg på at skabe overblik over resultaterne. De præcise værdier af item-informationer og targets blev efterfølgende brugt til statistiske variansanalyser af effekten af opgavetype og antal items på de to forhold. Da opgave-informationen i target altid er lig med 0,25 for dikotome opgaver omfattede analysen af opgavetypernes betydning for informationen kun de polytome opgaver. Analysen af sværhedsgraderne omfattede til gengæld både dikotome og polytome opgaver. Tabel 8-11 viser fordelingen af de polytome opgaver fordelt med hensyn til opgavetype og iteminformation, hvorefter afsnit 10 opsummerer resultaterne ved at svare på de spørgsmål, der blev stillet i afsnit 3 og ved at diskutere konsekvenserne af resultaterne for det fortsatte arbejde med at forsøge at forbedre sikkerheden i DNT. Tabel 8. Fordeling af polytome opgaver i tekstforståelse i dansk, læsning i forhold til opgavetype og item-information Item-information i forhold til item-information for dikotome opgaver Opgavetype Som dikotome Bedre Meget bedre Cloze-test Multiple choice (skema)

19 Tabel 9. Fordeling af polytome opgaver i energi og energiomsætning i forhold til opgavetype og item-information Item-information i forhold til item-information for dikotome opgaver Opgavetype Dårligere Som dikotome Bedre Meget bedre Cloze-test Indsættelsesopgave Multiple choice (skema) Multiple choice 1 (1+ svar) Andet : En af disse opgaver har kun ét svar. De øvrige har flere svar. 2 : Denne gruppe indeholder to forskellige typer: Hotspotopgave og matchopgave Tabel 10. Fordeling af polytome opgaver i energi og energiomsætning i forhold til opgavetype og item-information Item-information i forhold til item-information for dikotome opgaver Opgavetype Dårligere Som dikotome Bedre Meget bedre Cloze-test Indsættelsesopgave Match Multiple choice (skema) Multiple choice (1+ svar) Andet : Denne gruppe indeholder tre hotspotopgaver og en indsæt-i-billedopgave. Tabel 11. Fordeling af polytome opgaver i anvendelser og perspektiver i forhold til opgavetype og item-information Item-information i forhold til item-information for dikotome opgaver Opgavetype Dårligere Som dikotome Bedre Meget bedre Cloze-test Indsættelsesopgave Match Multiple choice (skema) Multiple choice (1+ svar)

20 10. Resume af resultater og konklusioner De spørgsmål, der blev formuleret i afsnit 3, kan besvares på følgende måde. Giver DNTs polytome opgaver mere sikre eller usikre målinger end et tilsvarende antal dikotome opgaver? Svaret på dette spørgsmål er entydigt. DNTs polytome opgaver giver generelt den samme eller mere information end de dikotome opgaver. I mange tilfælde endda meget mere information end dikotome opgaver. Den ene undtagelse er for enkelte multiple choice opgaver i fysik/kemi, hvor der forekommer polytome opgaver, der er mindre informative end dikotome opgaver. Afhænger sikkerheden i testresultaterne af opgavetypen? Opgave-informationen fra opgaver i tekstforståelse i dansk, læsning i 4.klasse afhænger ikke af opgavetypen. Det samme er tilfældet i fysik/kemi, bortset fra at multiple choice opgaver med ét eller flere svar giver mindre information end de andre opgavetyper. Og bortset fra, at der er enkelte sjældent brugte opgavetyper, der ser ud til at give mere item-information end andre typer. Disse forskelle er ikke statistisk signifikante, på grund af det lille antal opgaver af disse opgavetyper. Afhænger sikkerheden af testresultaterne af antallet af items i opgaverne? Her er svaret også entydigt. Opgaver med mange items bidrager med mere information pr. item end opgaver med få items. Som konsekvens heraf vil opgavetyper, der lægger op til flere items end andre opgavetyper, være mere informative, selvom opgavetypen i sig selv ikke betyder noget. Vælger DNTs adaptive algoritme opgaver på den bedst tænkelige måde? Analyserne viser, at der kan være store forskelle på item-informationen blandt opgaver med samme opgavetype og samme antal items. Det tager DNTs adaptive algoritme ikke højde for. Det betyder, at sikkerheden vil kunne forbedres ved at fokusere på den information, som opgaverne kan levere, uanset om det sker der, hvor opgaverne giver mest information. 20

21 Har opgavetype og antal items pr. opgave betydning for opgavernes sværhedsgrad? Ikke for opgaverne i tekstforståelse i dansk, læsning, men i høj grad for opgaverne i fysik/kemi, hvor multiple choice opgaver i skemaform giver relativt lette opgaver, og hvor antallet af items i flere tilfælde også bidrager til at reducere sværhedsgraden. Hvad kan man fremadrettet gøre for at forbedre sikkerheden i DNTs resultater? Det anbefales, at der i højere grad end tidligere satses på polytome opgaver frem for dikotome opgaver. Årsagen er, at polytome opgaver tidsmæssigt kan forventes at være mere effektive end dikotome, og fordi polytome opgaver i mange tilfælde bidrager med meget mere information pr. item end dikotome opgaver. Det anbefales også at satse på polytome opgaver med relativt mange items, fordi antallet af items også synes at have en positiv effekt på informationen pr. item. Samtidig skal det bemærkes, at variationen i item-informationen for opgaver med samme opgavetype og samme antal items er så stor, at det anbefales, at der gennemføres indholdsanalyser af opgaverne af fagpersoner for at skabe bedre overblik over de faktorer, der bidrager til iteminformationen, før der udvikles nye opgaver. Der er meget at hente med større klarhed over, hvad det er, der gør, at visse opgaver er mere informative end andre opgaver. De polytome opgaver i fysik/kemi er domineret af multiple choice opgaver i skemaformat. Da disse opgaver erfaringsmæssigt er forholdsvis lette, er denne opgavetype mindre velegnet for de dygtigste elever ud fra en statistisk betragtning. Der er dog eksempler på opgavetyper (f.eks. hotspot-, indsættelses-, og matchopgaver), der bruges relativt sjældent, men som både er mere informative og vanskeligere. Selvom datagrundlaget vedrørende disse opgaver er for spinkelt til, at der formuleres håndfaste konklusioner, kan det alligevel anbefales, at der ses mere på disse opgaver og i givet fald fremover satses stærkere på disse opgavetyper. Når alt dette er sagt, skal det samtidig understreges, at den adaptive algoritme bør ændres, hvis man skal drage det fulde udbytte af fordelene ved de polytome opgaver. Opgaverne udvælges altid ud fra det aktuelle estimat af elevens dygtighed. Den adaptive algoritme vælger i øjeblikket den næste opgave ud fra de opgaver, der sigter på elever med den estimerede dygtighed (opgavens target-værdi), men uden hensyntagen til hvor megen information opgaven i givet fald kan bidrage med. Hvis formålet udelukkende er, at minimere den statistiske usikkerhed på den beregnede elevdygtighed, kan den adaptive algoritme modificeres således, at algoritmen identificerer de opgaver, der giver mest item-information, der hvor eleven befinder sig, uanset om opgaven sigter skævt i forhold til eleven. Det afgørende skal kun være, om der er andre opgaver, der ville give endnu mere information, der hvor eleven befinder sig. Hvis det ikke er tilfældet skal opgaven kunne vælges. Der er flere måder, en sådan adaptiv algoritme kan implementeres. Den enkleste er en gang for alle at udarbejde en tabel, der for et vist antal af værdier på personskalaen indeholder en prioriteret liste over opgaverne med de opgaver, der bidrager mest først og dem, der bidrager mindst sidst. 21

22 Det eneste forbehold, som man kan have over for de polytome opgaver, er, at de kun leverer maksimal information i et måske snævert interval. Da elevens dygtighed er meget usikkert bestemt i starten af testforløbet, bør man fastholde, at der i starten af testforløbet kun bruges dikotome opgaver, sådan som det sker i øjeblikket, og at man først skifter til polytome opgaver, når man har et første bud på, hvor eleven befinder sig. I den sammenhæng er det vigtigt at minde om, at den måde den adaptive algoritme fungerer på i starten af testforløbet ikke er optimal, fordi processen starter uden nogen som helst oplysninger om, hvor man kan forvente at finde eleven. Hvis man vil reducere antallet af opgaver, der reelt ikke bidrager til at forbedre sikkerheden, kan man starte testforløbet med et kvalificeret gæt på, om der er tale om en dygtig eller mindre dygtig elev. Input til en sådan start kunne ideelt være lærerens forventninger til elevens præstationer eller oplysninger om, hvor eleven lå i forbindelse med tidligere testforløb. En sådan start vil måske ikke bidrage med meget for flertallet af eleverne, men det vil have betydning for sikkerheden i resultaterne for de stærkeste og de svageste elever. Referencer Kreiner, S. & Christensen, C.B. (2013): Person Parameter Estimation and measurement in Rasch Models. I Christensen CB, Kreiner S, Mesbah M (red). Rasch models in Health. London: ISTE & Wiley and Sons, side Mesbah, M. & Kreiner, S. (2013): Rasch Models for Ordered Polytomous Items. I Christensen CB, Kreiner S, Mesbah M (red). Rasch models in Health. London: ISTE & Wiley and Sons, side Wainer, H. (2000) Computerized Adaptive Testing: A primer. Second Edition. Mahwah, NJ: Lawrence Erlbaum Associates. Wainer, H. & Kiely, G. (1987). Item clusters and computerized adaptive testing: A case for testlets. Journal of Educational Measurement, 24,

23 Appendiks 1: Beregning af opgave-informationen i polytome opgaver Antag at opgave i indeholder k forskellige dikotome items, og at den samlede score, Y i består af antallet af korrekte svar på disse items. Fordelingen af Y i afhænger af elevens dygtighed repræsenteret ved personparameteren,, og k såkaldte tærskelværdier, i1,, ik, således at sandsynligheden, p iy (), for at svare rigtigt på y ud af de k opgaver er lig med: p exp y exp x y j1 iy k x x0 j1 ij ij Opgave-informationen for polytome Rasch opgaver er lig med variansen af Y i. For at beregne den er det derfor nødvendigt først at beregne elevens forvente opgavescore: og den forventede kvadrerede score: i k y0 iy E(Y ) y p k 2 2 i y0 iy E(Y ) y p hvorefter opgave-informationen beregnes som: 2 i 2 OpgaveInf E(Y ) E(Y ) i 23

Notat. Den adaptive algoritme i De Nationale Test. Opbygning af test og testforløb. januar 2015

Notat. Den adaptive algoritme i De Nationale Test. Opbygning af test og testforløb. januar 2015 Notat Vedrørende: Den adaptive algoritme i De Nationale Test Olof Palmes Allé 38 8200 Aarhus N Tlf.nr.: 35 87 88 89 E-mail: stil@stil.dk www.stil.dk CVR-nr.: 13223459 Den adaptive algoritme i De Nationale

Læs mere

Bilagsnotat til: De nationale tests måleegenskaber

Bilagsnotat til: De nationale tests måleegenskaber Bilagsnotat til: De nationale tests måleegenskaber Baggrund Der er ti obligatoriske test á 45 minutters varighed i løbet af elevernes skoletid. Disse er fordelt på seks forskellige fag og seks forskellige

Læs mere

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning Bilag 2: Undersøgelse af de nationale tests reliabilitet Sammenfatning I efteråret 2014 blev der i alt gennemført ca. 485.000 frivillige nationale tests. 296.000 deltog i de frivillige test, heraf deltog

Læs mere

Nationale test. v. Marie Teglhus Møller. Slides er desværre uden eksempelopgaver, da disse ikke må udleveres. marie@eystein.dk

Nationale test. v. Marie Teglhus Møller. Slides er desværre uden eksempelopgaver, da disse ikke må udleveres. marie@eystein.dk Nationale test v. Marie Teglhus Møller Slides er desværre uden eksempelopgaver, da disse ikke må udleveres. marie@eystein.dk Oplæg for dagen Hvad er en pædagogisk test? Hvilke krav stilles der til opgaverne

Læs mere

De nationale tests måleegenskaber

De nationale tests måleegenskaber De nationale tests måleegenskaber September 2016 De nationale tests måleegenskaber BAGGRUND De nationale test blev indført i 2010 for at forbedre evalueringskulturen i folkeskolen. Hensigten var bl.a.

Læs mere

UNDERSØGELSE AF DE NATIONALE TESTS MÅLEEGENSKABER

UNDERSØGELSE AF DE NATIONALE TESTS MÅLEEGENSKABER UNDERSØGELSE AF DE NATIONALE TESTS MÅLEEGENSKABER JEPPE BUNDSGAARD OG SVEND KREINER AU AARHUS UNIVERSITET DPU Undersøgelse af De Nationale Tests måleegenskaber Jeppe Bundsgaard og Svend Kreiner Aarhus

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Læring af test. Rapport for. Aarhus Analyse Skoleåret

Læring af test. Rapport for. Aarhus Analyse  Skoleåret Læring af test Rapport for Skoleåret 2016 2017 Aarhus Analyse www.aarhus-analyse.dk Introduktion Skoleledere har adgang til masser af data på deres elever. Udfordringen er derfor ikke at skaffe adgang

Læs mere

Appendiks 2: Progression i de nationale test og Beregneren

Appendiks 2: Progression i de nationale test og Beregneren : Progression i de nationale test og Beregneren Følgende appendiks indeholder en sammenligning af testsystemets og Beregnerens progression-visninger. Formålet er at give et indblik i de forskellige måder,

Læs mere

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79. Olof Palmes Allé 38 8200 Aarhus N Tlf.nr.: 35 87 88 89 E-mail: stil@stil.dk www.stil.dk CVR-nr.: 13223459 Undersøgelse af de nationale tests reliabilitet 26.02.2016 Sammenfatning I efteråret 2014 blev

Læs mere

Analyse af PISA data fra 2006.

Analyse af PISA data fra 2006. Analyse af PISA data fra 2006. Svend Kreiner Indledning PISA undersøgelsernes gennemføres for OECD og de har det primære formål er at undersøge, herunder rangordne, en voksende række af lande med hensyn

Læs mere

Forside. Nationale test. information til forældre. Januar Titel 1

Forside. Nationale test. information til forældre. Januar Titel 1 Forside Nationale test information til forældre Januar 2017 Titel 1 Nationale test information til forældre Tekst: Fokus Kommunikation og Undervisningsministeriet Produktion: Fokus Kommunikation Grafisk

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Appendiks 1: Om baggrund og teori bag valg af skala

Appendiks 1: Om baggrund og teori bag valg af skala Appendiks 1: Om baggrund og teori bag valg af skala De nationale test gav i 2010 for første gang danske lærere mulighed for at foretage en egentlig måling på en skala af deres elevers præstationer på grundlag

Læs mere

De nationale test foråret National præstationsprofil

De nationale test foråret National præstationsprofil De nationale test foråret 2016 National præstationsprofil De nationale test foråret 2016 National præstationsprofil Styrelsen for It og Læring Styrelsen for It og Læring, oktober 2016 Indhold Sammenfatning...

Læs mere

Estimation og usikkerhed

Estimation og usikkerhed Estimation og usikkerhed = estimat af en eller anden ukendt størrelse, τ. ypiske ukendte størrelser Sandsynligheder eoretisk middelværdi eoretisk varians Parametre i statistiske modeller 1 Krav til gode

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

05/09/14. PISA-relatering af de kriteriebaserede. Delrapport 2 teknisk rapport og dokumentation

05/09/14. PISA-relatering af de kriteriebaserede. Delrapport 2 teknisk rapport og dokumentation 05/09/14 PISA-relatering af de kriteriebaserede nationale test Delrapport 2 teknisk rapport og dokumentation For information on obtaining additional copies, permission to reprint or translate this work,

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. Sammenhængsanalyser Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. rygevaner som 45 årig * helbred som 51 årig Crosstabulation rygevaner

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Forcensur ved folkeskolens 9. Klasses afgangsprøver 2015

Forcensur ved folkeskolens 9. Klasses afgangsprøver 2015 8. april 2016 Forcensur ved folkeskolens 9. Klasses afgangsprøver 2015 Udarbejdet af DAMVAD Analytics i samarbejde med Svend Kreiner for Styrelsen for Undervisning og Kvalitet, Ministeriet for Børn, Undervisning

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Appendiks 3 Beregneren - progression i de nationale matematiktest - Vejledning til brug af beregner af progression i matematik

Appendiks 3 Beregneren - progression i de nationale matematiktest - Vejledning til brug af beregner af progression i matematik Appendiks 3: Analyse af en elevs testforløb i 3. og 6. klasse I de nationale test er resultaterne baseret på et forholdsvist begrænset antal opgaver. Et vigtigt hensyn ved designet af testene har været,

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Amalie og Marie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt af mundtlig

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Fordeling af midler til specialundervisning

Fordeling af midler til specialundervisning NOTAT Fordeling af midler til specialundervisning Model for Norddjurs Kommune Søren Teglgaard Jakobsen December 2012 Købmagergade 22. 1150 København K. tlf. 444 555 00. kora@kora.dk. www.kora.dk Indholdsfortegnelse

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. 1 Sammenfatning Der er en statistisk signifikant positiv sammenhæng mellem opnåelse af et godt testresultat og elevernes oplevede

Læs mere

Nationale test i Danmark - fra et fagdidaktisk perspektiv

Nationale test i Danmark - fra et fagdidaktisk perspektiv Eksamen og prøver i norsk og nordisk skole Nationale test i Danmark - fra et fagdidaktisk perspektiv Mit arbejde med tests... Innovative testredskaber Hvad er Nationale Test? 10 obligatoriske test i 2.-8.

Læs mere

Referencelaboratoriet for måling af emissioner til luften

Referencelaboratoriet for måling af emissioner til luften Referencelaboratoriet for måling af emissioner til luften Rapport nr.: 77 Titel Hvordan skal forekomsten af outliers på lugtmålinger vurderes? Undertitel - Forfatter(e) Arne Oxbøl Arbejdet udført, år 2015

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Estimation: Kapitel 9.1-9.3 Estimation Estimationsfejlen Bias Eksempler Bestemmelse af stikprøvens størrelse Konsistens De nitioner påkonsistens Eksempler på konsistente og middelrette estimatorer

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Afprøvet med Internet Explorer og Google Crome, og burde også virke med Apple Safari.

Afprøvet med Internet Explorer og Google Crome, og burde også virke med Apple Safari. National test Elev. Kan anvendes til både norm- og kriteriebaserede resultater. Registreringsprogram for resultaterne af elevernes afholdelse af nationale test i dansk. Denne fulde udgave af programmet

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Om opbygningen af de nationale læsetest. Hvordan og hvorfor?

Om opbygningen af de nationale læsetest. Hvordan og hvorfor? Test og prøver i folkeskolens læseundervisning Om opbygningen af de nationale læsetest. Hvordan og hvorfor? Formålet med denne artikel er at belyse ligheder og forskelle mellem de mest anvendte prøver

Læs mere

Evaluering af familierådslagning i Børne- og Ungerådgivningen

Evaluering af familierådslagning i Børne- og Ungerådgivningen Evaluering af familierådslagning i Børne- og Ungerådgivningen Udarbejdet af: EPO Dato: --9 Sagsid.:..-A-- Version nr.:. Indholdsfortegnelse Indledning Brugerundersøgelsens resultater Resultater af de indledende

Læs mere

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006 Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Test for strukturelle ændringer i investeringsadfærden

Test for strukturelle ændringer i investeringsadfærden d. 6.10.2016 De Økonomiske Råds Sekretariat Test for strukturelle ændringer i investeringsadfærden Dette notat redegør for de stabilitetstest af forskellige tidsserier vedrørende investeringsadfærden i

Læs mere

TANKERNE BAG DE NYE VEJLEDENDE SÆT I MATEMATIK

TANKERNE BAG DE NYE VEJLEDENDE SÆT I MATEMATIK TANKERNE BAG DE NYE VEJLEDENDE SÆT I MATEMATIK De foreliggende vejledende sæt i matematik er gældende fra sommeren 2012 på matematik B og sommeren 2013 på matematik A. Der er en del ændringer i forhold

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528) Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM58) Institut for Matematik & Datalogi Syddansk Universitet Torsdag den 7 Januar 010, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger,

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

TESTS I MAKROØKONOMI. Formål og indhold

TESTS I MAKROØKONOMI. Formål og indhold TESTS I MAKROØKONOMI Formål og indhold Testene er tænkt som et hjælpemiddel til studerende, der bruger bogen Makroøkonomi teori og beskrivelse fra forlaget Limedesign. Sigtet er at støtte de studerende

Læs mere

Matematisk modellering og numeriske metoder. Lektion 16

Matematisk modellering og numeriske metoder. Lektion 16 Matematisk modellering og numeriske metoder Lektion 16 Morten Grud Rasmussen 6. november, 2013 1 Interpolation [Bogens afsnit 19.3 side 805] 1.1 Interpolationspolynomier Enhver kontinuert funktion f på

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Kommentarer til matematik B-projektet 2015

Kommentarer til matematik B-projektet 2015 Kommentarer til matematik B-projektet 2015 Mandag d. 13/4 udleveres årets eksamensprojekt i matematik B. Dette brev er tænkt som en hjælp til vejledningsprocessen for de lærere, der har elever, som laver

Læs mere

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed... Indhold 1 Sandsynlighed 1 1.1 Sandsynlighedsbegrebet................................. 1 1.2 Definitioner........................................ 2 1.3 Diskret fordeling.....................................

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger

Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger Analyse af bivirkninger på besætningsniveau efter vaccination med inaktiveret BlueTongue Virus (BTV) serotype 8 i danske malkekvægsbesætninger Af Karen Helle Sloth og Flemming Skjøth, AgroTech Sammendrag

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Statusredegørelsen for folkeskolens udvikling

Statusredegørelsen for folkeskolens udvikling Statusredegørelsen for folkeskolens udvikling For skoleåret 2016/2017 Statusredegørelsen for folkeskolens udvikling For skoleåret 2016/2017 Layout: Presse- og Kommunikationssekretariatet, Undervisningsministeriet

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mål for sammenhæng mellem to variable Estimation Stikprøve Data Population Teori relativ hyppighed parameter estimat sandsynlighed parameter

Læs mere

Vejledning til nye resultatvisninger i de nationale test

Vejledning til nye resultatvisninger i de nationale test Vejledning til nye resultatvisninger i de nationale test til lærere i alle fag August 2017 Forord Styrelsen for Undervisning og Kvalitet har i august 2017 indført nye, forbedrede visninger af elevernes

Læs mere

Studie af Beståelsesgrænsen for International Board Certified Lactation Consultant (IBCLC ) Certificeret Eksamene

Studie af Beståelsesgrænsen for International Board Certified Lactation Consultant (IBCLC ) Certificeret Eksamene Studie af Beståelsesgrænsen for International Board Certified Lactation Consultant (IBCLC ) Certificeret Eksamene Udarbejdet til Internationalt Certificerede Ammekonsulenter (IBLCE ) Juni 2016 Lavet af:

Læs mere

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata 1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de

Læs mere