The Devil is in the Design: Eksperimentel logik og kausale sammenhænge i uddannelsesforskningen M ads M eier Jæger Danmarks Pædagogiske U niversitetsskole, Aarhus U niversitet mmj@ dpu.dk
H vad vil jeg tale om? Kausalitet & uddannelsesforskning: Status i DK Den eksperimentelle logik og eksperimenter menneskeskabte og naturlige som grundlag for kausale fortolkninger Eksempler på menneskeskabte og naturlige eksperimenter inden for uddannelsesområdet til inspiration og advarsel Diskussion
Kausalitet & uddannelsesforskning: Status IDK har vi ingen eller kun en meget ringe tradition for at foretage effektanalyser inden for uddannelsesog socialområdet Inden for beskæftigelsesområdet (aktivering mm.) har m an i DK siden 1990 erne lavet seriøse effektanalyser.idag laves rigtige eksperimenter! I (isæ r) USA har m an siden 1960 erne lavet eksperimenter inden for uddannelses- og socialom rådet. Vi er langt bagude
H vorfor lave effektanalyser? 1. Velfærd: H ar uddannelses- og sociale indsatser en positiv effekt på folks velfærd? M ao.: Virker velfærdsstaten som intenderet? 2. Ø konomi: Bruger vi skatteborgernes penge rigtigt? Får vi den optimale velfærd for pengene? Virkeligheden: M eget af politikudviklingen kører på mavefornemmelse & praktisk erfaring The plural of anecdote is not data (R. Brinner) The shocking truth: Vi har - for langt hovedparten af vores uddannelses- og sociale indsatser - ingen videnskabelig dokum entation for, at de gavner (ville vi acceptere samme standard mht.medicin?)
H vorfor lave effektanalyser? Typisk (politiker)logik: M ere velfærd,flere penge og større indsatser positiv effekt H vis det er fakta så benægter æ fakta (S. Kjær) N ej,vi har belæg for at nogen indsatser ingen effekt har (fx modersmålsundervisning,m ST) mens andre er direkte skadelige: Afslapningsterapi for personer med tendens til panikanfald Scared straight intervention over for unge kriminelle Socialrådgivning og hjem m ehosser til mentalt handicappede æ ldre i eget hjem Teknikker til afdæ kning af undertrykte minder Fremkaldelse af panikanfald Forvæ rring af adfæ rdsproblemer og kriminalitet Forøget risiko for dødsfald Producerer falske minder om traumer
Kausale forklaringer: Konklusion: Vi har brug for seriøse effektmålinger, der kan afdække kausale sammenhænge Tre uomgængelige fakta: Tal er en nødvendig men bestemt ikke tilstrækkelig forudsætning for,at vi kan identificere kausale sammenhænge (kvalitativ m etode/data dur ikke ) Teknik/statistik alene dur ikke: Vi behøver et godt design ( selvstændig tankevirksom hed oh no ingen m agisk knap) Eksperimentet er det design man (bør) bruge(r) til at identificere kausale sammenhænge
Kausalitet & uddannelse Er privatskoler bedre end folkeskoler? H ar klassestørrelse en negativ effekt på elevers faglige præstationer? Påvirker skolers økonomiske ressourcer elevers præstationer?
Kausalitet & uddannelse Er privatskoler bedre end folkeskoler? H ar klassestørrelse en negativ effekt på elevers faglige præstationer? Påvirker skolers økonomiske ressourcer elevers præstationer?
Privatskoler & folkeskoler Er privatskoler bedre? N emt at undersøge! Vi indsam ler da bare data og sam m enligner Karakterniveauet i folkeskoler med karakterniveauet i privatskoler Den gennemsnitlige forskel i karakterniveauet fortæ ller os om privatskoler er bedre FX: Karaktergennemsnit i privatskoler: 8,2 Karaktergennemsnit i folkeskoler: 7,8 Konklusion: Privatskoler hæver karakterer med i gennemsnit 0,4 (8,2-7,8)
Not so fast! H vad nu hvis de børn,der går i privatskoler,er systematisk forskellige fra dem,der går i folkeskolen? Vi ved fx,at børn af veluddannede forældre og forældre med høj indkomst er overrepræsenterede i privatskoler Veluddannede forældre bor i velhavende boligom råder m ed gode skoler og sm å klassestørrelser Veluddannede forældre går mere op i deres børns skolegang
DERFO R: N år vi sammenligner karakterer for børn i privatskoler med børn i folkeskolen måler vi ikke kun effekten af (privat)skolen,men også effekten af alle mulige andre ting,som adskiller de to grupper (forældres uddannelse,engagement, børns evner,etc.)! O fte(st) måler vi ikke alle de forhold,som adskiller to grupper der er uobserverede forhold på spil Af denne årsag kan vi ikke bare sam m enligne gennemsnitskarakterer blandt privat- og folkeskoleelever det kaldes evalueringsproblemet
Evalueringsproblemet Evalueringsproblemet består i,at vi (næsten) aldrig observerer personer både i indsatsgruppen (fx privatskole) og i kontrolgruppen (fx folkeskole). H vis alle elever optrådte i begge tilstande: både den observerede og den kontrafaktiske,kunne vi bare sammenligne deres karakterer i hver tilstand og aggregere over populationen Nice Creep
Evalueringsproblemet Der findes kun én rigtig god løsning på evalueringsproblemet: Randomiserede kontrollerede eksperimenter H vordan? Deltagere placeres i indsats- eller kontrolgruppen på baggrund af lodtrækning H vorfor? Deltagerne har ingen indflydelse på hvilken gruppe de havner i.vi undgår problemet med, at indsats- og kontrolgruppen er systematisk forskellige af årsager vi ikke observerer/kan styre
Evalueringsproblemet Eksperimenter er den videnskabelige gold standard når man vil identificere kausale effekter! M EN : O fte er det ikke muligt at udføre randomiserede kontrollerede eksperimenter i samfundsvidenskabelig forskning: Tillykke Fru Pedersen, Deres søn er blevet udtrukket til kun at få 7 års skolegang Hanne, du er m ed i kontrolgruppen! Ingen dagpenge til den dam e Ingen tandpleje til dig i år Klaus, er du ikke glad?
Evalueringsproblemet Eksperimenter er den videnskabelige gold standard når man vil identificere kausale effekter! M EN : O fte er det ikke muligt at udføre randomiserede kontrollerede eksperimenter i samfundsvidenskabelig forskning: N årvi ikke kan lave rigtige eksperim enter har vi to muligheder tilbage: 1.O bservationelle [dvs.ikke-eksperimentelle] data & avanceret statistik form ål: reparere den om stæ ndighed,at vi ikke har et rigtigt eksperiment (eller kun et skoddårligt eksperiment) Ender m ed at se sådan her ud
Evalueringsproblemet
Evalueringsproblemet N årvi ikke kan lave rigtige eksperim enter har vi to muligheder tilbage: Logikken er den samme som i det menneskeskabte eksperiment! Vi vil 2.U have dnytte noget naturlige naturlig eller eksperim kvasi-eksperimentel enter,der har samme variation funktion i den indsats, som rigtige som vi eksperimenter er interesseret i (fx de om er bare man ikke går på designet privatskole af os eller ej);dvs. variation, som ikke har noget m ed deltagerne at gøre vi lader naturen (eller tilfæ ldighed) kaste terningerne og observerer resultatet
Lad os starte med nogle lidt eksotiske eksempler på naturlige eksperim enter fra forskningen (vi kom m er tilbage til uddannelse lige om lidt )
Forskningsspørgsmål: H vordan påvirker sociale normer (egoisme vs.altruisme) folks adfærd?
Evalueringsproblemet: Folk tager ikke eksperimenter i laboratorier seriøst! Indsatserne er for lave og det hele er lidt kunstigt øv N æh,vi har brug for et eksperiment hvor der virkeligt er noget at vinde og tabe
H vadm ed Titanics forlis
Titanic Titanic ramte et isbjerg lige efter midnat d.14. april 1912 og sank 2 timer og 40 minutter efter 2223 personer ombord kun redningsbåde til 1178 personer Forlis kan ses som naturligt eksperim ent med livet som indsats.hvordan handler folk: H ver mand for sig (egoisme) eller vinder sociale normer (altrusime)? Resultat: Ikke tilfældigt hvem der overlevede: Kvinder og børn (modsat mænd) Skibspersonale (modsat passagerer) Passagerer på første klasse Andre nationaliteter end Briter (især amerikanere overlevede) Stæ rk evidens for både altruistisk adfæ rd (isæ r blandt briter) og egoisme!
Eksotisk eksempel #2: H vad er langtidskonsekvenserne af dårligt helbred i barndommen?
Evalueringsproblemet: Vi vil vide om børns sundhedstilstand har en kausal effekt på hvordan de klarer sig som voksne Problemet: Sunde mødre får sunde børn.sunde mødre har også andre ressourcer (uddannelse,penge,etc.),der gør,at deres børn klarer sig godt Vores mål for børns helbred fanger derfor både effekten af deres faktiske helbred og effekten andre gode ressourcer (som vi ikke observerer) vi vil KUN have effekten af helbred Vi har brug for et skud tilfældig tildeling af dårligt helbred
H vadm ed Den Spanske Syge 1918?
Den Spanske Syge 1918 q Epidemien ramte U der SA uden oktober 1918 Influenzaepidemi, ramtevarsel storei dele af verden og var overstået af 1919. fra marts 1918 tili jstarten uni 1920. Ca.1/3 af verdens befolkning smittet q Ramte gravide kvinder tilfældigt: nogle blev syge, andre blev af ikke q 10-20% desyge smittede døde,3-6% af verdens befolkning dødeaf influenzaramte mødre sig værre q Klarede børn end børn hvis mødre ikke blev syge? q Særlig ondsindet variant af H 1N 1 influenzavirusset! (Trivia: En af sociologiens grundlæggere: M ax W eber,døde af Den Ja!Børn hviis1920; m ødre syge m også enssmittet de varmen gravi de Spanske Syge W altvar Disney blev overlevede) q H avde 15% mindre ssh.for at gennemføre gymnasiet q Tjente 5-9% mindre gennem hele livet q H avde 20% større ssh.for at udvikle handicap Konklusion: Dårligt helbred tidligt i livet har livslange konsekvenser Douglas Almond & Bhaskar M azunder (2005): The 1918 Influenza Pandemic and Subsequent H ealth O utcomes: An Analysis ofsipp D ata. American Economic Review 95: 258262. Douglas Almond (2006): Is the 1918 Pandemic O ver? LongTerm Effects of In Utero Influenza Exposure in the Post1940 U.S.Population. Journal of Political Economy 114: 672-712.
Den Spanske Syge 1918 Forskere har også brugt den hungersnød,som opstod i vinteren 1944 i det vestlige H olland som naturligt eksperiment for børns helbred Samme resultat: Børn (og børnebørn) hvis (bedste)mødre var ramt af hungersnøden mens de var gravide fik dårligere helbred gennem hele livet (Trivia: Audrey H epburn voksede op i H olland under krigen og var ramt af hungersnøden;hun havde dårligt helbred hele livet) Lidt deprimerende naturlige eksperimenter indtil videre lad os afslutningsvist se på nogle lidt sjovere eksempler!
Sjove(re) eksperimenter Smog dagen før Den store strømafbrydelse i det nordøstlige U SA d. 14.august 2003 (den største nogensinde!).resultat: U forholdsmæssigt mange babyer født 9 måneder efter! Lykkeniveauet i Danmark steg permanent efter vi slog tyskerne 2-0 i Europamesterskaberne i fodbold i 1992! Sandsynligheden for akutte hjerteproblemer stiger markant når (tyske) mænd ser en spændende fodboldkamp (selv på TV) med deres favorithold Sandsynligheden for at dø af hjerteanfald stiger markant blandt engelske mænd når favoritholdet taber (eller når landholdet spiller i de Europæiske m esterskaber) Sandsynligheden for hustruvold stiger markant når favoritholdet ikke klarer sig sæ rligt godt Smog dagen efter
O g nu tilbage til uddannelse (sorry!)
Et aktuelt tema: Klassestørrelse Klassestørrelse: Klarer elever i store skoleklasser sig dårligere end elever i små klasser (mht.karakterer,testscores, videregående uddannelse)? Common (politiker)sense siger JA: Istore klasser er der mere larm & uro,mindre tid per elev,dårligere læringsklima osv.altså: Der burde væ re en negativ kausal sam m enhæ ng M en kan vi nu væ re sikre på det
Klassestørrelse H vorfor kan vi ikke bare sammenligne små og store klasser? Ressourcestærke forældre bosætter sig i områder med gode skoler og (ofte) små klassestørrelser (selektiv bosættelse) Forældre til elever i små klasser har andre ressourcer (uddannelse,indkomst,ambition) der gør,at deres børn klarer sig godt (vigtige observerede forhold) Evalueringsproblemet: Klassestørrelse samvarierer med uobserverbare karakteristika ved forældre/børn,der påvirker børns læ ring vi m åler ikke kausal effekt af klassestørrelse
Klassestørrelse Æ gte eksperim ent:project STAR: Involverede 11,600 elever,1,300 lærere og 76 skoler i Tennessee, U SA Elever fordelt ved lodtrækning i enten (1) små (13-16 elever),(2) almindelige (22-26 elever) og (3) almindelige klasser med en ekstra lærer Lærere også fordelt til de tre klassetyper ved lodtrækning Resultat: 1) elever i små klasser klarede sig bedre karaktermæssigt end elever i store klasser;2) elever i små klasser også mere tilbøjelige til at tage en videregående uddannelse;3) særlig stor effekt af lav klassestørrelse for elever fra svage sociale baggrunde
Klassestørrelse Project STAR et af de få eksem pler på rigtige eksperim enter Er det sidste ord sagt i den sag? N ej,project STAR viser nogle af de problemer,der kan være med eksperimenter; Elever,lærere og børn vidste,at de var med i et eksperiment (Rosenthaleffekt).De vidste også,om de havde været så heldige at komme i små klasser Succeskriteriet var kendt for alle ( hurra, vi går i en lille klasse, vi bliver bedre! ). H vad m ed dem, der blev sure over, at de havnede i en stor klasse var de demotiverede og gad ikke lære? Ekstern validitet: Ville eksperimentet give samme resultat hvis det blev lavet et andet sted? Der var en kausal effekt,men eksperimentet kostede 70 mio.kr.at udføre og den kvantitative effekt var ikke sæ rlig stor. Kan det overhovedet betale sig at reducere klassestørrelsen relativt til andre tiltag,der også forbedrer elevers læring?
Klassestørrelse En alternativ identifikationsstrategi er at lede efter et naturligt eksperiment,der påvirker klassestørrelsen,men i øvrigt ikke har noget som helst med de individuelle elever at gøre Kan I kom m e på nogle?
Klassestørrelse Et berømt eksempel er Angrist & Lavy (1999,Q JE),der brugte M aimonides regel som naturligt eksperiment for klassestørrelse i Israel M aimonedes var rabbiner i det 12.århundrede.H an fortolkede den jødiske bibels udlægning af regler for klassestørrelse således: Én lærer må undervise 25 børn. Hvis klassen har mere end 25 elever,men fæ rre end 40 elever,bør han have en assistent.h vis der er flere end 40 børn skal der være to lærere M aimonides regel har brugt i Israel siden 1969. Den har følgende konsekvens:
Klassestørrelse Et berømt eksempel er Angrist & Lavy (1999,Q JE),der brugte M aimonides regel som naturligt eksperiment for klassestørrelse i Israel Klassestørrelse: 20 Klassestørrelse: 40
Klassestørrelse Et berømt eksempel er Angrist & Lavy (1999,Q JE),der brugte M aimonides regel som naturligt eksperiment for klassestørrelse i Israel Klassestørrelse: 40 Klassestørrelse: 41 20,5
Klassestørrelse Sammenlign M aimonides regel med de faktiske klassestørrelser i Israel: M an kan se toppe og dyk i data M aimonides regel giver eksogen/ eksperim entel variation i klassestørrelser (som ikke har noget med elever og deres forældre at gøre) U ndersøgelsen viser en klar negativ sammenhæng mellem klassestørrelse og elevers læsefærdigheder
Klassestørrelse: Eksperiment #2 Lignende ide (H oxby 2000,Q JE): 1. Tilfældig variation fra år til år mht.størrelsen på en fødselskohorte, der starter i skole tilfæ ldig variation i det antal børn, der starter i skole og dermed i klassestørrelse 2. Administrative regler for maksimal klassestørrelse (lidt ligesom M aimonides regel) hvis antallet af børn overstiger den m aksim ale størrelse laver m an autom atisk en ny klasse Resultat: Ingen sammenhæng mellem klassestørrelse og karakterer i Conn.,U SA
Klassestørrelse: Eksperiment #2 H oxbys ide genbrugt af andre: Leuven et al.(2009,sje): N orge,ingen sammenhæng mellem klassestørrelse og karakterer Brow ning & H einesen (2007,SJE): Danmark,børn i små klasser får mere uddannelse end børn i store klasser Bingley,Jensen & W alker (2006): Danmark,samme resultat som Brow ning & H einesen,men lidt mere fancy metode
Klassestørrelse: Eksperiment #3 Case & Deaton (1999,Q JE): Sydafrika under apartheid: Sorte i Tow nships havde [i praksis] ingen kontrol over (1) hvor de ville bo og (2) hvilken skole deres børn gik på.derfor er klassestørrelse eksogen.resultat: Børn i store klasser klarede sig markant dårligere end børn i mindre klasser H einesen (2010,EJ): Danmark: N år børn vælger mellem fransk og tysk før 7.klasse ved de ikke hvor stor den fremtidige klasse bliver.resultat: U nge fra små franskklasser får højere karakterer i fransk i slutningen af 9.klasse sammenlignet med unge fra store franskklasser
Derfor: Sandheden ikke endegyldigt fundet gennem én undersøgelse! Ieksemplet med klassestørrelse giver forskellige naturlige eksperimenter forskellige resultater: W asit das für ein Ding? Det er ok og forventeligt: Situationsbundet fortolkning af den kausale effekt,som eksperimentet identificerer - det kalder vi: LATE (Local Average Treatment Effect).H vem virker eksperimentet på? Af dem,der får en pille,er der nogen,der (1) altid spiser pillen,(2) kun spiser pillen hvis den smager af lakrids, (3) altid - men grinende - skyller pillen ud i toilettet og (4) er sure over,at de ikke fik pillen og køber en der minder om den nede på den lokale bodega
O psummering og diskussion
O psummering #1 Det er vigtigt set fra et velfærdsstats- og skatteborgersynspunkt at studere kausale effekter af uddannelses- og sociale indsatser Anvendelse af kvantitative metoder til at studere kausale sammenhænge virker kun med gode designs teknikken er et m iddel til et m ål Den eksperimentelle logik er den tilgang hvormed man bedst kan tænke på,og analysere kausale sammenhænge.h vis du vil vide om noget har en effekt bliver du nødt til at lave eller finde et (naturligt) eksperiment
www.primaryandsecondaryeffects.co.uk O psummering #2 H eldigvis er den eksperimentelle logik ved at blive udbredt i Danmark også uden for de sundhedsfaglige miljøer! Der er sågar flere rigtige eksperimenter i gang,fx: H PA - H andlekompetencer i pædagogisk arbejde (DPU ). H vilke pædagogiske kompetencer,der sigter mod at udvikle børns handlekompetencer,er bedst til at bryde social arv? M etode: 30 indsats- og 30 kontrol(dag)institutioner U ddannelsesindsats tildelt til institutioner gennem lodtrækning Analyse af hvorvidt børn i indsatsinstitutioner har bedre social udvikling over tid end børn i kontrolinstitutioner
www.primaryandsecondaryeffects.co.uk O psummering #2 H eldigvis er den eksperimentelle logik ved at blive udbredt i Danmark også uden for de sundhedsfaglige miljøer! Der er sågar flere rigtige eksperimenter i gang,fx: Projekt hurtigt i gang (Arbejdsmarkedsstyrelsen). Virker en tidlig og intensiv beskæftigelsesindsats i forhold til at få ledige hurtigere i arbejde? M etode: Ledige placeret i indsats- og kontrolgruppen på baggrund af fødselsdato (født 1-15.i måneden: indsatsgruppe;født 16-31.: kontrolgruppen)
www.primaryandsecondaryeffects.co.uk O psummering #2 H eldigvis er den eksperimentelle logik ved at blive udbredt i Danmark også uden for de sundhedsfaglige miljøer! O g et eksperiment jeg selv er med til at lave (hurra!): Effekten af øget klasserumsledelse (2011-13,DPU,SFI,M etropol). G ivet øget klasserumsledelse blandt lærere bedre læring hos elever i 1.-3.-klasse? M etode: 30 indsats- og 60 kontrolklasser Lærere (og klasser) allokeres gennem lodtrækning (indsats, placebo og kontrol) Vi følger elevernes boglige udvikling fra 1.til 3.klasse
www.primaryandsecondaryeffects.co.uk Diskussion Det her er Dansk Evalueringsselskab let s talk! Lad os antage,at efterspørgslen på eksperimentelle effektstudier stiger markant i de kommende år (det håber jeg!) Eksperimenter er dyre,svære,langsommelige og kræver specialiseret viden/arbejdskraft Ier både opdragsgivere og leverandører af evalueringer.h vad er jeres forventninger til det eksperim entelle m arked? Vil det være attraktivt for jer? H ar Ikompetencer til at opdyrke dette område? H vilke udfordringer ser I?
Tak for opmærksomheden!