Orienterede acykliske grafer

Relaterede dokumenter
Seminaropgave: Præsentation af idé

Potentielle udfald og kontrafaktisk kausalitet

Etiske og praktiske overvejelser

Validitetstypologi. Erik Gahner Larsen. Kausalanalyse i offentlig politik

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kausale modeller. Konstruktion og analyse

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Psykisk arbejdsmiljø og stress

Økonometri 1. Målsætning for Økonometri 1. Dagens program: Afslutningsforelæsning 16. December 2005

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

To samhørende variable

1 Regressionsproblemet 2

Connie Nielsen Peter Thisted Dinesen Lars Benjaminsen Jens Bonke INTRODUKTION TIL EFFEKT- MÅLING AF SATSPULJEPROJEKTER

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Hver anden vil benytte øget åbningstid i dagtilbud

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Dagens program: Afslutningsforelæsning 23. maj 2007

Confounding for viderekommende. Laust H Mortensen, Department of Social Medicine University of Copenhagen

Grundlæggende metode og videnskabsteori. 5. september 2011

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Normalfordelingen og Stikprøvefordelinger

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Appendiks Økonometrisk teori... II

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Arbejdsløshed, arbejdsløshedsforsikring og konjunktursvingninger?

Kvantitative metoder 2

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Logistisk regression

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Effekten af indvandring på indfødte danskeres løn og beskæftigelse

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Kvantitative metoder 2

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik II 1. Lektion. Analyse af kontingenstabeller

Multipel Lineær Regression

Naturvidenskab. En fællesbetegnelse for videnskaberne om naturen, dvs. astronomi, fysik, kemi, biologi, naturgeografi, biofysik, meteorologi, osv

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Kvantitative Metoder 1 - Forår Dagens program

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Grafer og graf-gennemløb

Grafer og graf-gennemløb

Fokus på Forsyning. Datagrundlag og metode

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Kvantitative Metoder 1 - Efterår Dagens program

Københavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked

Analyse af binære responsvariable

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Kommunale data og økonomiske analyser Hvilke muligheder er der i de kommunale data for at måle effekt (og omkostningseffektivitet?

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Grafer og graf-gennemløb

Grafer og graf-gennemløb

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

BILAG 2 DESIGN OG METODE- BILAG

Undervisningsnoter til øvelse i Panel Modeller. %, it. E(x kjs

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Kvantitative metoder 2

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Et oplæg til dokumentation og evaluering

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kvantitative Metoder 1 - Forår Dagens program

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Noter til SfR checkliste 3 Kohorteundersøgelser

Grundlæggende metode og. 2. februar 2011

ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Studieplan Stamoplysninger Periode Institution Uddannelse Fag og niveau Lærer(e) Hold Oversigt over planlagte undervisningsforløb Titel 1

Kapitel 10 Simpel korrelation

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

1. Hvad er det for en problemstilling eller et fænomen, du vil undersøge? 2. Undersøg, hvad der allerede findes af teori og andre undersøgelser.

Håndbog i litteratursøgning og kritisk læsning

Et fysisk hårdt arbejdsliv har store konsekvenser for helbred og tilbagetrækning

Kvantitative metoder 2

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Transkript:

Orienterede acykliske grafer Erik Gahner Larsen Kausalanalyse i offentlig politik

Hvad skal/kan vi kontrollere for? (White 2016)

Hvad skal/kan vi kontrollere for? (White 2016)

Hvad skal/kan vi kontrollere for? (White 2016)

Hvad skal/kan vi kontrollere for? (White 2016)

Hvad skal/kan vi kontrollere for? (White 2016)

Hvad skal/kan vi kontrollere for? (White 2016)

Hvad skal/kan vi kontrollere for? (White 2016)

Dagsorden Kausalitet og orienterede acykliske grafer Terminologi Applikationer Potentielle udfald, validitet og orienterede acykliske grafer

Seminaropgaven Næste deadline: I dag Omkring 5 sider Indhold: Kort beskrivelse af emne Gerne én eller to konkrete ideer En reference eller to til relevant litteratur Send til: egl@sam.sdu.dk

Kausalmodeller Lektion 3: Rubins kausalmodel Fokus på potentielle udfald Definition af en kausaleffekt Antagelser (SITA, SUTVA) Lektion 4: Campbells kausalmodel Validitetstypologi Forskellige validitetsbegreber Validitetstrusler I dag: Pearls kausalmodel Grafteori Ikke-parametrisk stianalyse Kompatibelt med Rubins kausalmodel

Kausaleffekter: Mange veje til Rom Vi er interesseret i kausale mekanismer Mange måder hvorpå de kan studeres Orienterede acycliske grafer En god måde at formulere kausale ideer og evaluere deres konsekvenser Simple regler som alle relevante kontrolvariable siger os ikke meget Hovedpointe: Der er mange måder hvorpå man identificere en kausal effekt Vi skal kigge på tre identifikationsstrategier vha. DAG

Fire relationer mellem to variable X og Y kan være forbundne til hinanden på fire måder Direct causation: X Y Reverse causation: X Y Confounding: X C Y Collider: X C Y (Beklager, mange engelske begreber)

Directed acyclic graphs (DAGs) DAG Directed acyclic graphs/orienterede acycliske grafer Kausalmodel, graf uden kredse Kausale grafer der forbinder variable gennem pile Framework til at forstå konditionelle korrelationer Ekspliciterer kausale antagelser omkring relationen mellem variable (nodes) En kvalitativ kausalmodel omkring verden Kan bruges til at udlede (partielle) korrelationer mellem variable i modellen Belyse hvilke korrelationer der er af kausal karakter Belyse hvilke korrelationer der ikke er af kausal karakter

DAGs: Tre overordnede elementer 1. Variable (nodes) 2. Pile (edges, arcs) 3. Manglende pile (stærke antagelser)

DAG, eksempel

Node Node: Variabel Illustreret med et bogstav (A, B, C etc.) Observeret stokastisk variabel Representeret med fyldte cirkler ( ) Uobserveret stokastisk variabel Representeret med hule cirkler ( )

Pile (directed edges/arcs) En pil i én retning der går fra en node til en anden Forbinder to nodes Mulige kausale effekter Indikerer retningen på en kaual relation Manglende pile er afgørende antagelser Der er også pile der fører til to nodes (bidirected edges) Kurvet sti der viser en uobserveret node der påvirker to nodes

Sti (path) En sti er en sekvens af pile, der forbinder to nodes En sti krydser ikke en node mere end en gang Stier kan være åbne eller lukkede (eksempler følger!) Alle stier driver en forbindelse med mindre de er blokeret Blokerede stier kan få fjernet deres blokering En sti med colliding pile er lukket Betinger ( condtions ) man på en collider (evt. kontrollerer i en regression), åbner stien (fjerner blokeringen) Også for nodes der er direkte eller indirekte påvirket af den pågældende node (kontrollerer man på en node der påvirkes af en collider, åbner stien) Betinger man på en ikke-collider, lukker stien Betinger man ikke på en collider, forbliver den lukket Forskellige stier Back-door paths, front-door paths

Hvorfor DAGs? Formelt og generelt framework Eksplicit valg og fravalg af variable i empiriske analyser Fokus på kausale antagelser Kan bruges til at udlede implikationer Perfekt til at illustrere mange udfordringer ift. kausal inferens Især mere komplekse kausalmodeller En masse figurer (kan forstås uden algebra) Kan bruges til at visualisere og sammenligne forskellige identifikationsstrategier (Steiner et al. 2015) Kan bruges til at repræsentere nødvendige og tilstrækkelige kausale relationer (kendt fra QCA, process tracing m.v.)

Cyklisk graf (ikke en DAG)

Orienteret acyclisk graf DAG er orienteret så det ikke er muligt at følge pilene og ramme den samme node igen Ingen simultanitet Vi tillader ikke at to variable simultant påvirker hinanden direkte eller indirekte Tænk tid: Fremtiden kan ikke forårsage fortiden Hvis man er interesseret i feedbacks: komplekst!

Hvordan ikke-parametrisk? Ikke-parametrisk fordi der ikke er nogle antagelser omkring parametrene i modellen Mere specifikt ingen antagelser omkring: 1. Distributionen af variablene i DAG 2. Den funktionelle form

DAGs, tre elementer Alle DAGs kan konstrueres af tre elementer: Chains Forks X Y X C Y Inverted forks X C Y De elementer skaber korrelationer via: Kausalitet Confounders Colliders

DAGs, tre elementer

Mere terminologi: familiestrukturen Descendent, child, ancestor, parent, grandparent Eksempel: A B C Parents af en node: alle nodes der direkte påvirker en node pa(c) = {B} Grandparents af en node: alle nodes der påvirker parents gp(c) = {A} Children af en node: alle nodes direkte påvirket af en node child(a) = {B} Descendants af en node: alle nodes direkte eller indirekte påvirket af en node desc(a) = {B, C} Ancestors af en node: alle nodes der direkte eller indirekte påvirker en node an(c) = {A, B}

Conditioning Kan finde sted i analysestadiet eller i dataindsamlingsprocessen Betinge en node, conditioning Overordnet: introducere information omkring en variabel i analysen Kan finde sted på mange måder i praksis Kontrol (regression) Stratificering (krydstabulering) Subgroup analyse (split sample) Stikprøveudvælgelse Frafald etc.

Collider Collider: En node hvor to eller flere pile mødes Colliders er i relation til en path, ikke én edge Enhver endogen variabel der har to eller flere årsager er en collider i en sti Endogene variable er ofte colliders Desværre ikke noget politologer fokuserer meget på Et af de vigtigste koncepter med væsentlige implikationer! En brugbar indsigt fra Pearl s framework Relateret til selektion på den afhængige variabel og betingning på en endogen variabel Altså hvad der finder sted i mange studier

d-seperation og d-connection d-seperation: grafisk test for om to sets af nodes er uafhængige efter kontrol for et tredje set d = directional udleder testbare implikationer af en model To nodes er d-connected hvis der er en åben sti mellem dem Blokeret, d-seperated, ingen forbindelse Ikke blokeret, d-connected, forbindelse Hvis to variable er d-seperated: statistisk uafhængige efter kontrol for en eller flere variable (ingen partiel korrelation) Hvis to variable ikke er d-seperated: afhængige, åbne, d-connected

d-seperation og d-connection Eksempel: A B C D E F G Collider: D A-B-C-D er ikke blokeret, så A og D er d-connected D-E-F-G er ikke blokeret, så D og G er d-connected A og G er d-seperated Ved at betinge på D, åbnes stien og A og G er d-connected

Betinge på en collider Conditioning on a collider Berksons Paradoks Conditioning på en collider kan skabe en spuriøs korrelation mellem de to nodes i en inverted fork I praksis: Vi kan ikke bare inkludere et hav af kontrolvariable i en regressionsmodel og undgå spuriøse korrelationer Vi kan tværtimod skabe spuriøse korrelationer

Eksempel: Regression, confounder og collider Hvilke variable er det OK at kontrollere for? Confounders, generelt OK Colliders, farligt! Og hvis collideren er en del af dataudvælgelsen, kan det ikke klares i analysen

Conditioning på en confounder (generelt OK)

Eksempel: Regression, confounder og collider (Ogorek 2016)

Eksempel: Regression (Ogorek 2016) Confounding N <- 100000 w <- rnorm(n) x <-.5 * w + rnorm(n) y <-.3 * w +.4 * x + rnorm(n)

Eksempel: Regression (Ogorek 2016) Confounding summary(lm(y ~ x))$coef ## Estimate Std. Error t value Pr(> t ) ## (Intercept) 0.000608 0.00327 0.186 0.852 ## x 0.518146 0.00293 176.758 0.000

Eksempel: Regression (Ogorek 2016) Confounding summary(lm(y ~ x + w))$coef ## Estimate Std. Error t value Pr(> t ) ## (Intercept) 0.0016 0.00316 0.506 0.613 ## x 0.3984 0.00316 125.921 0.000 ## w 0.2983 0.00352 84.742 0.000

Eksempel: Regression (Ogorek 2016) Collider x <- rnorm(n) y <-.7 * x + rnorm(n) w <- 1.2 * x +.6 * y + rnorm(n)

Eksempel: Regression (Ogorek 2016) Collider summary(lm(y ~ x))$coef ## Estimate Std. Error t value Pr(> t ) ## (Intercept) -0.00399 0.00316-1.26 0.207 ## x 0.69692 0.00317 220.11 0.000

Eksempel: Regression (Ogorek 2016) Collider summary(lm(y ~ x + w))$coef ## Estimate Std. Error t value Pr(> t ) ## (Intercept) -0.00083 0.00271-0.306 0.759358 ## x -0.01777 0.00464-3.829 0.000129 ## w 0.44056 0.00232 189.887 0.000000

Eksempel: College SAT score (A, test score) Motivation (B, interview rating) College (C = 1 for dem der er optaget på college, C = 0 for dem der er afvist) College er en collider A C B Ingen relation mellem A og B (ρ =.035) A og B påvirker C hver (ρ (A,C) =.641, ρ (B,C) =.232) Betinger vi på C, får vi en negativ korrelation mellem A og B

Eksempel: College

Tre typer af bias Overcontrol Betinge på confounders i en sti Confounding bias Ikke at betinge på bagvedliggende nodes Collider bias Betinge på colliders

Hvordan kan vi identificere en kausal effekt? Tre ikke-udtømmende måder Strategi I: Conditioning Conditioning på variable der blokerer alle back-door stier Strategi II: Instrumentelle variable Eksogen variation i en IV Strategi III: Front-door kriterier (mediatorer) Find en isoleret og udtømmende node (eller flere nodes) der medierer effekten

Back-door path En back-door sti fra X til Y er en sti der har en direkte edge til X der er en ancestor til X En kausal effekt af X på Y kan identificeres ved at betinge effekten på en observeret variabel der blokerer back-door stier Forskellige strategier Kontrol Instrumentel variabel Mediatorer

Back-door kriterier Hvis en eller flere back-door stier forbinder to nodes (T og Y), kan det at betinge på en tredje variabel kun virke hvis alle back-door stier mellem de to nodes blokeres Applicerbar algoritme 1. Find alle back-door stier, der forbinder T og Y 2. Undersøg om disse blokeres naturligt Hvis ja, identifikation 3. Undersøg om de ikke-blokerede stier kan blokeres ved at betinge nodes der ikke er descendants af T Hvis ja, fortsæt; hvis nej, ingen identifikation 4. Undersøg om blokeringen i Step 3 åbnede ikke-kausale stier og undersøg om disse kan blokeres Hvis ja, fortsæt; hvis nej, ingen identifikation 5. Undersøg om nogle variable der skal betinges på for at blokere en back-door sti er på stien mellem T og Y eller er descendants af en variabel på stien mellem T og Y Hvis ja, ingen idenfitikation; hvis nej; identifikation

Eksempel: Lagged variable, back-door

Eksempel: Lagged variable, back-door Ofte bruger vi en lagged afhængig variabel Yt 1 To back-door stier fra D til Y D V Yt 1 Y D V Y t 1 U Y Y t 1 opfylder ikke back-door kriteriet Blokerer D V Y t 1 Y, men ikke D V Y t 1 U Y Hvad sker der ved at kontrollere for Y t 1? COLLIDER!!! Hvilke nodes?

Front-door Identifikation ved hjælp af en mekanisme Z opfylder front-door kriteriet når: Z blokerer alle direkte stier fra X til Y Der ikke er nogle åbne back-door stier fra X til Z X blokerer alle back-door stier fra Z til Y

Simpelt eksempel på front-door

Øvelse: Hvad er hvad? U er en [child/parent] til X og Y X og Y er [descendants/ancestors] af Z Der er en [direkte/ingen] sti fra Z til Y Der er [to/ingen] stier fra Z til U X er en [collider/ikke-collider] i stien Z X U X er en [collider/ikke-collider] i stien Z X Y

Øvelse: Hvad er hvad? U er en [child/parent] til X og Y X og Y er [descendants/ancestors] af Z Der er en [direkte/ingen] sti fra Z til Y Der er [to/ingen] stier fra Z til U X er en [collider/ikke-collider] i stien Z X U X er en [collider/ikke-collider] i stien Z X Y

do(x) operator Kontrafaktisk kausalitet i DAGs Operatoren erstatter en stokastisk variabel X med en konstant x Tænk eksperiment, x = 1 (stimuli) og x = 0 (kontrol) Fjerner alle edges der pejer til X Bemærk: Kræver ikke at X er manipulerbar! Kan eksempelvis være køn

Kausaleffekt af X på Y (Pearl 2007) Vi kan bruge do-operatoren til at beskrive back-door og front-door kriterierne Pr(Y do(x = x)) Kontrolvariable: S Back-door kriteriet: Pr(Y do(x = x)) = s Front-door kriteriet: Pr(Y X = x, S = s)pr(s = s) Pr(Y do(x = x)) = s s)pr(x = x ) Pr(Y S = s, X = x) x Pr(Y X = x, S =

Hvad skal vi betinge på for at identificere effekten af D på Y?

Hvad skal vi betinge på for at identificere effekten af D på Y? To back-door stier mellem D og Y D A V F Y D B U A V F Y A er collider i den anden back-door sti. 1. F. F overholder back-door kriteriet, så vi kan identificere effekten af D på Y 2. A og B. A er en midtervariabel i D A V (og kan dermed blokere V). B er midtervariabel i D B U. A er dog også en collider variabel (U A V), så ved at betinge kun på A, vil vi åbne den anden back-door. Altså: A og B

Hvilken node vil være et godt instrument?

Hvilken node vil være et godt instrument? C. Eksogen variation i D der overholder front-door kriterie Den eneste effekt C kan have på Y er gennem D

Opsummering DAG faciliterer diskussioner omkring antagelser ifm. kausal inferens DAG gør os bevidst omkring, at vi ikke skal inddrage alle variable i en analyse, for at identificere en kausal effekt Vi skal fokusere på en bestemt sti Igen: Mange veje til Rom Forskellige identifikationsstrategier tilgængelig i den samme DAG Mere forklarende model for kausalitet: Eksplicit beskrivelse af under hvilke betingelser X forårsager Y

Er der nogle ulemper? Ingen DAG er bedre end de antagelser, der gøres Kausale antagelser er ofte svage og kan ikke ekspliciteres med den præcision, der kræves I virkeligheden " skal vi ofte gøre os parametriske antagelser for at estimere kausale effekter Det antages at der er effektheterogenitet (igen: ingen antagelser omkring parametre)

Tre kausalmodeller: ligheder og forskelle Se tabel

Øvelse: Hvorfor kan vi identificere X Y? (Pearl 1995)

Øvelse: Hvorfor kan vi ikke identificere X Y? (Pearl 1995)

Næste gang I dag var sidste gang om kausale modeller Potentielle udfald Validitetstypologi Directed acyclic graphs (DAGs) Næste gang: Præsentation af seminaropgave Mandag, samme tid og sted

Næste gang: præsentation af idé Jeg holder en miniforelæsning Efterfulgt af præsentationer: 10 minutter (max) Slides Kontekst (emne) Teori (hypotese) Metode (design) Videre overvejelser