Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Relaterede dokumenter
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Elaborering: Analyse af betingede relationer

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik II 1. Lektion. Analyse af kontingenstabeller

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Analyse af binære responsvariable

Statistik og skalavalidering. Opgave 1

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Vurdering af epidemiologiske undersøgelser igen

Lineær og logistisk regression

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Træningsaktiviteter dag 3

Effektmålsmodifikation

Vurdering af epidemiologiske undersøgelser. Epidemiologisk forskning

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Effektmålsmodifikation

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Besvarelse af opgavesættet ved Reeksamen forår 2008

9. Chi-i-anden test, case-control data, logistisk regression.

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Vurdering af epidemiologiske undersøgelser igen

Morten Frydenberg 26. april 2004

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Morten Frydenberg 14. marts 2006

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Workshop 6 Sundhedsprofilen metode og muligheder. Anne Helms Andreasen, Forskningscenter for Forebyggelse og Sundhed

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Confounding. Mads Kamper-Jørgensen, lektor, Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Fejlkilder. Ulrik Schiøler Kesmodel. Rikke Guldberg Øjvind Lidegaard

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Målsætning. Vurdering af epidemiologiske undersøgelser

Hver anden vil benytte øget åbningstid i dagtilbud

Dataanalyse. Af Joanna Phermchai-Nielsen. Workshop d. 18. marts 2013

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Morten Frydenberg Biostatistik version dato:

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

MPH Introduktionsmodul: Epidemiologi og Biostatistik

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Intern validitet: Fejlkilder og tolkningsproblemer i epidemiologiske undersøgelser

Statistik II 4. Lektion. Logistisk regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Morten Frydenberg 25. april 2006

Præcision og effektivitet (efficiency)?

Uge 13 referat hold 4

Kapitel 11 Lineær regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Confounding og stratificeret analyse

Confounding. Mads Kamper-Jørgensen, lektor, Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab

Basal Statistik Kategoriske Data

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Eksempler på målefejl

Lægevidenskabelig Embedseksamen, 6. semester Forår 2009 Epidemiologi og Biostatistik Rettevejledning

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Epidemiologisk design I. Eksperimentelle undersøgelser. Epidemiologisk design II. Randomiserede undersøgelser. Randomisering II

Spørgeskema til FSV-studerende

Vurdering af det Randomiserede kliniske forsøg RCT

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Opgave 1: Graft vs. Host disease

Postoperative komplikationer

Population attributable fraction

Deltidsfag har hårdere fysisk arbejdsmiljø og lavere timeløn

Opgavebesvarelse, Basalkursus, uge 3

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Epidemiologisk design I. Eksperimentelle undersøgelser. Epidemiologisk design II. Randomiserede undersøgelser. Randomisering I.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

Statistik kommandoer i Stata opdateret 16/ Erik Parner

REEKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

SKRIFTLIG EKSAMEN I BIOSTATISTIK OG EPIDEMIOLOGI Cand.Scient.San, 2. semester 20. februar 2015 (3 timer)

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Synopsis til eksamen i Statistik

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Eksamen i Statistik og skalavalidering

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Udbrændthed og brancheskift

Spørgeskema til FSV-studerende

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Logistisk Regression - fortsat

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Afdeling for Anvendt Matematik og Statistik December 2006

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Transkript:

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Stratificerede analyser

Dødsstraf-eksempel Betyder morderens farve noget for risikoen for dødsstraf? 1

Dødsstraf-eksempel: data Variable: Dødsstraf og morders farve Race Dødsstraf Ja Nej Total Hvid 72 (3.2%) 2185 2257 Sort 59 (2.4%) 2448 2507 Total 131 4633 4764 Hvide får oftere dødsstraf end sorte. Er det mon statistisk signifikant? 2

χ 2 -testet A A 1 A 2 Total B B 1 n 11 n 12 n 1 B 2 n 21 n 22 n 2 Total n 1 n 2 n Testet baseret på teststørrelsen χ 2 = ij (n ij E ij ) 2 E ij Stor X 2 -værdi betyder ikke uafhængighed. Under H 0 føgler teststørrelsen en χ 2 1-fordeling. 3

Beregning af p-værdien Observeret Forventet under H 0 Dødsstraf Ja Nej Hvid 72 2185 Sort 59 2448 Dødsstraf Ja Nej Hvid 62.1 2194.2 Sort 68.9 2438.1 Uafhængighed mellem race og dødsstraf, hvis andelen af hvide og sorte får dødsstraf er lige stor Ex. E 11 = 2257 131 4764 = 62.1 χ 2 -test giver X 2 = (72 62.1)2 62.1 (2185 2194.9)2 (59 68.9)2 (2448 2438.1)2 + + + 2194.9 68.9 2438.1 p=0.078, forskellen er ikke signifikant. = 3.11 4

Confounding En variabel er en confounder for relationen mellem en exposure og outcome, hvis: variablen selv er en risikofaktor for outcome variablen er associeret til exposure (uden at være en konsekvens af den) exposure confounder outcome I dødsstraf-eksemplet har vi faktisk også information om offerets farve 5

Dødsstraf-eksempel X 2 = 3.11, df = 1, p = 0.078 6

Sammenhæng: morders farve - offerets farve Hvide dræber hvide, sorte dræber sorte X 2 = 3325, df = 1, p < 0.00001 7

Sammenhæng: offerets farve - dødsstraf Hvis offeret er hvidt er der større risiko for dødsstraf X 2 = 88.6, df = 1, p < 0.0001 8

Offerets farve er en confounder 1. Hvide slår hvide ihjel. 2. Hvis offeret er hvidt er risikoen for dødsstraf forhøjet. 1+2 betyder at risiko for dødsstraf kommer til at se høj ud for hvide mordere. Hvide mordere dømmes oftere fordi de slår hvide ihjel. Confounding kan f.eks håndteres ved at statificere efter confounderen. Dvs se på sammenhæng mellem morders race og dødsstraf for hver værdi af offerets farve. Er der stadig sammenhæng når vi ser på mordsager hvor offeret har en bestemt farve? 9

Dødsstraf-eksempel: stratificeret analyse Sort offer: X 2 = 0.55 df = 1, p = 0.59 Hvidt offer: X 2 = 96.5 df = 1, p < 0.00001 10

Dødsstraf-eksempel: konklusion Farve på morder påvirker risiko for dødsstraf. Både når offeret er sort og hvidt er der større risiko for dødsstraf hvis morderen er sort. Denne tendens er dog kun statistisk signifikant når man kigger på sager hvor offeret er hvidt. Der er meget få dødsstraffe når offeret er sort. 11

Hvad gjorde vi? Race Dødsstraf Ja Nej Total Hvid 72 (3.2%) 2185 2257 Sort 59 (2.4%) 2448 2507 Total 131 4633 4764 Opsplittede en to-vejs tabel efter en tredie variabel stratificere (epidemiologi) elaborere (sociologi) kontrollere for, betinge med (statistik) Afdækkede en skjult sammenhæng 12

Confounding Hvis vi glemmer at tage hensyn til en confounder, bliver vores analyse misvisende (biased). Stratificerede analyser: er den simpleste måde at medtage confounderen i analysen Stratificeres efter en confounder vil de stratificerede tabeller typisk viser en anden sammenhæng end den der er i den marginale analyse. Simpsons paradox: sammenhængen ændrede retning. Maginal analyse: hvide dømmes hårdest. Stratificeret analyse: hvide dømmes mildest. 13

Hvordan ved vi om vi har medtaget alle confounders? Det ved vi ikke. Meget vigtigt at tænke over dette når studiet designes. Sørg for at få målt potentielle confounders. Manglende information om confounders er ofte et problem i registerstudier. Randomiseret studie. Eksponeringen er tildelt tilfældigt og hænger derfor ikke sammen med andre variable. 14

Bolig vs. hjertesygdom Bolig Hjertesygdom Nej Ja Total Ejerbolig 2400 77 (3.1%) 2477 Lejerbolig 1821 85 (4.5%) 1906 χ 2 = 5.5, df = 1, p = 0.01 OR = 77/2400 85/1821 = 0.69, 95% CI : 0.50 0.94 Det må være godt at bo i ejerbolig? Mulige confounder-variable? Hvad med rygning? 15

Selv risikofaktor? Ryger Hjertesygdom Nej Ja Total Ja 1576 81 (4.9%) 1657 Nej 2645 81 (3.0%) 2726 χ 2 = 10.6, df = 1, p=0.001, OR = 1.68, 95% CI : 1.23 2.30 16

Associeret til exposure? Bolig Ryger Nej Ja Total Eje 1770 707 (28.5%) 2477 Leje 956 950 (49.8%) 1906 χ 2 = 208, df = 1, P<0.00001 OR = 0.40, 95% CI : 0.36 0.46 Rygning er altså en confounder 17

Bolig vs. hjertesygdom Rygere: Bolig Hjertesygdom Nej Ja Total Ejerbolig 1722 48 (2.7%) 1770 Lejerbolig 923 33 (3.5%) 956 Ikke rygere: OR=0.78, 95% CI: 0.50-1.22 Bolig Hjertesygdom Nej Ja Total Ejerbolig 678 29 (4.1%) 707 Lejerbolig 898 52 (5.5%) 950 OR=0.74, 95% CI: 0.46-1.18 18

Odds-ratio-værdier OR 95% CI Ikke stratificeret 0.69 (0.50-0.94) Ikke rygere 0.78 (0.50-1.22) Rygere 0.74 (0.46-1.18) Efter kontrol for rygning er effekten af boligtype på hjertesygdom blevet svagere måske mangler vi andre confounder-variable? 19

Betinget uafhængighed Boligtype og hjertesygdom er betinget uafhængige givet rygestatus, hvis bolig og hjerte sygdom er uafhænige for hver værdi af rygestatus. For hverken rygere eller ikke-rygere var sammenhængen mellem boligtype og hjertesygdom signifikant. Analysen tyder altså på at de to variable er betinget uafhængige givet rygestatus. Dødsstraf-eksemplet: Er morders farve og dødsstraf betinget uafhængige givet offerets farve? 20

Betinget uafhængighed mellem exposure og outcome exposure confounder outcome exposure og outcome er afhængige udelukkende fordi de begge afhænger af confounderen 21

Generel stratificeret analyse Confounder Z kan antage k forskellige værdier Z = 1 Z = z Z = k Outcome exp Ja Nej ja a 1 b 1... Outcome exp Ja Nej ja a z b z... Outcome exp Ja Nej ja a k b k nej c 1 d 1 nej c z d z nej c k d k ÔR 1 ÔR z ÔR k 22

Betinget uafhængighed Confounder Z kan antage k forskellige værdier Z = 1 Z = z Z = k Outcome exp Ja Nej ja a 1 b 1 nej c 1 d 1... Outcome exp Ja Nej ja a z b z nej c z d z... Outcome exp Ja Nej ja a k b k nej c k d k OR 1 = 1 OR z = 1 OR k = 1 23

Effekt-modifikation Sammenhængen mellem exposure og outcome er forskellig i deltabellerne der opnås når der statificeres efter en effektmodifikator. OR 95% CI Ikke rygere 0.78 (0.50-1.22) Rygere 0.74 (0.46-1.18) Rygning er en confounder i relationen mellem boligtype og hjertesygdom, men rygning ser ikke udtil at være en effektmodifikator (OR næsten ens) Næste gang skal vi lære hvordan man formeldt tester for effekt modifikation. 24

Effekt modifikation Effekt-modifikator Z kan antage k forskellige værdier Z = 1 Z = z Z = k Outcome exp Ja Nej ja a 1 b 1 nej c 1 d 1... Outcome exp Ja Nej ja a z b z nej c z d z... Outcome exp Ja Nej ja a k b k nej c k d k OR 1 = 0.5 OR z = 1 OR k = 3 25

R C-tabeller χ 2 -testet kan direkte generaliseres til R C-tabeller Observeret tabel sammenlignes med forventet tabel. Uafhængigshedshypotesen kan også testes ved γ-test 26

To kohoter af 70-årige fra Københavns Amt Boligstandard (god eller dårlig). Tilknytning til arbejdsmarkedet (Fuldtidsarbejde, deltidsarbejde, pensioneret og ingen tilknytning). Uddannelse (restgruppen, 9-12 års uddannelse og mere end 12 års uddannelse). Ægteskabelig status (gift eller alene). Køn Kohorteår: (1967 og 1984). 27

Sammenhæng mellem arbejde og bolig bolig arbj. tilknyt. god dårlig fuldtid 83 36 (30.3%) deltid 74 16 (17.8%) pens. 736 156 (17.5%) ingen 167 50 (23.0%) H 0 : Uafhængighed mellem tilknytning til arejdsmarkedet og bolig Definer: p i ssh for dårlig bolig i gruppe i, i = 1,..., 4 H 0 : p 1 = p 2 = p 3 = p 4 28

Testresultater: arbejde vs bolig bolig arbj. tilknyt. god dårlig fuldtid 83 36 (30.3%) deltid 74 16 (17.8%) pens. 736 156 (17.5%) ingen 167 50 (23.0%) χ 2 = 12.9, df = 3, p = 0.005, γ = 0.04, p = 0.60 Hvorfor er γ ikke signifikant? 29

Sammenhæng mellem arbejde og bolig - stratificeret 1967 1984 bolig arbj. god dårlig fuldtid 65 34 (34.3%) deltid 28 14 (33.3%) pens. 208 109 (34.4%) ingen 82 44 (34.9%) 1967: χ 2 = 0.0, df = 3, p = 0.998, γ = 0.01, p = 0.89 1984: χ 2 = 1.3, df = 3, p = 0.725, γ = 0.00, p = 0.98 bolig arbj. god dårlig fuldtid 18 2 (10.0%) deltid 46 2 (4.2%) pens. 528 47 (8.2%) ingen 85 6 (6.6%) Sammenhæng mellem tilknytning til arbejdsmarkedet og bolig forsvinder når vi kontrollerer for kohorteår. De to variable er betinget uafhængige givet kohorteår. 30

Rygning og helbred Fordeling af rygevaner som 45- årig og senere selvrapporteret helbred som 51-årig blandt tilfældigt udvalgte mænd i Københavns Amt i 1987. rygevaner som 45 årig Total aldrig nej 1-14 15-24 25+ usædvanlig godt godt helbred som 51 årig mindre godt elendigt Total 16 73 6 1 96 16,7% 76% 6,3% 1,0% 100% 15 75 6 96 15,6% 78% 6,3% 100% 13 59 7 1 80 16,3% 74% 8,8% 1,3% 100% 10 81 17 3 111 9,0% 73% 15,3% 2,7% 100% 1 29 3 1 34 2,9% 85% 8,8% 2,9% 100% 55 317 39 6 417 13,2% 76% 9,4% 1,4% 100% 2 χ 2 = 16.2, df = 12, p = 0.18, γ = 0.242, p = 0.001 31

Stratificeret efter helbred ved 45 år 32

Stratificerede testresultater: rygevaner vs helbred Helbred, 45-år χ 2 df p γ se p Usædv. godt 6.04 4 0.196-0.178 0.199 0.377 Godt 8.63 8 0.131 0.176 0.099 0.081 Dårligt 19.45 8 0.013 0.558 0.156 < 0.001 Det globale χ 2 -test for uafhængighed Teststørrelsen er summen af testsstørrelser fra hvert stratum Summen af uafhængige χ 2 -fordelte variable er χ 2 -fordelt. Antallet af frihedsgrader er lig med summen af frihedsgraderne. χ 2 = 6.04+8.63+19.45 = 34.12 Antallet af frihedsgrader er lig med 4+8+8 = 20 og derfor p = 0.025 Bemærk at γ skifter fortegn mellem grupper - tyder på effektmodifikation 33

Globalt test: SPSS-syntaksfil Det globale χ 2 -test (PCHI.SPS) Det, der er skrevet med fed skal man selv indtaste. temporary. n of cases 1. compute chi=6.04+8.63+19.45. compute df=4+8+8. compute pvalue=1.0-cdf.chisq(chi,df). format chi(f8.1) / df(f3) / pvalue(8.5). LIST VARIABLES= chi df pvalue. Output: chi df pvalue 34.1 20 0.03 34

Stratificerede analyser: Ulemper? Stratificerede analyser med flere confoundere: lav et χ 2 -test for hver kombination af confoundernes værdier (f.eks hver kombination af køn, aldersgruppe, rygestatus, genetiskmarkør osv). Stratificerede analyser bliver uoverskuelige hvis man har mange mulige confoundere. Her er en bedre løsning: regressions-analyse 35

Insignifikante sammenhænge I små studier er risikoen stor for at overse selv stærke sammenhænge stor (stor risiko for type II fejl). Problem ved stratificerede analyser: tabeller bliver tynde styrken falder. Efter stratifikation overses sammenhænge Globalt χ 2 -test, Mantel-Haenszel statistik (næste gang) og regressionsanalyse (gangen efter) er mulige løsninger 36

Stratificerede analyser Analyse i tovejs-tabeller: kan være misvisende, f.eks pga confounding og effektmodifikation. Stratificerede analyser: undersøg sammenhæng mellem exposure og outcome for hver værdi af den mulige confounder (χ 2 -test eller γ). Betinget uafhængighed: hvis ingen af tabellerne viser sammenhæng mellem exposure og outcome (problem: data udtyndes let at overse en effekt, globalt χ 2 -test afhjælper i nogen grad problemet fordi information fra alle tabeller udnyttes samtidigt). Effekt modifikation: sammenhæng mellem exposure og outcome er forskellig i forskellige strata. Det kan ses ved at odds-ratio-erne eller γ-koefficienterne er forskellige. Mere om det næste gang hvor vil skal teste om flere odds-ratioer er ens og lave et fælles estimat. 37