Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Stratificerede analyser

Dødsstraf-eksempel Betyder morderens farve noget for risikoen for dødsstraf? 1

Dødsstraf-eksempel: data Variable: Dødsstraf og morders farve Race Dødsstraf Ja Nej Total Hvid 72 (3.2%) 2185 2257 Sort 59 (2.4%) 2448 2507 Total 131 4633 4764 Hvide får oftere dødsstraf end sorte. Er det mon statistisk signifikant? 2

χ 2 -testet A A 1 A 2 Total B B 1 n 11 n 12 n 1 B 2 n 21 n 22 n 2 Total n 1 n 2 n Testet baseret på teststørrelsen χ 2 = ij (n ij E ij ) 2 E ij Stor X 2 -værdi betyder ikke uafhængighed. Under H 0 føgler teststørrelsen en χ 2 1-fordeling. 3

Beregning af p-værdien Observeret Forventet under H 0 Dødsstraf Ja Nej Hvid 72 2185 Sort 59 2448 Dødsstraf Ja Nej Hvid 62.1 2194.2 Sort 68.9 2438.1 Uafhængighed mellem race og dødsstraf, hvis andelen af hvide og sorte får dødsstraf er lige stor Ex. E 11 = 2257 131 4764 = 62.1 χ 2 -test giver X 2 = (72 62.1)2 62.1 (2185 2194.9)2 (59 68.9)2 (2448 2438.1)2 + + + 2194.9 68.9 2438.1 p=0.078, forskellen er ikke signifikant. = 3.11 4

Confounding En variabel er en confounder for relationen mellem en exposure og outcome, hvis: variablen selv er en risikofaktor for outcome variablen er associeret til exposure (uden at være en konsekvens af den) exposure confounder outcome I dødsstraf-eksemplet har vi faktisk også information om offerets farve 5

Dødsstraf-eksempel X 2 = 3.11, df = 1, p = 0.078 6

Sammenhæng: morders farve - offerets farve Hvide dræber hvide, sorte dræber sorte X 2 = 3325, df = 1, p < 0.00001 7

Sammenhæng: offerets farve - dødsstraf Hvis offeret er hvidt er der større risiko for dødsstraf X 2 = 88.6, df = 1, p < 0.0001 8

Offerets farve er en confounder 1. Hvide slår hvide ihjel. 2. Hvis offeret er hvidt er risikoen for dødsstraf forhøjet. 1+2 betyder at risiko for dødsstraf kommer til at se høj ud for hvide mordere. Hvide mordere dømmes oftere fordi de slår hvide ihjel. Confounding kan f.eks håndteres ved at statificere efter confounderen. Dvs se på sammenhæng mellem morders race og dødsstraf for hver værdi af offerets farve. Er der stadig sammenhæng når vi ser på mordsager hvor offeret har en bestemt farve? 9

Dødsstraf-eksempel: stratificeret analyse Sort offer: X 2 = 0.55 df = 1, p = 0.59 Hvidt offer: X 2 = 96.5 df = 1, p < 0.00001 10

Dødsstraf-eksempel: konklusion Farve på morder påvirker risiko for dødsstraf. Både når offeret er sort og hvidt er der større risiko for dødsstraf hvis morderen er sort. Denne tendens er dog kun statistisk signifikant når man kigger på sager hvor offeret er hvidt. Der er meget få dødsstraffe når offeret er sort. 11

Hvad gjorde vi? Race Dødsstraf Ja Nej Total Hvid 72 (3.2%) 2185 2257 Sort 59 (2.4%) 2448 2507 Total 131 4633 4764 Opsplittede en to-vejs tabel efter en tredie variabel stratificere (epidemiologi) elaborere (sociologi) kontrollere for, betinge med (statistik) Afdækkede en skjult sammenhæng 12

Confounding Hvis vi glemmer at tage hensyn til en confounder, bliver vores analyse misvisende (biased). Stratificerede analyser: er den simpleste måde at medtage confounderen i analysen Stratificeres efter en confounder vil de stratificerede tabeller typisk viser en anden sammenhæng end den der er i den marginale analyse. Simpsons paradox: sammenhængen ændrede retning. Maginal analyse: hvide dømmes hårdest. Stratificeret analyse: hvide dømmes mildest. 13

Hvordan ved vi om vi har medtaget alle confounders? Det ved vi ikke. Meget vigtigt at tænke over dette når studiet designes. Sørg for at få målt potentielle confounders. Manglende information om confounders er ofte et problem i registerstudier. Randomiseret studie. Eksponeringen er tildelt tilfældigt og hænger derfor ikke sammen med andre variable. 14

Bolig vs. hjertesygdom Bolig Hjertesygdom Nej Ja Total Ejerbolig 2400 77 (3.1%) 2477 Lejerbolig 1821 85 (4.5%) 1906 χ 2 = 5.5, df = 1, p = 0.01 OR = 77/2400 85/1821 = 0.69, 95% CI : 0.50 0.94 Det må være godt at bo i ejerbolig? Mulige confounder-variable? Hvad med rygning? 15

Selv risikofaktor? Ryger Hjertesygdom Nej Ja Total Ja 1576 81 (4.9%) 1657 Nej 2645 81 (3.0%) 2726 χ 2 = 10.6, df = 1, p=0.001, OR = 1.68, 95% CI : 1.23 2.30 16

Associeret til exposure? Bolig Ryger Nej Ja Total Eje 1770 707 (28.5%) 2477 Leje 956 950 (49.8%) 1906 χ 2 = 208, df = 1, P<0.00001 OR = 0.40, 95% CI : 0.36 0.46 Rygning er altså en confounder 17

Bolig vs. hjertesygdom Rygere: Bolig Hjertesygdom Nej Ja Total Ejerbolig 1722 48 (2.7%) 1770 Lejerbolig 923 33 (3.5%) 956 Ikke rygere: OR=0.78, 95% CI: 0.50-1.22 Bolig Hjertesygdom Nej Ja Total Ejerbolig 678 29 (4.1%) 707 Lejerbolig 898 52 (5.5%) 950 OR=0.74, 95% CI: 0.46-1.18 18

Odds-ratio-værdier OR 95% CI Ikke stratificeret 0.69 (0.50-0.94) Ikke rygere 0.78 (0.50-1.22) Rygere 0.74 (0.46-1.18) Efter kontrol for rygning er effekten af boligtype på hjertesygdom blevet svagere måske mangler vi andre confounder-variable? 19

Betinget uafhængighed Boligtype og hjertesygdom er betinget uafhængige givet rygestatus, hvis bolig og hjerte sygdom er uafhænige for hver værdi af rygestatus. For hverken rygere eller ikke-rygere var sammenhængen mellem boligtype og hjertesygdom signifikant. Analysen tyder altså på at de to variable er betinget uafhængige givet rygestatus. Dødsstraf-eksemplet: Er morders farve og dødsstraf betinget uafhængige givet offerets farve? 20

Betinget uafhængighed mellem exposure og outcome exposure confounder outcome exposure og outcome er afhængige udelukkende fordi de begge afhænger af confounderen 21

Generel stratificeret analyse Confounder Z kan antage k forskellige værdier Z = 1 Z = z Z = k Outcome exp Ja Nej ja a 1 b 1... Outcome exp Ja Nej ja a z b z... Outcome exp Ja Nej ja a k b k nej c 1 d 1 nej c z d z nej c k d k ÔR 1 ÔR z ÔR k 22

Betinget uafhængighed Confounder Z kan antage k forskellige værdier Z = 1 Z = z Z = k Outcome exp Ja Nej ja a 1 b 1 nej c 1 d 1... Outcome exp Ja Nej ja a z b z nej c z d z... Outcome exp Ja Nej ja a k b k nej c k d k OR 1 = 1 OR z = 1 OR k = 1 23

Effekt-modifikation Sammenhængen mellem exposure og outcome er forskellig i deltabellerne der opnås når der statificeres efter en effektmodifikator. OR 95% CI Ikke rygere 0.78 (0.50-1.22) Rygere 0.74 (0.46-1.18) Rygning er en confounder i relationen mellem boligtype og hjertesygdom, men rygning ser ikke udtil at være en effektmodifikator (OR næsten ens) Næste gang skal vi lære hvordan man formeldt tester for effekt modifikation. 24

Effekt modifikation Effekt-modifikator Z kan antage k forskellige værdier Z = 1 Z = z Z = k Outcome exp Ja Nej ja a 1 b 1 nej c 1 d 1... Outcome exp Ja Nej ja a z b z nej c z d z... Outcome exp Ja Nej ja a k b k nej c k d k OR 1 = 0.5 OR z = 1 OR k = 3 25

R C-tabeller χ 2 -testet kan direkte generaliseres til R C-tabeller Observeret tabel sammenlignes med forventet tabel. Uafhængigshedshypotesen kan også testes ved γ-test 26

To kohoter af 70-årige fra Københavns Amt Boligstandard (god eller dårlig). Tilknytning til arbejdsmarkedet (Fuldtidsarbejde, deltidsarbejde, pensioneret og ingen tilknytning). Uddannelse (restgruppen, 9-12 års uddannelse og mere end 12 års uddannelse). Ægteskabelig status (gift eller alene). Køn Kohorteår: (1967 og 1984). 27

Sammenhæng mellem arbejde og bolig bolig arbj. tilknyt. god dårlig fuldtid 83 36 (30.3%) deltid 74 16 (17.8%) pens. 736 156 (17.5%) ingen 167 50 (23.0%) H 0 : Uafhængighed mellem tilknytning til arejdsmarkedet og bolig Definer: p i ssh for dårlig bolig i gruppe i, i = 1,..., 4 H 0 : p 1 = p 2 = p 3 = p 4 28

Testresultater: arbejde vs bolig bolig arbj. tilknyt. god dårlig fuldtid 83 36 (30.3%) deltid 74 16 (17.8%) pens. 736 156 (17.5%) ingen 167 50 (23.0%) χ 2 = 12.9, df = 3, p = 0.005, γ = 0.04, p = 0.60 Hvorfor er γ ikke signifikant? 29

Sammenhæng mellem arbejde og bolig - stratificeret 1967 1984 bolig arbj. god dårlig fuldtid 65 34 (34.3%) deltid 28 14 (33.3%) pens. 208 109 (34.4%) ingen 82 44 (34.9%) 1967: χ 2 = 0.0, df = 3, p = 0.998, γ = 0.01, p = 0.89 1984: χ 2 = 1.3, df = 3, p = 0.725, γ = 0.00, p = 0.98 bolig arbj. god dårlig fuldtid 18 2 (10.0%) deltid 46 2 (4.2%) pens. 528 47 (8.2%) ingen 85 6 (6.6%) Sammenhæng mellem tilknytning til arbejdsmarkedet og bolig forsvinder når vi kontrollerer for kohorteår. De to variable er betinget uafhængige givet kohorteår. 30

Rygning og helbred Fordeling af rygevaner som 45- årig og senere selvrapporteret helbred som 51-årig blandt tilfældigt udvalgte mænd i Københavns Amt i 1987. rygevaner som 45 årig Total aldrig nej 1-14 15-24 25+ usædvanlig godt godt helbred som 51 årig mindre godt elendigt Total 16 73 6 1 96 16,7% 76% 6,3% 1,0% 100% 15 75 6 96 15,6% 78% 6,3% 100% 13 59 7 1 80 16,3% 74% 8,8% 1,3% 100% 10 81 17 3 111 9,0% 73% 15,3% 2,7% 100% 1 29 3 1 34 2,9% 85% 8,8% 2,9% 100% 55 317 39 6 417 13,2% 76% 9,4% 1,4% 100% 2 χ 2 = 16.2, df = 12, p = 0.18, γ = 0.242, p = 0.001 31

Stratificeret efter helbred ved 45 år 32

Stratificerede testresultater: rygevaner vs helbred Helbred, 45-år χ 2 df p γ se p Usædv. godt 6.04 4 0.196-0.178 0.199 0.377 Godt 8.63 8 0.131 0.176 0.099 0.081 Dårligt 19.45 8 0.013 0.558 0.156 < 0.001 Det globale χ 2 -test for uafhængighed Teststørrelsen er summen af testsstørrelser fra hvert stratum Summen af uafhængige χ 2 -fordelte variable er χ 2 -fordelt. Antallet af frihedsgrader er lig med summen af frihedsgraderne. χ 2 = 6.04+8.63+19.45 = 34.12 Antallet af frihedsgrader er lig med 4+8+8 = 20 og derfor p = 0.025 Bemærk at γ skifter fortegn mellem grupper - tyder på effektmodifikation 33

Globalt test: SPSS-syntaksfil Det globale χ 2 -test (PCHI.SPS) Det, der er skrevet med fed skal man selv indtaste. temporary. n of cases 1. compute chi=6.04+8.63+19.45. compute df=4+8+8. compute pvalue=1.0-cdf.chisq(chi,df). format chi(f8.1) / df(f3) / pvalue(8.5). LIST VARIABLES= chi df pvalue. Output: chi df pvalue 34.1 20 0.03 34

Stratificerede analyser: Ulemper? Stratificerede analyser med flere confoundere: lav et χ 2 -test for hver kombination af confoundernes værdier (f.eks hver kombination af køn, aldersgruppe, rygestatus, genetiskmarkør osv). Stratificerede analyser bliver uoverskuelige hvis man har mange mulige confoundere. Her er en bedre løsning: regressions-analyse 35

Insignifikante sammenhænge I små studier er risikoen stor for at overse selv stærke sammenhænge stor (stor risiko for type II fejl). Problem ved stratificerede analyser: tabeller bliver tynde styrken falder. Efter stratifikation overses sammenhænge Globalt χ 2 -test, Mantel-Haenszel statistik (næste gang) og regressionsanalyse (gangen efter) er mulige løsninger 36

Stratificerede analyser Analyse i tovejs-tabeller: kan være misvisende, f.eks pga confounding og effektmodifikation. Stratificerede analyser: undersøg sammenhæng mellem exposure og outcome for hver værdi af den mulige confounder (χ 2 -test eller γ). Betinget uafhængighed: hvis ingen af tabellerne viser sammenhæng mellem exposure og outcome (problem: data udtyndes let at overse en effekt, globalt χ 2 -test afhjælper i nogen grad problemet fordi information fra alle tabeller udnyttes samtidigt). Effekt modifikation: sammenhæng mellem exposure og outcome er forskellig i forskellige strata. Det kan ses ved at odds-ratio-erne eller γ-koefficienterne er forskellige. Mere om det næste gang hvor vil skal teste om flere odds-ratioer er ens og lave et fælles estimat. 37