Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere der drikker over Sundhedsstyrelsens anbefalinger blandt rygere end blandt ikke-rygere. Gælder det både for mænd og for kvinder?. use "ebeltoftdata2.dta". sort sex. by sex: tab2 storalk_5 ryger_5, col ---------------------------------------------------------------------------------------- -> sex = 1. Female -> tabulation of storalk_5 by ryger_5 ------------------- column percentage Alk>14/21, Ryger, 5 år 5 år nej ja Total nej 169 12 289 88.2 83.33 86.1 ja 23 24 47 11.98 16.67 13.99 Total 192 144 336 1. 1. 1. ---------------------------------------------------------------------------------------- -> sex = 2. Male -> tabulation of storalk_5 by ryger_5 ------------------- column percentage Alk>14/21, Ryger, 5 år 5 år nej ja Total nej 182 113 295 81.98 69.75 76.82 ja 4 49 89 18.2 3.25 23.18 Total 222 162 384 1. 1. 1. Både for kvinder og mænd er der i vore data flere storforbrugere af alkohol blandt rygerne, men mest udtalt for mænd. Er forskellen statistisk signifikant? Dette kan undersøges ved hjælp af kommandoen cs, der beregner den relative risiko (det kan også undersøges med cc; så får du odds ratio) : 1
. cs storalk_5 ryger_5, by(sex) Køn RR [95% Conf. Interval] M-H Weight -----------------+------------------------------------------------- 1. Female 1.39134.819318 2.36269 9.857143 2. Male 1.67874 1.16544 2.418832 16.875 -----------------+------------------------------------------------- Crude 1.567694 1.15798 2.122371 M-H combined 1.572729 1.164186 2.124641 ------------------------------------------------------------------- Test of homogeneity (M-H) chi2(1) =.328 Pr>chi2 =.5667 For mænd er der en signifikant sammenhæng; for kvinder er den insignifikant. Er der samme eller forskellig effekt hos mænd og kvinder? De er ikke signifikant forskellige: det ene estimat ligger inde i det andets sikkerhedsinterval det bekræftes af testen for homogenitet (p=.57). 2. Gamma glutamyl transferase (GGT) er ofte forhøjet ved stort alkoholforbrug. Brug grænserne 8 U/L for mænd og 5 U/L for kvinder og undersøg hvor godt forhøjet GGT forudsiger et stort alkoholforbrug (estimer sensitivitet, specificitet og prædiktiv værdi). (Det kan gøres med en almindelig tab2 sæt de relevante procenter på).. gen hoej_ggt =. replace hoej_ggt=1 if sex==1 & ggt_5>5. replace hoej_ggt=1 if sex==2 & ggt_5>8. label variable hoej_ggt "Forhøjet GGT, 5 år". label values hoej_ggt nej_ja. tab2 hoej_ggt storalk_5, row col -> tabulation of hoej_ggt by storalk_5 ------------------- row percentage column percentage Forhøjet Alk>14/21, 5 år GGT, 5 år nej ja Total nej 519 9 69 85.22 14.78 1. 88.87 66.18 84.58 ja 65 46 111 58.56 41.44 1. 11.13 33.82 15.42 Total 584 136 72 81.11 18.89 1. 1. 1. 1. Sensitivitet 33,8%; specificitet 88,9%; prædiktiv værdi af positiv test: 41,4%. Den uofficielle kommando diagt gør det samme med sikkerhedsintervaller; se Statabogen afsnit 15.3: 2
. diagt storalk_5 hoej_ggt Alk>14/21, Forhøjet GGT, 5 år 5 år Pos. Neg. Total Abnormal 46 9 136 Normal 65 519 584 Total 111 69 72 True abnormal diagnosis defined as storalk_5 = 1 (labelled ja) [95% Confidence Interval] --------------------------------------------------------------------------- Prevalence Pr(A) 19% 16% 21.9% --------------------------------------------------------------------------- Sensitivity Pr(+ A) 33.8% 25.9% 42.4% Specificity Pr(- N) 88.9% 86% 91.3% ROC area (Sens. + Spec.)/2.613.572.655 --------------------------------------------------------------------------- Likelihood ratio (+) Pr(+ A)/Pr(+ N) 3.4 2.19 4.22 Likelihood ratio (-) Pr(- A)/Pr(- N).745.658.843 Odds ratio LR(+)/LR(-) 4.8 2.64 6.32 Positive predictive value Pr(A +) 41.4% 32.2% 51.2% Negative predictive value Pr(N -) 85.2% 82.2% 87.9% 3. Undersøg om ggt_5 er nogenlunde normalfordelt. Hvis ikke, prøv en egnet transformation. Er den transformerede variabel nogenlunde normalfordelt? Hvordan kan man forsvarligt teste hypotesen at ggt_5 niveauet er uafhængigt af om man er storforbruger af alkohol? Gør det. (Se Erik Parners noter 25.1.28 om ikkeparametriske test). ggt_5 er i hvert fald ikke normalfordelt:. histogram ggt_5, normal.2.15 Density.1.5 2 4 6 8 1 GG transferase U/L t5. qnorm ggt_5 3
1 GG transferase U/L t5 5-5 -2-1 1 2 3 Inverse Normal En logaritmisk transformation hjælper, men løser ikke problemet:. gen lnggt_5 = ln(ggt_5). histogram lnggt_5, normal.8.6 Density.4.2 2 3 4 5 6 7 lnggt_5. qnorm lnggt_5 8 6 lnggt_5 4 2 1 2 3 4 5 6 Inverse Normal Under de omstændigheder er en t-test ikke valid, men man kan bruge et ikke-parametrisk test. ranksum ggt_5, by(storalk_5) 4
Two-sample Wilcoxon rank-sum (Mann-Whitney) test storalk_5 obs rank sum expected -------------+--------------------------------- 584 194612 21532 1 136 64948 4928 -------------+--------------------------------- combined 72 25956 25956 unadjusted variance 477258.67 adjustment for ties -323.28 ---------- adjusted variance 476935.39 Ho: ggt_5(storal~5==) = ggt_5(storal~5==1) z = -7.29 Prob > z =. Der er signifikant forskel men det er ikke til at se retningen. T-test output er nyttigt til en orientering men kun en orientering. Det er storbrugerne der har højest ggt:. ttest ggt_5, by(storalk_5) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 584 38.79452 2.31753 55.84187 34.25611 43.33294 1 136 9.41176 11.73137 136.811 67.2173 113.6128 ---------+-------------------------------------------------------------------- combined 72 48.54444 2.993412 8.32166 42.66757 54.42132 ---------+-------------------------------------------------------------------- diff -51.61724 7.46477-66.15818-37.7631 ------------------------------------------------------------------------------ diff = mean() - mean(1) t = -6.9692 Ho: diff = degrees of freedom = 718 Ha: diff < Ha: diff!= Ha: diff > Pr(T < t) =. Pr( T > t ) =. Pr(T > t) = 1. Et par forsøg mere med transformationer løser måske problemet, så vi slipper for det ikkeparametriske test: hvis du har tid, så tag logaritmen til ggt_5 to gange og se, hvad der sker: gen ln2ggt_5 = ln(ln(ggt_5)) 4. I interventionen helbredssamtaler indgik for rygerne samtale om rygning og rygestop. Undersøg om der er tegn på effekt af denne intervention. Vi ser kun på dem, der røg ved baseline.. tab2 random smoker_5 if smoker_==1, row chi 5
-> tabulation of random by ryger_5 if ryger_==1 +----------------+ ---------------- row percentage +----------------+ Ryger, 5 år Randomiseringsgruppe nej ja Total ---------- 1. Spørgeskema 16 98 114 14.4 85.96 1. ---------- 2. Health-check 1 94 14 9.62 9.38 1. ---------- 3. Helbredssamtale 8 99 17 7.48 92.52 1. ---------- Total 34 291 325 1.46 89.54 1. Pearson chi2(2) = 2.6514 Pr =.266 Der er ikke tegn på nogen effekt! 6