Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Relaterede dokumenter
Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Seniorkursus i Biostatistik og Stata, Dag 2

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Opgavebesvarelse, Basalkursus, uge 3

Statistik kommandoer i Stata opdateret 16/ Erik Parner

MPH Introduktionsmodul: Epidemiologi og Biostatistik

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Generelle lineære modeller

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Morten Frydenberg 25. april 2006

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Besvarelse af vitcap -opgaven

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Afdeling for Anvendt Matematik og Statistik December 2006

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Postoperative komplikationer

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Morten Frydenberg Biostatistik version dato:

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Epidemiologi og Biostatistik

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Morten Frydenberg 14. marts 2006

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Opgavebesvarelse, Basalkursus, uge 3

Klasseøvelser dag 2 Opgave 1

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Brug af testdata i børneforløbsundersøgelsen (BFU).

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Løsning eksamen d. 15. december 2008

MPH specialmodul Epidemiologi og Biostatistik

Opgavebesvarelse, Basalkursus, uge 3

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

9. Chi-i-anden test, case-control data, logistisk regression.

Eksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, Basalkursus, uge 3

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Vejledende besvarelse af hjemmeopgave, efterår 2018

Normalfordelingen og Stikprøvefordelinger

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Ikke-parametriske tests

Eksamen i Statistik for Biokemikere, Blok januar 2009

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Analyse af binære responsvariable

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Basal statistik. 16. september 2008

En Introduktion til SAS. Kapitel 5.

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Vejledende besvarelse af hjemmeopgave, efterår 2018

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Opgavebesvarelse, Basalkursus, uge 2

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Morten Frydenberg Biostatistik version dato:

Eksamen i Statistik for biokemikere. Blok

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Vejledende besvarelse af hjemmeopgave

Træningsaktiviteter dag 3

(studienummer) (underskrift) (bord nr)

Lineær og logistisk regression

Løsning til eksaminen d. 14. december 2009

Kausalitet. Introduktion til samfundsvidenskabelig metode. Samfundsvidenskabelig metode. Hvad er metode? Hvad er kausalitet.

2. januar 2015 Proj.nr Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Alkoholforebyggelse blandt danske skoleelever

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Confounding og stratificeret analyse

Multipel Lineær Regression

Vejledende besvarelse af hjemmeopgave, forår 2015

Transkript:

Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere der drikker over Sundhedsstyrelsens anbefalinger blandt rygere end blandt ikke-rygere. Gælder det både for mænd og for kvinder?. use "ebeltoftdata2.dta". sort sex. by sex: tab2 storalk_5 ryger_5, col ---------------------------------------------------------------------------------------- -> sex = 1. Female -> tabulation of storalk_5 by ryger_5 ------------------- column percentage Alk>14/21, Ryger, 5 år 5 år nej ja Total nej 169 12 289 88.2 83.33 86.1 ja 23 24 47 11.98 16.67 13.99 Total 192 144 336 1. 1. 1. ---------------------------------------------------------------------------------------- -> sex = 2. Male -> tabulation of storalk_5 by ryger_5 ------------------- column percentage Alk>14/21, Ryger, 5 år 5 år nej ja Total nej 182 113 295 81.98 69.75 76.82 ja 4 49 89 18.2 3.25 23.18 Total 222 162 384 1. 1. 1. Både for kvinder og mænd er der i vore data flere storforbrugere af alkohol blandt rygerne, men mest udtalt for mænd. Er forskellen statistisk signifikant? Dette kan undersøges ved hjælp af kommandoen cs, der beregner den relative risiko (det kan også undersøges med cc; så får du odds ratio) : 1

. cs storalk_5 ryger_5, by(sex) Køn RR [95% Conf. Interval] M-H Weight -----------------+------------------------------------------------- 1. Female 1.39134.819318 2.36269 9.857143 2. Male 1.67874 1.16544 2.418832 16.875 -----------------+------------------------------------------------- Crude 1.567694 1.15798 2.122371 M-H combined 1.572729 1.164186 2.124641 ------------------------------------------------------------------- Test of homogeneity (M-H) chi2(1) =.328 Pr>chi2 =.5667 For mænd er der en signifikant sammenhæng; for kvinder er den insignifikant. Er der samme eller forskellig effekt hos mænd og kvinder? De er ikke signifikant forskellige: det ene estimat ligger inde i det andets sikkerhedsinterval det bekræftes af testen for homogenitet (p=.57). 2. Gamma glutamyl transferase (GGT) er ofte forhøjet ved stort alkoholforbrug. Brug grænserne 8 U/L for mænd og 5 U/L for kvinder og undersøg hvor godt forhøjet GGT forudsiger et stort alkoholforbrug (estimer sensitivitet, specificitet og prædiktiv værdi). (Det kan gøres med en almindelig tab2 sæt de relevante procenter på).. gen hoej_ggt =. replace hoej_ggt=1 if sex==1 & ggt_5>5. replace hoej_ggt=1 if sex==2 & ggt_5>8. label variable hoej_ggt "Forhøjet GGT, 5 år". label values hoej_ggt nej_ja. tab2 hoej_ggt storalk_5, row col -> tabulation of hoej_ggt by storalk_5 ------------------- row percentage column percentage Forhøjet Alk>14/21, 5 år GGT, 5 år nej ja Total nej 519 9 69 85.22 14.78 1. 88.87 66.18 84.58 ja 65 46 111 58.56 41.44 1. 11.13 33.82 15.42 Total 584 136 72 81.11 18.89 1. 1. 1. 1. Sensitivitet 33,8%; specificitet 88,9%; prædiktiv værdi af positiv test: 41,4%. Den uofficielle kommando diagt gør det samme med sikkerhedsintervaller; se Statabogen afsnit 15.3: 2

. diagt storalk_5 hoej_ggt Alk>14/21, Forhøjet GGT, 5 år 5 år Pos. Neg. Total Abnormal 46 9 136 Normal 65 519 584 Total 111 69 72 True abnormal diagnosis defined as storalk_5 = 1 (labelled ja) [95% Confidence Interval] --------------------------------------------------------------------------- Prevalence Pr(A) 19% 16% 21.9% --------------------------------------------------------------------------- Sensitivity Pr(+ A) 33.8% 25.9% 42.4% Specificity Pr(- N) 88.9% 86% 91.3% ROC area (Sens. + Spec.)/2.613.572.655 --------------------------------------------------------------------------- Likelihood ratio (+) Pr(+ A)/Pr(+ N) 3.4 2.19 4.22 Likelihood ratio (-) Pr(- A)/Pr(- N).745.658.843 Odds ratio LR(+)/LR(-) 4.8 2.64 6.32 Positive predictive value Pr(A +) 41.4% 32.2% 51.2% Negative predictive value Pr(N -) 85.2% 82.2% 87.9% 3. Undersøg om ggt_5 er nogenlunde normalfordelt. Hvis ikke, prøv en egnet transformation. Er den transformerede variabel nogenlunde normalfordelt? Hvordan kan man forsvarligt teste hypotesen at ggt_5 niveauet er uafhængigt af om man er storforbruger af alkohol? Gør det. (Se Erik Parners noter 25.1.28 om ikkeparametriske test). ggt_5 er i hvert fald ikke normalfordelt:. histogram ggt_5, normal.2.15 Density.1.5 2 4 6 8 1 GG transferase U/L t5. qnorm ggt_5 3

1 GG transferase U/L t5 5-5 -2-1 1 2 3 Inverse Normal En logaritmisk transformation hjælper, men løser ikke problemet:. gen lnggt_5 = ln(ggt_5). histogram lnggt_5, normal.8.6 Density.4.2 2 3 4 5 6 7 lnggt_5. qnorm lnggt_5 8 6 lnggt_5 4 2 1 2 3 4 5 6 Inverse Normal Under de omstændigheder er en t-test ikke valid, men man kan bruge et ikke-parametrisk test. ranksum ggt_5, by(storalk_5) 4

Two-sample Wilcoxon rank-sum (Mann-Whitney) test storalk_5 obs rank sum expected -------------+--------------------------------- 584 194612 21532 1 136 64948 4928 -------------+--------------------------------- combined 72 25956 25956 unadjusted variance 477258.67 adjustment for ties -323.28 ---------- adjusted variance 476935.39 Ho: ggt_5(storal~5==) = ggt_5(storal~5==1) z = -7.29 Prob > z =. Der er signifikant forskel men det er ikke til at se retningen. T-test output er nyttigt til en orientering men kun en orientering. Det er storbrugerne der har højest ggt:. ttest ggt_5, by(storalk_5) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 584 38.79452 2.31753 55.84187 34.25611 43.33294 1 136 9.41176 11.73137 136.811 67.2173 113.6128 ---------+-------------------------------------------------------------------- combined 72 48.54444 2.993412 8.32166 42.66757 54.42132 ---------+-------------------------------------------------------------------- diff -51.61724 7.46477-66.15818-37.7631 ------------------------------------------------------------------------------ diff = mean() - mean(1) t = -6.9692 Ho: diff = degrees of freedom = 718 Ha: diff < Ha: diff!= Ha: diff > Pr(T < t) =. Pr( T > t ) =. Pr(T > t) = 1. Et par forsøg mere med transformationer løser måske problemet, så vi slipper for det ikkeparametriske test: hvis du har tid, så tag logaritmen til ggt_5 to gange og se, hvad der sker: gen ln2ggt_5 = ln(ln(ggt_5)) 4. I interventionen helbredssamtaler indgik for rygerne samtale om rygning og rygestop. Undersøg om der er tegn på effekt af denne intervention. Vi ser kun på dem, der røg ved baseline.. tab2 random smoker_5 if smoker_==1, row chi 5

-> tabulation of random by ryger_5 if ryger_==1 +----------------+ ---------------- row percentage +----------------+ Ryger, 5 år Randomiseringsgruppe nej ja Total ---------- 1. Spørgeskema 16 98 114 14.4 85.96 1. ---------- 2. Health-check 1 94 14 9.62 9.38 1. ---------- 3. Helbredssamtale 8 99 17 7.48 92.52 1. ---------- Total 34 291 325 1.46 89.54 1. Pearson chi2(2) = 2.6514 Pr =.266 Der er ikke tegn på nogen effekt! 6