Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Relaterede dokumenter
Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 7: 23. marts

Morten Frydenberg 14. marts 2006

Epidemiologi og Biostatistik

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Morten Frydenberg 26. april 2004

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Korrelation Pearson korrelationen

Epidemiologi og Biostatistik

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Forelæsning 11: Kapitel 11: Regressionsanalyse

Morten Frydenberg Biostatistik version dato:

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Lineær og logistisk regression

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

1 Multipel lineær regression

Multipel Lineær Regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

1 Multipel lineær regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kvantitative metoder 2

Morten Frydenberg Biostatistik version dato:

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

MPH specialmodul Epidemiologi og Biostatistik

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Økonometri 1. Kvalitative variabler. Kvalitative variabler. Dagens program. Kvalitative variable 8. marts 2006

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

SKRIFTLIG EKSAMEN I BIOSTATISTIK OG EPIDEMIOLOGI Cand.Scient.San, 2. semester 20. februar 2015 (3 timer)

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Morten Frydenberg 25. april 2006

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

9. Chi-i-anden test, case-control data, logistisk regression.

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Opgavebesvarelse, brain weight

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Module 4: Ensidig variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Besvarelse af juul2 -opgaven

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Basal statistik. 21. oktober 2008

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Normalfordelingen. Statistik og Sandsynlighedsregning 2

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

1 Hb SS Hb Sβ Hb SC = , (s = )

Logistisk regression

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Statistik II 1. Lektion. Analyse af kontingenstabeller

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Modul 12: Regression og korrelation

Statistiske Modeller 1: Kontingenstabeller i SAS

Eksamen i Statistik for biokemikere. Blok

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

1 Regressionsproblemet 2

Modul 12: Exercises Sukkersygepatienters vægt

MPH Introduktionsmodul: Epidemiologi og Biostatistik

Øvelser til basalkursus, 2. uge

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Besvarelse af opgavesættet ved Reeksamen forår 2008

Vejledende løsninger kapitel 9 opgaver

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Lægevidenskabelig Embedseksamen, 6. semester Forår 2009 Epidemiologi og Biostatistik Rettevejledning

Statistik Lektion 17 Multipel Lineær Regression

Transkript:

Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et simpelt eksempel på brugen af multipel lineær regression til korrektion for højde, når man vil sammenligner lungefunktion (her PEFR) hos kvinder og mænd. En kort beskrivelse af PEFR(l/min) for de to køn: Group n Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- female 43 474.0698 7.4829 49.06866 458.9687 489.9 male 58 568.2069 8.284007 63.08912 551.6185 584.7953 1. Estimer (den ukorrigerede) forskel i middel PEFR hos mænd og kvinder og skriv en kort konklusion angående sammenhæng mellem PEFR og køn. Nedenstående figur viser PEFR for tegnet op mod højden. Figuren viser også den estimerede sammenhæng mellem PEFR og højde for hver af de to køn under antagelse af en lineær sammenhæng. 800 700 separate lines PEFR (l/min) 600 500 400 150 160 Height (cm) 2. Kommenter på basis af figuren hvorvidt det for hvert af kønnene er rimeligt at anvende en simple lineær regressions model, som beskrevet til forelæsningen og kapitel 10 i Kirkwood og Sterne. Vi vil i det følgende antage at sådanne modeller er rimelige. Til beskrivelse af linierne har vi valgt højde= cm, som reference hvilket giver linierne: 1

0 1 0 1 PEFR = α + α height " + Error " for mænd PEFR = γ + γ height " + Error " for kvinder 3. Hvad er differensen i middel PEFR for en mand og kvinde, der begge er cm høje udtrykt ved α er og γ er? 4. Hvad er differensen i middel PEFR for en mand og kvinde, der begge er cm høje udtrykt ved α er og γ er? De estimere koefficienter for mænd og kvinder er: Coeffient Estimate Std. Err. t P> t [95% Conf. Interval] ---------------+---------------------------------------------------------------- Kvinder Middel v. cm 485.6874 9.967926 48.73 0.000 465.9038 505.471 Hældning 2.871025 1.401875 2.05 0.043.0886913 5.653358 ---------------+---------------------------------------------------------------- Mænd Middel v. cm 539.4341 10.80939 49.90 0.000 517.9804 560.8877 Hældning 3.945207 1.122652 3.51 0.001 1.753 6.173361 På basis af ovenstående tabel: 5. Estimer differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 6. Estimer (uden sikkerhedsinterval) differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 7. Diskuter på basis af dette om kønsforskellen i PEFR bliver modificeret af højde. 8. Estimer differensen mellem hældningerne for mænd og kvinder. 9. Diskuter på basis af dette om sammenhængen mellem PEFR og højde bliver modificeret af køn. Vi vil nu antage at der ikke er effektmodifikation mellem køn og højde, dvs. at hældningen er ens for de to køn eller ækvivalent at de to linier er parallelle. Vi kan så lave en multiple regressions model for hele data: PEFR = β + β Male + β height + Error 0 1 2 Hvor Male er 1, hvis man er mand og lig 0, hvis man er kvinde. Estimaterne for denne model bliver: Coeffient Estimate. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- Beta_0 488.3357 8.901174 54.86 0.000 470.6716 505.9998 Beta_1 54.15944 14.63941 3.70 0.000 25.108 83.21088 Beta_2 3.525489.8734164 4.04 0.000 1.792223 5.258755 ------------------------------------------------------------------------------ På basis af ovenstående tal: 10. Opskriv den estimerede linie for henholdsvis mænd og kvinder. Sammenligning med de to estimerede linier ovenfor. Hvordan passer det med nedenstående figur? 2

800 700 identical slopes PEFR (l/min) 600 500 400 150 160 Height (cm) 11. Estimer differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 12. Estimer differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 13. Skriv en kort konklusion angående sammenhæng mellem PEFR og køn, når man har korrigeret for højde. 14. Sammenlign med hvad I fik i spørgsmål 1. Opgave 2 (ingen fremlægger) Vi vil bruge øvelserne til at prøve at forstå hvad, der står i Table 2 i Ekelund2004. Læs til en start Statistical Methods samt afsnit 2 på side 587, der omhandler Table 2. Nedenstående tabel indeholder tallene fra Table 2 (findes i OpgaveData.xls på AULA). CI estimate p low high Sex -0.22 <0.0001-0.25-0.18 Maturity 0.17 <0.0001 0.14 0.19 Estonia -0.14 <0.0001-0.16-0.10 Denmark -0.05 0.002-0.08-0.02 Norway -0.02 0.12-0.06 0.006 Sex X maturity -0.19 <0.0001-0.23-0.15 Intercept 1.85 <0.0001 1.82 1.88 Model 1 total activity -0.000025 0.17-0.00006 0.00001 Model 2 sedentary 0.00034 0.49-0.0006 0.0013 Model 3 light 0.00054 0.48-0.001 0.002 Model 4 moderate and vig. -0.0019 0.04-0.0036-0.00013 Model 5 vigorous -0.0034 0.02-0.006-0.0006 3

I artiklen er der nogle fodnoter til tabellen - læs dem! Find gennemsnit og spredninger for, Total, Sedentary, Light, Moderate and Vigorous og Vigoruos activity i Table 1 Det fremgår af artiklen at man har analyseret de 10-tals logaritmerede skinfold thickness. Vi vil derfor få brug de tilbage-transformerede estimater og sikkerhedsintervaller. Find disse. Så vidt jeg kan læse ud af artiklen er der anvendt følgende model hvad angår den øverste del af tabellen, dvs. for køn, land og Tanner index: log skinfold = β + β Girl + β Tanner2 + β Girl Tanner2 10 0 1 2 3 + β Estonia + β Denmark + β Norway + Error 4 5 6 hvor Girl, Tanner2, Estonia, Denmark og Norway er såkaldte indikator variable, dvs. variable, der er 1 hvis man er i den givne kategori og 0 ellers. Til øvelserne vil vi se på. 1. Formålet med den statistiske analyse. 2. Fortolkningen af modellen ovenfor. 3. Tolkningen af de syv øverste estimater i Table 2. 4. Tolkningen af de fem nederste estimater Table 2. Opgave 3 (gruppe 2 og 3) De to grupper laver, uafhængig af hinanden, research af en sundhedsrelateret nyhed fra et dansk nyhedsmedie. Hvilken nyhed det vil dreje sig om vil jeg oplyse ved forelæsningen mandag. De to grupper skal bruge ca. 1½ time til at afdække indhold og dokumentation - hvis det er muligt ved inddragelse af original publikation(er). Hver gruppe forbereder et oplæg på et kvarter til øvelserne. 4

Opgave 4 (gruppe 4) Til forelæsningen sagde jeg, at Pearson korrelationen ikke kan bruges til at sammenligne målemetoder. Vi vil her vise, hvorfor dette er rigtigt. Til dette ser vi på nogle (opdigtede) data angående måling af højde. Nedenfor er vist data for to studier, der hver sammenligner to målemetoder. Studiet til venstre sammenligner metode 1 og 2 og det til højre metode 3 og 4. I begge studier har man målt 10 mænd med de to metoder. Ligeledes har man i begge studier brugt korrelationskoefficienten til beskrivelse af sammenhængen mellem de to metoder, ydermere har man testet hypotesen ingen sammenhæng mellem de to metoder. n=10 r=0.9 (p<0.001) n=10 r=0.8 (p=0.005) 185 185 method 2 175 method 4 175 175 185 175 185 method 1 method 3 200 1. Betragt figurerne ovenfor og forklar hvorfor der er langt større overensstemmelse mellem metode 3 og 4 end mellem metode 1 og 2. Hint: Hvor ville målingerne ligge hvis der fuldstændig overensstemmelse? Nedenfor er to andre sæt data for to tilsvarende studier. n=10 r=0.9 (p<0.001) 200 n=10 r=0.8 (p=0.005) method 2 method 4 160 160 200 160 200 method 1 method 3 2. Forklar, ud fra figuren, hvorfor forskellen mellem højdemålinger fortaget med metode 1 og 2 er større end mellem højdemålinger foretaget med metode 3 og 4. 160 5