Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et simpelt eksempel på brugen af multipel lineær regression til korrektion for højde, når man vil sammenligner lungefunktion (her PEFR) hos kvinder og mænd. En kort beskrivelse af PEFR(l/min) for de to køn: Group n Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- female 43 474.0698 7.4829 49.06866 458.9687 489.9 male 58 568.2069 8.284007 63.08912 551.6185 584.7953 1. Estimer (den ukorrigerede) forskel i middel PEFR hos mænd og kvinder og skriv en kort konklusion angående sammenhæng mellem PEFR og køn. Nedenstående figur viser PEFR for tegnet op mod højden. Figuren viser også den estimerede sammenhæng mellem PEFR og højde for hver af de to køn under antagelse af en lineær sammenhæng. 800 700 separate lines PEFR (l/min) 600 500 400 150 160 Height (cm) 2. Kommenter på basis af figuren hvorvidt det for hvert af kønnene er rimeligt at anvende en simple lineær regressions model, som beskrevet til forelæsningen og kapitel 10 i Kirkwood og Sterne. Vi vil i det følgende antage at sådanne modeller er rimelige. Til beskrivelse af linierne har vi valgt højde= cm, som reference hvilket giver linierne: 1
0 1 0 1 PEFR = α + α height " + Error " for mænd PEFR = γ + γ height " + Error " for kvinder 3. Hvad er differensen i middel PEFR for en mand og kvinde, der begge er cm høje udtrykt ved α er og γ er? 4. Hvad er differensen i middel PEFR for en mand og kvinde, der begge er cm høje udtrykt ved α er og γ er? De estimere koefficienter for mænd og kvinder er: Coeffient Estimate Std. Err. t P> t [95% Conf. Interval] ---------------+---------------------------------------------------------------- Kvinder Middel v. cm 485.6874 9.967926 48.73 0.000 465.9038 505.471 Hældning 2.871025 1.401875 2.05 0.043.0886913 5.653358 ---------------+---------------------------------------------------------------- Mænd Middel v. cm 539.4341 10.80939 49.90 0.000 517.9804 560.8877 Hældning 3.945207 1.122652 3.51 0.001 1.753 6.173361 På basis af ovenstående tabel: 5. Estimer differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 6. Estimer (uden sikkerhedsinterval) differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 7. Diskuter på basis af dette om kønsforskellen i PEFR bliver modificeret af højde. 8. Estimer differensen mellem hældningerne for mænd og kvinder. 9. Diskuter på basis af dette om sammenhængen mellem PEFR og højde bliver modificeret af køn. Vi vil nu antage at der ikke er effektmodifikation mellem køn og højde, dvs. at hældningen er ens for de to køn eller ækvivalent at de to linier er parallelle. Vi kan så lave en multiple regressions model for hele data: PEFR = β + β Male + β height + Error 0 1 2 Hvor Male er 1, hvis man er mand og lig 0, hvis man er kvinde. Estimaterne for denne model bliver: Coeffient Estimate. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- Beta_0 488.3357 8.901174 54.86 0.000 470.6716 505.9998 Beta_1 54.15944 14.63941 3.70 0.000 25.108 83.21088 Beta_2 3.525489.8734164 4.04 0.000 1.792223 5.258755 ------------------------------------------------------------------------------ På basis af ovenstående tal: 10. Opskriv den estimerede linie for henholdsvis mænd og kvinder. Sammenligning med de to estimerede linier ovenfor. Hvordan passer det med nedenstående figur? 2
800 700 identical slopes PEFR (l/min) 600 500 400 150 160 Height (cm) 11. Estimer differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 12. Estimer differensen i middel PEFR for en mand og kvinde, der begge er cm høje. 13. Skriv en kort konklusion angående sammenhæng mellem PEFR og køn, når man har korrigeret for højde. 14. Sammenlign med hvad I fik i spørgsmål 1. Opgave 2 (ingen fremlægger) Vi vil bruge øvelserne til at prøve at forstå hvad, der står i Table 2 i Ekelund2004. Læs til en start Statistical Methods samt afsnit 2 på side 587, der omhandler Table 2. Nedenstående tabel indeholder tallene fra Table 2 (findes i OpgaveData.xls på AULA). CI estimate p low high Sex -0.22 <0.0001-0.25-0.18 Maturity 0.17 <0.0001 0.14 0.19 Estonia -0.14 <0.0001-0.16-0.10 Denmark -0.05 0.002-0.08-0.02 Norway -0.02 0.12-0.06 0.006 Sex X maturity -0.19 <0.0001-0.23-0.15 Intercept 1.85 <0.0001 1.82 1.88 Model 1 total activity -0.000025 0.17-0.00006 0.00001 Model 2 sedentary 0.00034 0.49-0.0006 0.0013 Model 3 light 0.00054 0.48-0.001 0.002 Model 4 moderate and vig. -0.0019 0.04-0.0036-0.00013 Model 5 vigorous -0.0034 0.02-0.006-0.0006 3
I artiklen er der nogle fodnoter til tabellen - læs dem! Find gennemsnit og spredninger for, Total, Sedentary, Light, Moderate and Vigorous og Vigoruos activity i Table 1 Det fremgår af artiklen at man har analyseret de 10-tals logaritmerede skinfold thickness. Vi vil derfor få brug de tilbage-transformerede estimater og sikkerhedsintervaller. Find disse. Så vidt jeg kan læse ud af artiklen er der anvendt følgende model hvad angår den øverste del af tabellen, dvs. for køn, land og Tanner index: log skinfold = β + β Girl + β Tanner2 + β Girl Tanner2 10 0 1 2 3 + β Estonia + β Denmark + β Norway + Error 4 5 6 hvor Girl, Tanner2, Estonia, Denmark og Norway er såkaldte indikator variable, dvs. variable, der er 1 hvis man er i den givne kategori og 0 ellers. Til øvelserne vil vi se på. 1. Formålet med den statistiske analyse. 2. Fortolkningen af modellen ovenfor. 3. Tolkningen af de syv øverste estimater i Table 2. 4. Tolkningen af de fem nederste estimater Table 2. Opgave 3 (gruppe 2 og 3) De to grupper laver, uafhængig af hinanden, research af en sundhedsrelateret nyhed fra et dansk nyhedsmedie. Hvilken nyhed det vil dreje sig om vil jeg oplyse ved forelæsningen mandag. De to grupper skal bruge ca. 1½ time til at afdække indhold og dokumentation - hvis det er muligt ved inddragelse af original publikation(er). Hver gruppe forbereder et oplæg på et kvarter til øvelserne. 4
Opgave 4 (gruppe 4) Til forelæsningen sagde jeg, at Pearson korrelationen ikke kan bruges til at sammenligne målemetoder. Vi vil her vise, hvorfor dette er rigtigt. Til dette ser vi på nogle (opdigtede) data angående måling af højde. Nedenfor er vist data for to studier, der hver sammenligner to målemetoder. Studiet til venstre sammenligner metode 1 og 2 og det til højre metode 3 og 4. I begge studier har man målt 10 mænd med de to metoder. Ligeledes har man i begge studier brugt korrelationskoefficienten til beskrivelse af sammenhængen mellem de to metoder, ydermere har man testet hypotesen ingen sammenhæng mellem de to metoder. n=10 r=0.9 (p<0.001) n=10 r=0.8 (p=0.005) 185 185 method 2 175 method 4 175 175 185 175 185 method 1 method 3 200 1. Betragt figurerne ovenfor og forklar hvorfor der er langt større overensstemmelse mellem metode 3 og 4 end mellem metode 1 og 2. Hint: Hvor ville målingerne ligge hvis der fuldstændig overensstemmelse? Nedenfor er to andre sæt data for to tilsvarende studier. n=10 r=0.9 (p<0.001) 200 n=10 r=0.8 (p=0.005) method 2 method 4 160 160 200 160 200 method 1 method 3 2. Forklar, ud fra figuren, hvorfor forskellen mellem højdemålinger fortaget med metode 1 og 2 er større end mellem højdemålinger foretaget med metode 3 og 4. 160 5