Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Relaterede dokumenter
1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

MPH specialmodul Epidemiologi og Biostatistik

Eksamen i Statistik for biokemikere. Blok

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Morten Frydenberg Biostatistik version dato:

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Module 4: Ensidig variansanalyse

Opgaver til kapitel 3

Dag 6: Interaktion. Overlevelsesanalyse

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Introduktion til overlevelsesanalyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Kapitel 12 Variansanalyse

Multipel Lineær Regression

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Løsning til eksamen d.27 Maj 2010

Kapitel 12 Variansanalyse

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Modelkontrol i Faktor Modeller

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsninger til kapitel 14

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

1 Regressionsproblemet 2

Anvendt Statistik Lektion 7. Simpel Lineær Regression

(studienummer) (underskrift) (bord nr)

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik Lektion 4. Variansanalyse Modelkontrol

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Vejledende løsninger kapitel 8 opgaver

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Hypotesetests, fejltyper og p-værdier

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Løsning eksamen d. 15. december 2008

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Nanostatistik: Lineær regression

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Modul 12: Regression og korrelation

Test nr. 6 af centrale elementer 02402

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Eksamen i Statistik og skalavalidering

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Konfidensintervaller og Hypotesetest

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Tema. Dagens tema: Indfør centrale statistiske begreber.

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Løsning til eksaminen d. 29. maj 2009

Kapitel 7 Forskelle mellem centraltendenser

Løsning til eksaminen d. 14. december 2009

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Morten Frydenberg 26. april 2004

Lineær og logistisk regression

Transkript:

Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up tid, hvorvidt personen havde en hjertekarsygdom ved follow-up samt alder, køn og BMI ved inklusion. 1. Vi skal her sammenligne BMI for mænd og kvinder både på original skala og log-skala. Scatter-plot samt box-plot af data på original skala. 20 30 40 50 60 20 30 40 50 60 1 1.2 1.4 1.6 1.8 2 Sex Det mest oplagte er at analysere data ved hjælp af den statistiske model baseret på to uafhængige normalfordelte stikprøver. Histogrammer og QQ-plot af data på original skala. Density 0.05.1.15 20 30 40 50 60 20 30 40 50 60 Graphs by Sex 10 20 30 40 50 60 15 20 25 30 35 10 20 30 40 50 60 10 20 30 40 Vi ser en klar afvigelse fra antagelsen om normalfordelte BMI-værdier. Især i gruppen af kvinder ses en klar højreskæv fordeling men dette er også tilfældet for mændene. Scatter-plot samt box-plot af data på log-skala. 1

1 1.2 1.4 1.6 1.8 2 Sex Lad os undersøge om det er mere rimeligt at analysere log-bmi ved hjælp af en statistisk model for to uafhængige normalfordelte stikprøver. Histogrammer samt QQ-plot for data på log-skala. Density 0 1 2 3 Graphs by Sex 2.8 3 3.2 3.4 3.6 På log-skala ser normalfordelingsantagelsen rimelig ud for gruppen af mænd mens der stadig er en vis højreskkævhed for kvinderne. Der er dog ingen tvivl om at det ser bedre ud på log-skala end på original skala. Hypotesen om samme variation i de to grupper (på log-skala) kan, med baggrund i modellen baseret på to normalfordelte stikprøver, testes ved hjælp af et F -test, som her giver en p-værdi som er mindre end 0.0001. Der er altså signifikant større variation i gruppen af kvinder end i gruppen af mænd. Hvis vi accepterer at benytte modellen for to uafhængige normale stikprøver, så skal vi altså teste hypotesen om samme forventede log-bmi for mænd og kvinder ved hjælp af et t-test, men hvor der er ikke er antaget samme varians i de to normalfordelinger. I dette tilfælde får vi en p-værdi som er mindre end 0.0001 og tilsvarende hvis vi anvender et rank sum test. Der er med andre ord klar evidens imod hypotesen om samme forventet log-bmi i de to grupper. 2. Vi skal her formulere konklusionerne af analysen. Vi fandt altså klar evidens mod hypotesen om samme forventede log-bmi for mænd og kvinder (p < 0.0001). Gennemsnittene (på log-skala) kan tilbagetransformeres til estimater for median BMI-værdier ved hjælp af eksponentialfunktionen, Mænd: 25.73 [25.59, 25.89] Kvinder: 25.01 [24.85, 25.17] Differensen på log-skala transformeres tilbage til et forhold, som bliver 1.029 [1.020,1.038]. Med 95% sikkerhed konkluderer vi at BMI for mænd ligger mellem 2% og 4% højere end BMI for kvinder. 3. For hver kombination af alder og køn skal vi tegne det gennemsnitlige BMI op mod alder med den bedste rette linie. Dette skal også gøre på en log-log skala. 2

Original skala log log skala 22 24 26 28 30 3.1 3.2 3.3 3.4 30 40 50 60 70 Age in Years Mænd Kvinder 3.4 3.6 3.8 4 4.2 logage Mænd Kvinder Det ser ud til at man med rimelighed kan beskrive sammenhængen mellem BMI og alder ved en ret linie både på original skala og log-log skala. Umiddelbart ser det heller ikke ud til at det er væsentlig bedre på log-log skala end på original skala. Der er dog en tendens til en krumning for kvinderne vedkommende på original skala som er forsvundet på log-log skalaen. s der for mændenes vedkommende kun ser ud til at være en begrænset sammenhæng mellem BMI og alder, så ser vi et stigende BMI med alderen for kvinderne. 4. Vi skal nu tilpasse en lineær regressionsmodel til data på den skala hvor den lineære sammenhæng ser mest rimelig ud. Dette skal gøres ud fra de oprindelige data og ikke på baggrund af gennemsnittene. Der var ikke en meget stor forskel på tegningerne lavet på original skala og log-log skala, men for at vurdere hvilken der skal benyttes er vi nødt til at se på residualerne efter tilpasningen af en lineær regressionsmodel. Vi beskriver altså sammenhængen mellem BMI og alder ved en lineær regressionsmodel hvor afskæring og hældning begge kan afhænge af køn. Dette gøres både på original skala og på log-log skala. I begge tilfælde antager vi at fejlene er uafhængige og normalfordelte med samme varians. QQ-plot for residualerne. Original skala log log skala Residuals 10 0 10 20 30 Residuals.5 0.5 1 20 10 0 10 20.5 0.5 Der er ingen tvivl om at antagelserne bag den lineære regressionsmodel er mest rimelige på log-log skalaen. Man kan diskutere om der ikke stadig er afvigelser fra en ret linie i QQ-plottet, men det er slet ikke så markant som på original skala. Testet for samme hældning for de to køn giver en t-teststørrelse på 9.99 og en p-værdi som er mindre end 0.0001. Der er med andre ord klar evidens i data mod hypotesen om samme hældning (på log-log skala) for mænd og kvinder i den lineære regressionsmodel til beskrivelse af sammenhængen mellem BMI og alder. 5. Vi skal nu teste om der er nogen sammenhæng mellem BMI og alder for mændene og bagefter for kvinderne. Et test for hypotesen om at hældningen mellem BMI og alder (på log-log skala) er 0 for mændenes vedkommende giver en t-teststørrelse på 1.32 og en p-værdi på 0.187. Vi kan altså ikke afvise at hældningen er 0 for mændene. 3

Det tilsvarende test for kvinderne giver en klar forkastelse (p < 0.0001). Den lineære regressionsmodel kan altså ikke simplificeres yderligere. Estimater og 95%-konfidensintervaller for afskæringerne (α K og α M ) samt hældningen for kvinderne (β) bliver ˆα K = 2.224 [2.107, 2.342] ˆβ = 0.2608 [0.2300, 0.2915] ˆα M = 3.248 [3.241, 3.254] 6. Vi skal nu angive et estimat (og gerne et 95%-konfidensinterval) for forholdet mellem de forventede BMIværdier for en 60 og en 30 årig kvinde. Ud fra den lineære regressionsmodel har vi at dette forhold er givet ved som estimeres ved BMI 60 BMI 30 = 2 β 2 ˆβ = 1.20 [1.17, 1.22] Vi vil med andre ord forvente at en 60 årig kvinde i denne population har et BMI som er 20% højere end en 30 årig. Ifølge vores slutmodel vil dette forhold være 1 for mændene. Man kan argumentere for at vi har jo ikke vist at hældningen er 0 for mændene (på log-log skala) og at der derfor vil være knyttet noget usikkerhed til udsagnet om at forholdet er 1 for mændene. Det naturlige i den forbindelse ville være at bruge estimatet for hældningen for mændene på samme måde som vi gjorde for kvinderne med det dertil hørende 95%-konfidensinterval. (Her ville det give os 1.02 [0.99,1.04]). 7. Vi skal nu beregne risikoen for svær overvægt (BMI over 30 kg/m 2 ) i de to aldersgrupper, defineret ved om man er over 50 år eller ej, samt teste om de er ens. Svær Ikke svær overvægt overvægt Total Under 50 330 2822 3152 Over 50 251 1287 1538 Total 581 4109 4690 Estimaterne for sandsynligheden for svær overvægt i de to grupper er givet ved de relative hyppigheder Under 50: 10.47% [ 9.42%, 11.59%] Over 50: 16.32% [14.51%, 18.26%] Et χ 2 -test for hypotesen om samme sandsynlighed for svær overvægt ligegyldig om man er under eller over 50 giver en teststørrelse på 32.60 og en p-værdi som er mindre end 0.0001. Der er med andre ord klar evidens mod hypotesen om samme sandsynlighed for svær overvægt i de to aldersgrupper. Den relative risiko for svær overvægt bliver estimeret ved RR = 1.56 [1.34, 1.82] Med 95% sandsynlighed har vi altså at sandsynligheden for svær overvægt hos en person over 50 er mellem 34% og 82% større end sandsynligheden for svær overvægt hos en person under 50. 8. Vi skal nu beregne den relative risiko for svær overvægt for hvert køn. Mænd: Svær Ikke svær overvægt overvægt Total Under 50 153 1250 1403 Over 50 65 579 644 Total 218 1829 2047 4

I dette tilfælde bliver den relative risiko estimeret til RR Mænd = 0.93 [0.70, 1.22] Et χ 2 -test for hypotesen om samme sandsynlighed for svær overvægt i de to aldersgrupper for mænd giver en teststørrelse på 0.31 og en p-værdi på 0.58. Der er altså ikke noget i data som modsiger hypotesen om samme sandsynlighed for svær overvægt for mænd i de to aldersgrupper. Kvinder: Her bliver den relative risiko estimeret til Svær Ikke svær overvægt overvægt Total Under 50 177 1572 1749 Over 50 186 708 894 Total 363 2280 2643 RR Kvinder = 2.06 [1.70, 2.48] Et χ 2 -test for hypotesen om samme sandsynlighed for svær overvægt i de to aldersgrupper for kvinder giver en teststørrelse på 57.01 og en p-værdi som er mindre end 0.0001. Der er altså meget klar evidens i data mod hypotesen om samme sandsynlighed for svær overvægt for kvinder i de to aldersgrupper. Konklusionen er at mens vi ikke kan finde nogen signifikant sammenhæng mellem alder og overvægt for mændene, så er der en klar sammenhæng for kvindernes vedkommende hvor sandsynligheden for svær overvægt er dobbelt så stor for kvinder over 50 som for kvinder under 50. Man skal selvfølgelig passe på med at udtale sig om forskellen på mænd og kvinder, når man ikke har testet om der faktisk er en signifikant forskel, men man kan i hvert fald sige at den overordnede sammenhæng mellem alder og svær overvægt, som vi fandt i spørgsmål 7, skyldes at kvinderne trækker i den retning. 9. Vi skal nu betragte tid indtil hjertekarsygdom i fire BMI grupper (undervægtige, normalvægtige, overvægtige og svært overvægtige). Overlevelsesfunktionen i de fire BMI grupper. 0.00 0.25 0.50 0.75 1.00 Kaplan Meier survival estimates, by bmigrp 0 5000 10000 15000 analysis time bmigrp = 0 bmigrp = 20 bmigrp = 25 bmigrp = 30 Vi ser at der er forskel på de fire overlevelseskurver på den måde at for et givet tidspunkt, så er der større sandsynlighed for hjertekarsygdom jo mere man vejer. Spørgsmålet er om der er signifikant forskel på grupperne. Ved en analyse af data ved hjælp af Cox regressionsmodellen antager vi at sygdomsintensiteterne i de fire BMI grupper er proportionale β 1 = h normal (t) h under (t), β 2 = h over(t) h under (t), β 3 = h svært (t) h under (t) 5

Estimater for disse intensitetsforhold bliver ˆβ 1 = 1.84 [1.31, 2.59] ˆβ 2 = 3.02 [2.15, 4.24] ˆβ 3 = 3.78 [2.65, 5.38] Alle disse forhold er signifikant forskellige fra 1 (p-værdierne er alle mindre end 0.001), så gruppen af undervægtige skiller sig altså ud som havende en signifikant lavere sygdomsintensitet. Det kunne dog også være interessant at sammenligne gruppen af normalvægtige med grupperne af overvægtige samt de to grupper af overvægtige indbyrdes. Her får vi Overvægtig Normalvægtig : Svært overvægtig Normalvægtig : Svært overvægtig Overvægtig : ˆβ 2 ˆβ 1 = 1.64 [1.46, 1.84] ˆβ 3 ˆβ 1 = 2.05 [1.76, 2.39] ˆβ 3 ˆβ 2 = 1.25 [1.08, 1.45] Alle grupperne er altså indbyrdes signifikant forskellige. Det tætteste man kommer på at finde en signifikant forskel i sygdomsintensiteter er ved en sammenligning af de overvægtige med de svært overvægtige, hvor man får en p-værdi på 0.003. Cox regressionsmodellen bygger jo på antagelsen om proportionale intensiteter. En måde at undersøge rimeligheden af denne antagelse på er ved at se på logaritmen til de kumulerede sygdomsintensiteter. Nelson Aalen cumulative hazard estimates, by bmigrp 0.2 0.40 0.60 0.80 0 5000 10000 15000 analysis time bmigrp = 0 bmigrp = 20 bmigrp = 25 bmigrp = 30 Hvis Cox regressionsmodellen er rimelig da burde disse kurver være parallelle. Det ser dog ud til at der, især i starten, er markante afvigelser fra parallellitet. Man må derfor være varsom med at stole alt for meget på konklusionerne af analysen baseret på Cox regressionsmodellen. 10. Vi skal nu antage at sygdomsintensiteterne i de fire BMI grupper er konstante (hvad der ikke var videre rimeligt vurderet ud fra tegningerne). Sygdomsraterne estimeres ved antal sygdomstilfælde i forhold til persontid, Undervægtig : 6 per 1000 person-år [ 4, 8] Normalvægtig : 11 per 1000 person-år [10, 12] Overvægtig : 17 per 1000 person-år [16, 19] Svært overvægtig : 21 per 1000 person-år [19, 24] Vi ser altså stigende sygdomsrater med stigende vægt fra 6 per 1000 person-år for undervægtige til 19 per 1000 person-år for svært overvægtige. 6