Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Relaterede dokumenter
Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Morten Frydenberg Biostatistik version dato:

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Dag 6: Interaktion. Overlevelsesanalyse

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Morten Frydenberg 26. april 2004

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Logistisk Regression - fortsat

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Postoperative komplikationer

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Konfidensintervaller og Hypotesetest

Introduktion til overlevelsesanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Løsning til opgave i logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Ikke-parametriske tests

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Overlevelsesanalyse. Faculty of Health Sciences

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

9. Chi-i-anden test, case-control data, logistisk regression.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

2 Logaritme- og eksponentialfunktion 6

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Løsning eksamen d. 15. december 2008

- Medlemsundersøgelse, Danske Fysioterapeuter, Juni Danske Fysioterapeuter. Kvalitet i træning

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Afdeling for Anvendt Matematik og Statistik December 2006

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Opgavebesvarelse, Basalkursus, uge 3

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Opgavebesvarelse, Basalkursus, uge 3

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Opgavebesvarelse, Basalkursus, uge 3

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistiske Modeller 1: Kontingenstabeller i SAS

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Morten Frydenberg 14. marts 2006

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Kausalitet. Introduktion til samfundsvidenskabelig metode. Samfundsvidenskabelig metode. Hvad er metode? Hvad er kausalitet.

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Løsning til eksaminen d. 29. maj 2009

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Opgavebesvarelse, Basalkursus, uge 3

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Logistisk regression

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Lineær og logistisk regression

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistik kommandoer i Stata opdateret 22/ Erik Parner

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Generelle lineære modeller

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgavebesvarelse vedr. overlevelsesanalyse

Dagens program. Praktisk information:

Løsning til eksaminen d. 14. december 2009

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Opgavebesvarelse, logistisk regression

Uge 13 referat hold 4

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Løsning til eksamen d.27 Maj 2010

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Statistik II 1. Lektion. Analyse af kontingenstabeller

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Besvarelse af vitcap -opgaven

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program dag 2 (11. april 2011)

Logistisk regression

Introduktion til overlevelsesanalyse

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Transkript:

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod tuberkolose) og DTP (mod difteri, stivkrampe og kighoste). Opgave 1. Tidsaksen i denne opgave er defineret som follow-up tid fra første besøg. Dette er problematisk da risikoen for at dø, når man er 0 mdr. er større, end når man er 3 mdr. Der skelnes ikke mellem de forskellige aldre, og de bidrager derfor med samme risikotid. Der opstår således en venstretrunkering ved denne definering af tidsaksen. Dette tager man højde for ved at inddrage en forklarende variabel, hvor der deles ved 3 mdr. Dem der blev inkluderet før, og dem der blev inkluderet efter. Her bruges alder som den forklarende variabel ved første besøg. Hvis man gør det, fås den sande størrelse follow-up tid, men det løser ikke problemet med, at børnene havde forskellige aldre ved indgang i studiet, idet vi så at sige nulstiller alderseffekten. Den optimale løsning er selvfølgelig at følge børnene fra fødslen. Dette vil dog være utopisk at forestille sig, at denne løsning kan bruges i u-lande da de logistiske problemer vil være for store. Man vælger her at benytte børnenes alder ved død eller censurering som tidsakse, hvorved man forestiller sig, at have fulgt børnene fra de blev født, til de udgik af studiet. Problemet med en sådan definering af tidsaksen er, at vi antager at have fulgt børnene fra fødslen på trods af, at nogle af børnene var ældre. Derved får vi meget mere follow-up tid, end der i virkeligheden er. Endvidere antages det, at alle børn er vaccineret/ikke-vaccineret ved fødsel. Dette er ikke tilfældet, og ligeledes antages at alle er lige gamle ved vaccinationstid. En positiv ting ved denne tilgang er, at risiko for død og overlevelse udtrykkes i forhold til barnets alder, og man undgår ovenstående problematik Opgave 2 1

Vi laver en tabel, der illustrerer dødeligheden for børn, der er BCG-vaccineret vs ikke-vaccineret. Vi benytter den grupperede alders-variabel til tabellen. Dette gøres, for at give læseren en forståelse for fordelingen af de enkelte variable. Died within * BCG vaccinated * Age in groups Crosstabulation Age in groups 0-1 mo 2-3 mo 4-6 mo Died within next 6 months Total Died within next 6 months Total Died within next 6 months Total Alive Dead Alive Dead Alive Dead BCG vaccinated No Yes Total 1003 684 1687 59,5% 40,5% 100,0% 55 21 76 72,4% 27,6% 100,0% 1058 705 1763 60,0% 40,0% 100,0% 513 1150 1663 30,8% 69,2% 100,0% 26 37 63 41,3% 58,7% 100,0% 539 1187 1726 31,2% 68,8% 100,0% 360 1342 1702 21,2% 78,8% 100,0% 16 67 83 19,3% 80,7% 100,0% 376 1409 1785 21,1% 78,9% 100,0% Herefter valgte vi at lave en χ 2 -test, for at afgøre om der er en signifikant forskel på grupperne. En χ 2 -test er en approksimativ test, der anvendes til sammenligning af frekvenser. En χ2-test af nulhypotesen om andelen af vaccinerede og ikke-vaccinerede, er den samme. Princippet er, at det observerede og det forventede antal døde sammenlignes. Chi-Square Tests 2

Age in groups Value df Asymp. Sig. (2-sided) 0-1 mo Pearson Chi- Square 5,054(b) 1,025 Continuity Correction(a) 4,530 1,033 Likelihood Ratio 5,289 1,021 Exact Sig. (2-sided) Exact Sig. (1-sided) Fisher's Exact Test,031,015 Linear-by-Linear Association 5,051 1,025 N of Valid Cases 1763 2-3 mo Pearson Chi- Square 3,070(c) 1,080 Continuity Correction(a) 2,604 1,107 Likelihood Ratio 2,930 1,087 Fisher's Exact Test,096,056 Linear-by-Linear Association 3,068 1,080 N of Valid Cases 1726 4-6 mo Pearson Chi- Square,167(d) 1,683 Continuity Correction(a),074 1,786 Likelihood Ratio,171 1,679 Fisher's Exact Test,783,402 Linear-by-Linear Association,167 1,683 N of Valid Cases 1785 a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 30,39. c 0 cells (,0%) have expected count less than 5. The minimum expected count is 19,67. d 0 cells (,0%) have expected count less than 5. The minimum expected count is 17,48. Udelad tabeller som ovenstående Det er kun i aldersgruppen 0-1 måneder, at forskellen på overlevelsen mellem vaccinerede og ikkevaccinerede er signifikant (p-værd<0,05). Det vil sige, at alder har en selvstændig betydning for dødeligheden. Nej, tabellen siger ikke noget om alderens betydning Opgave 3 3

Vi vil nu estimere overlevelsesfunktionen ved hjælp af Kaplan-Meier estimatoren for BCGvaccinerede vs ikke-vaccinerede. Estimatoren udtrykkes: S t = ti t x i 1 x i Xi?, ti?, t? Forskellen er illustreret ved en tegning. Overlevelsesfunktionerne er endvidere sammenlignet med en logrank-test. Med logrank-testet søger vi at sammenligne det observerede antal døde med det forventede antal døde under antagelse af at der i de to grupper der sammenlignes er den samme dødelighed. Der testes altså en nul-hypotese om, at der ingen forskel er på overlevelsesfunktionen for henholdsvis vaccinerede og ikke-vaccinerede. Survival Functions 1,00 0,98 BCG vaccinated No Yes No-censored Yes-censored Cum Survival 0,96 0,94 0,92 0,90 0 50 100 150 200 Follow-up time 4

Rediger i output så det bliver mere læsevenligt: Overskrift, enheder osv. Survival Analysis for time Follow-up time Total Number Number Percent Events Censored Censored bcg No 1973 97 1876 95,08 bcg Yes 3301 125 3176 96,21 Overall 5274 222 5052 95,79 Test Statistics for Equality of Survival Distributions for bcg Udelad alt dette Statistic df Significance Log Rank 4,38 1,0364 Individer der er vaccineret med en BCG-vaccine har en større overlevelse, end individer der ikke er vaccineret. Dette ses på overlevelseskurven og ved logrank-testen. Logrank testetn er en ikkenon-parametrisk metode som tester nul hypotesen, at de to grupper der sammenlignes kommer fra den samme population med hensyn til overlevelse. Test størrelsen er under nul- hypotesen approksimativt X²-fordelt med 1 frihedsgrad. Logrank = 4,38; df =1. p<0,05 Præcis P-værdi! Der er således signifikant forskel på overlevelsen for BCG-vaccineret vs ikke BCG-vaccineret. 5

Det samme gøres også for DTP-vaccineret vs ikke vaccineret. Survival Functions 1,00 0,98 DTP vaccinated No Yes No-censored Yes-censored Cum Survival 0,96 0,94 0,92 0,90 0 50 100 150 200 Follow-up time Survival Analysis for time Follow-up time Total Number Number Percent Events Censored Censored dtp No 3101 128 2973 95,87 dtp Yes 2173 94 2079 95,67 Overall 5274 222 5052 95,79 Test Statistics for Equality of Survival Distributions for dtp Statistic df Significance Log Rank,09 1,7675 6

Den bedste overlevelse for de vaccinerede er i starten. Men så sker der noget. Efter et halvt år har de vaccinerede den samme overlevelse som de ikke-vaccinerede. Log rank = 0,09; df =1. p>0,05 Der er således ingen signifikant forskel på overlevelsen mellem DTP-vaccineret vs ikke DTPvaccineret. Test størrelsen er i dette tilfælde dog heller ikke signifikant (p=0,7675). På kort sigt giver DTP-vaccinen ikke en forbedret overlevelseschance. Effekten af vaccinen vil muligvis kunne måles senere i den vaccineredes liv. Derfor kan man ikke konkludere at vaccinen skal forbydes. Opgave 4 7

Vi vil her estimere overlevelsesfunktionen for alle fire vaccinationskombinationer. Survival Functions Cum Survival 1,00 0,98 0,96 0,94 vacc bcg begge dtb Ingen vaccination bcg-censored beggecensored dtb-censored Ingen vaccinationcensored 0,92 0,90 0 50 100 150 200 Follow-up time Survival Analysis for time Follow-up time Total Number Number Percent Events Censored Censored vacc Ingen vaccination 1942 95 1847 95,11 vacc dtb 31 2 29 93,55 vacc bcg 1159 33 1126 97,15 vacc begge 2142 92 2050 95,70 Overall 5274 222 5052 95,79 8

Resultaterne viser, at vaccinationen har en positiv effekt. Individer der har begge vacciner har en større overlevelse end individer der ikke har nogle af vaccinerne. Men individer der kun har BCGvaccinen har en større overlevelse end dem der kun er vaccineret med DTP. De vaccinerede med BCG har også en større overlevelse end dem med begge vaccinationer. Når man kun bliver vaccineret med BCG, har man den største overlevelse, end hvis man bliver vaccineret med begge. Ingen vaccine er den dårligste. Upræcist Opgave 5 Vi vil her benytte en Cox-model til at belyse effekten af vaccinationer. Skriv modellen! Variables in the Equation B SE Wald df Sig. Exp(B) bcg -,555,192 8,321 1,004,574 dtp,407,193 4,442 1,035 1,502 Forklar betydningen af parameter-estimater Vi vil her gøre det samme bare med inddragelse af alder ved første besøg som forklarende variabel. agem( a) Categorical Variable Codings(b) Frequency (1) (2) (3) (4) (5) (6) 0 874 1 0 0 0 0 0 1 889 0 1 0 0 0 0 2 919 0 0 1 0 0 0 3 807 0 0 0 1 0 0 4 759 0 0 0 0 1 0 5 695 0 0 0 0 0 1 6 331 0 0 0 0 0 0 a Indicator Parameter Coding b Category variable: agem (Age (months)) Udelad den slags tabeller 9

Variables in the Equation B SE Wald df Sig. Exp(B) bcg -,553,194 8,079 1,004,576 dtp,369,216 2,903 1,088 1,446 agem 6,003 6,423 1 mdr.,163,366,198 1,656 1,177 2 mdr.,296,360,677 1,411 1,344 3 mdr. -,151,363,174 1,677,860 4 mdr.,256,346,549 1,459 1,292 5 mdr.,369,343 1,157 1,282 1,446 6 mdr.,353,347 1,033 1,309 1,423 SPSS angiver 6 mdr. som referencegruppe. Når man tester i for små intervaller, mister man ofte den signifikans vi ser i bredden. Upræcist Dette betyder at stikprøvestørrelser samplesize bliver for små og derfor er det ikke muligt at konkluderer noget. Selv med inddragelse af alder som forklarende variabel ses, at BCG-vaccinen giver en større overlevelse, og prognosen er således bedre for disse individer. DTP er ikke længere signifikant med inddragelse af alder. I nedenstående undersøger vi betydningen af køn og ernæringstilstand samlet og hver for sig. Variables in the Equation B SE Wald Df Sig. Exp(B) bcg -,559,192 8,474 1,004,572 dtp,405,193 4,397 1,036 1,500 sex -,303,136 4,918 1,027,739 Her ses, at køn har en betydning for overlevelsen. Dette kan vi se ved at kigge på beta-værdien (-0,303) Forklar betydningen og at der er signifikans (P-værdi = 0,027). Det kommer ikke som noget stor overraskelse, da pigebørn i mange liggende undersøgelser har en forbedret overlevelse. Variables in the Equation 10

B SE Wald df Sig. Exp(B) bcg -,544,233 5,465 1,019,580 dtp,736,236 9,738 1,002 2,088 braco -,020,004 23,875 1,000,980 Her ses, at ernæringstilstand også har betydning, men ikke i så høj grad som køn. Dette kan vi se ved at kigge på beta-værdien (-0,020) og at der er signifikans (P-værdi < 0,001). Her ses den samlede effekt af vaccinationerne med inddragelse af køn og ernæringstilstand. Variables in the Equation B SE Wald df Sig. Exp(B) bcg -,553,233 5,639 1,018,575 dtp,771,237 10,569 1,001 2,161 braco -,021,004 26,899 1,000,979 sex -,374,160 5,497 1,019,688 Her ses, at køn har betydning. Konklusionen er, at hvis man vil tilnærme sig en god overlevelseschance er ernæringstilstand, målt som tykkelses af arme mm, vaccine med BCG og det at være født som en pige en god kombination hvis overlevelseschancen skal forbedres Opgave 6 11

Afslutningsvis vil vi diskutere proportional hazard-antagelsen. Variables in the Equation B SE Wald df Sig. Exp(B) bcg -,547,233 5,524 1,019,579 agem,130,053 6,060 1,014 1,138 braco -,024,004 36,536 1,000,977 LML Function at mean of covariates -2 BCG vaccinated No Yes -4 Log minus log -6-8 -10 0 50 100 150 200 Follow-up time Her ses, at ingen vaccination med BCG-vaccination tilnærmelsesvis er en faktor højere end vaccination med BCG gennem follow-up tiden. 12

Variables in the Equation B SE Wald df Sig. Exp(B) agem,130,053 6,099 1,014 1,139 braco -,024,004 36,609 1,000,977 dtp,501,254 3,883 1,049 1,650 LML Function at mean of covariates -2 DTP vaccinated No Yes -4 Log minus log -6-8 -10 0 50 100 150 200 Follow-up time 13

Her ses, at de krydser hinanden. Dette betyder at der ikke kan konkluderes at DTP vaccinen har en positiv effekt af vaccinen. Det betyder at dødeligheden for vaccinerede og ikke-vaccinerede ikke kan adskilles. I det korte tidsinterval kan det ikke siges noget om hvor effektiv vaccinen er. Mange gode elementer! Tabeller og output skal være mere læsevenligt Skriv statistiske modeller op Forklar betydningen af estimaterne 14