MPH specialmodul Epidemiologi og Biostatistik

Relaterede dokumenter

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Lineær og logistisk regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

MPH specialmodul Epidemiologi og Biostatistik

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

1 Hb SS Hb Sβ Hb SC = , (s = )

En Introduktion til SAS. Kapitel 5.

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Epidemiologi og Biostatistik

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Statistik Lektion 4. Variansanalyse Modelkontrol

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Epidemiologi og Biostatistik

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Introduktion til overlevelsesanalyse

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Morten Frydenberg 14. marts 2006

Kapitel 12 Variansanalyse

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Normalfordelingen. Statistik og Sandsynlighedsregning 2

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Kapitel 7 Forskelle mellem centraltendenser

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Kapitel 12 Variansanalyse

Logistisk regression

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Reeksamen i Statistik for Biokemikere 6. april 2009

Modelkontrol i Faktor Modeller

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Løsning eksamen d. 15. december 2008

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Morten Frydenberg 26. april 2004

Generelle lineære modeller

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik II 4. Lektion. Logistisk regression

Multipel Lineær Regression

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Træningsaktiviteter dag 3

Modul 11: Simpel lineær regression

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Løsning til øvelsesopgaver dag 4 spg 5-9

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Module 4: Ensidig variansanalyse

Klasseøvelser dag 2 Opgave 1

Reeksamen i Statistik for biokemikere. Blok

Schweynoch, Se eventuelt

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Eksamen i Statistik for biokemikere. Blok

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Eksamen i Statistik og skalavalidering

Forsøgsplanlægning Stikprøvestørrelse

Logistisk regression

Basal statistik. 30. januar 2007

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Besvarelse af vitcap -opgaven

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Dag 6: Interaktion. Overlevelsesanalyse

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Konfidensintervaller og Hypotesetest

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Test nr. 5 af centrale elementer 02402

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Morten Frydenberg 25. april 2006

To-sidet varians analyse

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Variansanalyse (ANOVA)

(studienummer) (underskrift) (bord nr)

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Transkript:

MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1

Kapitelhenvisninger Andersen & Skovgaard: 3.1.1, 3.2.1, 4.1.1, 5.1-5.2, 5.4. Kirkwood & Sterne: 6, 7, 9, 10.1-10.2, 11. 2

Kvantitative responsvariable Indtil nu har vi primært betragtet binære responsvariable død / i live syg / rask. Analyser er blevet foretaget ved tests i tabeller og ved logistisk regression. Binære responsvariable ses ofte i epidemiologi, men ind i mellem støder vi også på kvantitative responsvariable levetider. 3

Analyse af kvantitative responsvarible Et udpluk af metoder til håndtering af kvantitative responsvariable Beskrivende statistik og grafer Sammenligning af to grupper (t-test, Wilcoxon s test) Sammenligning af flere grupper (ANOVA, ikke-parametriske tests) Lineær regression 4

Body mass index og vitamin D status Data er hentet fra Eksempel 1.1 i PKA & LTS. Data og program til at indlæse data i SAS kan findes på www.biostat.ku.dk/~linearpredictors/ Data indeholder information om alder, BMI, land og vitamin D status for 420 kvinder. Vi vil undersøge relationen mellem BMI og vitamin D status for de irske kvinder og inddeler BMI i to kategorier (normal- og overvægtig): 1 hvis kvinde i har BMI < 25 Z i = 2 hvis kvinde i har BMI 25 5

Vitamin D 20 40 60 80 100 Illustration af data < 25 >= 25 BMI 6

Beskrivende statistik BMI-gruppe Antal Median Gennemsnit (ȳ ) SD(y) Normalvægtig (1) 16 52.4 56.1 21.9 Overvægtig (2) 25 41.1 42.8 17.6 Her er ȳ = 1 n n i=1 y i SD(y) = 1 n 1 n i=1 (y i ȳ) 2 Hvad ser vi? 7

Beskrivende statistik i SAS Disse beskrivende mål og enkelte (primitive) grafer (histogram ( stem-and-leaf ) og box-plots) kan fås fra PROC UNIVARIATE. Bemærk at data først skal sorteres efter gruppevariablen. data irlwomen; set irlwomen; BMIgrp=1+(bmi>=25); if bmi=. then BMIgrp=.; run; proc sort data=irlwomen; by BMIgrp; run; proc univariate data=irlwomen plot; var vitd; by BMIgrp; run; 8

Sammenligning af to grupper Vi ønsker at sammenligne middelværdien af vitamin D status for normal- og overvægtige. En parametrisk sammenligning er baseret på middelværdi og SE. Konfidensintervaller for middelværdierne (95%) kan beregnes ved ȳ ± 1.96 SD(y) n, SD(y) n = SE(ȳ). Vi finder Gruppe Gennemsnit SE Konfidensinterval Normalvægtig 56.1 5.5 (45.4;66.9) Overvægtig 42.8 3.5 (35.9;49.7) 9

t-teststørrelsen er t = t-testet ȳ 1 ȳ 2 SE(ȳ 1 ȳ 2 ) hvor standardafvigelsen af differensen er 1 SE(ȳ 1 ȳ 2 ) = + 1 (n 1 1)SD(y 1 ) 2 + (n 2 1)SD(y 2 ) 2 n 1 n 2 n 1 + n 2 2 og giver mening hvis SD(y 1 ) SD(y 2 ) (kan testes). Vi finder t = 13.3 6.2 = 2.15 som er t-fordelt med df = n 1 + n 2 2 = 39 og dermed fås P = 0.038. Et t-test med sammenligning af to grupper kaldes også for to-stikprøve t-testet (two-sample). 10

t-test i SAS I SAS kan t-testet udføres vha. PROC TTEST proc ttest data=irlwomen; title t-test ; class BMIgrp; var vitd; run; Bemærk at SAS laver to t-tests 1) Pooled som svarer til t-testet ovenfor. 2) Satterthwaite som er et t-test som tillader forskellig standardafvigelse i de to grupper. SAS udfører tilmed et test for ens varianser (Folded F). Hvis P >.05 accepterer vi ens varianser og benytter 1). 11

Antagelser for t-testet Det er rimeligt at udføre et t-test når de fordelinger vi skal sammenligne er nogenlunde symmetriske. Testet fungerer bedst når fordelingerne er nogenlunde normalfordelte. Jo større stikprøve, jo bedre fungerer testet. 12

Ikke-parametrisk sammenligning af to grupper Er man bekymret for antagelserne for t-testet kan analysen suppleres med et ikke-parametrisk test, f.eks. et Wilcoxon rank sum test eller et Kruskal-Wallis test. Disse har lavere styrke. Teststørrelserne er baseret på rangordning af responsvariablen og bygger ikke på gennemsnit eller standardafvigelse. Den ikke-parametriske sammenligning kan foretages i SAS vha. PROC NPAR1WAY: proc npar1way data=irlwomen; class BMIgrp; var vitd; run; For Kruskal-Wallis finder vi en χ 2 -teststørrelse (df = 1) på 3.6 med tilhørende P = 0.06. 13

Parrede data Parrede data opstår når to grupper af data stammer fra samme gruppe af individer, dvs. at alle individerne måles to gange. Eksempler Blodtryk før og efter livsstilsændring. Læsescore før og efter 2. klasse. Parrede t-test opstår også når vi har matchede data, dvs. når der ikke er uafhængighed mellem målingerne i hver gruppe. 14

Vægt for anorektiske piger og familieterapi 17 anorektiske piger blev vejet før og efter familieterapi, som blev givet med formålet at øge deres vægt. Data er hentet fra Epidemiological Research Methods af McNeil: Subject Before After Subject Before After 1 38.0 43.2 9 33.3 43.1 2 37.8 42.8 10 36.5 34.1 3 39.0 41.5 11 37.0 35.3 4 37.4 41.7 12 37.3 43.3 5 39.3 45.5 13 35.2 41.2 6 36.1 34.8 14 37.9 42.0 7 34.9 34.8 15 40.8 42.6 8 42.7 46.1 16 39.0 41.6 17 39.6 44.5 15

Illustration af anoreksidata Vægt efter 30 35 40 45 50 30 35 40 45 50 Vægt før 16

Parret t-test Vi analyserer differenserne d = VaegtEfter VaegtFoer ved enten et t-test for at teste om differenserne har middelværdi 0. Her er d = 3.31, SD(d) = 3.26, 95% konfidensinterval (1.733;4.889) og t = 3.31 3.26/ 17 = 4.19, P = 0.0007. eller et ikke-parametrisk Wilcoxon signed rank sum test for at teste om medianen af differenserne er 0. 17

Parrede tests i SAS Det parrede t-test kan udføres i SAS vha. PROC TTEST proc ttest data=anoreksi; paired VaegtEfter*VaegtFoer; run; Det ikke parametriske kan udføres vha. PROC UNIVARIATE: data anoreksi; title Wilcoxon, anoreksi ; set anoreksi; diff=vaegtefter-vaegtfoer; run; proc univariate data=anoreksi; var diff; run; Bemærk at PROC UNIVARIATE også beregner et t-test på differenserne og at dette svarer til det parrede t-test. Dette svarer igen til et et-stik-prøve t-test på differenserne. 18

Sammenligning af flere grupper Sammenligning af responsen inden for en kategorisk variabel med flere grupper: Parametrisk: Ensidet variansanalyse (one-way ANOVA (ANalysis Of VAriance)). Dette svarer til lineær regression af responsen på en kategorisk (CLASS) variabel. Ikke-parametrisk: F.eks. et Kruskal-Wallis test (PROC NPAR1WAY) Sammenligning af responsen inden for to kategoriske variable: Parametrisk: Tosidet variansanalyse (two-way ANOVA). Dette svarer til lineær regression af responsen på to kategoriske (CLASS) variable. Til både ensidet- og tosidet variansanalyse benyttes PROC GENMOD. 19

Ensidet variansanalyse Definer en ny kategorisk variabel for BMI 1 hvis kvinde i har BMI < 25 Z i = 2 hvis kvinde i har 25 BMI 30 3 hvis kvinde i har BMI > 30. Modellen er E(Y i ) = a BMI < 25 a + b 1 25 BMI 30 a + b2 BMI > 30 I PROC GENMOD kan vi teste om der er en effekt af BMI ved at teste b 1 = b 2 = 0. 20

Tosidet variansanalyse Hvis vi også tager køn med er modellen E(Y i ) = a K BMI < 25 a + b 1 K 25 BMI 30 a + b 2 K BMI > 30 a + c 1 M BMI < 25 a + c 1 + b 1 M 25 BMI 30 a + c 1 + b 2 M BMI > 30 Her svarer c 1 til effekten af køn. NB: Ingen interaktion. 21

Mulige regressionsmodeller For en kvantitativ responsvariabel kan vi betragte følgende typer af forklarende variable og tilhørende modeller for Framingham med respons y = SBP (eller ln(sbp)): Type forklarende Eksempel Model En kvantitativ alder simpel lineær regression En binær køn t-test En kvalitativ grupperet alder one-way ANOVA En kvant. og en kval. alder og køn parallelle regressionslinier To kvalitative grupperet alder og køn two-way ANOVA 22

Antagelser for lineær regression Alle modellerne svarer til en lineær regressionsmodel. Det betyder at alle analyser kan udføres ved PROC GENMOD. Modellerne bygger på en række antagelser: linearitet (skal efterprøves) ingen interaktion / effektmodifikation (kan efterprøves), præcis som i logistisk regression. Derudover skal responsen have samme varians (SD) for alle individer, helst have normalfordelt fejl y E(y). Dette kan man checke (se PKA & LTS). 23

SAS-øvelser. De følgende spørgsmål drejer sig alle om Framingham studiet, og der henvises til variabellisten i forelæsningsnoterne fra 11. april. 1. Beskriv fordelingen af SBP og ln(sbp) for mænd og kvinder hver for sig med passende figurer, gennemsnit mm. 2. Sammenlign fordelingen af SBP og ln(sbp) mellem mænd og kvinder. 3. Undersøg om fordelingen af ln(sbp) har ændret sig fra indgang til sidste follow-up (for personer, som har gennemført hele studiet). 4. Undersøg om fordelingen af ln(sbp) er den samme i de fire aldersgrupper 45-48, 49-52, 53-56, 57-62. Brug både et parametrisk og et ikke-parametrisk test. 24

5. Undersøg om fordelingen af ln(sbp) afhænger af personernes vægt (FRW). Undersøg om fordelingen af ln(sbp) afhænger af personernes vægt (FRW), når der er korrigeret for køn og alder. 6. Undersøg om der er vekselvirkning mellem køn og alder. 25