MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1
Kapitelhenvisninger Andersen & Skovgaard: 3.1.1, 3.2.1, 4.1.1, 5.1-5.2, 5.4. Kirkwood & Sterne: 6, 7, 9, 10.1-10.2, 11. 2
Kvantitative responsvariable Indtil nu har vi primært betragtet binære responsvariable død / i live syg / rask. Analyser er blevet foretaget ved tests i tabeller og ved logistisk regression. Binære responsvariable ses ofte i epidemiologi, men ind i mellem støder vi også på kvantitative responsvariable levetider. 3
Analyse af kvantitative responsvarible Et udpluk af metoder til håndtering af kvantitative responsvariable Beskrivende statistik og grafer Sammenligning af to grupper (t-test, Wilcoxon s test) Sammenligning af flere grupper (ANOVA, ikke-parametriske tests) Lineær regression 4
Body mass index og vitamin D status Data er hentet fra Eksempel 1.1 i PKA & LTS. Data og program til at indlæse data i SAS kan findes på www.biostat.ku.dk/~linearpredictors/ Data indeholder information om alder, BMI, land og vitamin D status for 420 kvinder. Vi vil undersøge relationen mellem BMI og vitamin D status for de irske kvinder og inddeler BMI i to kategorier (normal- og overvægtig): 1 hvis kvinde i har BMI < 25 Z i = 2 hvis kvinde i har BMI 25 5
Vitamin D 20 40 60 80 100 Illustration af data < 25 >= 25 BMI 6
Beskrivende statistik BMI-gruppe Antal Median Gennemsnit (ȳ ) SD(y) Normalvægtig (1) 16 52.4 56.1 21.9 Overvægtig (2) 25 41.1 42.8 17.6 Her er ȳ = 1 n n i=1 y i SD(y) = 1 n 1 n i=1 (y i ȳ) 2 Hvad ser vi? 7
Beskrivende statistik i SAS Disse beskrivende mål og enkelte (primitive) grafer (histogram ( stem-and-leaf ) og box-plots) kan fås fra PROC UNIVARIATE. Bemærk at data først skal sorteres efter gruppevariablen. data irlwomen; set irlwomen; BMIgrp=1+(bmi>=25); if bmi=. then BMIgrp=.; run; proc sort data=irlwomen; by BMIgrp; run; proc univariate data=irlwomen plot; var vitd; by BMIgrp; run; 8
Sammenligning af to grupper Vi ønsker at sammenligne middelværdien af vitamin D status for normal- og overvægtige. En parametrisk sammenligning er baseret på middelværdi og SE. Konfidensintervaller for middelværdierne (95%) kan beregnes ved ȳ ± 1.96 SD(y) n, SD(y) n = SE(ȳ). Vi finder Gruppe Gennemsnit SE Konfidensinterval Normalvægtig 56.1 5.5 (45.4;66.9) Overvægtig 42.8 3.5 (35.9;49.7) 9
t-teststørrelsen er t = t-testet ȳ 1 ȳ 2 SE(ȳ 1 ȳ 2 ) hvor standardafvigelsen af differensen er 1 SE(ȳ 1 ȳ 2 ) = + 1 (n 1 1)SD(y 1 ) 2 + (n 2 1)SD(y 2 ) 2 n 1 n 2 n 1 + n 2 2 og giver mening hvis SD(y 1 ) SD(y 2 ) (kan testes). Vi finder t = 13.3 6.2 = 2.15 som er t-fordelt med df = n 1 + n 2 2 = 39 og dermed fås P = 0.038. Et t-test med sammenligning af to grupper kaldes også for to-stikprøve t-testet (two-sample). 10
t-test i SAS I SAS kan t-testet udføres vha. PROC TTEST proc ttest data=irlwomen; title t-test ; class BMIgrp; var vitd; run; Bemærk at SAS laver to t-tests 1) Pooled som svarer til t-testet ovenfor. 2) Satterthwaite som er et t-test som tillader forskellig standardafvigelse i de to grupper. SAS udfører tilmed et test for ens varianser (Folded F). Hvis P >.05 accepterer vi ens varianser og benytter 1). 11
Antagelser for t-testet Det er rimeligt at udføre et t-test når de fordelinger vi skal sammenligne er nogenlunde symmetriske. Testet fungerer bedst når fordelingerne er nogenlunde normalfordelte. Jo større stikprøve, jo bedre fungerer testet. 12
Ikke-parametrisk sammenligning af to grupper Er man bekymret for antagelserne for t-testet kan analysen suppleres med et ikke-parametrisk test, f.eks. et Wilcoxon rank sum test eller et Kruskal-Wallis test. Disse har lavere styrke. Teststørrelserne er baseret på rangordning af responsvariablen og bygger ikke på gennemsnit eller standardafvigelse. Den ikke-parametriske sammenligning kan foretages i SAS vha. PROC NPAR1WAY: proc npar1way data=irlwomen; class BMIgrp; var vitd; run; For Kruskal-Wallis finder vi en χ 2 -teststørrelse (df = 1) på 3.6 med tilhørende P = 0.06. 13
Parrede data Parrede data opstår når to grupper af data stammer fra samme gruppe af individer, dvs. at alle individerne måles to gange. Eksempler Blodtryk før og efter livsstilsændring. Læsescore før og efter 2. klasse. Parrede t-test opstår også når vi har matchede data, dvs. når der ikke er uafhængighed mellem målingerne i hver gruppe. 14
Vægt for anorektiske piger og familieterapi 17 anorektiske piger blev vejet før og efter familieterapi, som blev givet med formålet at øge deres vægt. Data er hentet fra Epidemiological Research Methods af McNeil: Subject Before After Subject Before After 1 38.0 43.2 9 33.3 43.1 2 37.8 42.8 10 36.5 34.1 3 39.0 41.5 11 37.0 35.3 4 37.4 41.7 12 37.3 43.3 5 39.3 45.5 13 35.2 41.2 6 36.1 34.8 14 37.9 42.0 7 34.9 34.8 15 40.8 42.6 8 42.7 46.1 16 39.0 41.6 17 39.6 44.5 15
Illustration af anoreksidata Vægt efter 30 35 40 45 50 30 35 40 45 50 Vægt før 16
Parret t-test Vi analyserer differenserne d = VaegtEfter VaegtFoer ved enten et t-test for at teste om differenserne har middelværdi 0. Her er d = 3.31, SD(d) = 3.26, 95% konfidensinterval (1.733;4.889) og t = 3.31 3.26/ 17 = 4.19, P = 0.0007. eller et ikke-parametrisk Wilcoxon signed rank sum test for at teste om medianen af differenserne er 0. 17
Parrede tests i SAS Det parrede t-test kan udføres i SAS vha. PROC TTEST proc ttest data=anoreksi; paired VaegtEfter*VaegtFoer; run; Det ikke parametriske kan udføres vha. PROC UNIVARIATE: data anoreksi; title Wilcoxon, anoreksi ; set anoreksi; diff=vaegtefter-vaegtfoer; run; proc univariate data=anoreksi; var diff; run; Bemærk at PROC UNIVARIATE også beregner et t-test på differenserne og at dette svarer til det parrede t-test. Dette svarer igen til et et-stik-prøve t-test på differenserne. 18
Sammenligning af flere grupper Sammenligning af responsen inden for en kategorisk variabel med flere grupper: Parametrisk: Ensidet variansanalyse (one-way ANOVA (ANalysis Of VAriance)). Dette svarer til lineær regression af responsen på en kategorisk (CLASS) variabel. Ikke-parametrisk: F.eks. et Kruskal-Wallis test (PROC NPAR1WAY) Sammenligning af responsen inden for to kategoriske variable: Parametrisk: Tosidet variansanalyse (two-way ANOVA). Dette svarer til lineær regression af responsen på to kategoriske (CLASS) variable. Til både ensidet- og tosidet variansanalyse benyttes PROC GENMOD. 19
Ensidet variansanalyse Definer en ny kategorisk variabel for BMI 1 hvis kvinde i har BMI < 25 Z i = 2 hvis kvinde i har 25 BMI 30 3 hvis kvinde i har BMI > 30. Modellen er E(Y i ) = a BMI < 25 a + b 1 25 BMI 30 a + b2 BMI > 30 I PROC GENMOD kan vi teste om der er en effekt af BMI ved at teste b 1 = b 2 = 0. 20
Tosidet variansanalyse Hvis vi også tager køn med er modellen E(Y i ) = a K BMI < 25 a + b 1 K 25 BMI 30 a + b 2 K BMI > 30 a + c 1 M BMI < 25 a + c 1 + b 1 M 25 BMI 30 a + c 1 + b 2 M BMI > 30 Her svarer c 1 til effekten af køn. NB: Ingen interaktion. 21
Mulige regressionsmodeller For en kvantitativ responsvariabel kan vi betragte følgende typer af forklarende variable og tilhørende modeller for Framingham med respons y = SBP (eller ln(sbp)): Type forklarende Eksempel Model En kvantitativ alder simpel lineær regression En binær køn t-test En kvalitativ grupperet alder one-way ANOVA En kvant. og en kval. alder og køn parallelle regressionslinier To kvalitative grupperet alder og køn two-way ANOVA 22
Antagelser for lineær regression Alle modellerne svarer til en lineær regressionsmodel. Det betyder at alle analyser kan udføres ved PROC GENMOD. Modellerne bygger på en række antagelser: linearitet (skal efterprøves) ingen interaktion / effektmodifikation (kan efterprøves), præcis som i logistisk regression. Derudover skal responsen have samme varians (SD) for alle individer, helst have normalfordelt fejl y E(y). Dette kan man checke (se PKA & LTS). 23
SAS-øvelser. De følgende spørgsmål drejer sig alle om Framingham studiet, og der henvises til variabellisten i forelæsningsnoterne fra 11. april. 1. Beskriv fordelingen af SBP og ln(sbp) for mænd og kvinder hver for sig med passende figurer, gennemsnit mm. 2. Sammenlign fordelingen af SBP og ln(sbp) mellem mænd og kvinder. 3. Undersøg om fordelingen af ln(sbp) har ændret sig fra indgang til sidste follow-up (for personer, som har gennemført hele studiet). 4. Undersøg om fordelingen af ln(sbp) er den samme i de fire aldersgrupper 45-48, 49-52, 53-56, 57-62. Brug både et parametrisk og et ikke-parametrisk test. 24
5. Undersøg om fordelingen af ln(sbp) afhænger af personernes vægt (FRW). Undersøg om fordelingen af ln(sbp) afhænger af personernes vægt (FRW), når der er korrigeret for køn og alder. 6. Undersøg om der er vekselvirkning mellem køn og alder. 25