Klasseøvelser dag 2 Opgave 1

Transkript

1 Klasseøvelser dag 2 Opgave Vi sætter først working directory og data indlæses: library( foreign ) d <- read.dbf( 'oxygen.dbf' ) head( d ) X agegr po2 1 1 old old old old old old 11.4 summary( d ) X agegr po2 Min. : 1.0 old :15 Min. : st Qu.: 7.5 young:12 1st Qu.:11.50 Median :14.0 Median :12.20 Mean :14.0 Mean : rd Qu.:20.5 3rd Qu.:12.85 Max. :27.0 Max. :14.30 Vi bemærker at vi har 3 variable og ingen manglende værdier (NA'er). Derudover ser vi, at aldersvariablen har to grupper (ung og gammel) 1.2. Vi laver et strip-chart: stripchart( d$po2 ~ d$agegr )

2 Der er observationer som ligger ovenpå hinanden i stripchartet. Ved at bruge method="jitter" bliver observationer som ligger oveni hinanden fordelt ud. Derudover kan vertical=t også benyttes for at plotte vertikalt: stripchart(d$po2 ~ d$agegr,method="jitter", vertical=t, ylab='po2' )

3 1.3. Vi beregner konfidensintervaller for de to grupper. Da antallet i hver gruppe er lille, skal vi helst benytte t-fordelingen. Vi får brug for at finde 2.5%-fraktilen i t-fordelingen men er først nødt til at kende antallet af frihedsgrader. Vi laver derfor en tabel af aldersvariablen: table( d$agegr ) old young Dvs. vi skal slå op i t-fordelingen med hhv. 12-1=11 og 15-1=14 frihedsgrader. Vi kan enten slå op bag i KS eller få R til at bestemme dem ved kommandoerne q1 <- qt( 0.025, df=11 ) q1 [1] q2 <- qt( 0.025, df=14 ) q2 [1] og har samtidigt gemt værdierne i q1 og q2.

4 Vi bestemmer nu mean og SE for hver gruppe m1 <- mean( d$po2[d$agegr=="young"] ) se1 <- sd( d$po2[d$agegr=="young"] ) / sqrt(12) m2 <- mean( d$po2[d$agegr=="old"] ) se2 <- sd( d$po2[d$agegr=="old"] ) / sqrt(15) og beregner CI'erne: m1 + q1* se1 [1] m1 - q1* se1 [1] m2 + q2* se2 [1] m2 - q2* se2 [1] Vi finder intervallerne til (12.19;13.41) for young gruppen og (11.02;12.23) for old gruppen. Dette kunne også være gjort nemmere ved et kald til t.test(), som automatisk giver os konfidensintervallet for middelværdien: d1 <- subset( d, agegr=="young" ) d2 <- subset( d, agegr=="old" ) t.test( d1$po2 ) One Sample t-test data: d1$po2 t = , df = 11, p-value = 5.749e-14 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x 12.8 t.test( d2$po2 ) One Sample t-test

5 data: d2$po2 t = 41.12, df = 14, p-value = 5.295e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x Vi laver et t-test for at teste hypotesen om at de middelværdien i de to grupper er ens: t.test( d$po2 ~ d$agegr, var.equal=true ) Two Sample t-test data: d$po2 by d$agegr t = , df = 25, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group old mean in group young Med en p-værdi på afvises hypotesen om at de to middelværdier er ens. Forskellen mellem de to grupper er: m1 -m2 [1] Dvs. oxygen trykket for de yngre ligger 1.17 højere end trykket for de ældre. Et 95% CI for denne forskel finder vi af kaldet til t-test ovenfor til (0.35;2.00) Vi laver nu analysen som en ensidet variansanalyse ved brug af lm(), summary() og confint()- kommandoerne. m1 <- lm( po2~agegr, data=d ) summary( m1 ) Call: lm(formula = po2 ~ agegr, data = d)

6 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** agegryoung ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 25 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 25 DF, p-value: confint( m1 ) 2.5 % 97.5 % (Intercept) agegryoung Vi ser, at vi får præcis samme værdier som ovenfor (estimeret forskel, CI, p-værdi) Vi undersøger antagelsen om normalitet og varianshomogenitet grafisk: hist( residuals(m1) )

7 stripchart( residuals(m1) ~ d$agegr, vertical=t, pch=19, method='jitter')

8 Med så få observationer er det ofte svært at afvise disse antagelser - og der er da heller ikke noget her, som tyder på at antagelserne er problematiske. Undersøgelsen af varianshomogenitet kan vi supplere med et formelt test: bartlett.test( d$po2 ~ d$agegr ) Bartlett test of homogeneity of variances data: d$po2 by d$agegr Bartlett's K-squared = , df = 1, p-value = Hypotesen om at varianserne er ens, kan derfor ikke afvises (p=0.64). Opgave Vi indlæser data: d <- read.dbf( 'folate.dbf' ) head( d ) folate group I I I I I I summary( d ) folate group Min. :206.0 I :8 1st Qu.:249.5 II :9 Median :274.0 III:5 Mean : rd Qu.:305.5 Max. :392.0 Vi har to variable og ingen missing values. 2.2 Antal deltagere i hver gruppe table( d$group )

9 2.3. I II III Vi danner et grafisk overblik ved brug af stripchart: stripchart( d$folate ~ d$group, method="jitter", vertical=t ) 2.4. Vi beregner gennemsnittet i hver gruppe mi <- mean( d$folate[ d$group=='i']) mii <- mean( d$folate[ d$group=='ii']) miii <- mean( d$folate[ d$group=='iii']) mi [1] mii [1] miii

10 [1] 278 og kan nu beregne forskellen mellem gruppe II og I, III og I samt III og II mii-mi [1] miii-mi [1] miii-mii [1] Et t-test hvor vi sammenligner gruppe II mod I kan vi gøre ved at 1. lave det i hånden, dvs selv bestemme mean og SD og beregne CI samt t-teststørrelse ved brug af formlerne givet i slides. 2. definere et subset kun indeholdende de to grupper og lave et t-test på dette datasæt: d0 <- subset(d, group=='i' group=='ii') # eller: d0 <- subset(d, group!='iii') table( d0$group ) I II III bartlett.test( d0$folate ~ d0$group ) Bartlett test of homogeneity of variances data: d0$folate by d0$group Bartlett's K-squared = , df = 1, p-value = t.test( d0$folate ~ d0$group, var.equal=t ) Two Sample t-test data: d0$folate by d0$group t = , df = 15, p-value = alternative hypothesis: true difference in means is not equal to 0

11 95 percent confidence interval: sample estimates: mean in group I mean in group II Bruge [] til at plukke de rette observationer ud (her bliver syntaksen meget tung): t.test( d$folate[ d$group == 'I' d$group == 'II'] ~ d0$group[ d$group == 'I' d$group == 'II'], var.equal=t ) Two Sample t-test data: d$folate[d$group == "I" d$group == "II"] by d0$group[d$group == "I" d$group == "II"] t = , df = 15, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group I mean in group II Vi finder at gruppe II ligger 60.2 lavere end gruppe I, 95% CI 10.0 til 110.3, p= Vi formulerer en model for hvordan middelværdien afhænger af, hvilken gruppe patienten tilhører (svarende til at hver gruppe har sin egen middelværdi) m1 <- lm( folate ~ group, data=d ) summary( m1 ) Call: lm(formula = folate ~ group, data = d) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-14 *** groupii * groupiii Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

12 Residual standard error: on 19 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 19 DF, p-value: Vi ser af output at gruppe I er referencegruppen, dvs vi får estimeret forskellen mellem gruppe II og I samt forskellen mellem III og I. Interceptet, dvs middelværdien i gruppe I, er således Gruppe II ligger enheder lavere end gruppe I, mens gruppe III kun ligger enheder lavere end gruppe I. Præcis de samme tal som vi fandt ved selv at beregne gruppegennemsnittene og forskelle herimellem ovenfor i spørgsmål Vi tester om der overhovedet er en sammenhæng mellem ventilationsgruppe og folatniveau. Vi kan lave et overall test for association ved brug af kommandoen aov() aov1 <- aov( m1 ) summary( aov1 ) Df Sum Sq Mean Sq F value Pr(>F) group * Residuals Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Med en borderline p-værdi på 0.04 kan vi vælge at afvise nul-hypotesen om ingen effekt af ventilationsgruppen på folatniveauerne. Vi konstaterer, at der er en forskel mellem mindst to af grupperne Forskellen mellem grupperne fandt vi i spørgsmål 3 ovenfor fra vores summary. ``` Der tilhørende konfidensinterval regnes som: confint( m1 ) 2.5 % 97.5 % (Intercept) groupii groupiii Vi bemærker at 0 indgår i konfidensintervallet for group III, hvilket også stemmer overens med at vi i vores summary ovenfor fandt p=0.15 for sammenligningen af gruppe III mod gruppe I. Vi bemærker at konfidensintervallet for sammenligningen af gruppe II mod gruppe I ikke er identisk med det vi fandt, da vi så isoleret på data fra gruppe I og II i spørgsmål 5. Det skyldes, at vi nu også bruger information fra gruppe III til at bestemme variansen på observationerne. Vi får

13 dermed et bedre bud på den fælles varians - og derfor er det bedre at lave testet byggende på observationer fra alle tre grupper Vi kan sammenligne alle grupperne parvist og tager højde for multipel testning: TukeyHSD( aov1 ) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = m1) $group diff lwr upr p adj II-I III-I III-II Med p-værdier på hhv og 0.68 er der ingen forskel mellem III-I og III-II, mens der fortsat er en forskel mellem I og II Normalfordelingsantagelsen vurderes ved et histogram hist( residuals(m1) )

14 som måske ser lidt flad ud. Varianshomogeniteten undersøges ved et stripchart stripchart(residuals(m1) ~ d$group, vertical=true, pch = 21, method = "jitter", ylab = "Residual", xlab = "Gruppe", group.names = c("i", "II", "III"))

15 såvel som Bartlett's test bartlett.test(d$folate ~ d$group) Bartlett test of homogeneity of variances data: d$folate by d$group Bartlett's K-squared = , df = 2, p-value = og der er intet tegn på, at antagelsen om ens varianser i de tre grupper skulle være problematisk (p=0.35). Opgave Vi indlæser intake data: d <- read.dbf( 'intake.dbf' ) head( d ) X pre post

16 dim( d ) [1] 11 3 summary( d ) X pre post Min. : 1.0 Min. :5260 Min. :3885 1st Qu.: 3.5 1st Qu.:5910 1st Qu.:4450 Median : 6.0 Median :6515 Median :5265 Mean : 6.0 Mean :6754 Mean :5433 3rd Qu.: 8.5 3rd Qu.:7515 3rd Qu.:6382 Max. :11.0 Max. :8770 Max. :7335 Vi har 3 variable, 11 observationer og ingen NA's Vi bruger plot() til at danne et overblik over sammenhængen mellem de to pre- og post intag (bemærk at vi aldrig ville sætte post-målingerne på x-aksen (hvorfor?)): par(las=1) plot( d$pre, d$post, xlab='pre', ylab='post' )

17 Vi ser umiddelbart en mulig lineær sammenhæng - jo højere pre-, jo højere postindtag For at teste om der er forskel på pre og post indtag, kan vi lave et one-sample t-test på differenserne. Her er nul-hypotesen, at middelværdien af differenserne er 0. d$diff <- d$post - d$pre t.test( d$diff ) One Sample t-test data: d$diff t = , df = 10, p-value = 3.059e-07 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x Med en p-værdi på < afvises nul-hypotesen. Der er altså forskel på middel pre- og post indtag. Imidlertid kunne vi have sparet os besvaret med at definere differensen idet man i t.test()- kommandoen kan benytte et argument paired=t, som fortæller R, at målingerne er parrede. t.test( d$post, d$pre, paired=t ) Paired t-test data: d$post and d$pre t = , df = 10, p-value = 3.059e-07 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of the differences Vi får helt samme resultat som vores eget t-test baseret på differenserne. 3.4 Betingelserne for at udføre denne analyse er, pga den lille stikprøve, at differenserne kan antages normalfordelte. Med så lille en stikprøve kan vi aldrig afgøre dette. Nogle gange er vi måske så helige at vide det fra tidligere lignende data.

18 Ser vi på et histogram af residualerne (observeret værdi minus gennemsnit) er der ikke noget tegn på at residualerne skulle være voldsomt skævt fordelt. hist( d$diff - mean(d$diff) ) Når betingelsen om normalfordeling ikke er opfyldt, vil man ofte i stedet lave et ikke-parametrisk test. Denne type tests tager vi fat på næste gang.