For at få 8 linjer ud, skal dette specifiseres i kommandoen ved at sætte antal lig 8 n=8:

Transkript

1 Klasseøvelser dag 1 Opgave Vi gemmer først dbase filen "perulung.dbf" i den relevante mappe og derefter sættes working directory til denne mappe ved at vælge menuen Session -> Set Working Directory -> Choose Directory. Derefter indlæses foreign-pakken, som er nødvendig for at kunne indlæse dbf-filen. Vi navngiver vores data d ved indlæsning: library(foreign) d <- read.dbf('perulung.dbf') 1.2. For at printe de første linjer benyttes head()-funktionen, hvis standardindstilling giver de første 6 linjer af data: head(d) ## X id fev1 age height sex respsympto ## ## ## ## ## ## For at få 8 linjer ud, skal dette specifiseres i kommandoen ved at sætte antal lig 8 n=8: head(d,n=8) ## X id fev1 age height sex respsympto ## ## ## ## ## ## ## ## Størrelsen af datasættet importeret kan undersøges med kommandoen dim() (DIMension):. dim(d) ## [1] 636 7

2 Den første tal i output angiver antal linier i datasættet, dvs. antallet af børn i vores datasæt. Det andet tal angiver antallet af variable i datasættet, dvs. hvor mange forskellige parametre der er registreret på hvert barn Median og mean for data kan findes med kommandoerne median() og mean(). Vi er interesseret i at finde median og mean for variablen height i vores datasæt d, som vi kan få fat i ved at benytte $-notationen: d$height Vi skal finde median og mean for pigerne. Vi kan trække højden ud for piger ved at vælge (sex==0) i []: d$height[ d$sex==0 ] Vi kan nu finde både median og mean: median( d$height[ d$sex==0 ] ) ## [1] mean( d$height[ d$sex==0 ] ) ## [1] Vi skal finde ud af, hvor mange børn som har en højde over 140 cm. Vi benytter igen []- notationen og vælger at printe højderne for disse børn: d$height[ d$height > 140 ] ## [1] Vi ser at der er 5 personer i data med en højde over 140 cm. Havde der været mange høje børn i vores datasæt kunne vi istedet bede R tælle op, hvor mange høje børn der er ved at benytte length()-kommandoen som tæller hvor mange elementer der er i en vektor: length( d$height[ d$height > 140 ] ) ## [1] Vi danner et nyt datasæt for individer over 140 cm med kommandoen subset(). Vi kalder vores nye data for d2: d2 <- subset( d, height > 140 ) Normalt bruger vi head() kommandoen til at få et hurtigt kig på data men da der kun er 5 personer i dette datasæt d2, får vi printet hele datasættet: head( d2 )

3 ## X id fev1 age height sex respsympto ## ## ## ## ## Vi kunne også have brugt kommandoen View (View( d2 )) og R ville have vist os dette dataark i en ny fane i stedet for i konsolvinduet. Vi ser at den højeste er 149 cm og med sex=1, dvs. en dreng. En anden måde at finde det højeste barn på er er ved at benytte kommandoen max(): max( d2$height ) ## [1] 149 Her giver R os værdien 149 cm og med denne information, kan vi danne et print: subset(d2,height == 149) ## X id fev1 age height sex respsympto ## Hvilket også viser at det højeste barn vi har data på er en dreng på 149 cm. Opgave På samme måde som beskrevet i opgave 1 indlæses datasættet "sundby0.dbf" i et datasæt ved navn dn i R: dn <- read.dbf( 'sundby0.dbf' ) 2.2. For at undersøge hvor mange variable, som er indeholdt i data, benyttes dim(): dim( dn ) ## [1] Så vi har 1500 observationer og 5 variable. For at få et bedre overblik over data, kan kommandoerne head() og summary() benyttes: head( dn ) ## id gender age wgt ht ## ## ## NA 191 ## ## ##

4 summary( dn ) ## id gender age wgt ## Min. : 2.0 Min. :1.000 Min. :18.00 Min. : 32.0 ## 1st Qu.: st Qu.: st Qu.: st Qu.: 60.0 ## Median : Median :2.000 Median :35.00 Median : 70.0 ## Mean : Mean :1.561 Mean :41.24 Mean : 70.9 ## 3rd Qu.: rd Qu.: rd Qu.: rd Qu.: 80.0 ## Max. : Max. :2.000 Max. :93.00 Max. :140.0 ## NA's :26 NA's :22 NA's :51 ## ht ## Min. :148.0 ## 1st Qu.:166.0 ## Median :172.0 ## Mean :172.9 ## 3rd Qu.:180.0 ## Max. :200.0 ## NA's : Kommandoen til at lave tabeller er table(): table( dn$gender ) ## ## 1 2 ## Så der er 647 mænd og 827 kvinder. Vi finder det samlede antal deltagere ved at lægge de to tal sammen: sum( table( dn$gender ) ) ## [1] 1474 Idet det samlede datasæt har 1500 observationer er det nu tydeligt, at der for 26 af deltagerne ikke er registreret køn. Det er også muligt at se i summary() kommandoen fra tidligere i opg eller ved at bede R tabellere antal med manglende værdier ved at tilføje argument usena='ifany: table( dn$gender, usena='ifany' ) ## ## 1 2 <NA> ## Vi tilføjer BMI-variablen og undersøger om den ser rigtig ud vha. head(): dn$bmi <- dn$wgt / dn$ht^2 head( dn ) ## id gender age wgt ht bmi ##

5 ## ## NA 191 NA ## ## ## Vi ser at vores BMI-variabel blev forkert defineret, fordi højden er registreret i centimeter, og retter derfor BMI-variable til: dn$bmi <- dn$wgt / ( dn$ht/100 )^2 head( dn ) ## id gender age wgt ht bmi ## ## ## NA 191 NA ## ## ## BMI er nu beregnet korrekt. 2.5.(a) Vi definerer et nyt subset kun indeholdende observationer for mænd, hvilket gøres ved at bruge kommandoen subset() og definere at vil trække observationer ud hvor gender==1: dm <- subset(dn, gender==1) 2.5(b) For at finde range i R, kan range()-funktionen benyttes. Det er kan være et problem hvis der missing values NA, dette undgåes ved at skrive na.rm=t i range(): range(dm$bmi) ## [1] NA NA range(dm$bmi,na.rm=t) ## [1] Hvilket løser vores problem. 2.5(c) Vi kan undersøge fordelingen af bmi-variablen ved at danne et histogram: hist(dm$bmi)

6 Da vi kender normalfordeling som symmetrisk, og da bmi er tilnærmelsesvis symmetrisk, lader det til at denne er normalfordelt. 2.5(d) Vi starter med at beregne mean(): mean(dm$bmi,na.rm=t) ## [1] Vi er opmærksomme på at der kan være missing observations for bmi, hvilket kan undersøges med summary(): summary(dm$bmi) ## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's ## Ud af 647 observationer er der 19 missing values. Vi skal derfor undgå disse NA når vi beregner konfidens interval. Vi husker at konfidensintervallet beregnes som middelværdien plus minus 1.96 ganget med standard afvigelsen, som bliver divideret med kvadratroden til Med følgende resultat: mean(dm$bmi,na.rm=t)+1.96*sd(dm$bmi,na.rm=t)/sqrt(647-19)

7 ## [1] mean(dm$bmi,na.rm=t)-1.96*sd(dm$bmi,na.rm=t)/sqrt(647-19) ## [1] Konfidens intervallet bliver da: (23.98;24.48). 2.6.(a)-(d) Vi kører de samme koder for kvinder. dk <- subset(dn, gender==2) range(dk$bmi,na.rm=t) ## [1] hist(dk$bmi) mean(dk$bmi,na.rm=t) ## [1] summary(dk$bmi) ## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's ## mean(dk$bmi,na.rm=t)+1.96*sd(dk$bmi,na.rm=t)/sqrt(827-39)

8 ## [1] mean(dk$bmi,na.rm=t)-1.96*sd(dk$bmi,na.rm=t)/sqrt(827-39) ## [1] Vi får middelværdien for kvinders bmi til og det tilhørende konfidensinterval til (22.88;23.42). Konfidensintervallet er regnet ud fra de =788 observationer Vi sammenligner de to konfidensintervaller for hhv. mænd (23.98;24.48) og kvinder (22.88;23.42). Vi bemærker at de to intervaller ikke overlapper. Vi skal først bestemme konfidensintervallet for forskellen i middelværdi. Her får vi brug for means, sd og antal i hver gruppe. Dem bestemmer vi først: # Mænd n1 < m1 <- mean( dm$bmi, na.rm=t ) sd1 <- sd( dm$bmi, na.rm=t ) # Kvinder n2 < m2 <- mean( dk$bmi, na.rm=t ) sd2 <- sd( dk$bmi, na.rm=t ) Forskellen i gennemsnit er: m1-m2 ## [1] Vi benytter nu formlen slide 31. Først finder vi en pooled SD (et gennemsnit af de to SDs) p_sd <- sqrt( ( (n1-1)*sd1^2 + (n2-1)*sd2^2 ) / ( n1+n2-2) ) p_sd ## [1] og den kan vi bruge til at bestemme SE (også formel p 31): sem <- sqrt( 1/n1+1/n2 )*p_sd sem ## [1] Nu kan vi beregne konfidensintervallet (ved Wald metoden / normalfordelingen / +/- 1.96): m1-m2-1.96*sem ## [1] m1-m *sem

9 ## [1] Konfidensintervallet er derfor (0.70;1.46). Voila. Vi kan se at konfidensintervallet ikke indeholder 0, og 0 (svarende til ingen forskel i middel BMI) er derfor ikke en plausibel værdi for forskellen i middelværdi. Vi udfører alligevel et formelt test: Nulhypotesen lyder Hvor er middelværiden for mænds bmi og er middelværdien for kvinders bmi. Ifølge slide 28 er teststørrelsen: Vi kan nu beregne vores test-statistic: Test=(m1-m2)/sem Test ## [1] Vi får altså en teststørrelse på Vi skal nu regne ud - under antagelsen om at der ikke er nogen forskel på mænd og kvinders bmi - hvad sandsynligheden er for at observere en stikprøve som er lige så ekstrem eller stemmer dårligere overens med hypotesen, end den stikprøve vi faktisk har fået. Vi har observeret en teststørrelse på En dårligere overenstemmelse har vi, hvis vi observerer værdier større end Omvendt er lige så ekstremt (vi kunne have beregnet forskellen mellem kvinder og mænd som er m2-m1= og bestemt teststørrelsen til at være /sem = -5.57). Dårligere overensstemmelse med hypotesen har vi altså også for alle værdier mindre en Sandsynligheden for at få en værdi på eller lavere kan vi beregne vha pnorm() som beregner sandsynligheden for at observere et tal lavere end det vi sætter ind: pnorm( ) ## [1] e-08 Samtidigt skal vi beregne sandsynligheden for at få 5.57 eller større. Her kan vi igen benytte pnorm() men skal huske, at pnorm() beregner sandsynligheden for at få det tal vi sætter ind eller en mindre værdi. Dette er praktisk talt 1 og R vælger derfor at runde af: pnorm( 5.57 ) ## [1] 1 Vil vi i stedet absolut bruge den øvre hale kan vi istedet beregne 1-pnorm( 5.57 )

10 1-pnorm( 5.57 ) ## [1] e-08 Så får vi altså sandsynligheden for at få noget større en 5.57 (1-sandsynligheden for at få noget mindre end 5.57). Sandsynligheden i højre og venstre hale skal nu lægges sammen. Det kan vi gøre - men vi kan også bare gange sandsynligheden for at få noget mindre end med 2: 2* pnorm( ) ## [1] e-08 Denne rapporterer vi som < Dette er et WALD- eller Z-test fordi vi beregner p-værdien i en normalfordeling. Havde vi brugt t- fordelingen, var det et t-test (dette laver R for os nedenfor). Når vi beregner p-værdien bør vi ikke selv sætte de 5.57 ind, fordi vi derved laver en afrundingsfejl. Med så lille p-værdi er det godt nok ligegyldigt for hvad vi rapporterer, men for en god ordens skyld bør vi benytte alle decimaler. Det kan vi gøre ved at sætte Test ind i formlen ovenfor (og huske at gange med -1, fordi Test er positiv): Test ## [1] * pnorm( -Test ) ## [1] e-08 Sandsynligheden for at få en stikprøve som stemmer mindst lige så dårligt overens med 0- hypotesen som i denne sample er derfor < Vores observerede forskel er derfor meget usandsynlig, givet at hypotesen skulle være sand. Vi vælger derfor at afvise hypotesen. Og vurderer at mænd og kvinder ikke har samme niveau (middelværdi) af BMI Vi sammenligner vores Wald test med et formelt t-test. Sidstnævnte kan vi meget nemt lave i R vha t.test()-funktionen: t.test( dn$bmi~dn$gender, var.equal=t ) ## ## Two Sample t-test ## ## data: dn$bmi by dn$gender ## t = , df = 1414, p-value = 3.092e-08 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## ## sample estimates:

11 ## mean in group 1 mean in group 2 ## Udover at få t-test størrelsen printer t.test() også difference in means samt konfidensintervallet for denne. Vi får konfidensintervallet til (0.71;1.45) med difference in means til m1-m2=1.08. Bemærk at t-test størrelsen har helt samme værdi som den vi beregnede ovenfor! P-værdien er en smule anderledes, og konfidensintervallet er også en lille smule anderledes. Fra et praktisk formål dog helt identiske: Konfidensintervallet vil vil rapportere med op til to decimaler 0.71;1.45) - flere decimaler giver næppe mening. Og p-værdien er < Fremover kan I derfor beregne et konfidensinterval for den gennemsnitlige forskel vha. t.test(), det er meget lettere Vi danner et nyt datasæt kun indeholdende observationer for kvinder med variablene weight, height og bmi. Til dette benyttes kommandoen data.frame. dnew <- data.frame(weight=dk$wgt, height=dk$ht, bmi=dk$bmi ) head(dnew) ## weight height bmi ## ## ## ## ## ## Det er i R muligt at omskrive datafiler til andre formater, herunder csv som kan indlæses i R. Dette kan gøres ved følgende kommando: write.csv(dnew, 'SundbyNew.csv') Data kan indlæses igen i R: SNew <- read.csv('sundbynew.csv') Vi danner grupperede observationer for kvindedata hvor højde bliver inddelt i 3 kategorier. Dette kan gøre ved cut() funktionen. dnew$hgrp <- cut(dnew$height, breaks=c(0, 160, 170, 250)) Vi undersøger vores resultat ved brug af table(): table(dnew$hgrp) ## ## (0,160] (160,170] (170,250] ##

12 Det er muligt at navngive sine intervaller ved brug af argumentet labels i cut()-kommandoen: dnew$hgrp <- cut(dnew$height, breaks=c(0, 160, 170, 250), labels=c('low','middle','tall') ) table(dnew$hgrp) ## ## Low Middle Tall ## Vi danner et boxplot, hvor vi er interesseret i den grupperede inddeling af kvinders højde. For at lave boxplot i R, benyttes kommandoen boxplot: boxplot(dnew$weight ~ dnew$hgrp)