Introduktion til R. Faculty of Health Sciences

Transkript

1 Faculty of Health Sciences Introduktion til R Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Kursushjemmeside:

2 Statistikprogrammer De mest kendte / udbredte er SAS. Få har adgang til SAS (indenfor RH/regionH). SPSS. De fleste har adgang til SPSS, men man kan hurtigt komme til kort med standardversionen. Stata. R. Excel (kan meget lidt). 2 / 31

3 Hvorfor R? Fordele: 3 / 31 R er gratis. R er et open-source program. Vedligeholdes af en stor gruppe internationale forskere og opdateres løbende. Alle har mulighed for at lave pakker indeholdende specialfunktioner. Derfor er R hurtigere up-to-date og har i nogle tilfælde flere muligheder end kommercielle programmer. Flexibelt. Funktioner og kommandoer kan kombineres til nye funktioner og kommandoer. Grafik. Let at lave flotte grafer. Stor flexibilitet. Let at finde pakker og dokumentation på nettet. Kan man ikke selv løse sit problem findes R-help mailing liste (se

4 Hvorfor fravælge R? Ulemper: Nogle funktioner kan være langsomme. Meget store datasæt går ikke (registerdata). Ikke altid veldokumenteret. Fejlmeddelelser kan være svære at forstå. Programmering i stedet for peg-og-klik (måske i virkeligheden en fordel). Der findes dog en brugervenlig grænseflade, R Commander, til det mest basale. 4 / 31

5 At komme i gang med R R kan downloades fra Installerer næsten sig selv. Lær mere om R: Peter Dalgaard: Introductory Statistics with R. En letlæselig introduktion til R er kapitel 1 i Applied R for the quantitative social scientist af R. Nieuwenhuis som kan hentes fra Læs dette kapitel til næste gang. Prøv evt selv at google Introduction to R ( resultater!). 5 / 31

6 Hvordan arbejde med R? 6 / 31 R består af en konsol, hvor man kan skrive kommandoer og hvor output vises (avanceret lommeregner). Til at holde styr på og gemme kommandoer anbefales det at arbejde i et script -vindue Et script er en samling af kommandoer. Et nyt script laves via File-menuen -> New script. Scripts kan gemmes og åbnes gennem File-menuen. Ved markering af linier / kommandoer efterfulgt af Crtl+R kopieres disse linier til konsolvinduet og eksekveres. R ignorerer al tekst efter en # (nyttigt til forklaringer i scriptet). I konsolvinduet vises kommandoer i rødt, output i blåt. Bemærk: Hvis R går ned går scriptvinduet også ned - husk derfor at gemme regelmæssigt!

7 R som lommeregner R har alle standard funktioner indbygget: 3+2 3*2 3^2 log(3) pi cos(3) R skelner mellem store og små bogstaver. Pil op-tasten genkalder forrige kommando. R afsluttes med q(). Man kan da vælge at gemme alt i hukommelsen. Det kan hentes frem næste gang R åbnes under File -> Load workspace... 7 / 31

8 Variable og hukommelse Variable (objekter): Tal, data, output, etc. kan gemmes i hukommelsen ved <-. Eksempler: x <- c(1, 2, 3) y <- c(4, 5, 6) x + y # viser summen z <- x + y # gemmer summen i z z # viser z frugt<-c("banan","appelsin") frugt Hukommelse: Kommandoen ls() viser alle variable i hukommelsen. Variable kan slettes med rm(), e.g. rm(x,y) 8 / 31

9 Datastrukturer En vektor er en liste af elementer, f.eks. x<-1:10 y<-seq(1,5,by=1) Vi kan udvælge en del af en vektor med []: x[1] x[1:5] x[y] En matrix er en todimensionel liste, f.eks. a<-matrix(1:10,ncol=5,nrow=2,byrow=false) b<-matrix(1:10,ncol=5,nrow=2,byrow=true) Vi kan udvælge en del af matricen med []: a[1,1] a[2,4:5] 9 / 31

10 Datasæt Datasæt i R gemmes i en data frame: x1<-1:10 y1<-5*10:1 z1<-c(rep("pige",3),rep("dreng",7)) data<-data.frame(x1,y1,z1) Vi kan hente variablene i data framen: names(data) # hvad er variabelnavnene? head(data) # viser de foerste 6 linier tail(data) # viser de sidste 6 linier data$x1 data[,1] rm(x1,y1,z1) # sletter variable - nu ligger de i data x1 Vi kan gøre variablene i data framen globale: attach(data) x1 og fjerne dem fra hukommelsen igen: detach(data) x1 10 / 31

11 Omkodning af variable Vi kan regne videre på variable og definere nye: attach(data) w1<-x1+1.2*y1 w1 w1+z1 w1<-w1+1 Logiske operatorer &! og eller ej Relationer ==!= < <= > >= ens foskellig Vi kan vælge elementer ud which(y1>15) y1[y1>15]<-7 y1 11 / 31

12 Funktioner Vi kan regne videre på variable/objekter: x<-1:10 mean(x) sum(x) median(x) Nogle funktioner kræver flere argumenter: # Generer 100 observationer fra en standard normalfordeling w<-rnorm(100,0,1) Det er vigtigt at argumenterne optræder i den rigtige rækkefølge. Alternativt kan man specificere argumenterne w<-rnorm(n=100,mean=0,sd=1) og rækkefølgen er ligegyldig. Hvordan finder man ud af syntaksen? I konsollen tastes help(rnorm) eller args(rnorm). Hvordan finder man overhovedet funktionen? 12 / 31 Google! Evt R-commander.

13 R commander Der findes en peg-og-klik-pakke til R : R commander. Denne indeholder de mest basale metoder, men der findes også ekstra pakker (plug-ins) som giver adgang til andre metoder. Vi vil generelt fokusere på selv at skrive koden (pga. fleksibilitet), men I vil også få en kort introduktion til R commander. 13 / 31

14 Installering af pakker Kan enten gøres via menuen Packages -> Install Package(s)... eller ved kommandoen install.packages. Eksempel: Installering af R commander: install.packages("rcmdr") install.packages("rcmdrplugin.survival") Aktivering af installerede pakker: library(rcmdrplugin.survival) Pakkerne skal aktiveres hver gang R åbnes, men skal kun installeres en gang. 14 / 31

15 Hvordan ser et R-datasæt ud? En linie pr individ: time event female logwbc placebo Rækker repræsenterer individer. Søjler repræsenterer variable (værdier). Manglende værdier repræsenteres med NA (Not Available). 15 / 31

16 Indlæsning af data Tekstfiler: Første række indeholder ofte variabelnavne. Søjlerne er adskilt af en indikator (, ; mellemrum tab). Indlæses i R med read.table(), read.csv(), read.delim(): Det er nyttigt at oprette et arbejdskatalog til sine filer: setwd("c:/xxx") (set working directory). Se indholdet af kataloget med dir(). data<-read.table("filnavn") # Kommasepareret fil data<-read.csv("filnavn") data<-read.table("filnavn",header=true, sep=",") # Tabulatorsepareret fil data<-read.delim("filnavn") data<-read.table("filnavn",header=true, sep="\t") 16 / 31

17 Datafiler kan i Excel gemmes i csv-format. Datafiler fra andre statistikprogrammer kan læses ind ved: library(foreign) data<-read.spss("filnavn") data<-read.dta("filnavn") # Stata-filer At indlæse data fra SAS kræver lidt krumspring. Ændring / tilføjelse af variabelnavne names(data) names(data)<-c("a","b","d") 17 / 31

18 Overlevelsesanalyse i R Overlevelsesanalyse i R laves med pakken survival. Denne pakke er en del af standardinstallationen, men skal stadig aktiveres med library(survival). Vi får brug for følgende funktioner: Surv : Laver survivalobjekter (=responsen). survfit : Estimerer KM-kurver. summary : Giver et print af KM-kurver. survdiff : Udfører LogRank-test. plot : Plotter KM-kurver. 18 / 31

19 Survivalobjekter Funktionerne i survival arbejder med survivalobjekter, som kombinerer levetiderne med censureringsoplysningerne. Survivalobjekter dannes med funktionen Surv og bruger to argumenter, Surv(time,event): time : Navnet på variablen med follow-up tid event : Status indikator event=true eller event=1 hvis observeret levetid event=false eller event=0 hvis censureret levetid. Survivalobjektet er responsen og bruges alene i andre funktioner. 19 / 31

20 surv > rdata<-read.table("c:/documents and Settings/Rdata/remissionData.dat > library(survival) header=t,sep=";") > head(rdata) time failure sex logwbc placebo > rdata.treatment<-subset(rdata,placebo==0) > attach(rdata.treatment) > surv.treatment<-surv(time,event=failure) > surv.treatment [1] [20] 6 6 > > detach(rdata.treatment) 20 / 31

21 Kaplan-Meier estimatoren KM-estimatoren beregnes vha funktionen survfit > KM.treatment<-survfit(surv.treatment~1) > KM.treatment Call: survfit(formula = surv.treatment ~ 1) records n.max n.start events median 0.95LCL 0.95UCL NA Her angiver 1 at vi vil have én KM-kurve baseret på alle patienterne (svarende til en gruppe). 21 / 31

22 Selve KM-estimaterne får vi ud vha summary: > summary(km.treatment) Call: survfit(formula = surv.treatment ~ 1) time n.risk n.event survival std.err lower 95% CI upper 95% CI / 31

23 Et plot af Kaplan-Meier estimatoren > plot(km.treatment) Plot uden konfidensintervaller og censureringsmærker: plot(km.treatment,conf.int=f,mark.time=f) 23 / 31

24 At gemme et plot i R Et plot kan gemmes på flere måder: Højreklik på grafen. Der er mulighed for at gemme som postscript eller meta-fil. Som pdf. Før plot-koden anvendes kommandoen pdf( filnavn.pdf ). Plottet afsluttes med dev.off(). Eksempel: pdf("kmplot.pdf") plot(km.treatment) dev.off() Der findes også andre formater - brug google for at finde dem. 24 / 31

25 KM estimater for begge grupper på en gang Igen benyttes Surv sammen med survfit: > attach(rdata) > KM.byTreatment<-survfit(Surv(time,event=failure)~placebo) > KM.byTreatment Call: survfit(formula = Surv(time, event = failure) ~ placebo) records n.max n.start events median 0.95LCL 0.95UCL placebo= NA placebo= Her angiver ~placebo at KM-kurverne skal laves separat for hver behandlingsgruppe. 25 / 31

26 > summary(km.bytreatment) Call: survfit(formula = Surv(time, event = failure) ~ placebo) placebo=0 time n.risk n.event survival std.err lower 95% CI upper 95% CI placebo=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI NaN NA NA 26 / 31

27 Et plot af KM opdelt på behandlingsgruppe plot(km.bytreatment,xlab="tid (uger)",lty=1:2, col=c("black","grey"),lwd=2) legend(25, 1, c("behandling","placebo"),lty = 1:2, lwd=2, col=c("black","grey")) title("km-kurver for remissionsdata") Her er xlab=x-axis label, lty=line type, lwd=line width, col=color. KM kurver for remissionsdata Behandling Placebo Tid (uger) 27 / 31

28 LogRank-testet Sammenligning af placebo- med behandlingsgruppen foretages vha survdiff: > survdiff(surv(time,event=failure)~placebo) Call: survdiff(formula = Surv(time, event = failure) ~ placebo) N Observed Expected (O-E)^2/E (O-E)^2/V placebo= placebo= Chisq= 16.8 on 1 degrees of freedom, p= 4.17e / 31

29 Øvelser I må gerne forsøge at bruge R commander. Hvis, så kig på den kode der genereres og prøv at forstå den. Lidt indledende gymnastik i R: 1. Indlæs remissionsdata fra Excel-filen remissiondata.xls på kursushjemmesiden. 2. Lav et histogram af logwbc. 3. Beregn median, gennemsnit og standardafvigelse for logwbc. Beregn selv et 95%-konfidensinterval for middelværdien. 4. Hvordan er fordelingen af køn? (Lav en tabel med table). 5. Hvordan er fordelingen af køn på de to behandlinger? Er der forskel på antallet af kvinder i de to grupper? (Lav et χ 2 -test). 6. Sammenlign logwbc for placebogruppen med logwbc for behandlingsgruppen - er der forskel? Er det vigtigt? 29 / 31

30 Overlevelsesanalyse i R: Remissionsdata: 1. Genskab KM-kurven for hver behandlingsgruppe for sig. Tilføj et 95%-konfidensinterval baseret på log(-log)-transformationen. 2. Genskab plottet indeholdende begge KM-kurver. 3. Udfør LogRank-testet. 4. Sammenlign mænd og kvinder mht. overlevelse. 5. Lav en ny variabel, som inddeler logwbc i høj / lav. Er der forskel på overlevelsen i disse to grupper? Lav en tilsvarende undersøgelse, hvor logwbc er inddelt i tre grupper lav / mellem / høj. Hvad ser vi? 30 / 31

31 Maligne melanomer: 1. Et datasæt om maligne melanomer er tilgængeligt i pakken timereg. Installér og aktivér pakken. Datasættet melanoma gøres tilgængeligt med kommandoen data(melanoma). 2. Dan et overblik over data med tabeller og histogrammer. Prøv at finde info på nettet om dette datasæt - hvordan skal status-variablen forstås? 3. Vi vil fokusere på død pga melanomer, dvs. død af andre årsager skal betragtes som censurering. Er der forskel på risikoen for død af maligne melanomer for mænd og kvinder? Hvori består forskellen? 4. Undersøg om andre variable kan have en betydning. 31 / 31