R for Statistik 1. KØBENHAVNS UNIVERSITET Statistik 1 AFDELING FOR ANVENDT MATEMATIK SFN/EH

Transkript

1 KØBENHAVNS UNIVERSITET Statistik 1 AFDELING FOR ANVENDT MATEMATIK SFN/EH OG STATISTIK 13. februar 2005 R for Statistik 1 Formålet med R for Statistik 1 er at give en introduktion til den interaktive statistiske programpakke R. Introduktionen er udformet som et minikursus i 10 dele. Hver del indeholder en beskrivelse af dele af R, eksempler og nogle mere eller mindre simple opgaver. Du bør gentage eksemplerne, så du kan se hvad der sker. Nogle af de objekter, der dannes i eksemplerne skal du bruge senere i opgaverne eller andre eksempler. En del af opgaverne er utvivlsomt en fornærmelse mod din intelligens men når de nu er så nemme, hvorfor så ikke løse dem? Enkelte af opgaverne er markeret med en stjerne; det skal forstås som et tegn på at dele af opgaven kan være lidt sværere end de øvrige og/eller mere tidskrævende. Det er ikke meningen at stjernen skal skræmme dig væk men kun være et tegn på at du skal afsætte et bestemt tidsrum til denne opgave og hvis du ikke får den løst inden for dette tidsrum skal du overveje at gå videre med noget andet. Der vil ikke være nogen kontrol af om du har læst noterne eller løst opgaverne; det er op til dig selv. Du får behov for R når du skal lave obligatoriske opgaver, og dette minikursus skulle gerne gøre de obligatoriske opgaver nemmere. Til sidst skal det nævnes at denne introduktion er skrevet af en stort set selvlært amatør uden videre forstand på hverken datalogi i almindelighed eller R i særdeleshed. Det betyder f.eks. at jeg formentlig bruger forkerte ord/begreber fra tid til anden. Den væsentligste ulempe ved dette er sikkert at de utallige ting, jeg har misforstået i årenes løb, er nedskrevet heri som om de er alt andet end netop misforståelser. Med andre ord, mine misforståelser er ved kursets afslutning også jeres! Derfor anbefales det at supplere dette kursus med en kritisk indstilling og den officielle An introduction to R. Søren Feodor Nielsen Manuskriptet er blevet bragt i overensstemmelse med en række ændringer i R siden Søren Feodor Nielsen skrev den oprindelige version. Ernst Hansen

2 Lektion 1 Introduktion R er et open source projekt, ledet af en meget dedikeret gruppe af mennesker, heriblandt ikke så få af verdens førende eksperter i statistical computing. At det er open source projekt betyder at kildekoden er underlagt en meget speciel copyrightbestemmelse, der først og fremmest har til formål at forhindre nogen i at skjule dele af koden. Hele kildekoden er offentlig tilgængelig og kan downloades gratis. R projektet har i løbet af få år stort set fjernet alle kommercielle aktører fra markedet for avanceret statistisk software - det er umuligt at konkurrence når R er både bedre og billigere - ja, ligefrem gratis. Ud over kildekoden kan man downloade prækompilerede versioner til de almindeligste operativsystemer - forskellige Linux-versioner, forskellige Windows-versioner (Windows 95, 98, ME, NT4.0, 2000 og XP) og Macintosh ( At installere en af disse versioner på sin hjemmecomputer er nok en af de simpleste opgaver man kan komme ud for - installationsprocessen er meget gennemtænkt på alle platforme, og det anbefales stærkt at man kaster sig ud i det, for det er program man vil have stor glæde af. Her på instituttet er R installeret på alle maskiner, både Linux- og Windowsmaskiner; skulle man finde en undtagelse fra denne regel, bør man orientere helpdesk. R startes på Linux systemet ved at give kommandoen R i en xterminal. Det starter en såkaldt konsol op, shannon:~/> R R : Copyright 2004, The R Foundation for Statistical Computing Version ( ), ISBN R is free software and comes with ABSOLUTELY NO WARRANTY. You are welcome to redistribute it under certain conditions. Type license() or licence() for distribution details. R is a collaborative project with many contributors. Type contributors() for more information and citation() on how to cite R or R packages in publications. Type demo() for some demos, help() for on-line help, or help.start() for a HTML browser interface to help. Type q() to quit R. > Det sidste > er prompten. Under Windows 2000 startes R fra Start-menuen. Det får den såkaldte Rgui til at åbne - en brugergrænsflade, der næppe vil forvirre Windowsbrugere. Et af vinduerne i denne grænsfalde er en konsol, der svarer ganske nøje til Linux-konsollen (bortset fra at den reagerer på sædvanlige Windows short-cuts, hvor Linux-konsollere reagerer på emacs short-cuts). Som dette skrives får man en lidt anden R-version under Lektion 1-ii

3 Windows, nemlig 2.0.0, men de to versioner bringes forhåbentlig i fase inden længe. Man afslutter sin R-version ved at give kommandoen q(). Bemærk parenteserne; de er vigtige! Når man afslutter sin R-version bliver man spurgt: > q() Save workspace image? [y/n/c]: Det såkaldte workspace image indeholder alle de variable, vektorer, funktioner, data etc, man har oprettet i løbet af sin session. Svarer man y gemmes de og indlæses næste gang man starter R. Svarer man n er de tabt. Hvad man skal svare, afhænger af ens personlige arbejdsvaner (SFN: jeg svarer y, EH: jeg svarer n, fordi jeg alligevel gemmer alt i eksterne tekstfiler). Opgave a) Tænd og sluk for R på din foretrukne platform. Kommandoen ls() giver en liste over de variable etc, der er konstrueret ( indholdet af workspace image ). Hvis dette er tomt, får man > ls() character(0) Opgave b) Tænd igen for R og giv kommandoerne > a <- 1 > a Pilen <- skrives med et mindre-end-tegn og et minus (der må for guds skyld ikke være mellemrum mellem de to tegn, men det betragtes som god stil at have mellemrum omkring pilen, det øger læseligheden dramatisk). Tjek med ls() at a findes. Prøv dernæst > 2 -> b > b Den almindelige konvention er kun at bruge pil til venstre - pil til højre virker forvirrende for de fleste læsere af programmet. Og åh jo - andre mennesker skal kunne læse dine programmer. Ellers har du forhindret dig selv i at få hjælp. Hvad er resultatet af a <- b? Symbolet <- dækker altså over en assignmentoperator. En anden operator med den samme effekt, som jeg dog ikke vil anbefale, er =. Opgave c) Hvad gør a = b? Hvad gør a == b? Hvorfor synes jeg at man bør undgå at bruge =? Hvis man altid gemmer sit workspace image bliver det hurtigt meget stort. Derfor er det en god ide at slette ting man ikke længere skal bruge. Variablen a slettes vha rm(a), både a og b med rm(a,b) og alting med rm(list=ls()). Bemærk at = her ikke er en assignment men en angivelse af værdien af argumentet list. Lektion 1-iii

4 Opgave d) Slet a og b. q, ls og rm er alle funktioner. Det ser ud til at q og ls er funktioner af 0 variable mens rm kan have adskillige. Det er ikke helt korrekt; man kan angive nogle variable til q og ls men som regel er default-værdierne gode nok. rm kan kaldes helt uden variable (rm()); i så fald slettes ingenting (som forventet?). Som beskrevet ovenfor sletter rm(list=ls()) alt. Se, det er jo ikke lige til at gætte (mit første forsøg var rm(ls()), men det virker ikke). Derfor er hjælpesider nyttige; man får hjælp til f.eks. ls med kommandoen?ls eller help(ls). I Windows får man så hjælpesiden op i et nyt vindue. I Linux kommer hjælpesiden op i den xterminal man arbejder i; man bladrer i hjælpesiden med space og b og kommer ud ved at trykke q. Hvis man starter med at skrive help.start() vil hjælpesiderne komme frem i en browser (typsk Mozilla) i stedet. Det er lidt tungere ar arbejde med hjælpesiderne på denne måde, men på den anden side er de nemmere at læse. Endelig kan man få demonstreret eksemplerne sidst på hjælpesiden ved kommandoen example(kommando) 1. Det vil være direkte dumt at gøre dette med en kommando som rm. Opgave e) Se på hjælpesiderne for barplot. Forvent ikke at forstå alverden; det kræver øvelse! Prøv at køre eksemplerne nederst på hjælpesiden ved example(barplot). En anden ofte nyttig information om en funktion får man ved at skrive funktionens navn (uden ()); det er ikke så oplysende hvad der kommer ud af at skrive barplot, men prøv i stedet at skrive barplot.default. Lektion 2 Vektorer Vektorer er en grundlæggende struktur i R. En vektor a bestående af tallene 1, 2, 6, 88 laves således > a <- c(1,2,6,88) Vi kan derefter gange a (elementvis) med 3: > 3*a [1] En vektor b bestående af 1, 2, 3 og 4 kan laves tilsvarende eller således > b <- 1:4 Opgave a) Lav de to vektorer a og b og se at de indeholder det forventede. Gang dem derefter sammen: > a*b Hvad er resultatet? To vektorer ganges (og adderes og... ) altså sammen elementvist. Men man kan også gange vektorer sammen selv om de ikke har samme længde: 1 Når man ser på eksempler, hvori indgår grafer, er det en god ide først at give kommandoen par(ask=t). I så fald vil man blive spurgt for hver ny graf om den skal tegnes. Lektion 2-iv

5 > b <- 1:2 > a*b [1] Det, der sker, er at den kortere vektor genbruges så mange gange som er nødvendigt ( recycling ). Opgave b) Hvad er resultatet af > d<-1:3 > a+d mon? Man kan lave vektorer på mange andre måder. For eksempel ved kommandoerne seq og rep: > seq(7,14,by=2) #vektor fra 7 til 14 med spring på 2 [1] > seq(7,14,length=5) #vektor fra 7 til 14 af længde 5 [1] > rep(0,5) #0-vektor af længde 5 [1] De vektorer vi har lavet indtil nu har været meget små, men man kan uden problemer lave vektorer med flere millioner komponenter. Opgave c) Prøv at skrive > 1:100 Forklar de tal i firkantede parenteser, de står længst til venstre. Vektorer kan indeholde boolske værdier (logical), tal (numeric), eller bogstaver (character) men ikke blandinger; hvis man prøver at lave en blandet vektor bliver alle elementerne af den sidste type i den orden som er angivet ovenfor (boolske værdier bliver til 0 og 1, tal bliver til bogstaver ). Typen kan aflæses med funktionen mode. Opgave d) Prøv funktionerne mode og length på a, b og d. Hvad gør length? Mere interessant er nok enten at tage matematiske funktioner så som exp og sin på en vektor de virker så elementvis og returnerer en vektor af samme længe som den oprindelige eller statistiske funktioner så som mean og var, som returnerer et tal (middelværdien og variansen). Opgave e) Prøv disse funktioner (og evt. andre du kan gætte hvad hedder). Man har også ofte behov for at se på en del af en vektor. F.eks. 2 R. 2 Vi tilføjer kommentarer; de skal naturligvis ikke skrives med i din R-session. # er kommentartegn i Lektion 2-v

6 > a <- c(3,5,6,9) > a[1] #a s første element [1] 3 > b <- 2:1 > b [1] 2 1 #bemærk 2 før 1 > a[b] [1] 5 3 #a s andet og derefter det første element > a[-b] [1] 6 9 #a pånær det andet og det første element > a[2*b] [1] 9 5 #a s fjerde og andet element Logisk indicering er meget nyttigt. Her er en række simple eksempler: > (a > 5) [1] FALSE FALSE TRUE TRUE > a[a>5] [1] 6 9 #de elementer af a der er større end 5 > a[a!=5]-a[a==5] [1] #de elementer af a der er forskellige fra 5 minus dem #der er 5 > (a%%3==0) [1] TRUE FALSE TRUE TRUE > a[a%%3==0] [1] #de elementer af a der er delelige med 3 > (a %in% (2*(1:5))) [1] FALSE FALSE TRUE FALSE > a[a %in% (2*(1:5))] [1] 6 #de elementer af a der ligger i (2, 4, 6, 8, 10) sort er naturligvis den funktion, der ordner: > sort(a[2*b]) [1] 5 9 Hvis man har to vektorer a fra før og b som f.eks. er > b <- c(b,4,-2) #danner b udfra den gamle b ved at tilføje 4 og -2 > b [1] så kunne man være interesseret i at ordne b med den mindste først og derefter ordne a så ordningen af a er den samme som bs, dvs da > sort(b) [1] vil vi gerne have a ordnet Det gøres ved > a[order(b)] [1] Lektion 3-vi

7 Lektion 3 Matricer Matricer kan i lighed med vektorer kun have elementer af en type. De konstrueres normal ved at omforme en vektor: > a [1] > b [1] > A <- matrix(a, nrow=2) #en matrix med to rækker > A [,1] [,2] [1,] 3 6 [2,] 5 9 > B <- matrix(b, ncol=2) #en matrix med to søjler > B [,1] [,2] [1,] 2 4 [2,] 1-2 I dette eksempel er det naturligvis ligegyldigt om vi angiver antal rækker (nrow) eller søjler (ncol). Man kan også benytte cbind til at binde vektorer sammen søjlevis: > cbind(a,b) a b [1,] 3 2 [2,] 5 1 [3,] 6 4 [4,] 9-2 rbind binder sammen rækkevis. Alternativt kan man gøre b til en matrix ved at give den dimensioner: > dim(b) <- c(2,2) #b gives dimensioner > b #hvad er b? [,1] [,2] [1,] 2 4 [2,] 1-2 > is.matrix(b) #er b en matrix? [1] TRUE > b==b #b er det samme som B [,1] [,2] [1,] TRUE TRUE [2,] TRUE TRUE > dim(b) <- c(1,4) #nye dimensioner for b > b [,1] [,2] [,3] [,4] [1,] > is.matrix(b) #er b nu en vektor? [1] TRUE #nej! stadig en matrix > dim(b) <- NULL #fjern b s dimensioner Lektion 3-vii

8 > is.matrix(b) #nu er b ikke længere en matrix [1] FALSE Den anden mulighed er at lave en tom matrix: > E <- matrix(nrow=3, ncol=2) > E [,1] [,2] [1,] NA NA [2,] NA NA [3,] NA NA og så fylde ind elementvis. Inden da bemærker vi at NA står for not available; NA indikerer altså at elementerne i matricen mangler. Opgave a) Prøv følgende kommandoer og se efter hver kommando hvad E nu er: > E[,1] <- a[1:3] > E[-3,] <- B > E[3,2] <- mean(b) Endelig kan diagonalmatricer konstrueres med funktionen diag: > diag(3) #en 3x3 identitetsmatrix [,1] [,2] [,3] [1,] [2,] [3,] > diag(c(7,45)) #en diagonalmatrix [,1] [,2] [1,] 7 0 [2,] 0 45 > diag(b) #B s diagonal [1] 2-2 Hvis vi ganger matricerne A og B sammen, så får vi > A*B [,1] [,2] [1,] 6 24 [2,] 5-18 Der er altså tale om elementvis multiplikation, ikke matrix-multiplikation. Matrixmultiplikation fås ved > A%*%B [,1] [,2] [1,] 12 0 [2,] 19 2 Naturligvis kan vi mere end bare gange sammen; A transponeres med funktionen t, den inverse til A findes som solve(a), determinant fås vha det, egenværdier og -vektorer vha eigen. Derimod synes der ikke at være en funktion til beregning af sporet. Lektion 3-viii

9 Opgave b) Sporet af en kvadratisk matrix er summen af diagonalelementerne eller summen af egenværdierne. Beregn sporet af A ved at pille diagonal elementerne ud. Løs opgaven så du kan gøre det for en kvadratisk matrix af vilkårlig størrelse. Opgave c) Betragt ligningssystemet hvor E er matricen > E [,1] [,2] [1,] 2 4 [2,] 1-2 [3,] 6 1 Ex = Der er tale om 3 ligninger med 2 ubekendte, så det er ikke givet at der findes en løsning. Vi vil prøve at løse systemet alligevel. En måde er at gange med E t på begge sider og så invertere E t E. Derved får vi x = (E t E) 1 E t som vi så kan sætte ind i den oprindelige ligning ( gøre prøve ) og se om det er en løsning. Find x ud fra denne procedure, og undersøg om det løser ligningssystemet Lektion 4 Dataframes Data repræsenteres ofte som en matrix hvor hver række svarer til et individ/en observation mens hver søjle repræsenterer en variabel. Da variable ofte er af forskellig type nogle er kontinuerte (numeric) og andre er diskrete (ofte character) kan et sådant datamateriale ikke repræsenteres som en R-matrix. Man bruger i stedet objekter af typen data.frame. R indeholder en del datamaterialer; en liste over dem alle fås med kommandoen data(). Opgave a) Se på datamaterialet iris. For at forstå hvad det indeholder benyt kommandoen?iris. Få et hurtigt indblik vha summary(iris). Også plot(iris) kan være nyttig. iris indeholder altså 150 observationer af 5 variable. En af disse variable hedder Species. Opgave b) Hvad sker der her: > summary(species) Lektion 4-ix

10 > summary(iris$species) > attach(iris) > summary(species) Vi kan altså få nemmere adgang til variablene i et datamateriale ved at attach e det. Vi kan se hvad vi har attach et med kommandoen > search() [1] ".GlobalEnv" "iris" "package:methods" [4] "package:stats" "package:graphics" "package:grdevices" [7] "package:utils" "package:datasets" "Autoloads" [10] "package:base" og detach e iris igen med kommandoen detach(iris). Opgave c) Detach iris. Typisk vil man være mere interesseret i at indlæse et datamateriale fra f.eks. en tekstfil. Dette gøres med kommandoen read.table, hvor man som argument skal angive fil-navn (i gåse-øjne) og hvis den første linie i filen er variabel-navnene så også header=t: > my.data <- read.table( filnavn,header=t) Konventionerne for hvordan filnavnet skal skrives er en anelse systemafhængige. Lad os sige at jeg under roden på mit M-drev på det lokale system har et katalog stat1 og at jeg i dette kataolog har filen datafil.txt liggende. Hvis jeg arbejder i Linux, og startede R processen direkte under roden, får jeg indlæst denne fil som > my.data <- read.table( stat1/datafil.txt, header=t) Hvis jeg derimod havde startet R processen nede i stat1, skulle jeg have skrevet > my.data <- read.table( datafil.txt, header=t) Hvis jeg arbejde under Windows, vil det i praksis tage sig ud som om jeg arbejder direkte under roden. Men jeg er i så fald nødt til at angive et drev: > my.data <- read.table( M:stat1/datafil.txt, header=t) Som seperationstegn i en sti-angivelse bør man bruge et fremadrettet slash (/). Man kan i princippet godt bruge backslash, men af forskellige grunde skal det i de fleste sammenhænge fordobles (\\), hvilket et svært at huske og forstå. Hvis man arbejder på en computer der er på nettet, kan man udnytte at read.table() ikke kun kan løse lokale filer, men faktisk kan gå direkte på internettet. I så fald er syntaksen > my.data <- read.table( header=t) eller hvad den relevante URl nu er. Lektion 4-x

11 Opgave d) Download datamaterialet fra 01/doku/rapport/puzzle.dat og indlæs det i R som data.frame n puzzle. Kig på det med summary. Hvis du vil vide mere om materialet, findes en nærmere beskrivelse i 01/doku/rapport/opgave1.ps. Det kan også være nyttigt at skrive ting ud til en fil. Opgave e) Undersøg hvad følgende kommandoer gør 3 : > a [1] > cat(a) > cat(a, \n ) > cat(a, \n,file= Rkursus.txt ) > b [1] > cat(b, \n,file= Rkursus.txt ) > cat(a, \n,file= Rkursus.txt,append=T) Hele datamaterialer kan udskrives som > write.table(puzzle,file= Rkursus.txt ) En data.frame er en list af klasse data.frame: > mode(puzzle) [1] "list" > class(puzzle) [1] "data.frame" Et objekt af typen list er bare en vektor hvor hvert element kan være hvad som helst (egentlige vektorer, matricer, andre lister, etc). Man kan hive elementer i lister ud på mange måder. Opgave f) Prøv følgende kommandoer: > puzzle$point > puzzle[2] > puzzle[[2]] Hvad får man ud af dem? Lektion 5 Test i tovejstabeller Betragt igen det datamateriale, puzzle, vi indlæste sidst. Et spørgsmål man kunne være interesseret i er om en god studentereksamen giver bedre chancer for at bestå 3 Pas på hvis du har en fil ved navn Rkursus.txt liggende; den vil blive overskrevet! Lektion 5-xi

12 den skriftlige del af eksamen 4. Vi definerer ganske arbitrært at en god studentereksamen er en med et snit på mindst 9 (du er velkommen til at benytte et andet afskæringspunkt). Vi kan nu lave en faktor: > attach(puzzle) > god <- factor(studeksamen>9) > summary(god) FALSE TRUE NA s NA erne er her intet problem 5 ; R vil ignorere dem når det virkelig går løs. Man kan diskutere om TRUE/FALSE er ideelle betegnelser. Hvis du ikke kan lide dem, kan du jo prøve at lave dem om 6 til noget du synes bedre om: > levels(god) <- c( øv, jubii ) > summary(god) øv jubii NA s Vi kan tilføje NA erne til den dårlige gruppe hvis vi synes: > god[is.na(god)] <- øv > summary(god) øv jubii Opgave a) Lav på tilsvarende vis en faktor best som angiver om man har bestået den skriftlige del af eksamen på kurset stat1ms, dvs om variablen Point har værdien 50 eller mere. Bemærk at her bør NAerne kodes som dumpet. Vi kan så tabulere materialet: > table(god,best) best god FALSE TRUE FALSE 16 3 TRUE En sådan tabel kan jo være ganske god men måske vil vi hellere have estimeret nogle sandsynligheder. Vi kan f.eks. gøre således: > table(god,best)/sum(table(god,best)) best god FALSE TRUE FALSE TRUE > format(table(god,best)/sum(table(god,best)),digit=1) #pænere udskrift best god FALSE TRUE FALSE "0.28" "0.05" TRUE "0.33" "0.33" 4 Fra tid til anden diskuteres det om der bør indføres adgangsbegrænsning til bl.a. de matematiske fag med netop den begrundelse. 5 Eller også er de, men det er et ganske andet kursus. 6 Jeg beholder TRUE/FALSE i det følgende. Lektion 5-xii

13 Opgave b) Måske er en tabel med betingede fordelinger mere informativ, altså en hvor vi kan se sandsynligheden for at bestå givet at ens studentereksamen er god eller mindre god: best god FALSE TRUE FALSE "0.84" "0.16" TRUE "0.50" "0.50" Lav denne tabel eller en der ligner. Du får behov for rækkesummerne af tabellen; de kan fås (f.eks.) ved at matrix-multiplicere tabellen med en vektor. Endelig kan man være interesseret i at teste om der er uafhængighed mellem inddelingskriterierne. R er udstyret med et utal af statistiske procedurer. En del af dem, f.eks. Pearson s χ 2 -test, er umiddelbart tilgængelige, mens andre ligger i pakker, som skal loades før man kan bruge dem. Pearsons χ 2 -test kan gennemføres med kommandoen chisq.test(table(god,best)). Opgave c) Udfør dette test. Er der en sammenhæng? Opgave d) Undersøg også om der er en sammenhæng mellem beståelse og om Tid er skarpt mindre end 5. Lektion 6 Plots En af R s stærke sider er de grafiske muligheder. Den grundlæggende funktioner er her funktionen plot, som laver forskellige plots alt efter hvad man bruger som argument. Opgave a) Prøv følgende kommandoer: > plot(puzzle) > attach(puzzle) > plot(studeksamen,point) > plot(as.factor(round(studeksamen))) > plot(tid) Man kan opnå finere kontrol med grafen ved at specificere et yderligere antal argumenter. De umiddelbart vigtigste er nok type: plot(point,type= n ) hvor typen n kan være p (punkter), l (linier), b (begge; punkter og linier), n (intet; mere nyttigt end du tror!) mm. pch og lty: plot(point,pch=2) erstatter cirklerne i grafen med trekanter; andre tal giver andre plot-symboler. lty giver tilsvarende andre linietyper. xlim og ylim: plot(point,ylim=c(50,85)) sikrer at anden aksen går fra 50 til 85 (plus en lille smule i hver ende). Lektion 6-xiii

14 xlab, ylab, main: plot(point,xlab= navn ) skriver navn under første aksen; main giver overskrift. Opgave b) Prøv følgende kommandoer > plot(1:20, pch=1:20) > plot(1:20, col=1:20) Andre nyttige plotte-kommandoer er points, som sætter punkter ind på et allerede eksisterende plot, og lines, som tilsvarende sætter linier ind. abline sætter en ret linie ind i et eksisterende plot; man skal angive skæring og hældning eller for en vandret (horisontal) linie gennem 2 h=2 og for en lodret (vertikal) v=2, f.eks.: > plot(studeksamen, Point) > abline(v=9, lty=2) Opgave c) Lav en graf med StudEksamen ud af første aksen og Point op af anden aksen med forskellige plotsymboler alt efter om Tid er skarpt mindre end 5 eller ej. Denne effekt kan opnås på mange måder, men den nemmeste er nok at skrive pch = ifelse(tid < 5, 2, 16) i kaldet af plot() - det sikrer at symbol 2 bruges når Tid < 5, og at symbol 16 bruges i de andre tilfælde. Ofte vil man være interesseret i at se på fordelingen af en variabel, dvs for en kontinuert variabel på et histogram: > hist(studeksamen) #antal > hist(studeksamen,prob=t) #andel: som regel det bedste! Også pindediagrammer kan konstrueres: > barplot(table(as.factor(round(studeksamen)))) Man bemærker at resultatet er det samme som det plot(as.factor(round(studeksamen))) giver. Det er ofte nyttigt med flere grafer på en gang: > par(mfrow=c(2,3)) opdeler grafikvinduet i 2 3 del-vinduer, som så udfyldes rækkevis (hvis de skal udfyldes søjlevis bruges mfcol). par(mfrow=c(1,1)) fjerner opdelingen igen. Man får hurtigt behov for at udskrive eller gemme sine grafer: > dev.print() #printer grafen i det aktive vindue ud > dev.copy2eps(file= myplot.eps ) #gemmer i filen myplot.eps under Linux #(som kan inkluderes i LaTeX-dokumenter) > dev.copy2eps(file= M:myplot.eps ) #gemmer i filen myplot.eps under Windows #(som kan inkluderes i LaTeX-dokumenter) Opgave d) Lav igen grafen fra Opgave c) og gem den i en fil. Lektion 7-xiv

15 Lektion 7 Lineær regression Når man ser på grafen > attach(puzzle) > plot(tid[tid<5], Point[Tid<5]) af Point som funktion af Tid (for Tid<5), kunne man måske få den tanke at der er en lineær sammenhæng mellem Tid og Point. Lad os fitte en lineær regression (Point som funktion af Tid): > lm(point[tid<5]~tid[tid<5]) Call: lm(formula = Point[Tid < 5] ~ Tid[Tid < 5]) Coefficients: (Intercept) Tid[Tid < 5] Outputtet er lidet informativt, men man ser dog at der er en negativ sammenhæng; jo længere Tid jo mindre Point. R kan give meget mere! Resultatet af lm er et lm-objekt, en liste hvoraf vi umiddelbart ser en meget lille del. Listen indeholder en masse: > names(lm(point[tid<5]~tid[tid<5])) [1] "coefficients" "residuals" "effects" "rank" [5] "fitted.values" "assign" "qr" "df.residual" [9] "na.action" "xlevels" "call" "terms" [13] "model" Lad os derfor gemme vores regressionsanalyse så vi kan undersøge den nærmere: > my.reg<-lm(point[tid<5]~tid[tid<5]) Opgave a) Prøv følgende kommandoer: > summary(my.reg) > coefficients(my.reg) > summary(residuals(my.reg)) > plot(fitted.values(my.reg),residuals(my.reg)) > plot(tid[tid<5], Point[Tid<5]) > abline(my.reg) Opgave b)* Plot igen Point mod Tid (for Tid<5) men brug forskellige symboler alt efter om StudEksamen er mindre end 9 eller ej. Fit to lineære regressionsmodel med Point som funktion af Tid, en for den del af materialet hvor StudEksamen er mindre end 9 og en hvor det er større. Du får nok brug for at huske/gætte at Point[Tid<5 & StudEksamen<9] giver de værdier af Point med Tid<5 og StudEksamen<9. Tegn regressionslinierne ind på din graf. Lektion 8-xv

16 Lektion 8 Egne funktioner En størrelse der dukker op i mange statistike regnerier er x log x. Konventionen er at for x = 0 skal denne størrelse forstås som 0. Det ved computeren uheldigvis ikke, den går i hårdknude når man forsøger at tage logaritmen til 0. For at komme uden om dette problem kan man konstruere en lille funktion: > xlogx<-function(x){ifelse(x>0,x*log(x),0)} Funktionen xlogx er nu dannet og kan anvendes når som helst vi måtte ønske det. Faktisk er mange af Rs indbyggede funktioner af denne form, dvs funktioner som er skrevet i R og som kalder andre R-funktioner. Se f.eks. på funktionen sd som beregner standardafvigelser: > sd function (x, na.rm = FALSE) { if (is.matrix(x)) apply(x, 2, sd) else if (is.vector(x)) sqrt(var(x, na.rm = na.rm)) else if (is.data.frame(x)) sapply(x, sd) else sqrt(var(as.vector(x), na.rm = na.rm)) } Dette er jo næsten til at forstå: is.matrix(x) er sand hvis x er en matrix; as.vector(x) tvinger x til at være en vektor. Funktionen sd finder altså ud af hvad type objekt x er og beregner så en passende standardafvigelse (kvadratroden af variansen); for matricer søjlevis (vha apply), for data.framer variabelvis (sapply er en variant af apply). Vi bemærker at sd tager to argumenter: x som er det objekt vi skal finde standardafvigelser på og na.rm som man ikke behøver at angive fordi der er en default-værdi (nemlig FALSE). Egentlige programmer i R skrives ofte med fordel som R-funktioner. Disse bliver ofte længere end den ene linie vi benyttede os af ovenfor (xlogx) og det gør det svært at undgå fejl undervejs. Hvis der er fejl, bliver man så nødt til at starte forfra (og så laver man en ny fejl... ). Det vil derfor være en fordel at skrive sine programmer i en flad tekstfil (vha Xemacs eller Notepad). Når filen så er gemt som (f.eks.) myfct.r kan man source den ind: > source( myfct.r ) #husk drev-angivelse under Windows Hvis programmet indeholder fejl, vil man få en fejlmeddelelse og så må man jo i gang med at finde fejlen - et godt bud er at der er rod i parenteserne. Filen behøver ikke hedder R til efternavn; det er bare praktisk så man ved at det er et R-program. En fil man sourcer ind, kan indeholde hvad som helst; evt kommandoer vil blive udført, så man kan også bare skrive sine kommandoer i en source-fil og så source dem ind. Typisk får man ikke noget synligt resultat af sine anstrengelser; for at få resultater ud, skal man bruge kommandoen print: Lektion 8-xvi

17 #Source-fil: summary(puzzle) print(summary(puzzle)) #Intet resultat #Det ønskede resultat Alternativt kan man source med ekko : > source( myfct.r,echo=t) Så får man kommandoer og output frem. Mere information. Der er meget mere at sige om funktioner og programmering i R men det vil føre os for vidt omkring i forhold til denne introduktion til R. Jeg henviser til An introduktion to R ( Tilføjelse. Skal man køre store progammer er det nyttigt at kunne køre dem som batch, så man kan gå hjem og holde weekend imens. Dette gøres under Linux ved at give kommandoen shannon:~/> R CMD BATCH myfct.r output.log & hvor filen myfct.r indeholder ens kommandoer og filen output.log tager imod output; disse filer kan naturligvis hedde hvad som helst. Derefter kan man logge af og vende tilbage senere. Lektion 9 Fordelinger mv I R er indbygget en lang række af de mest almindelige fordelinger i den forstand at R kan simulere fra disse fordelinger, beregne fordelingsfunktioner og tætheder samt finde fraktiler. Lad os se på normalfordelingen: Simulering: rnorm(n,my,sigma) giver en vektor med længde n af tilfældige tal fra normalfordelingen med middelværdi µ og spredning σ (bemærk det er spredning og ikke varians der skal angives). Hvis man ikke angiver middelværdi og spredning er defaulten standardnormalfordelingen. Fordelingsfunktion: pnorm(q,my,sigma) giver fordelingsfunktionen i punktet q; hvis dette er en vektor fås tilsvarende en vektor af værdier. Tæthed: dnorm(x,my,sigma) giver tætheden i x (evt en vektor). Fraktiler: qnorm(p,my,sigma) giver fraktil(er) svarende til (vektoren) p Andre fordelinger fås på tilsvarende vis; man skal bare erstatte norm med den ønskede fordelings navn (f.eks. t for t-fordelingen) og (µ, σ) med de parametre der er relevante 7. Husker du da du i gymnasiet skulle sætte prikker på normalfordelingspapir? Det står i bekendtgørelsen 8 at det skal man lære i gymnasiet, så det har du sikkert prøvet. I dag er der absolut ingen som bruger normalfordelingspapir fordi fornuftige computerprogrammer kan lave disse grafer for os. Sådanne grafer hedder QQ-plots, noget vi skal vende tilbage til senere. I R tegner man på normalfordelingspapir med kommandoen qqnorm: 7 Advarsel: Se efter på hjælpesiderne hvordan parametrene skal specificeres! Γ-fordelingen især er tricky og det griner vi ofte af... Lektion 9-xvii

18 > x <- rnorm(500) > qqnorm(x) > qqline(x) Punkterne i grafen skulle gerne ligge omkring linien (som qqline tegner). Normalfordelingen er naturligvis vigtigere end så mange andre fordelinger, men i dag er det let nok at lave QQ-plot for andre fordelinger end normalfordelingen. Desværre skal man programmere en lille smule i R: > qqt <- function(x,df){ plot(qt(ppoints(x),df),sort(x), + main=paste( t(,df, ) QQ Plot,sep=""), + xlab= Theoretical quantiles, ylab= Sample quantiles ) } qqline bør nok også rettes. Opgave a) Lav en QQ-plot funktion for en (eller flere) fordeling(er) efter eget valg (men ikke normal- og t-fordelingerne). Inkluder en qqline-funktionalitet i din funktion. Funktionen skal altså se cirka sådan ud: qqt <- funktion(x,df,line=t){ tegn qqplottet if (line) tegn linien } Lektion 9-xviii