R / RStudio. Intro til R / RStudio

Relaterede dokumenter
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

Løsning til eksamen d.27 Maj 2010

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistik i GeoGebra

Statistik II 1. Lektion. Analyse af kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Statistik (deskriptiv)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Program dag 2 (11. april 2011)

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Stolpediagrammer for kategoriske data med -catplot-

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistiske Modeller 1: Kontingenstabeller i SAS

SPSS introduktion Om at komme igang 1

Kvantitative Metoder 1 - Forår Dagens program

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Kommentarer til øvelser i basalkursus, 2. uge

Vejledning i brug af Gym-pakken til Maple

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Øvelser til basalkursus, 2. uge

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Statistik FSV 4. semester 2014 Holdundervisning Uge 1: 4. februar Introduktion til Stata

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra

1. Indledning Installation Mac OS X Windows Arkivering Mac OS X Windows...

Manual til HTTrack. 1. Indledning. 2. Installation

Skype Guide. Indholdsfortegnelse

Start af nyt schematic projekt i Quartus II

R syntaks. Installation af R

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

OrCAD Capture TCL IDE med Eclipse

Ikke-grupperede observationer

Lineær og logistisk regression

MPH specialmodul Epidemiologi og Biostatistik

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statistik II 4. Lektion. Logistisk regression

Introduktion til SPSS

Introduktion til PCIM version 9.07

Note om Monte Carlo metoden

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Vejledning i LPR-Avanceret (LPR-kuben)

for gymnasiet og hf 2017 Karsten Juul

Sektornet VPN Installationsvejledning Windows Vista/7

Opgavestyring, op og download af mange filer

Deskriptiv statistik for hf-matc

Flemmings Maplekursus 1. Løsning af ligninger

Kvantitative Metoder 1 - Efterår Dagens program

Office 365 Installation og aktivering på Mac

Maple 11 - Chi-i-anden test

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Deskriptiv statistik for matc i stx og hf

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Test nr. 5 af centrale elementer 02402

Vejledning i brug af Gym-pakken til Maple

RESPONSE INSIGHT HURTIG BRUGERMANUAL 2018 ASPEKT R&D A/S VERSION JANUAR 2018

Dansave Online Backup. Dansave Home Guide. Version

18. december 2013 Mat B eksamen med hjælpemidler Peter Harremoës. P = 100 x 0.6 y = 100 x 0.6 y = x 0.6 y y 0.4 = x 0.

Søren Christiansen

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Kom godt i gang med Fable-robotten

Multipel Lineær Regression

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Hvordan opretter jeg MultiUser med en access-database?

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Hvordan du opretter, bruger og tildeler kategorier til arrangementer og nyheder

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistiske modeller

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Vejledning til GYM17 Copyright Adept Nordic 2013

Firmware. Opgradering af firmware HL190213

Fable Kom godt i gang

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Indstillinger. 1. Built-in viewer 2. Built-in viewer embedded 3. Ekstern viewer

Hvorfor SAS Kort intro til SAS

KURSUS I ANALYSEPORTALEN (AP) DANSK PALLIATIV DATABASE 3 1. ÅBNING AF ANALYSEPORTALEN 3 2. OPRETTELSE AF EN RAPPORT DVS. START AF DATAANALYSE 4

1. Opbygning af et regneark

Tegning af grafer. Grafen for en ligning (almindelig) Skriv ligningen ind. Højreklik og vælg Plots -> 2-D Plot of Right Side.

Den digitale Underviser. Clouds. Dropbox

Denne vejledning tager udgangspunkt i Windows 8. Benytter du en anden Windows-version, kan betegnelserne variere en smule.

Fable Kom godt i gang

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

R E D C A P M A N U A L. Importér data til REDCap fra CSV-fil. Opbyg din eksisterende database i REDCap Version 1.0

MSI pakke til distribution af AutoPilot komponenter.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Transkript:

R / RStudio Intro til R / RStudio

R R er et open source statstikprogram og programmeringssprog introduceret i 1993. Seneste version er 2.15.3 R kan downloades på www.r-project.org R er i udgangspunktet uden peg-og-klik Mere end 2000 pakker (udvidelser a la et plug-in) I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux. For at få en smartere brugerflade skal I også installere Rstudio.

RStudio Sådan ser RStudio typisk ud første gang man starter det. Nederste vestre vindue er hvor man snakker direkte med R vha. tekst-kommandoer.

RStudio lidt opsætning Det er nyttigt at ændre R s standard-mappe. Vælg Tools Options Under Default working directory.. vælg den mappe hvor I vil gemme filer relateret til R (fx. data)

Se data I min arbejdsmappe har jeg en data-fil der hedder mikrosundhed.dat liggende. Findes også på kursussiden. Hvis jeg åbner data-filen i Notepad ser den sådan ud: Data består af 5 kolonner, der hver svarer til en variabel. Bemærk: Variabelnavnet står øverst i række! Luk Notepad igen ellers går det bare galt ;-)

Hent data ind i R Vi er nu klar til vores første kommando! På kommandolinjen skriv: mitdata = read.table("mikrosundhed.dat", header=true) Dette læser data-filen ind i en tabel med navnet mitdata. Med tilføjelsen header=true har vi angivet at variabelnavne er angivet i øverste række (aka header en) i data-filen. Hvis kommandoen er korrekt indtastet er der nu skabt et objekt med navnet mitdata, der indeholder data. Workspace viser alle objekter.

Sådan ser data ud Vi kan se indholdet af data-objektet mitdata ved at klikke på

Et hurtigt overblik Man kan få en opsummering af tabellen vha. summary(mitdata) Resultat: For kategoriske variable: Frekvenser for hver kategori. For kvalitative variable: Mindste værdi, 1. kvartil, median, middelværdi, 3. kvartil, største værdi, og antal manglende værdier. NA = Not Available manglende observationer.

Den enkelte variabel. Man kan se hvilke variable tabellen indeholder vha: Vi vil se nærmere på vægt. Vi kan se indholdet af søjlen med navnet vaegt frem vha. mitdata$vaegt. Gør man det får man listet vægt for alle 2742 deltagere lidt uoverskueligt! Vi kan få et overblik over vægt vha.

Et par plot Spol frem og tilbage mellem plots Histogram Boxplot 40 60 80 100 120 140

Numeriske opsummeringer Middelværdi R vil ikke udregne gennemsnittet, når der mangler observationer. Percentiler (standarden er 0%, 25%, 50%, 75%, 100%) Andre percentiler, fx. 5% og 95% Standardafvigelsen

Tabeller Vi kan nemt skabe en (kontingens)tabel for Ryger og Køn: > table(mitdata$koen,mitdata$ryger) Ryger Ryger ikke Kvinde 685 750 Mand 625 585 Vi gemmer lige tabellen til senere > tabel = table(mitdata$koen,mitdata$ryger)

Marginale fordelinger Vi kan tilføje de marginale fordelinger: > addmargins(tabel) Ryger Ryger ikke Sum Kvinde 685 750 1435 Mand 625 585 1210 Sum 1310 1335 2645

Rækkefordeling i procent Andelen af ryger/ryger ikke i hver række: > prop.table(tabel,1) Ryger Ryger ikke Kvinde 0.4773519 0.5226481 Mand 0.5165289 0.4834711 Erstattes 1 med 2 får man fordelingen i hver søjle Sammen men i procent, så gang med 100: > prop.table(tabel,1)*100 Ryger Ryger ikke Kvinde 47.73519 52.26481 Mand 51.65289 48.34711

χ 2 -test for uafhængighed Vi kan nemt udføre et χ 2 -test for uafhængighed: > chisq.test(tabel) Pearson's Chi-squared test with Yates' continuity correction data: tabel X-squared = 3.8754, df = 1, p-value = 0.049 Bemærk at R automatisk bruger Yates kontinuiteteskorrektion da vi her tester i en 2x2 tabel.

Eksamensopgave: Goodness-of-fit

Eksamensopgave i R > data = c(265,115,44,85,55,7,136,313,76) > andele = c(0.248,0.095,0.049,0.092,0.05,0.008,0.123,0.268,0.067) > chisq.test(x=data,p=andele) Chi-squared test for given probabilities data: data X-squared = 7.2688, df = 8, p-value = 0.5079 De forventede værdier er tilgængelige: > chisq.test(x=data,p=andele)$expected [1] 271.808 104.120 53.704 100.832 54.800 8.768 134.808 293.728 73.432

Eksamensopgave i R - igen Beregn forventede værdier manuelt > forventet = sum(data)*andele > forventet [1] 271.808 104.120 53.704 100.832 54.800 8.768 134.808 293.728 73.432 Beregn teststørrelse > sum((data-forventet)^2/forventet) [1] 7.268769 Find p-værdi > pchisq(7.268769,df=8,lower.tail=false) [1] 0.5079317

Eksamensopgave i R - plot Plot a chi-i-anden- fordeling og teststørrelse > curve(dchisq(x,df=8),0,20) > abline(h=0,v=7.268769) ## Tilføj linjer dchisq(x, df = 8 0.00 0.06 dchisq(x, df = 8 0.00 0.06 0 5 10 15 20 0 5 10 15 20 Tilføj lidt farve: x > c = curve(dchisq(x,df=8),7.268769,20,add=true) > polygon(c(c$x[1],c$x,tail(c$x,1)),c(0,c$y,0),col="skyblue") x

Simulation Man kan nemt simulere fordelinger > sim = rchisq(n=1000,df=8) > hist(sim) Endnu et plot > hist(sim,freq=false) > curve(dchisq(x,df=8),0,30,add=true) Monte Carlo p-værdi > mean(sim>=7.268769) [1] 0.506 > abline(v=7.268769,lwd=2, col="red") Frequency Density 0 100 200 0.00 0.06 Histogram of s 0 5 10 15 20 25 30 sim 0 5 10 15 20 25 30 sim

R som regnemaskine Almindelige udregninger > 4.7*(2+3)^4 [1] 2937.5 Skabe et (skalar)objekt og se indhold > a=4 > a [1] 4 Skab et (vektor)objekt og se indhold > b=c(2,5,7) > b [1] 2 5 7

R som regnemaskine (fortsat) R regner elementvis: > a*b [1] 8 20 28 > a+b [1] 6 9 11 > b^2 [1] 4 25 49 Sum og produkt af elementer i vektor > sum(b) [1] 14 > prod(b) [1] 70

R hjælp Man kan få hjælp vha.?<kommando> >?sum Man kan få RStudio til at hjælpe med koammando-navne og options vha. Tab-knappen. Man kan også søge efter hjælp vha. > help.search("plot")