Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Relaterede dokumenter
Note om Monte Carlo metoden

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

1 Start og afslutning. Help.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Opgaver til kapitel 3

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Almindelige kontinuerte fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Definition. Definitioner

Sandsynlighedsregning Oversigt over begreber og fordelinger

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistiske modeller

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Nanostatistik: Opgaver

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Kvantitative Metoder 1 - Efterår Dagens program

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Uge 10 Teoretisk Statistik 1. marts 2004

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår Dagens program

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Nanostatistik: Opgavebesvarelser

R syntaks. Installation af R

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2014 Kursus nr : (navn) (underskrift) (bord nr)

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Produkt og marked - matematiske og statistiske metoder

Statistik og Sandsynlighedsregning 2

Kvantitative Metoder 1 - Forår 2007

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Hvorfor er normalfordelingen så normal?

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Kvantitative Metoder 1 - Efterår Dagens program

Binomialfordeling og konfidensinterval for en andel

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Hvorfor er det lige at vi skal lære det her?

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

En Introduktion til SAS. Kapitel 5.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik og Sandsynlighedsregning 2

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Statistik viden eller tilfældighed

Statistik og Sandsynlighedsregning 2

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Statistik kommandoer i Stata opdateret 22/ Erik Parner

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

Teoretisk Statistik, 16. februar Generel teori,repetition

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Kapitel 4 Sandsynlighed og statistiske modeller

Schweynoch, Se eventuelt

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Oversigt over nyttige fordelinger

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Forelæsning 1: Intro og beskrivende statistik

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Statistik og Sandsynlighedsregning 2

Modelkontrol i Faktor Modeller

Skriftlig eksamen Science statistik- ST501

Kvantitative Metoder 1 - Forår Dagens program

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 20. december 2017 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 24. maj 2012 Kursus nr : (navn) (underskrift) (bord nr)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

CIVILINGENIØREKSAMEN Side 1 af 18 sider. Skriftlig prøve, den: XY. december 200Z Kursus nr : (navn) (underskrift) (bord nr)

Karakteristiske funktioner og Den Centrale Grænseværdisætning

DANMARKS TEKNISKE UNIVERSITET Side?? af?? sider. Skriftlig prøve, den: 18. december 2014 Kursus nr : (navn) (underskrift) (bord nr)

Note til styrkefunktionen

Transkript:

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2 Københavns Universitet Susanne Ditlevsen og Helle Sørensen R opgaver Det er en god ide at vænne sig til at skrive kommandoerne i en editor efter eget valg så de kan gemmes til senere brug. I Windows åbnes R s indbyggede editor vha. File-menuen (New script eller Open script). Kommandoer overføres til prompten vha. Ctrl-R. I File-menuen kan man desuden skifte arbejdskatalog (Change dir) så filer som default gemmes og hentes fra dette katalog. 1. Kom i gang med R Opgave 1 Start R og udfør nedenstående. Find gerne selv på flere ting! (a) Beregn 7 9 + 3 og 0.95 10 og log(10). (b) Lav en variabel a med værdien 7 og en variabel b med værdien 8. Skriv a og b på skærmen. Beregn summen og produktet af a og b. (c) Lav en vektor x med værdierne 2, 9, 4 og 6 og en vektor y med værdierne 2, 1, 0, 2. Prøv kommandoerne x+y, x*y, log(x), log(y), 4+x og 2*y, og hold øje med hvad der sker. (d) Prøv kommandoerne x[1], x[2:3], x[-3] og x[5]. (e) Prøv også kommandoerne plot(x), plot(x,y), plot(x,y,type= l ) og plot(x,y,type= b ) (f) Prøv kommandoerne z = seq(4,6,0.1) og u = seq(4,6,length=15) og se hvad z og u indeholder. (g) Prøv kommandoen v = rexp(100,0.5). v indeholder 100 tilfældige tal trukket fra eksponentialfordelingen med parameter 0.5. Prøv kommandoerne sum(v), mean(v), var(v) og sd(v). Overvej hvordan disse størrelser forholder sig til eksponentialfordelingen med parameter 0.5. (h) Prøv også kommandoen mean(v*v). Hvad er sammenhængen mellem mean(v*v), mean(v) og var(v)? Sammenhængen er kun approksimativ. 1

2. Indlæsning af data Opgave 2 Konstruer et R-datasæt test med tre variable og 12 observationer: x y z 0 1 6 1 0 9 0 0 1 0 0 20 0 1 5 0 1 2 1 1 3 1 1 8 1 1 7 0 1 10 0 0 15 1 1 4 Ordrerne c, cbind og data.frame kan med fordel benyttes. 3. Konstruktion af deldatadæt I følgende opgaver kan ordren subset benyttes. Opgave 3 Konstruer på grundlag af test et nyt datasæt, der kun indeholder de to variable x og y. Opgave 4 Konstruer på grundlag af test et nyt datasæt, der indeholder alle observationer med x=1. Opgave 5 Konstruer på grundlag af test et nyt datasæt, der indeholder alle observationer med x=0 og y=1. Opgave 6 Konstruer på grundlag af test et nyt datasæt, der kun indeholder variablen z og kun observationer med y=0. 4. Sammenfletning af datasæt I følgende opgaver kan ordrerne rbind, cbind og merge benyttes. 2

Opgave 7 Konstruer et R-datasæt test1 med tre variable og 4 observationer: x y z 0 0 9 1 0 6 0 1 1 1 1 5 Sammensæt test og test1 til et datasæt med 3 variable og 16 observationer. Opgave 8 Konstruer et R-datasæt test2 med to variable og 12 observationer: index v 1 nej 2 ja 3 nej 4 nej 5 ja 6 nej 7 nej 8 ja 9 nej 10 nej 11 nej 12 ja Sammensæt test og test2 til et datasæt med 5 variable og 12 observationer. Opgave 9 Konstruer et R-datasæt test3 med to variable og 12 observationer: index u 1 1 2 1 3 1 4 1 5 2 6 2 7 2 8 2 9 3 10 3 11 3 12 3 3

Sammensæt test2 og test3 til et datasæt med 3 variable og 12 observationer, da de har variablen index tilfælles. 5. Konstruktion af nye variable I følgende opgaver kan ordren transform benyttes. Opgave 10 Konstruer på grundlag af test et nyt datasæt, der sammen med x, y og z indeholder de to nye variable scaledx = 5x og logz = log(z). Opgave 11 Konstruer på grundlag af test et nyt datasæt, der indeholder de 3 variable z, sumxy = x+y og xlogy = x*log(y). Undersøg om der er manglende værdier i datasættet. 6. Tilfældige tal og fordelinger I følgende opgaver kan ordrerne rnorm, dnorm, rbinom, dbinom, hist, qqnorm, seq, plot, mean, se og var benyttes. Opgave 12 Frembring en vektor, normal50, med 50 normalfordelte observationer med middelværdi 0 og varians 1. Find gennemsnit, median, standardafvigelse og varians. Tegn desuden et histogram af vektoren. Gentag øvelsen nogle gange for et få en ide om hvor forskellige stikprøver fra en normalfordeling kan se ud. Opgave 13 Som opgave 12 men med 1000 observationer i stedet for 50. Prøv desuden kommandoen z = rnorm(1000,5,2) og tegn histogram af z. Beregn også middelværdi, varians og spredning for z. Hvilken fordeling er værdierne i z trukket fra? Opgave 14 Lav en vektor x med 20 normalfordelte variable med middelværdi 0 og spredning 1. Tegn et QQ-plot for x. Gentag øvelsen nogle gange for at få et indtryk af hvor forskellige QQ-plots for normalfordellte stikprøver faktisk kan se ud. Prøv også med andre stikprøvestørrelser, både mindre og større end 20. Opgave 15 Lav en vektor x der løber fra -4 til 4 i spring af 0.1. Lav derefter en vektor y der indeholder værdierne af normalfordelingens tæthedsfunktion beregnet i x s værdier. Brug x og y til at tegne tæthedsfunktionen, brug valgmuligheden type= l i plot-kommandoen. Opgave 16 Lav en vektor med 1000 normalfordelte observationer med middelværdi 0 og varians 1, og tegn et histogram af vektoren. Prøv også kommandoen 4

hist(x, prob=t) og forklar hvordan histogrammet ændres. Udfør derefter kommandoen points(x,y,type= l ) hvor x og y er som i opgave 15 Forklar hvad du kan se. Opgave 17 Frembring en vektor binomial50 med 50 binomialfordelte observationer med sandsynlighedsparameter 0.3. Find gennemsnit, median, standardafvigelse og varians. Gentag øvelsen med en vektor binomial1000 med 1000 binomialfordelte variable med samme sandsynlighedsparameter. Opgave 18 Lav en vektor x der løber fra 0 til 50 i spring af 1. Plot binomialfordelingens tæthedsfunktion med sandsynlighedsparameter 0.3 og antalsparameter 50 udregnet i punkterne givet ved x. Brug valgmuligheden type= h i ordren plot. Hvorfor er det kun interessant med spring på 1 i x? Opgave 19 Gentag øvelsen med andre antalsparametre, f.eks 5 og 500. Bemærk at vektoren x skal løbe fra 0 til antalsparameteren (hvorfor?). Opgave 20 Frembring to vektorer normx og normy hver med 100 normalfordelte observationer med middelværdi 0 og varians 1. Find den empiriske korrelationskoefficient for (normx,normy) og for (normx,normx+normy) Opgave 21 Denne opgave illustrerer hvordan man kan simulere observationer fra en fordeling med fordelingsfunktion F vha. ligefordelingen, jf. Eksempel 5.4.4 fra MS. (a) Lav en vektor, r, med 1000 observationer fra ligefordelingen på (0, 1) vha. funktionen runif. Lav et histogram af r og forklar hvorfor det ser ud som det gør. I MS Eksempel 5.1.4 betragtes Beta-fordelingen, med tæthed og fordelingsfunktion Vi skal kun se på tilfældet β = 3. p(x) = βx β 1, x (0, 1) F (x) = x β, x (0, 1) (b) Bestem den inverse funktion F 1 til F når β = 3. (c) Lav en vektor z som indeholder værdierne af F 1 beregnet i værdierne for r (stadig β = 3). 5

(d) Brug kommandoen hist(z, prob=t) til at lave et histogram for z. Tegn desuden tætheden p for β = 3 oveni histogrammet. Er tætheden en god approksimation til histogrammet? Hvorfor? Hvordan kan vi fortolke værdierne af z? Vink: Se opgave 16 for at se hvordan du tilføjer grafen for en funktion til en allerede eksisterende figur. Opgave 22 Denne opgave handler om den logaritmiske normalfordeling, jf. opgave MS 5.15. (a) Lav en vektor x med 1000 observationer fra normalfordelingen med middelværdi 0 og varians 1, og lav et histogram af normal. (b) Lav så en vektor y der indeholder exponentialfordelingen til værdierne i x. Lav et histogram af y. Er fordelingen af y symmetrisk? (d) Prøv også kommandoerne hist(y, prob = T) hist(y, prob = T, nclass = 50) hist(y, prob = T, nclass = 50, ylim = c(0, 0.7)) og forklar hvordan figuren ændres. (c) I opgave MS 5.15 fandt vi ud af at hvis X er normalfordelt med middelværdi 0 og varians 1 og Y = exp(x), så har Y tæthed p(y) = 1 ( ) y 2π exp (log(y))2, y > 0 2 Indtegn denne funktion i histogrammet af y. Er det en god approksimation til histogrammet? Hvorfor? (e) I opgave MS 5.15 viste vi at middelværdien af Y er e = 1.6487. Beregn gennemsnittet af y og sammenlign. 6