R i 02402: Introduktion til Statistik

Størrelse: px
Starte visningen fra side:

Download "R i 02402: Introduktion til Statistik"

Transkript

1 R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 20. juni 2011 Indhold 1 Anvendelse af R på Databar-systemet på DTU Adgang R R Commander Import af data Brug af programmet Lagring af tekst og grafik ThinLinc R i Pensum Introducerende R-øvelse Diskrete fordelinger, uge Beskrivelse Binomialfordelingen: Poissonfordelingen: Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Opgave

2 4 Kontinuerte fordelinger, normalfordelingen, uge Beskrivelse Normalfordelingen: Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Kontinuerte fordelinger, uge Beskrivelse Log-normal-fordelingen: Den uniforme fordeling: Eksponentialfordelingen: Normalfordelingsplot Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Samplingfordelinger, uge 5 og Beskrivelse t-fordelingen χ 2 -fordelingen: (uge 8) F-fordelingen:(uge 8) Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Hypotese-test og konfidensintervaller for et og to gennemsnit, Kap. 7+8, uge Beskrivelse One-sample t-test/konfidensinterval Two-sample t-test/konfidensinterval Parret t-test/konfidensinterval: Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Hypotese-test og konfidensintervaller for andele, Kap. 10, uge Beskrivelse Konfidensinterval for en andel, sec

3 8.1.2 Hypotesetest for en andel, sec Hypotesetest for to eller flere andele, sec Analyse af r c tabeller, sec Træning vha. ugens øvelsesopgaver Testopgaver Statistik ved hjælp af simulering, uge Introduktion Hvad er simulering egentlig? Eksempel Simulering som generelt beregningsværktøj Eksempel Fejlophobningslove Eksempel Konfidensintervaller ved hjælp af simulering: bootstrapping Ikke-parametrisk bootstrap for one-sample situationen Two-sample situationen Hypotesetest ved hjælp af simulering Hypotesetest ved hjælp af bootstrap konfidensintervaller One-sample setup, Eksempel Hypotesetest ved hjælp af permutationstest Two-sample situationen Opgaver Exercise Exercise Exercise Exercise Exercise Lineær regression, kap. 11, uge Beskrivelse Træning vha. ugens øvelsesopgaver Testopgaver Opgave Variansanalyse, Kap og 12.2, uge Beskrivelse Supplement: Generel variansanalyse ( Orienterende ) Træning vha. ugens øvelsesopgaver Testopgaver Opgave Variansanalyse, Kap. 12.3, uge Beskrivelse Træning vha. ugens øvelsesopgaver

4 12.3 Testopgaver Opgave

5 1 Anvendelse af R på Databar-systemet på DTU 1.1 Adgang En beskrivelse af databar systemet på DTU kan findes på Denne note antager at G-baren benyttes. Adgang til G-baren forudsætter et login (studienummer) og et password, hvilket alle studerende ved DTU får udleveret ved optagelse. Login foretages via en tynd klient (terminal) placeret som beskrevet under databarsystemet i folderen Databarsystemet på DTU ( eller via login over internet. For login over internet anbefales det at benytte ThinLinc, se bilag 1.3. Når der logges ind vha. ThinLinc skal man først vælge en profil for sessionen. I denne note antages at Solaris CDE anvendes. 1.2 R Programmet R er et open source statistikprogram, der i vid udstrækning er en kopi af det kommercielle program R. Det introduceres kort i Appendix C i lærebogen til Det kører på gbaren, men er nemt og hurtigt at hente ned til sin egen computer, hvad enten man bruger Windows, Mac eller Linux: Det anbefales at hente programmet til sin egen computer, idet man jo IKKE har adgang til gbaren ved eksamen, hvor man godt må have programmet med på sin egen labtop. Der findes samme sted adskillige tilgængelige introduktioner til programmet. Programmet fungerer i sin grundform vha. af et kommando-vindue (R Console), hvor man ved prompten kan køre kommandoer/funktionskald. I gbaren kan programmet således køre interaktivt alene via sådan en konsol. I windows versionen er konsollen automatisk pakket ind i en brugergrænseflade, hvor konsollen i opstarten er det eneste aktive vindue, men med nogle forskellige overordnede menuer. Denne version af at køre programmet findes ligeledes på gbaren. Man kan med fordel altid starte en script-editor ( File New Script ) inden for R, hvorfra det er nemt at submitte kommandoer samtidig med, at man ikke mister dem igen. I kurset Anvendt statistik og statistisk programmel, som kører som et 3-ugers kursus i Januar hvert år får man mulighed for at arbejde videre med brugen af programmet R til praktisk statistisk dataanalyse - en direkte projekt-orienteret overbygning på introduktionskurset 02402, se hvor man også kan finde henvisninger til godt (online) lærebogsmateriale R Commander På trods af at R således kører via menuer, er der i denne grundform IKKE egentlige menuer til at udføre selve de statistiske analyser, som kendes fra de fleste standard kommercielle statistikprogrammer. Vi vil derfor i tillæg til dette bruge en menubaseret overbygning til at lave statistik i R. Der findes forskellige af sådanne overbygninger, vi bruger pakken ( package ) 5

6 Rcmdr også kaldet R Commander. Denne er klar til brug i databarens R version - for at starte: ved prompten skriv: > library(rcmdr) Man kan nemt installere Rcmdr på sin egen computer også ved inden for programmet R at gøre følgende: (internetforbindelse forudsættes) 1. Klik Packages Install Packages(s) 2. Vælg Mirror Sit - f.eks. Denmark 3. Find og vælg pakken Rcmdr på listen - så pakken bliver installere ( dvs. kopieret til computeren) 4. Derefter, kør: library(rcmdr) ved prompten. Man loader programmet på denne vis. (Dette skal skrives hver gang man starter R op for også at starte R Commander) (Første gang spørger den sandsynligvis til nogle pakker, der mangler - man svarer blot ja til at den skal installere det nødvendige) NB, vedrørende installationen og første load R Commander: For visse platforme er der forskellige detaljer, der måske kan drille lidt: For Windows 7 og Vista: Hvis du installerer R, som computeren nok vil foreslå, under Pogramme Files, så skal du køre R som administrator for at kunne installere pakker. Enten højreklik på R ved opstart og vælg dette ELLER vælg ved installeringen at installere R helt uden for dette, f.eks. blot direkte i roden. For Macbrugere er der et par ekstra udfordringer: Man skal sikre sig at X Windows er tilgængelig OG at Tcl/Tk for X Windows er installeret inden man går i gang. Uanset platform, se følgende hjemmeside for detaljer og for Mac-brugere direkte links til det nødvendige: ( Bemærk, at R Commander giver et ekstra program-vindue, der inkluderer hhv. en script-editor og et outputvindue. Når man laver grafik vil graferne poppe op i seperate vinduer - evt. inden for det oprindelige R-vindue. Bemærk også det ret væsentligt: Man får for alle menubaserede valg ikke blot resultatet af disse valg, men også de R-scripts, som dette svarer til. Man kan således nemt springe imellem script-baseret og menubaseret brug af programmet Import af data Data importeres til R ved f.eks. at bruge read.table funktionen, se Appendiks C. Eller via menuerne i R Commander: Data Import Data. Forskellige valg er filformat er mulige - default setting for text-files virker umiddelbart for de.txt-filer, som hører til bogen ( eller mere direkte via (såfremt browseren kører på en maskine på DTU) (7ed: Ved import af data fra et regneark kan det nogen gange være en fordel at eksportere data fra regnearket til komma separeret (csv) format inden data importeres til R. (Der findes pakker, der bedre og mere direkte kan håndtere f.eks. Excell-filer, men det springes over her (pakken RODBC)) 6

7 1.2.3 Brug af programmet Lagring af tekst og grafik Tekst fra vinduer i programmet R kan kopieres til andre programmer på sædvanlig vis: Marker teksten ved at holde venstre tast på musen nede og træk pointeren over den ønskede tekst. Skift til det andet program (f.eks. StarOffice), placer pointeren det ønskede sted og tryk på musens midterste tast. Alt tekst i Commands Window eller Report Window kan gemmes i en tekstfil ved at gøre vinduet aktivt og vælge File Save As.... Grafik kan gemmes i en grafikfil ved at gøre grafikvinduet aktivt og vælge File Save As.... Der er mulighed for at vælge blandt en række grafik formater (JPEG er default). 1.3 ThinLinc Ved installation af en ThinLinc klient er det muligt at benytte en vilkårlig PC med internetadgang som terminal til G-baren. En ThinLinc klient kan downloades fra (klik på Downloads og vælg platform). Når klienten er installeret startes ThinLinc. Adgang til G-baren fås via internet adressen thinlinc.gbar.dtu.dk. Noter: Pr. default benytter ThinLinc hele skærmen, dette kan ændres under options. Ved login kan der vælges mellem en række brugergrænseflader; det anbefales at benytte CDE. Anvendelse af CDE forudsætter brug af mus med tre knapper. Hvis musen kun har to knapper emuleres den midterste ved samtidigt tryk på begge knapper. For en mus med tre knapper er der under Windows i nogle tilfælde observeret problemer med den midterste museknap (den fortolkes af Windows og overføres ikke til G-baren). I dette tilfælde kan den midterste museknap emuleres ved samtidigt at trykke på de to yderste museknapper. Yderligere information kan opnås via G-barens hjemmeside under user guide general use remote access access to the G-Bar server using ThinLinc. 2 R i Pensum R indgår i kursets pensum svarende til de afsnit i denne note, der i forelæsningsplanen/pensumlisten henvises til som grundig læsning ( g ). Denne pensumsdel er det, der tjekkes i Testopgaverne under hvert hovedafsnit, som er stillet som en del af øvelserne i løbet kursusforløbet. Disse 7

8 opgaver, og således også eksamen, kræver IKKE at man sidder og har adgang til programmet, MEN kræver en forståelse af forskellige aspekter af det som programmet producerer. Man vil typisk kun kunne opnå denne forståelse/ dette kendskab til programmet, såfremt man i løbet af kurset træner sig lidt i selve programmet. Der bliver ved kursusstart arrangeret en decideret computerøvelse, hvor man således under vejledning kan arbejde med de stillede opgaver. Derudover må man selv arbejde med det. Installerer man R på sin egen labtop, kan man med fordel lade programmet erstatte lommeregneren i kurset, hvilket man så kan udnytte til eksamen. Ud over de stillede testopgaver, så er der i noten her en anvisning til hvilke af øvelsesopgaverne man kan løse med programmet. Det skal understreges, at programmets evne til at beregne ting for brugeren IKKE betyder at forståelsen for detaljerne i beregningerne kan glemmes - forståelsen er en vigtig del af pensum, som jo ligger i alle de sider i lærebogen, som udgør pensum. 2.2 Introducerende R-øvelse Man kan, som beskrevet, bruge R på to forskellige måder: 1) Som et Menubaseret dataanalyseprogram, 2) Som en interaktiv regnemaskine med en lang række indbyggede statistiske funktioner og procedurer. Vi skal i denne øvelse mest bruge metode 1), MEN det anbefales også at prøve metode 2), hvor det foreslås! (Skulle de tekniske vanskeligheder ved installeringen og loading af R Commander pakken, se ovenfor, blive uoverstigelige på selve dagen, så er man stadig godt kørende ift. resten af kurset, hvis man gennemfører øvelsen alene baseret på metode 2).) 1. Start R 2. Download via Campusnet fildeling i kursus Excell-filen: karakterer2004.xls, der indholder 10 kolonner (variable) og 1555 observationer (rækker), som svarer til 1555 skoler: Nummer Variabelnavn Forklaring (mundtlige karakterer sommer 2004) Variabel 1 Skole Skole-navn Variabel 2 Type Skoletype Variabel 3 Type2 Skoletype Variabel 4 Amt Amts-navn Variabel 5 Kommune Kommune-navn Variabel 6 Dansk.Eks Dansk 9. kl. eksamensgennemsnit for skolen Variabel 7 Dansk.Aars Dansk 9. kl. årskaraktersgennemsnit for skolen Variabel 8 Mat.Eks Matematik 9. kl. eksamensgennemsnit for skolen Variabel 9 Mat.Aars Matematik 9. kl. årskaraktereksamensgennemsnit for skolen Variabel 10 Antal Antal elever i den pågældende årgang på skolen 3. Importer datamaterialet til R (File,Import Data, Vælg Excell som file format, browse for at finde filen, skriv et Data set name, f.eks. karakterer2004, som anvendtes ved forelæsningen - og anvendes herunder, klik OK) 4. Se på rådata:( View Data Set ). Kan du finde din egen skole? 5. Udfyld følgende skema over summary skole-statistics: (Vi kigger på skole-tallene UDEN at tage hensyn til at der er forskelligt antal elever på skolerne) 8

9 Enten: Brug menupunktet Statistics, Data Summaries, Summary Statistics, Vælg data set og marker relevante variable, klik OK. Eller: Brug funktionerne listet side 529 i Appendix C. (I så fald husk først at skrive attach(karakterer2004)) Gennemsnit Dansk.Eks Dansk.Aars Mat.Eks Mat.Aars Median Varians Spredning øvre kvartil Q 3 Nedre kvartil Q 1 6. Hvilken historie foræller dette? 7. Sammenlign med histogrammerne for hver af de fire fordelinger. Enten: Brug menupunktet Graph, Histogram Eller: Brug funktionen hist() 8. Lav boxplots for hver af de fire fordelinger. Enten: Brug menupunktet Graph, Boxplot Eller: Brug funktionen boxplot() 9. Prøv at visualisere antallet af skoler af hver type. (Bar graph og/eller pie graph) (Menupunkt Graph) 10. Prøv at sammenligne Matematik eksamenskarakterfordelingerne for skoletyper (variabel: Type).(Brug menupunktet Graph, Boxplot, vælg Type som plot by groups variabel) 11. Prøv at undersøge om der er sammenhæng mellem karaktererne! (Graph, scatterplot, vælg x og y-variable) 12. Prøv selv andre plot-metoder - f.eks. scatterplot matrix, prøv forskellige options, f.eks. identify outliers with mouse i boxplot 13. Prøv at ændre noget i de givne scripts og kør dem igen... 9

10 3 Diskrete fordelinger, uge Beskrivelse Kommandoer skrives ud for prompten >. Kommandoen 3:7, genererer de hele tal fra 3 til 7 i en vektor og 7:3 genererer dem i omvendt rækkefølge: > 3:7 [1] > 7:3 [1] Kommandoen prod(x) multiplicerer alle tallene i vektoren x: 1 > prod(2:3) [1] 6 Der betragtes følgende fordelinger: R binom pois Betegnelse Binomialfordelingen Poissonfordelingen Den hypergeometriske fordeling findes også i R ( hyper) men har en anden form (parametrisering) end i lærebogen og betragtes ikke i denne øvelse. Som beskrevet i lærebogens appendiks C findes der for hver fordeling 4 funktioner i R, hvis navne fremkommer ved at tilføje et af 4 bogstaver til navnet i tabellen: d Tæthedsfunktion f(x) (probability distribution). p Fordelingsfunktion F (x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling. (Bruges og uddybes i Kapitel 9 i noten) q Fraktil (quantile) i fordeling Binomialfordelingen: b(x; n, p) på side 86 (7ed: 107) i lærebogen fås i R som dbinom(x, n, p). B(x; n, p) på side 87 (7ed: 107) i lærebogen fås i R som pbinom(x, n, p) Poissonfordelingen: f(x; λ) på side 104 (7ed: 127) i lærebogen fås i R som dpois(x, lambda). F (x; λ) på side 105 (7ed: 128) i lærebogen fås i R som ppois(x, lambda). 1 Tilsvarende adderer sum(x) alle tallene i vektoren x 10

11 3.2 Træning vha. ugens øvelsesopgaver Løs opgave 4.15 både vha. dbinom og pbinom. Løs opgave 4.19 både vha. dbinom og pbinom. Løs opgave 4.57 vha. R. Løs opgave 4.59 vha. R. Prøv at bruge både dpois og ppois ved løsning af spørgsmål (a). Løs evt. de supperende opgaver 4.2,4.16 og 4.21 vha. R. 3.3 Testopgaver Opgave Lad X betegne en stokastisk variabel. R-kommandoen dbinom(4,10,0.6) køres med resultatet Fremover vil dette vises som følger: > dbinom(4,10,0.6) [1] Hvilken fordeling anvendes og hvad angiver tallet ? Opgave Lad X betegne den stokastiske variabel fra før. Fra R fås to resultater: > pbinom(4,10,0.6) [1] > pbinom(5,10,0.6) [1] Angiv sandsynlighederne P (X 5), P (X < 5), P (X > 4) og P (X = 5) Opgave Lad X betegne en stokastisk variabel. Fra R fås : > dpois(4,3) [1] Hvilken fordeling anvendes og hvad angiver tallet ? Opgave Lad X betegne den stokastiske variabel fra før. Fra R fås to resultater: > ppois(4,3) [1] > ppois(5,3) [1] Angiv sandsynlighederne P (X 5), P (X < 5), P (X > 4) og P (X = 5). 11

12 4 Kontinuerte fordelinger, normalfordelingen, uge Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Probability Distributions og Normal Probability Calculations på side 530 (7ed: 611) (dog ikke qqnorm). Nedenfor er en række fordelinger listet: R norm unif lnorm exp Betegnelse Normalfordelingen Den uniforme fordeling Log-normalfordelingen Exponentialfordelingen Som beskrevet i lærebogens appendiks C findes der for hver fordeling 4 funktioner i R, hvis navne fremkommer ved at tilføje et af 4 bogstaver til navnet i tabellen: d Tæthedsfunktion f(x) (probability density function). p Fordelingsfunktion F (x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling.(bruges og uddybes i Kapitel 9 i noten) q Fraktil (quantile) i fordelingen Normalfordelingen: f(x; µ, σ 2 ) på side 125 (7ed: 154) i lærebogen fås i R som dnorm(x, µ, σ). Fordelingsfunktionen for en normalfordeling med middel µ og varians σ 2 fås som pnorm(x, µ, σ). Dvs. F (z) på side 126 (7ed: 154) fås som pnorm(z, 0, 1) 2 Antag at Z er en standard normalfordelt stokastisk variabel. Den værdi af z for hvilken P (Z z) = p fås som qnorm(p). Denne værdi kaldes p-fraktilen i den standardiserede normalfordeling. Bemærk at R bruger σ og ikke σ Træning vha. ugens øvelsesopgaver Løs opgave 5.19 vha. pnorm. Løs opgave 5.21 vha. qnorm. Løs opgave 5.27 vha. R. Løs opgave 5.33 vha. R. Løs opgave vha. R. (7Ed: 5.113) 2 Eller blot pnorm(z) idet R som default bruger den standardiserede normalfordeling. 12

13 4.3 Testopgaver Opgave Følgende 3 R kommandoer og resultater haves: > pnorm(2) [1] > pnorm(2,1,1) [1] > pnorm(2,1,2) [1] Angiv hvilke fordelinger og sandsynligheder, der er tale om i hvert tilfælde. (Gerne ved en skitse) Opgave Hvad bliver resultatet af R kommandoen qnorm(pnorm(2))? Opgave Følgende 2 R kommandoer og resultater haves: > qnorm(0.975) [1] > qnorm(0.975,1,1) [1] > qnorm(0.975,1,2) [1] Angiv hvilke tal, der er tale om i hvert tilfælde. (Brug gerne skitse) 5 Kontinuerte fordelinger, uge Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Probability Distributions og Normal Probability Calculations på side 530 (7ed: 611) Log-normal-fordelingen: f(x) nederst side 136 (7ed: 166) i lærebogen fås i R som dlnorm(x, α, β). Sandsynligheden i eksemplet side 137 (7ed: 167) i lærebogen fås i R som plnorm(8.2,2,0.1)-plnorm(6.1,2,0.1). Samme sandsynlighed fås i R ligeledes som pnorm(log(8.2),2,0.1)-pnorm(log(6.1),2,0.1). Og endelig som pnorm((log(8.2)-2)/0.1)-pnorm((log(6.1)-2)/0.1). 13

14 Bemærk, at i R hedder den naturlige logaritmefunktion log Bemærk også, at den beregnede sandsynlighed i lærebogen er en smule anderledes. Det skyldes, at man i bogen afrunder de tal, der indsættes i standardnormal-funktionen inden disse slås op i tabellen. Den i R beregnede sandsynlighed er således mere korrekt end den i bogen angivne Den uniforme fordeling: f(x) på side 135 (7ed: 165) i lærebogen fås i R som dunif(x, α, β) Eksponentialfordelingen: f(x) side 140 (7ed: 170) i lærebogen fås i R som dexp(x, scale=β). f(x) side 140 (7ed: 170) i lærebogen fås ligeledes i R som dexp(x, 1/β) Normalfordelingsplot Som beskrevet i appendix C side 530 (7ed: 611) kan man bruge R-funktionen qqnorm. Den anvender en metode, der er en smule anderledes end den i bogen beskrevne. I opgavebessvarelsen til opgave vil man kunne finde en præcis beskrivelse af denne variant af konstruktionen af plottet. R ombytter ligeledes x- og y-aksen i plottet ift. bogen. Har man importeret de data, der bruges i opgave ( 2-66.TXT ) OG attachet dem, Så opnås plottet simpelt hen ved at skrive qqnorm(speed). 5.2 Træning vha. ugens øvelsesopgaver Løs opgave 5.46 vha. punif. Løs opgave 5.51 vha. plnorm. Løs opgave 5.58 vha. pexp. Løs opgave 5.38 vha. pnorm. Løs opgave vha. punif. (7Ed: 5.110) Løs opgave vha. qqnorm. (7Ed: 5.119) 5.3 Testopgaver Opgave Angiv formel for og/eller skitser betydningen af følgende R kommando og resultat: > punif(0.4) [1]

15 5.3.2 Opgave Angiv formel for og/eller skitser betydningen af følgende R kommando og resultat: > dexp(2,0.5) [1] > pexp(2,0.5) [1] Opgave Angiv formel for og/eller skitser betydningen af følgende R kommando og resultat: > qlnorm(0.5) [1] 1 6 Samplingfordelinger, uge 5 og Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Sampling Distributions side 530 (7ed: 612). De sampling fordelinger, der introduceres i kapitel 6 i lærebogen er: R t chisq f Betegnelse t-fordelingen χ 2 -fordelingen F-fordelingen Som tidligere beskrevet i lærebogens appendiks C findes der helt tilsvarende til alle andre fordelinger i R fire funktioner i R, hvis navne fremkommer ved at tilføje et af 4 bogstaver til navnet i tabellen: d Tæthedsfunktion f(x) (probability density function). p Fordelingsfunktion F (x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling. (Bruges og uddybes i Kapitel 9 i noten) q Fraktil (quantile) i fordelingen t-fordelingen Tallene i Tabel 4, side 516 (7ed: 587) i lærebogen er givet ved funktionen qt(1 α,ν)(giver værdierne i tabellen) eller tilsvarende 1-pt(x,ν) (giver α-værdierne), hvor x angiver værdierne i tabellen. Sandsynligheden i eksemplet side 188 (7ed: 218) i lærebogen for at ligge under kan i R fås direkte som pt(-3.19,19) og tilsvarende kan sandsynligheden for at ligge over fås som: 1-pt(3.19,19). 15

16 6.1.2 χ 2 -fordelingen: (uge 8) Tallene i Tabel 5, side 517 (7ed: 588) i lærebogen er givet ved funktionen qchisq(1 α,ν)(giver værdierne i tabellen) eller tilsvarende 1-pchisq(x,ν) (giver α-værdierne), hvor x angiver værdierne i tabellen. Sandsynligheden i eksemplet side 190 (7ed: ) i lærebogen kan i R fås som 1-pchisq(30.2,19) F-fordelingen:(uge 8) Tallene i Tabel 6, side (7ed: ) i lærebogen er givet ved funktionen qf(1 α,ν 1,ν 2 )(giver værdierne i tabellen) eller tilsvarende 1-pf(x,ν 1,ν 2 ) (giver α-værdierne), hvor x angiver værdierne i tabellen. Sandsynligheden 0.95 i eksemplet side 191 (7ed: 221) i lærebogen kan i R fås som 1-pf(0.36,10,20) eller som pf(2.77,20,10). Man kunne finde værdien i tabellen, der giver de 0.95 ved qf(1-0.95,10,20) eller 1/qf(0.95,20,10). 6.2 Træning vha. ugens øvelsesopgaver 6.3 Testopgaver Opgave Angiv formel for og/eller skitser betydningen af følgende R kommando og resultat: > qt(0.975,17) [1] > qt(0.975,1000) [1] Opgave Angiv formel for og/eller skitser betydningen af følgende R kommando og resultat: > pt(2.75,17) [1] Hypotese-test og konfidensintervaller for et og to gennemsnit, Kap. 7+8, uge Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Confidence Intervals and Tests of Means på side 531 (7ed: 612). Som beskrevet i appendix C, side 531 (7ed: 612) kan man bruge R-funktionen t.test til både et gennemsnit, to gennemsnit samt den parrede situation. 16

17 Funktionen beregner både hypotese-test og konfidensinterval. Som navnet indikerer, giver dette altså KUN mulighed for at lave test og intervaller baseret på t-fordelingen, IKKE z-test. Dette afspejler, at man som regel er i denne situation i alle virkelige anvendelser af disse ting. Skulle man have tilstrækkelig store n til at Z-test er OK, så fås dette jo automatisk, idet t-test ene jo så giver resultater, der er stort set lig med z-testene. Kaldes funktionen med et enkelt sæt af tal, f.eks. som t.test(x), hvor x således indeholder en række tal, vil funktionen automatisk agere som i sektion 7.2 og 7.6 i bogen. Som default vælges to-sidet test og niveau α = 5%. ønsker man et ensidet test og/eller et andet test-niveau anføres dette i kaldet til funktionen, f.eks.: t.test(x,alt="greater",conf.level=0.90). Bemærk, at konfidensniveauet = 1 α. Kaldes funktionen med to sæt af tal, f.eks. som t.test(x1,x2), hvor x1 således indeholder en række tal og x2 en anden række tal, vil funktionen automatisk agere som i sektion 8 i bogen, altså betragte de to sæt af tal som to uafhængige stikprøver. Som default vælges to-sidet test og niveau α = 5%. ønsker man et ensidet test og/eller et andet test-niveau anføres dette i kaldet til funktionen, f.eks.: t.test(x1,x2,alt="less",conf.level=0.90). Er der tale om to parrede stikprøver, kaldes funktionen på samme måde, MEN der tilføjes en option til kaldet: t.test(x1,x2,paired=t). Dette giver således præcis det samme som at kalde funktionen med det enkelte sæt af tal, der udgøres af differenserne: t.test(x1-x2). Der gælder de samme ting vedr. ensidet/tosidet og test-niveau. Når funktionen kaldes med et ensidet alternativ (alt="greater" eller alt="less", så angiver den et andet konfidens-interval end ellers. Dette er et såkaldt ensidet konfidens-interval, som vi IKKE berører i kurset! One-sample t-test/konfidensinterval Man kan opnå t-fordelingsversionen af resultaterne i eksemplet nederst side 210 ved at: 1. Importere C2nanoheight.TXT (vha. file-menu). Kald det (f.eks.) nano. 2. Attach dette data-sæt: attach(nano). (Ved menubaseret analyse behøver man ikke attache ) 3. Brug funktionen: t.test(height.nm.,conf.level=0.99). Bemærk, at bogen jo angiver large sample versionen af konfidensintervallet, som bruger normalfordelingen i stedet for t-fordelingen. Begge dele kan retfærdiggøres. Bemærk også, at man får et tosidet t-test for hypotesen om at µ = 0 skrevet ud uanset om man har nogen interesse overhovedet i dette test! Det er jo f.eks. IKKE noget man gider kigge på i dette tilfælde! Two-sample t-test/konfidensinterval Man kan opnå resultaterne i eksemplet side (7ed: ) ved først at: 1. Importere C8alloy.TXT (vha. file-menu). Kald det (f.eks.) C8alloy. 17

18 I dette eksempel er data lagret på en typisk (og fornuftig) måde, der dog vanskeliggør brugen af funktionen t.test, som beskrevet i bogen, en anelse: Samtlige = 85 strengthværdier for de to alloys ligger i en enkelt variabel: strength, samtidig med at der findes en anden variabel alloy, der identificerer hver enkelt observation som enten alloy 1 eller alloy 2. Variablen alloy indeholder altså og 2-taller. Man kan nu konstruere to nye variable x1 og x2, der indeholder hver sit sæt af tal ved: x1=strength[alloy==1] x2=strength[alloy==2] hvorefter man kan opnå resultaterne side 255 (7ed: 267) ved at kalde funktionen som beskrevet ovenfor: t.test(x1,x2). Man kan alternativt bruge data som de er og så via menuerne klikke sig frem. Før man kan det, skal man fortælle R, at alloy-variablen er en gruppe-variabel, altså en variabel, der opdeler materialet i grupper - dette kalder man sædvanligvis en faktor. Dette gøres enten ved kommandoen: C8alloy$alloy=factor(C8alloy$alloy) eller ved i menuerne: Data Manage Data in active Data set Convert numeric variables to factors og vælg alloy (bestem selv navnene, f.eks. 1 og 2). Nu kan man så lave den statistiske analyse ved menuerne: Statistics Means Independent Samples t-test... Bemærk, at man ligeledes kan udføre one-sample beregninger via menuen. (Bemærk, at hvis variable ikke er på numerisk form, blive de automatisk opfattet af R som faktorer ) Har man først alloy som en faktor kan man faktisk også køre t.test funktionen direkte på følgende form: strength alloy,data=c8alloy, hvor man bruger R s måde at opskrive modeller på: Brugen af tilde-tegnet ( ) betyder at strength udtrykkes som en funktion af alloy. (Man vil se i scriptvinduet ved brug af menuerne, at det faktisk er denne funktion, som menuen baserer sig på) Parret t-test/konfidensinterval: Ingen yderligere beskrivelse. 7.2 Træning vha. ugens øvelsesopgaver For de fleste af opgaverne kan man naturligvis bruge fordelingerne, som øvet tidligere, i stedet for at slå op i tabellerne (det være sig z- eller t-fordelingen). For at anvende t.test (og/eller menuerne) skal man have rådata tilgængelig - det har man kun i visse af opgaverne: Løs opgave 7.61 (Data fra exercise 2.41: Importer 2-41.TXT ). (7Ed: 7.42) Løs opgave 7.63 og 7.64 (Data kan nemt indtastes: x=c(14.5,14.2,14.4,14.3,14.6)). (7Ed: 7.48 og 7.49) Løs opgave 8.21 (Importer 8-21.TXT ). (7Ed: 7.72) løs evt. opgave 8.10 og (Data kan relativt nemt indtastes). (7Ed: 7.68 og 7.69) 18

19 7.3 Testopgaver Opgave Følgende R kommandoer og resultat haves: > x=c(10,13,16,19,17,15,20,23,15,16) > t.test(x,mu=20,conf.level=0.99) One-sample t-test data: x t = , df = 9, p-value = alternative hypothesis: mean is not equal to percent confidence interval: sample estimates: mean of x 16.4 Opskriv hypotese, alternativ, α og n svarende til dette output. Hvad er estimatet for standard error for gennemsnittet? Hvad er den maximale fejl med 99% konfidens? (For at svare på det sidste kan (dele af) følgende R-information bruges:) > qt(0.995,9) [1] > qt(0.975,9) [1] > qt(0.95,9) [1] Opgave Følgende R kommandoer og resultat haves: > x1=c(10,13,16,19,17,15,20,23,15,16) > x2=c(13,16,20,25,18,16,27,30,17,19) > t.test(x1,x2,alt="less",conf.level=0.95,var.equal = TRUE) Two Sample t-test data: x1 and x2 t = , df = 18, p-value = alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf sample estimates: mean of x mean of y Opskriv hypotese, alternativ, α, n 1 og n 2 svarende til dette output. Hvad er estimatet for standard error for forskellen på gennemsnittene? Hvilken R-kommando ville du bruge for at finde den kritiske værdi for det anvendte hypotesetest? 19

20 7.3.3 Opgave Følgende R kommandoer og resultat haves: > x1=c(10,13,16,19,17,15,20,23,15,16) > x2=c(13,16,20,25,18,16,27,30,17,19) > t.test(x1,x2,paired=t,alt="less",conf.level=0.95) Paired t-test data: x1 and x2 t = , df = 9, p-value = alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf sample estimates: mean of the differences -3.7 Opskriv hypotese, alternativ, α, n 1 og n 2 svarende til dette output. Hvad er estimatet for standard error for forskellen på gennemsnittene? Hvilken R-kommando ville du bruge for at finde den kritiske værdi for det anvendte hypotesetest? 8 Hypotese-test og konfidensintervaller for andele, Kap. 10, uge Beskrivelse Som beskrevet i appendix C, side 531 (7ed: 612) kan man bruge to R-funktioner: prop.test og chisq.test (der findes flere relevante, men dem vil vi ikke gennemgå her) Konfidensinterval for en andel, sec.10.1 Man kan opnå et 95% konfidensinterval, som i eksemplet side 280 (7ed: 295), ved at køre prop.test(36,100). Resultatet bliver en smule anderledes end i bogen. Det skyldes dels, at R som default bruger en såkaldt kontinuitetskorrektion i stil med det vi så ifb. med at approximere binomialfordelingen vha. normalfordelingen, side 132 (7ed: 160). Den kan man slå fra ved at skrive: prop.test(36,100,correct=f). Resultatet vil stadig være en lille smule anderledes end i bogen, idet R anvender endnu en korrektion, der får intervallet til at ligne det eksakte interval, som man kan aflæse i Tabel 9. Denne detalje vil vi IKKE gennemgå her Hypotesetest for en andel, sec.10.2 Man kan opnå resulater som i eksemplet side 299 ved at køre prop.test(48,60,p=0.7,correct=f,alternative="greater") 20

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff. Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Forelæsning 10: Statistik ved hjælp af simulering

Forelæsning 10: Statistik ved hjælp af simulering Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

R i 02402: Introduktion til Statistik

R i 02402: Introduktion til Statistik R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 17. januar 2012 Indhold 1 Anvendelse af R på Databar-systemet på DTU 5 1.1 Adgang......................................

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Forelæsning 1: Intro og beskrivende statistik

Forelæsning 1: Intro og beskrivende statistik Kursus 02402 Introduktion til Statistik Forelæsning 1: Intro og beskrivende statistik Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information Kursus 02402 Forelæsning 1: Intro og beskrivende statistik Oversigt 1 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Almindelige kontinuerte fordelinger

Almindelige kontinuerte fordelinger Almindelige kontinuerte fordelinger Den uniforme fordeling Symbol: X Uniform a,b Beskrivelse: Et tilfældigt tal mellem a og b. Støtte: V X a, b. Tæthedsfunktion: f x 1/ b a for x a,b Fordelingsfunktion:

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 17 sider. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2 Københavns Universitet Susanne Ditlevsen og Helle Sørensen R opgaver Det er en god ide at vænne sig til at skrive kommandoerne i en editor

Læs mere

R i 02402: Introduktion til Statistik

R i 02402: Introduktion til Statistik Indhold R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 2. februar 2010 1 Anvendelse af R på Databar-systemet på DTU 4 1.1 Adgang......................................

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Rune Haubo B Christensen (based on slides by Per Bruun Brockhoff) DTU Compute, Statistik og Dataanalyse Bygning

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Course 02402/02323 Introducerende Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 5 4 4 2 3 1 1 5 4 1

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 5 4 4 2 3 1 1 5 4 1 Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 1. juni 2005 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle sædvanlige Dette sæt er besvaret af (navn)

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1

Læs mere

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2 Indhold 1 Sammenligning af 2 grupper 2 1.1 Responsvariabel og forklarende variabel......................... 2 1.2 Afhængige/uafhængige stikprøver............................ 2 2 Sammenligning af 2 middelværdier

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Peder Bacher DTU Compute, Dynamiske Systemer Building 303B, Room 017 Danish Technical University 2800 Lyngby

Læs mere

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver Hvad skal vi lave? 1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver 2 Sammenligning af 2 middelværdier Uafhængige stikprøver Uafhængige stikprøver -

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Forelæsning 8: Inferens for varianser (kap 9)

Forelæsning 8: Inferens for varianser (kap 9) Kursus 02402 Introduktion til Statistik Forelæsning 8: Inferens for varianser (kap 9) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

SPSS introduktion Om at komme igang 1

SPSS introduktion Om at komme igang 1 SPSS introduktion Om at komme igang 1 af Henrik Lolle, oktober 2003 Indhold Indledning 1 Indgang til SPSS 2 Frekvenstabeller 3 Deskriptive statistikker gennemsnit, standardafvigelse, median osv. 4 Søjlediagrammer

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Vejledning til GYM17 Copyright Adept Nordic 2013

Vejledning til GYM17 Copyright Adept Nordic 2013 Vejledning til GYM17 Copyright Adept Nordic 2013 Vejledning i brug af Gym17-pakken... iv 1 Deskriptiv statistik... 1 1.1 Ikke-grupperede observationssæt... 1 1.2 Grupperede observationssæt... 4 2 Regressioner...

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

enote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher

enote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere