Splus i 02402: Introduktion til Statistik

Størrelse: px
Starte visningen fra side:

Download "Splus i 02402: Introduktion til Statistik"

Transkript

1 Indhold Splus i 02402: Introduktion til Statistik Per Bruun Brockhoff og Henrik Aalborg Nielsen Informatik og Matematisk Modellering, DK-2800 Lyngby 30. januar Anvendelse af S-PLUS på Databar-systemet på DTU Adgang S-PLUS Import af data Brug af programmet Lagring af tekst og grafik ThinLinc Campuslicens til S-PLUS S-PLUS i Pensum Introducerende S-PLUS-øvelse Diskrete fordelinger, uge Beskrivelse Binomialfordelingen: Poissonfordelingen: Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Opgave Kontinuerte fordelinger, normalfordelingen, uge Beskrivelse Normalfordelingen: Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Kontinuerte fordelinger, uge Beskrivelse Log-normal-fordelingen: Den uniforme fordeling: Eksponentialfordelingen: Normalfordelingsplot Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Samplingfordelinger, uge 5 og Beskrivelse t-fordelingen χ 2 -fordelingen: (uge 8) F-fordelingen:(uge 8) Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Hypotese-test og konfidensintervaller for et og to gennemsnit, Kap. 7, uge Beskrivelse One-sample t-test/konfidensinterval Two-sample t-test/konfidensinterval Parret t-test/konfidensinterval: Træning vha. ugens øvelsesopgaver Testopgaver Opgave Opgave Opgave Hypotese-test og konfidensintervaller for andele, Kap. 9, uge Beskrivelse Konfidensinterval for en andel, sec

2 8.1.2 Hypotesetest for en andel, sec Hypotesetest for to eller flere andele, sec Analyse af r c tabeller, sec Træning vha. ugens øvelsesopgaver Testopgaver Non-parametriske hypotese-test, kap. 10, uge Beskrivelse Sign test Rank-Sum Tests, sec Træning vha. ugens øvelsesopgaver Testopgaver Lineær regression, kap. 11, uge Beskrivelse Supplerende detaljer ( Orienterende ) Regression vha. programmenuerne ( Orienterende ) Træning vha. ugens øvelsesopgaver Testopgaver Opgave Variansanalyse, Kap og 12.2, uge Beskrivelse Supplement: Analyse vha. menuerne( Orienterende ) Supplement: Generel variansanalyse ( Orienterende ) Træning vha. ugens øvelsesopgaver Testopgaver Opgave Variansanalyse, Kap. 12.3, uge Beskrivelse Træning vha. ugens øvelsesopgaver Testopgaver Opgave Anvendelse af S-PLUS på Databar-systemet på DTU 1.1 Adgang En beskrivelse af databar systemet på DTU kan findes på Denne note antager at G-baren benyttes. Adgang til G-baren forudsætter et login (studienummer) og et password, hvilket alle studerende ved DTU får udleveret ved optagelse. Login foretages via en tynd klient (terminal) placeret som beskrevet under databarsystemet i folderen Databarsystemet på DTU ( eller via login over internet. For login over internet anbefales det at benytte ThinLinc, se bilag 1.3. Når der logges ind vha. ThinLinc skal man først vælge en profil for sessionen. Det anbefales at bruge Solaris CDE. I denne note antages at Solaris CDE anvendes. 1.2 S-PLUS Efter login fås en menu med diverse programmer ved at klikke på den midterste tast på musen når pointeren holdes over baggrunden. Under Statistics findes S-PLUS. DTU har også en campuslicens til S-PLUS, se appendiks Import af data Data importeres til S-PLUS ved at vælge File Import Data.... Tryk på browse for at vælge den fil der skal importeres. Vælg filformat. Udfyld feltet med navn på data. Bemærk at visse karaktere ikke er tilladt i navne. Såfremt et ikke tilladt navn specificeres ændre S-PLUS navnet. Det endelige navn fremgår af Report Window. Bemærk også at de importerede data bevares selvom S-PLUS sessionen afsluttes. Med hensyn til filformat er ASCII file - whitespace delimited passende ved import af data hørende til lærebogen. Disse data kan, såfremt browseren køre på en maskine på DTU, hentes fra Ved import af data fra et regneark kan det nogen gange være en fordel at eksportere data fra regnearket til komma separeret (csv) format inden data importeres til S-PLUS. 3 4

3 1.2.2 Brug af programmet S-PLUS kan både bruges ved at skrive kommandoer i Commands Window og ved at bruge menusystemet. Brug af kommandolinien er ofte meget effektiv og der henvises til appendiks C i lærebogen. Appendiks C i lærebogen beskriver programmet R, der ligner S-PLUS meget, men ikke har en grafisk brugergrænseflade. Lærebogens appendix C kan bruges som en introduktion til S-PLUS når følgende tages i betragtning: Import af data der i lærebogens appendiks C udføres vha. read.table er beskrevet ovenfor. str, file.choose og sd nævnt i appendiks C findes ikke i S-PLUS. Istedet for sd(xmpg), nævnt øverst side 611, bruges sqrt(var(xmpg)). Den grafiske brugergrænseflade er beskrevet i S-PLUS 7 User s Guide for UNIX/Linux tilgængelig fra Solaris CDE under menu-punktet Statistics (i desktoppen - IKKE inden for Splus programmet) Splus Documentation : Klik derefter på kataloget Doc - og dobbeltklik på pdffilen unixug.pdf, som altså indeholder nævnte users guide. eller som Kapitel 3 (side 76 89) beskriver nogle generelle aspekter. Grafik er beskrevet i kapitel 5 (side ). Endelig er diverse statistiske metoder beskrevet i kapitel 8, følgende sider er mest relevante for dette kursus: : Introduction : Summary statistics : Compare samples. Metoder fra dette afsnit som vi kommer ind på i kurset er: One Sample t-test (side ). Chi-Square Goodness-of-Fit (side ). Two-Sample t-test (side ). Wilcoxon rank sum test (side ). One-Way Analysis of variance (side ). Binomial Test (side ). Proportions Parameters (side ). Chi-Square Test (side ) : Linear Regression : Fixed Effects ANOVA Lagring af tekst og grafik Tekst fra Commands Window eller Report Window kan kopieres til andre programmer på sædvanlig vis: Marker teksten ved at holde venstre tast på musen nede og træk pointeren over den ønskede tekst. Skift til det andet program (f.eks. StarOffice), placer pointeren det ønskede sted og tryk på musens midterste tast. Alt tekst i Commands Window eller Report Window kan gemmes i en tekstfil ved at gøre vinduet aktivt og vælge File Save As.... Grafik kan gemmes i en grafikfil ved at gøre grafikvinduet aktivt og vælge File Save As.... Der er mulighed for at vælge blandt en række grafik formater (JPEG er default). 1.3 ThinLinc Ved installation af en ThinLinc klient er det muligt at benytte en vilkårlig PC med internetadgang som terminal til G-baren. En ThinLinc klient kan downloades fra (klik på Downloads og vælg platform). Når klienten er installeret startes ThinLinc. Adgang til G-baren fås via internet adressen thinlinc.gbar.dtu.dk. Noter: Pr. default benytter ThinLinc hele skærmen, dette kan ændres under options. Ved login kan der vælges mellem en række brugergrænseflader; det anbefales at benytte CDE. Anvendelse af CDE forudsætter brug af mus med tre knapper. Hvis musen kun har to knapper emuleres den midterste ved samtidigt tryk på begge knapper. For en mus med tre knapper er der under Windows i nogle tilfælde observeret problemer med den midterste museknap (den fortolkes af Windows og overføres ikke til G-baren). I dette tilfælde kan den midterste museknap emuleres ved samtidigt at trykke på de to yderste museknapper. Yderligere information kan opnås via G-barens hjemmeside under user guide general use remote access access to the G-Bar server using ThinLinc. 1.4 Campuslicens til S-PLUS DTU har en campuslicens til S-PLUS under hvilken studerende og ansatte kan anvende programmet på en hjemme-pc. Programmet må kun anvendes i forbindelse med undervisning og forskning. Programmet kan hentes via 6

4 Versioner til Windows og Linux er tilgængelige. Fremgangsmåden for at hente til sin windowsbaserede labtop/hjemme-pc er faktisk velbeskrevet på denne hjemmeside, og kan kort beskrives som: 1. Download den relevante.iso-fil (ca. 500 mb) 2. Udpak denne 3. Kør Setup-filen for at installere (brug her det Serial number, der er angivet på samme hjemmeside) 4. FØR man kan starte programmet op skal man derudover downloade Windows License filen SPLUS 08.lic som skal lægges det rigtige sted - typisk vil det være c:\program Files\Insightful\splus70\adm\lic\keys NB: vær opmærksom på, at filen får det korrekte navn ved download: SPLUS 08.lic (En typisk fejl er, at denne fil ved download får en forkert extension - så skriv dette filnavn INKLUSIVE extension ved download!) Man skulle så være klar til start! 2 S-PLUS i Pensum Splus indgår i kursets pensum svarende til de afsnit i denne note, der i forelæsningsplanen/pensumlisten henvises til som grundig læsning ( g ). Denne pensumsdel er det, der tjekkes i Testopgaverne under hvert hovedafsnit, som er stillet som en del af øvelserne i løbet kursusforløbet. Disse opgaver, og således også eksamen, kræver IKKE at man sidder og har adgang til programmet, MEN kræver en forståelse af forskellige aspekter af det som programmet producerer. Man vil typisk kun kunne opnå denne forståelse/ dette kendskab til programmet, såfremt man i løbet af kurset træner sig lidt i selve programmet. Der bliver to gange i løbet af semesteret arrangeret øvelser i Databaren, hvor man således under vejledning kan arbejde med de stillede opgaver. Derudover må man selv arbejde med det. Installerer man Splus (eller R) på sin egen labtop, kan man med fordel lade programmet erstatte lommeregneren i kurset, hvilket man så kan udnytte til eksamen. Ud over de stillede testopgaver, så er der i noten her en anvisning til hvilke af øvelsesopgaverne man kan løse med programmet. Det skal understreges, at programmets evne til at beregne ting for brugeren IKKE betyder at forståelsen for detaljerne i beregningerne kan glemmes - forståelsen er en vigtig del af pensum, som jo ligger i alle de sider i lærebogen, som udgør pensum. 2.2 Introducerende S-PLUS-øvelse Man kan, som beskrevet, bruge Splus på to forskellige måder: 1) Som et Menubaseret dataanalyseprogram, 2) Som en interaktiv regnemaskine med en lang række indbyggede statistiske funktioner og procedurer. Vi skal i denne øvelse mest bruge metode 1), MEN det anbefales også at prøve metode 2), hvor det foreslås! 1. Læs/skim ovenstående om anvendelse af S-PLUS på Databar-systemet på DTU og siderne (øverst) i lærebogen (starten af Appendix C) 2. Start Splus 3. Download via Campusnet fildeling i kursus Excell-filen: karakterer2004.xls, der indholder 10 kolonner (variable) og 1555 observationer (rækker), som svarer til 1555 skoler: Nummer Variabelnavn Forklaring (mundtlige karakterer sommer 2004) Variabel 1 Skole Skole-navn Variabel 2 Type Skoletype Variabel 3 Type2 Skoletype Variabel 4 Amt Amts-navn Variabel 5 Kommune Kommune-navn Variabel 6 Dansk.Eks Dansk 9. kl. eksamensgennemsnit for skolen Variabel 7 Dansk.Aars Dansk 9. kl. årskaraktersgennemsnit for skolen Variabel 8 Mat.Eks Matematik 9. kl. eksamensgennemsnit for skolen Variabel 9 Mat.Aars Matematik 9. kl. årskaraktereksamensgennemsnit for skolen Variabel 10 Antal Antal elever i den pågældende årgang på skolen 4. Importer datamaterialet til Splus (File,Import Data, Vælg Excell som file format, browse for at finde filen, skriv et Data set name, f.eks. karakterer2004, som anvendtes ved forelæsningen - og anvendes herunder, klik OK) 5. Se på rådata:(view, New Data Viewer, Select karakterer2004, Klik OK). Kan du finde din egen skole? 6. Udfyld følgende skema over summary skole-statistics: (Vi kigger på skole-tallene UDEN at tage hensyn til at der er forskelligt antal elever på skolerne) Enten: Brug menupunktet Statistics, Data Summaries, Summary Statistics, Vælg data set og marker relevante variable, klik OK. Eller: Brug funktionerne listet øverst side 611 i Appendix C. (I så fald husk først at skrive attach(karakterer2004)) 7 8

5 Gennemsnit Median Varians Spredning Øvre kvartil Q 3 Nedre kvartil Q 1 7. Hvilken historie foræller dette? Dansk.Eks Dansk.Aars Mat.Eks Mat.Aars 8. Sammenlign med histogrammerne for hver af de fire fordelinger. Enten: Brug menupunktet Graph, One Variable, Histogram Eller: Brug funktionen hist() 9. Lav boxplots for hver af de fire fordelinger. Enten: Brug menupunktet Graph, Two Variables, Boxplot Eller: Brug funktionen boxplot() 10. Prøv at visualisere antallet af skoler af hver type. (Bar plot og/eller pie plot) (Menupunkt Graph, One Variable) 11. Prøv at sammenligne Matematik eksamenskarakterfordelingerne for skoletyper (variabel: Type).(Brug menupunktet Graph, Two Variables, Boxplot, vælg Type som Category variable) 12. Prøv at undersøge om der er sammenhæng mellem karaktererne! (Graph, scatterplot, vælg x og y-variable) 3 Diskrete fordelinger, uge Beskrivelse Kommandoer skrives ud for prompten >. Kommandoen 3:7, genererer de hele tal fra 3 til 7 i en vektor og 7:3 genererer dem i omvendt rækkefølge: > 3:7 [1] > 7:3 [1] Kommandoen prod(x) multiplicerer alle tallene i vektoren x: 1 > prod(2:3) [1] 6 Der betragtes følgende fordelinger: S-PLUS binom pois Betegnelse Binomialfordelingen Poissonfordelingen Den hypergeometriske fordeling findes også i S-PLUS ( hyper) men har en anden form (parametrisering) end i lærebogen og betragtes ikke i denne øvelse. Som beskrevet i lærebogens appendiks C findes der for hver fordeling 4 funktioner i S-PLUS, hvis navne fremkommer ved at tilføje et af 4 bogstaver til navnet i tabellen: d Tæthedsfunktion f(x) (probability distribution). p Fordelingsfunktion F(x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling. (Ikke pensum) q Fraktil (quantile) i fordeling Binomialfordelingen: b(x; n, p) på side 107 i lærebogen fås i S-PLUS somdbinom(x, n, p). B(x; n, p) på side 107 i lærebogen fås i S-PLUS sompbinom(x, n, p) Poissonfordelingen: f(x; λ) på side 127 i lærebogen fås i S-PLUS somdpois(x, lambda). F(x; λ) på side 128 i lærebogen fås i S-PLUS somppois(x, lambda). 3.2 Træning vha. ugens øvelsesopgaver Løs opgave 4.15 både vha. dbinom og pbinom. Løs opgave 4.19 både vha. dbinom og pbinom. Løs opgave 4.21 vha. S-PLUS. Løs opgave 4.57 vha. S-PLUS. Løs opgave 4.59 vha. S-PLUS. Prøv at bruge både dpois og ppois ved løsning af spørgsmål (a). Løs evt. de supperende opgaver 4.2 og 4.16 vha. S-PLUS. 1 Tilsvarende adderer sum(x) alle tallene i vektoren x 10

6 3.3 Testopgaver Opgave Lad X betegne en stokastisk variabel. Splus-kommandoen dbinom(4,10,0.6) køres med resultatet Fremover vil dette vises som følger: > dbinom(4,10,0.6) [1] Hvilken fordeling anvendes og hvad angiver tallet ? Opgave Lad X betegne den stokastiske variabel fra før. Fra Splus fås to resultater: > pbinom(4,10,0.6) [1] > pbinom(5,10,0.6) [1] Angiv sandsynlighederne P(X 5), P(X < 5), P(X > 4) og P(X = 5) Opgave Lad X betegne en stokastisk variabel. Fra Splus fås : > dpois(4,3) [1] Hvilken fordeling anvendes og hvad angiver tallet ? Opgave Lad X betegne den stokastiske variabel fra før. Fra Splus fås to resultater: > ppois(4,3) [1] > ppois(5,3) [1] Angiv sandsynlighederne P(X 5), P(X < 5), P(X > 4) og P(X = 5). 4 Kontinuerte fordelinger, normalfordelingen, uge Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Probability Distributions og Normal Probability Calculations på side 611 (dog ikke qqnorm). Nedenfor er en række fordelinger listet: S-PLUS norm unif lnorm exp Betegnelse Normalfordelingen Den uniforme fordeling Log-normalfordelingen Exponentialfordelingen Som beskrevet i lærebogens appendiks C findes der for hver fordeling 4 funktioner i S-PLUS, hvis navne fremkommer ved at tilføje et af 4 bogstaver til navnet i tabellen: d Tæthedsfunktion f(x) (probability distribution). p Fordelingsfunktion F(x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling.(ikke pensum) q Fraktil (quantile) i fordelingen Normalfordelingen: f(x; µ, σ 2 ) på side 154 i lærebogen fås i S-PLUS somdnorm(x, µ, σ). Fordelingsfunktionen for en normalfordeling med middel µ og varians σ 2 fås sompnorm( µ, σ). Dvs. F(z) på side 154 fås sompnorm(z, 0, 1) 2 Antag at Z er en standard normalfordelt stokastisk variabel. Den værdi af z for hvilken P(Z z) = p fås som qnorm(p). Denne værdi kaldes p-fraktilen i den standardiserede normalfordeling. Bemærk at S-PLUS bruger σ og ikke σ Træning vha. ugens øvelsesopgaver Løs opgave 5.19 vha. pnorm. Løs opgave 5.21 vha. qnorm. Løs opgave 5.27 vha. S-PLUS. Løs opgave 5.33 vha. S.PLUS. Løs opgave vha. S-PLUS. 2 Eller blot pnorm(z) idet S-PLUS som default bruger den standardiserede normalfordeling

7 4.3 Testopgaver Opgave Følgende 3 Splus kommandoer og resultater haves: > pnorm(2) [1] > pnorm(2,1,1) [1] > pnorm(2,1,2) [1] Angiv hvilke fordelinger og sandsynligheder, der er tale om i hvert tilfælde. (Gerne ved en skitse) Opgave Hvad bliver resultatet af Splus kommandoen qnorm(pnorm(2))? Opgave Følgende 2 Splus kommandoer og resultater haves: > qnorm(0.975) [1] > qnorm(0.975,1,1) [1] > qnorm(0.975,1,2) [1] Angiv hvilke tal, der er tale om i hvert tilfælde. (Brug gerne skitse) 5 Kontinuerte fordelinger, uge Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Probability Distributions og Normal Probability Calculations på side Log-normal-fordelingen: f(x) nederst side 166 i lærebogen fås i S-PLUS som dlnorm(x, α, β). Sandsynligheden i eksemplet side 167 i lærebogen fås i S-PLUS som plnorm(8.2,2,0.1)-plnorm(6.1,2,0.1). Samme sandsynlighed fås i S-PLUS ligeledes som pnorm(log(8.2),2,0.1)-pnorm(log(6.1),2,0.1). Og endelig som pnorm((log(8.2)-2)/0.1)-pnorm((log(6.1)-2)/0.1). 13 Bemærk, at i Splus hedder den naturlige logaritmefunktion log Bemærk også, at den beregnede sandsynlighed i lærebogen er en smule anderledes. Det skyldes, at man i bogen afrunder de tal, der indsættes i standardnormal-funktionen inden disse slås op i tabellen. Den i Splus beregnede sandsynlighed er således mere korrekt end den i bogen angivne Den uniforme fordeling: f(x) på side 165 i lærebogen fås i S-PLUS somdunif(x, α, β) Eksponentialfordelingen: f(x) midt side 170 i lærebogen fås i S-PLUS som dexp(x, scale=β). f(x) midt side 170 i lærebogen fås ligeledes i S-PLUS som dexp(x, 1/β) Normalfordelingsplot Som beskrevet i appendix C nederst side 611 kan man bruge Splus-funktionen qqnorm. Den anvender en metode, der er en smule anderledes end den i bogen beskrevne. I opgavebessvarelsen til opgave vil man kunne finde en præcis beskrivelse af denne variant af konstruktionen af plottet. Splus ombytter ligeledes x- og y-aksen i plottet ift. bogen. Har man importeret de data, der bruges i opgave ( 2-66.dat ) OG attachet dem, SÅ opnås plottet simpelt hen ved at skrive qqnorm(speed). 5.2 Træning vha. ugens øvelsesopgaver Løs opgave 5.46 vha. punif. Løs opgave 5.51 vha. plnorm. Løs opgave 5.58 vha. pexp. Løs opgave 5.38 vha. pnorm. Løs opgave vha. punif Løs opgave vha. qqnorm. 5.3 Testopgaver Opgave Angiv formel for og/eller skitser betydningen af følgende Splus kommando og resultat: > punif(0.4) [1]

8 5.3.2 Opgave Angiv formel for og/eller skitser betydningen af følgende Splus kommando og resultat: > dexp(2,0.5) [1] > pexp(2,0.5) [1] Opgave Angiv formel for og/eller skitser betydningen af følgende Splus kommando og resultat: > qlnorm(0.5) [1] 1 6 Samplingfordelinger, uge 5 og Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Sampling Distributions side 612. De sampling fordelinger, der introduceres i kapitel 6 i lærebogen er: S-PLUS t chisq f Betegnelse t-fordelingen χ 2 -fordelingen F-fordelingen Som tidligere beskrevet i lærebogens appendiks C findes der helt tilsvarende til alle andre fordelinger i Splus fire funktioner i S-PLUS, hvis navne fremkommer ved at tilføje et af 4 bogstaver til navnet i tabellen: d Tæthedsfunktion f(x) (probability distribution). p Fordelingsfunktion F(x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling. (Ikke pensum) q Fraktil (quantile) i fordelingen t-fordelingen Tallene i Tabel 4, side 587 i lærebogen er givet ved funktionen qt(1 α,ν)(giver værdierne i tabellen) eller tilsvarende 1-pt(x,ν) (giver α-værdierne), hvor x angiver værdierne i tabellen. Sandsynligheden i eksemplet side 218 i lærebogen for at ligge under kan i S-PLUS fås direkte som pt(-3.19,19) og tilsvarende kan sandsynligheden for at ligge over fås som: 1-pt(3.19,19) χ 2 -fordelingen: (uge 8) Tallene i Tabel 5, side 588 i lærebogen er givet ved funktionen qchisq(1 α,ν)(giver værdierne i tabellen) eller tilsvarende 1-pchisq(x,ν) (giver α-værdierne), hvor x angiver værdierne i tabellen. Sandsynligheden i eksemplet nederst side 219-øverst side 220 i lærebogen kan i S-PLUS fås som 1-pchisq(30.2,19) F-fordelingen:(uge 8) Tallene i Tabel 6, side i lærebogen er givet ved funktionen qf(1 α,ν 1,ν 2 )(give værdierne i tabellen) eller tilsvarende 1-pf(x,ν 1,ν 2 ) (giver α-værdierne), hvor x angiver værdierne i tabellen. Sandsynligheden 0.95 i eksemplet side 221 i lærebogen kan i S-PLUS fås som 1-pf(0.36,10,20) eller som pf(2.77,20,10). Man kunne finde værdien i tabellen, der giver de 0.95 ved qf(1-0.95,10,20) eller 1/qf(0.95,20,10). 6.2 Træning vha. ugens øvelsesopgaver 6.3 Testopgaver Opgave Angiv formel for og/eller skitser betydningen af følgende Splus kommando og resultat: > qt(0.975,17) [1] > qt(0.975,1000) [1] Opgave Angiv formel for og/eller skitser betydningen af følgende Splus kommando og resultat: > pt(2.75,17) [1] Hypotese-test og konfidensintervaller for et og to gennemsnit, Kap. 7, uge Beskrivelse Orienter dig i starten af lærebogens appendiks C, specielt Confidence Intervals and Tests of Means på side 612. Som beskrevet i appendix C, side 612 kan man bruge Splus-funktionen t.test til både et gennemsnit, to gennemsnit samt den parrede situation. Funktionen beregner 16

9 både hypotese-test og konfidensinterval. Som navnet indikerer, giver dette altså KUN mulighed for at lave test og intervaller baseret på t-fordelingen, IKKE z-test. Dette afspejler, at man som regel er i denne situation i alle virkelige anvendelser af disse ting. Skulle man have tilstrækkelig store n til at Z-test er OK, så fås dette jo automatisk, idet t-test ene jo så giver resultater, der er stort set lig med z-testene. Kaldes funktionen med et enkelt sæt af tal, f.eks. som t.test(x), hvor x således indeholder en række tal, vil funktionen automatisk agere som i sektion 7.2 og 7.5 i bogen. Som default vælges to-sidet test og niveau α = 5%. Ønsker man et ensidet test og/eller et andet test-niveau anføres dette i kaldet til funktionen, f.eks.: t.test(x,alt="greater",conf.level=0.90). Bemærk, at konfidensniveauet = 1 α. Kaldes funktionen med to sæt af tal, f.eks. som t.test(x1,x2), hvor x1 således indeholder en række tal og x2 en anden række tal, vil funktionen automatisk agere som i sektion 7.8 i bogen, altså betragte de to sæt af tal som to uafhængige stikprøver. Som default vælges to-sidet test og niveau α = 5%. Ønsker man et ensidet test og/eller et andet test-niveau anføres dette i kaldet til funktionen, f.eks.: t.test(x1,x2,alt="less",conf.level=0.90). Er der tale om to parrede stikprøver, kaldes funktionen på samme måde, MEN der tilføjes en option til kaldet: t.test(x1,x2,paired=t). Dette giver således præcis det samme som at kalde funktionen med det enkelte sæt af tal, der udgøres af differenserne: t.test(x1-x2). Der gælder de samme ting vedr. ensidet/tosidet og test-niveau. Når funktionen kaldes med et ensidet alternativ (alt="greater" eller alt="less", så angiver den et andet konfidens-interval end ellers. Dette er et såkaldt ensidet konfidens-interval, som vi IKKE berører i kurset! One-sample t-test/konfidensinterval Man kan opnå resultaterne i eksemplet øverst side 233 ved at: 1. Importere C2sulfur.dat (vha. file-menu). Kald det (f.eks.) sulfur. 2. Attach dette data-sæt: attach(sulfur). 3. Brug funktionen: t.test(emission,conf.level=0.99). Bemærk, at bogen har regnet gennemsnittet og variansen en smule forkert ud! Bemærk også, at man får et tosidet t-test for hypotesen om atµ = 0 skrevet ud uanset om man har nogen interesse overhovedet i dette test! Det er jo f.eks. IKKE noget man gider kigge på i dette tilfælde! Two-sample t-test/konfidensinterval Man kan opnå resultaterne i eksemplet side ved først at: 1. Importere C2alumin.dat (vha. file-menu). Kald det (f.eks.) alumin. 2. Attach dette data-sæt: attach(alumin). 17 I dette eksempel er data lagret på en typisk (og fornuftig) måde, der dog vanskeliggør brugen af funktionen t.test en anelse: Samtlige = 85 strength-værdier for de to alloys ligger i en enkelt variabel: strength, samtidig med at der findes en anden variabel alloy, der identificerer hver enkelt observation som enten alloy 1 eller alloy 2. Variablen alloy indeholder altså og 2-taller. Man kan nu konstruere to nye variable x1 og x2, der indeholder hver sit sæt af tal ved: x1=strength[alloy==1] x2=strength[alloy==2] hvorefter man kan opnå resultaterne side 267 ved at kalde funktionen som beskrevet ovenfor: t.test(x1,x2). Man kan alternativt bruge data som de er og så via menuerne klikke sig frem: Statistics, Compare Samples, two samples, t-test. Bemærk, at man ligeledes kan udføre one-sample beregninger via menuen Parret t-test/konfidensinterval: Ingen yderligere beskrivelse. 7.2 Træning vha. ugens øvelsesopgaver For de fleste af opgaverne kan man naturligvis bruge fordelingerne, som øvet tidligere, i stedet for at slå op i tabellerne (det være sig z- eller t-fordelingen). For at anvende t.test (og/eller menuerne) skal man have rådata tilgængelig - det har man kun i visse af opgaverne: Løs opgave 7.42 (Data fra exercise 2.41: Importer 2-41.dat ). Løs opgave 7.48 og 7.49 (Data kan nemt indtastes: x=c(14.5,14.2,14.4,14.3,14 Løs opgave 7.72 (Importer 7-72.dat ). løs evt. opgave 7.68 og (Data kan relativt nemt indtastes) 7.3 Testopgaver Opgave Følgende Splus kommandoer og resultat haves: > x=c(10,13,16,19,17,15,20,23,15,16) > t.test(x,mu=20,conf.level=0.99) One-sample t-test data: x t = , df = 9, p-value = alternative hypothesis: mean is not equal to percent confidence interval: sample estimates: 18

10 mean of x 16.4 Opskriv hypotese, alternativ, α og n svarende til dette output. Hvad er estimatet for standard error for gennemsnittet? Hvad er den maximale fejl med 99% konfidens? (For at svare på det sidste kan (dele af) følgende Splus-information bruges:) > qt(0.995,9) [1] > qt(0.975,9) [1] > qt(0.95,9) [1] Opgave Følgende Splus kommandoer og resultat haves: > x1=c(10,13,16,19,17,15,20,23,15,16) > x2=c(13,16,20,25,18,16,27,30,17,19) > t.test(x1,x2,alt="less",conf.level=0.95) Pooled-Variance Two-Sample t-test data: x1 and x2 t = , df = 18, p-value = alternative hypothesis: difference in means is less than 0 95 percent confidence interval: NA sample estimates: mean of x mean of y Opskriv hypotese, alternativ, α, n 1 og n 2 svarende til dette output. Hvad er estimatet for standard error for forskellen på gennemsnittene? Hvilken Splus-kommando ville du bruge for at finde den kritiske værdi for det anvendte hypotesetest? Opgave Følgende Splus kommandoer og resultat haves: > x1=c(10,13,16,19,17,15,20,23,15,16) > x2=c(13,16,20,25,18,16,27,30,17,19) > t.test(x1,x2,paired=t,alt="less",conf.level=0.95) Paired t-test data: x1 and x2 t = , df = 9, p-value = 3e-04 alternative hypothesis: mean of differences is less than 0 95 percent confidence interval: NA sample estimates: mean of x - y Opskriv hypotese, alternativ, α, n 1 og n 2 svarende til dette output. Hvad er estimatet for standard error for forskellen på gennemsnittene? Hvilken Splus-kommando ville du bruge for at finde den kritiske værdi for det anvendte hypotesetest? 8 Hypotese-test og konfidensintervaller for andele, Kap. 9, uge Beskrivelse Som beskrevet i appendix C, side 612 kan man bruge to Splus-funktioner: prop.test og chisq.test (der findes flere relevante, men dem vil vi ikke gennemgå her) Konfidensinterval for en andel, sec.9.1 Man kan opnå et 95% konfidensinterval, som i eksemplet side 295, ved at køre prop.test(36,100). Resultatet bliver en smule anderledes end i bogen. Det skyldes dels, at Splus som default bruger en såkaldt kontinuitetskorrektion i stil med det vi så ifb. med at approximere binomialfordelingen vha. normalfordelingen, side 160. Den kan man slå fra ved at skrive: prop.test(36,100,correct=f). Resultatet vil stadig være en lille smule anderledes end i bogen, idet Splus anvender endnu en korrektion, der får intervallet til at ligne det eksakte interval, som man kan aflæse i Tabel 9. Denne detalje vil vi IKKE gennemgå her Hypotesetest for en andel, sec.9.2 Man kan opnå resulater som i eksemplet side 299 ved at køre prop.test(174,200,p=0.9,correct=f,alternative="less") Bemærk, at man IKKE får en Z-test størrelse, men i stedet i χ 2 -test størrelse. Der gælder dog at Z 2 = χ 2 Når funktionen kaldes med et ensidet alternativ (alt="greater" eller alt="less"), så angiver den et andet konfidens-interval end ellers. Dette er et såkaldt ensidet konfidens-interval, som vi IKKE berører i kurset! Hypotesetest for to eller flere andele, sec.9.3 Man kan opnå resulater som i eksemplet side 302 (eksemplet anvendt på side 612) ved at køre crumbled=c(41,27,22) intact=c(79,53,78) prop.test(crumbled,crumbled+intact) Man kan alternativt bruge funktionen chisq.test og køre chisq.test(matrix(c(crumbled,intact),ncol=2)) Bemærk at Splus notationen her er lidt anderledes end den R-notation, der er angivet i lærebogen side

11 8.1.4 Analyse af r c tabeller, sec.9.4 Man kan opnå resultaterne i eksemplet side 310 ved på tilsvarende vis at køre: poor=c(23,60,29) ave=c(28,79,60) vgood=c(9,49,63) chisq.test(matrix(c(poor,ave,vgood),ncol=3)) Har man data på rå form, som f.eks. de karakterdata, der anvendtes i introduktionsøvelsen, kan man via menuerne få lavet krydstabuleringer ogχ 2 -test for potentielle sammenhænge: Statistics, Compare Samples, Counts and Proportions, Chi Square Tests. 8.2 Træning vha. ugens øvelsesopgaver For de fleste af opgaverne kan man naturligvis bruge fordelingerne, som øvet tidligere, i stedet for at slå op i tabellerne (det være sig z- eller χ 2 -fordelingen). I følgende opgaver kan de to gennemgåede Splus-funktioner anvendes: Løs opgave 9.1 Løs opgave 9.28 Løs opgave 9.29 Løs opgave 9.39 Løs opgave Testopgaver Ingen testopgaver idet denne del kun læses orienterende. 9 Non-parametriske hypotese-test, kap. 10, uge Beskrivelse Sign test Sign testet er i virkeligheden blot binomielle sandsynligheder, så man kan bruge den tidligere gennemgåede funktion pbinom. Man kan opnå resultatet i eksemplet side 321 ved at køre 1-pbinom(11,14,0.5) Rank-Sum Tests, sec.10.3 Wilcoxon s test er et alternativ til t-testet, og man kan bruge Splus funktionen wilcox.test, der er opbygget helt analogt til t.test. Så den følgende beskrivelse er helt tilsvarende den, man finder i afsnittet om t-test. Man kan opnå resultaterne i eksemplet side ved først at: Importere C10sand.dat (vha. file-menu). Kald det (f.eks.) C10sand. 2. Attach dette data-sæt: attach(c10sand). I dette eksempel er data lagret på en typisk (og fornuftig) måde, der dog vanskeliggør brugen af funktionen wilcox.test en anelse: Samtlige = 29 diameter-værdier for de to sandtyper ligger i en enkelt variabel: diameter, samtidig med at der findes en anden variabel sand, der identificerer hver enkelt observation som enten sand 1 eller sand 2. Variablen sand indeholder altså og 2-taller. Man kan nu konstruere to nye variable x1 og x2, der indeholder hver sit sæt af tal ved: x1=diameter[sand==1] x2=diameter[sand==2] hvorefter man kan opnå resultaterne ved at kalde funktionen som: wilcox.test(x1,x2). Man kan alternativt bruge data som de er og så via menuerne klikke sig frem: Statistics, Compare Samples, two samples, Wilcoxon Signed Rank Test. 9.2 Træning vha. ugens øvelsesopgaver Løs opgave 10.2 Løs opgave 10.6 Løs opgave Testopgaver Ingen testopgaver idet denne del kun læses orienterende. 10 Lineær regression, kap. 11, uge Beskrivelse Orienter dig i lærebogens appendiks C, specielt Regression på side 613. Data relevante for denne beskrivelse kan downloades fra hvorefter de kan importeres på sædvanlig vis ( File Import Data... ). Vi bruger eksemplet fra side 341, 347, 349, 351. Data kan downloades som: Antag at data er gemt som C11evap: > C11evap velocity evap

12 Man kan plotte sammenhængen ved: > attach(c11evap) > xyplot(evap velocity) Den grundlæggende regressionsfunktion, som skal beskrives her er lm. Man fitter linien og gemmer resultatet af beregningerne ved følgende: > fit.evap <- lm(evap velocity) og som beskrevet side 613 i lærebogen fås resultaterne opsummeret ved: > summary(fit.evap) Call: lm(formula = evap velocity) Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value Pr(> t ) (Intercept) velocity Residual standard error: on 8 degrees of freedom Multiple R-Squared: F-statistic: on 1 and 8 degrees of freedom, the p-value is 2.286e-05 Correlation of Coefficients: (Intercept) velocity Man ser her parameterestimaterne, deres usikkerheder samt t-test for om de er nul (svarende til side 346-boksene). Man ser også estimatet for s e og R 2 (sammenlign med resultaterne i bogen). Bemærk: Det sidste tal: er IKKE lig med korrelationskoefficienten mellem x og y! (Hvad det ER lig med ligger uden for dette kursus - og er iøvrigt i den konkrete situation uinteressant!) Supplerende detaljer ( Orienterende ) Der følger her en beskrivelse af hvorledes man beregner andre relevante ting ifb. med lineær regression: > ## Større præssion i udskrift af estimater m.v.: > summary(fit.evap)$coef Value Std. Error t value Pr(> t ) (Intercept) e velocity e-05 > > ## 95% KI for alpha: > qt(c(0.025, 0.975), df=8)* [1] > ## 95% KI for beta: > qt(c(0.025, 0.975), df=8)* [1] > > ## p-værdi; ensidet test (H0: beta = 0, H1: beta > 0): > 1 - pt(q=8.7460, df=8) [1] e-05 > > ## 95% KI for alpha + beta*190: > predict(fit.evap, data.frame(velocity = 190), ci=t, conf = 0.95) $fit: $ci.fit: lower upper attr(, "conf.level"): [1] 0.95 > > ## 95% prædiktionsgrænser: > predict(fit.evap, data.frame(velocity = 190), pi=t, conf = 0.95) $fit: $pi.fit: lower upper attr(, "conf.level"): [1] 0.95 > > ## 95% prædiktionsgrænser; ekstrapolation: > predict(fit.evap, data.frame(velocity = 450), pi=t, conf = 0.95) $fit: $pi.fit: lower upper attr(, "conf.level"): [1] 0.95 > > ## Diagnostiske plot (se hjælpen til plot.lm) > par(mfrow=c(2,2)) 24

13 > plot(fit.evap, which = c(1,3,4)) > Regression vha. programmenuerne ( Orienterende ) Den grafiske brugergrænseflade kan bruges til at udføre de fleste beregninger i forbindelse med lineær regression. Den relevante sekvens af menuer er Statistics Regression Linear.... Derefter vælges det relevante datasæt og modellen specificeres ved at vælge den afhængige (dependent) variabel y og den uafhængige (independent) variabel x 3. På fanebladet Results er det normalt ikke nødvendigt at ændre noget. På fanebladet Plot kan man vælge mellem en række diagnostiske plot der kan hjælpe med at verificere at den lineære regressionsmodel er en god beskrivelse af data. Specielt Residuals vs. Fit, Response vs. Fit og Residuals Normal QQ er relevante for dette kursus. Hjælpen til funktionen plot.lm giver en god beskrivelse af disse plot (skriv?plot.lm på kommandolinien). På fanebladet Predict kan man anføre et datasæt (data frame) med værdier af den uafhængige variable som man ønsker prædiktioner for. Bemærk at navnet for variablen i datasættet skal stemme overens med det oprindelige datasæt. Ønskes kun prædiktioner for enkelte værdier er det også muligt f.eks. at skrive data.frame(x=3.5) i feltet. På fanebladet kan man bla. vælge Confidence Intervals, men prædiktionsgrænser (limits of prediction, side 350 i lærebogen) kan ikke vælges. Prædiktionsresultaterne gemmes i et datasæt, hvis navn skrives i Report Window. Brug Data Viewer til at se resultatet. Istedet for at bruge fanebladet Predict kan man på fanebladet Model vælge at gemme modelobjektet (se Save Model Object ). Vha. dette objekt kan diverse prædiktioner og grænser let beregnes vha. kommandolinien. Hvis objektet har navnet fit1 kan et konfidensinterval for α + βx 0 beregnes som: predict(fit1, data.frame(x=x 0 ), ci=t, conf=0.95) hvor det antages at den uafhængige variabel hedder x. Tilsvarende kan prædiktionsgrænser beregnes som: predict(fit1, data.frame(x=x 0 ), pi=t, conf=0.95) Konfidensintervaller for parametrene kan ikke beregnes vha. en indbygget funktion, men fra output i Report Window kan de beregnes vha. kommandolinien. Antallet af decimaler er dog ikke altid stort nok i Report Window. For at få flere decimaler kan man bruge kommandoen: summary(fit1)$coef eller, for at få fuld præssion: print(summary(fit.evap)$coef, digits=17) Konfidensintervaller fås da ved at bruge tallene fra Value og Std. Error som: Value + qt(c(0.025, 0.975), df=?) * Std. Error, hvor? erstattes at det relevante antal frihedsgrader printet på Report Window. 3 I output navngiver S-PLUS modelparametrene efter variabelnavnet og konstantleddet kaldes Intercept 25 I Report Window rapporteres p-værdier for tosidede test af nulhypoteserne at de enkelte parametre er nul. Ensidede test må udføres ved at bruge den rapporterede t-teststørrelse sammen med funktionen pt for at beregne p-værdien Træning vha. ugens øvelsesopgaver Løs opgaverne 11.4, 11.5 og evt vha. S-PLUS Testopgaver Opgave Kører man en analyse af Matematik-eksamens karakterer som funktion af matematik årskarakter får man: (cf. introduktionsøvelsen, afsnit 2) > attach(karakterer2004) > summary(lm(mat.eks Mat.Aars)) Call: lm(formula = Mat.Eks Mat.Aars) Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value Pr(> t ) (Intercept) Mat.Aars Residual standard error: on 1553 degrees of freedom Multiple R-Squared: F-statistic: 1051 on 1 and 1553 degrees of freedom, the p-value is 0 Correlation of Coefficients: (Intercept) Mat.Aars Opskriv modellen og angiv estimat for linien. Er disse estimater signifikant forskellige fra 0? Hvad er korrelationen mellem de to sæt af karakterer? Hvad er konfidensintervallet for hældningskoefficienten? Og hvad er forøvrigt den øvre kvartil for eksamens-karaktererne? 11 Variansanalyse, Kap og 12.2, uge Beskrivelse Orienter dig i lærebogens appendiks C, specielt One-way Analysis of Variance (ANOVA) på side 613. Data relevante for denne beskrivelse kan downloades fra hvorefter de kan importeres på sædvanlig vis ( File Import Data... ). Data skal være struktureret som vist i nedenstående eksempel, hvor den ene kolonne er selve data, mens den anden kolonne angiver hvilken gruppe, hver observation tilhører: 26

14 G Materiale Guld Guld Guld Guld Guld Platin Platin Platin Platin Platin Glas Glas Glas Glas Glas Data fra eksemplet side 408 kan importeres som Antag at data er gemt som C12tin. Som beskrevet side 613 i lærebogen fås analysen også ved hjælp af funktionen lm: > attach(c12tin) > Lab <- factor(lab) > anova(lm(weight Lab)) Analysis of Variance Table Response: weight Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) Lab Residuals Kommandolinie 2 Lab <- factor(lab) sikrer at programmet tænker på laboratoriumkolonnen som en grupperingsfaktor og IKKE som en kvantitativ værdi. Laboratorierne er nemlig identificeret ved tallene 1, 2, 3 og 4 i dette tilfælde. Sammenligner man resultatet med bogens, ser man en lille afvigelse på F-størrelsen. Det skyldes at man i bogen bruger afrundede tal. Det får den pudsige konsekvens, at P-værdien jo faktisk er en smule over de 5% og ikke under, som anført i bogen. Men det viser jo således også, at der jo i realiteten ikke er nogen evidensmæssig forskel på en p-værdi på 4.9% og 5.1%! Supplement: Analyse vha. menuerne( Orienterende ) Det er en god ide at starte med at lave et dot plot: Graph One variable Dot Plot... : På fanebladet Data : 27 Vælg data sæt Vælg værdi (y i variansanalysen): F.eks. G Fjern i Tabulate values På faneblader Plot : Vælg gruppe-variablen som label column : F.eks. Materiale Tryk på OK eller Apply Hvis dette ikke indikere at varianserne indenfor grupperne er forskellige kan man gå videre med selve variansanalysen: Statistics Compare Samples k Samples One-way ANO- VA : Vælg data sæt Vælg variabel (y i variansanalysen): F.eks. G Vælg gruppe: F.eks. Materiale Udfyld Save as : F.eks. G.aov Tryk på OK eller Apply Resultatet vises i Report Window. Efterfølgende er det en god ide at lave et QQ-plot af modelfejlene (residualerne). Det gøres ved i Command Window at skrive qqnorm(residuals(g.aov)) evt. efterfulgt af qqline(residuals(g.aov)) hvor G.aov er det der er udfyldt i Save as ovenfor. For at lave parvise konfidensintervaller skal man bruge gennemsnittet og antal for hver gruppe. Disse kan findes vha. Statistics Data Summaries Summary Statistics.... Fraktilerne i t-fordelingen kan findes vha. funktionen qt på kommandolinien. F.eks. giver qt(p=c(0.025,0.975), df=12) ±t for 12 frihedsgrader Supplement: Generel variansanalyse ( Orienterende ) I ensidet variansanalyse kan den variabel, der beskriver grupperingen betragtes som en forklarende variable, der kan antage et lille antal værdier. Sådan en variable kaldes en kategorisk variabel. Variansanalyse kan også udføres i det tilfælde hvor der er flere forklarende kategoriske variable. Lærebogens afsnit 12.3 er et eksempel herpå. Under menu-sekvensen Statistics ANOVA Fixed Effects... kan dette udføres og man kan samtidig få produceret diverse diagnostiske plot. Ensidet variansanalyse kan også udføres vha. ovenstående: På fanebladet Model vælges data sæt, den afhængige variable (f.eks. G), samt den uafhængige variabel (f.eks. Materiale). 28

15 Under fanebladet Options kan man vælge kontrasten. sum svarer, med bogens notation, til kravet k i=1 α i = 0. Som regel er valget af kontrast dog uden betydning idet man ikke interessere sig direkte for modellens parametre men kun for middelværdierne i de enkelte grupper eller for forskellen i middelværdier mellem grupper. Under fanebladet Results er det ikke nødvendigt at ændre noget for ensidet variansanalyse. Under fanebladet Plot kan diverse diagnostiske plot vælges. Under fanebladet Compare kan man sammenligne de enkelte niveauer af en given kategorisk variabel. Metoderne under dette faneblad er langt mere omfattende end de parvise konfidensintervaller i lærebogens afsnit 12.2, se evt. afsnit 12.4 (ikke pensum) Træning vha. ugens øvelsesopgaver Løs opgave vha. S-PLUS Løs opgave 12.6 vha. S-PLUS Prøv at sætte data ind i de sædvanlige variansanalyse tabeller og forstå specielt frihedsgradstallene, teststørrelsen, samt p-værdien (brug evt. pf(q,df1,df2)) Testopgaver Opgave Der kørtes to analyser af matematik årskaraktererne. Splus kommandoerne og resultaterne ses i det følgende: > anova(lm(mat.eks Kommune)) > anova(lm(mat.eks Amt)) Analysis of Variance Table Response: Mat.Eks Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) Kommune Residuals Analysis of Variance Table Response: Mat.Eks Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) Amt e-05 Residuals Opskriv hypoteser og angiv P-værdier for disse og fortolk resultaterne: Er der forskel på hhv. Kommuner og Amter hvad angår matematikeksamens karakterer? Hvor mange kommuner hhv. amter er med i undersøgelsen? Hvor meget varierer skoler inden for hhv. kommuner og amter? 12 Variansanalyse, Kap. 12.3, uge Beskrivelse I forhold til afsnittet ovenfor om ensidig variansanalyse skal data være på samme form dog med en ekstra kolonne svarende til blok informationen. For eksemplet side kan data indlæses som: example <- data.frame(y = c(13,7,9,3,6,6,3,1,11,5,15,5), treatm = c(1,1,1,1,2,2,2,2,3,3,3,3), block = c(1,2,3,4,1,2,3,4,1,2,3,4)) som altså svarer til følgende struktur: > example y treatm block Analysen køres nu helt som for den ensidige variansanalyse, blot med blok-faktoren tilføjet: > attach(example) > treatm <- factor(treatm) > block <- factor(block) > anova(lm(y treatm+block)) Analysis of Variance Table Response: y Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) treatm block Residuals Dette svarer til ANOVA-tabellen øverst side 422. Tilsvarende analyser kan udføres vha. den grafiske brugergrænseflade i S-PLUS. Se afsnittet Generel variansanalyse i det forrige afsnit og vælg både treatment og block ved at holde Ctrl-tasten nede når der klikkes på variable nr

16 12.2 Træning vha. ugens øvelsesopgaver Løs opgave vha. S-PLUS Data kan enten indtastes i et regneark og importeres på sædvanlig vis eller nedenstående kommandoer kan benyttes (brug cut & paste til at få dem ind i S-PLUS): dat <- data.frame(conc.ppm = c( 23.8, 7.6, 15.4, 30.6, 4.2, 19.2, 6.8, 13.2, 22.5, 3.9, 20.9, 5.9, 14.0, 27.1, 3.0), agency = rep(paste("agency", 1:3), rep(5,3)), site = rep(paste("site", LETTERS[1:5]), 3)) 12.3 Testopgaver Opgave Betragt følgende Splus kommando og resultat: (der er tale om målinger af brudstyrker (strength) for nogle tråde (thread) ifm. forskellige instrumenter (instrument) fra opgave 12.20) > anova(lm(strength thread+instrument)) Analysis of Variance Table Response: strength Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) thread instrument Residuals Opskriv hypoteser og angiv P-værdier for disse og fortolk resultaterne: Er der forskel på trådene og er der forskel på instrumenterne? Hvor mange slags tråde hhv. instrumenter er med i undersøgelsen? Hvad er standardafvigelsen for styrkemålingerne, når man ser bort fra systematiske forskelle mellem trådtyper og instrumenttyper? 31

R i 02402: Introduktion til Statistik

R i 02402: Introduktion til Statistik Indhold R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 2. februar 2010 1 Anvendelse af R på Databar-systemet på DTU 4 1.1 Adgang......................................

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 17 sider. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

R i 02402: Introduktion til Statistik

R i 02402: Introduktion til Statistik R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 20. juni 2011 Indhold 1 Anvendelse af R på Databar-systemet på DTU 5 1.1 Adgang......................................

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

R i 02402: Introduktion til Statistik

R i 02402: Introduktion til Statistik R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 17. januar 2012 Indhold 1 Anvendelse af R på Databar-systemet på DTU 5 1.1 Adgang......................................

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 21 sider. Skriftlig prøve: 27. maj 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 15. december 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Rune Haubo B Christensen (based on slides by Per Bruun Brockhoff) DTU Compute, Statistik og Dataanalyse Bygning

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 22 sider. Skriftlig prøve: 13. december 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2012 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2 Københavns Universitet Susanne Ditlevsen og Helle Sørensen R opgaver Det er en god ide at vænne sig til at skrive kommandoerne i en editor

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Peder Bacher DTU Compute, Dynamiske Systemer Building 303B, Room 017 Danish Technical University 2800 Lyngby

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 1. december 2011 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff. Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Almindelige kontinuerte fordelinger

Almindelige kontinuerte fordelinger Almindelige kontinuerte fordelinger Den uniforme fordeling Symbol: X Uniform a,b Beskrivelse: Et tilfældigt tal mellem a og b. Støtte: V X a, b. Tæthedsfunktion: f x 1/ b a for x a,b Fordelingsfunktion:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 27. maj 2014 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Forelæsning 8: Inferens for varianser (kap 9)

Forelæsning 8: Inferens for varianser (kap 9) Kursus 02402 Introduktion til Statistik Forelæsning 8: Inferens for varianser (kap 9) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere