(studienummer) (underskrift) (bord nr)

Relaterede dokumenter
(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Forelæsning 11: Kapitel 11: Regressionsanalyse

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Løsning eksamen d. 15. december 2008

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Løsning til eksamen d.27 Maj 2010

Løsning til eksaminen d. 14. december 2009

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Forelæsning 11: Envejs variansanalyse, ANOVA

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Klasseøvelser dag 2 Opgave 1

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

(studienummer) (underskrift) (bord nr)

Kursus navn og nr: Introduktion til Statistik (02323, og 02593) (studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Løsning til eksaminen d. 29. maj 2009

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Konfidensintervaller og Hypotesetest

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 10: Statistik ved hjælp af simulering

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

To-sidet varians analyse

1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Reeksamen i Statistik for Biokemikere 6. april 2009

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Danmarks Tekniske Universitet Side?? af 20 sider

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Eksamen i Statistik for biokemikere. Blok

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Skriftlig eksamen Science statistik- ST501

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Opgaver til kapitel 3

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Besvarelser til øvelsesopgaver i uge 6

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

En Introduktion til SAS. Kapitel 5.

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Kapitel 12 Variansanalyse

Forelæsning 11: Tovejs variansanalyse, ANOVA

Reeksamen i Statistik for biokemikere. Blok

Danmarks Tekniske Universitet Side 1 af 19 sider

2 X 2 = gennemsnitligt indhold af aktivt stof i én tablet fra et glas med 200 tabletter

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Vejledende løsninger kapitel 8 opgaver

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kapitel 7 Forskelle mellem centraltendenser

Appendiks Økonometrisk teori... II

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Multipel Lineær Regression

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Multiple choice opgaver

1 Regressionsproblemet 2

Transkript:

Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 27. maj 2014 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer) (underskrift) (bord nr) Opgavesættet består af 30 spørgsmål af multiple choice typen fordelt på 8 opgaver. Besvarelserne af multiple choice spørgsmålene anføres i det i CampusNet uploadede svarark, med numrene på de svarmuligheder, du mener er de korrekte. Et eksempel er vist p side 2 af eksamenssættet hre. Der gives 5 point for et korrekt multiple choice svar og 1 for et ukorrekt svar. KUN følgende 6 svarmuligheder er gyldige: 1, 2, 3, 4, 5 eller 6. Hvis et spørgsmål efterlades blankt eller andet svar angives, tæller det i praksis som 6=ved ikke. Et 6-tal giver 0 point. Det antal point, der kræves for, at et sæt anses for tilfredstillende besvaret, afgøres endeligt ved censureringen af sættene. Den endelige besvarelse af opgaverne gøres ved at udfylde og online-aflevere svararket via CampusNet. Skemaet her er KUN et nøds-alternativ til dette. Opgave I.1 I.2 I.3 I.4 II.1 II.2 II.3 III.1 III.2 III.3 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Opgave III.4 IV.1 IV.2 V.1 VI.2 V.3 V.4 V.5 VI.1 VI.2 Spørgsmål (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) Svar Opgave V1.3 V1.4 VII.1 VII.2 VII.3 VIII.1 VIII.2 VIII.3 VIII.4 VIII.5 Spørgsmål (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) Svar Husk at angive dit studienummer på din besvarelse. Sættets sidste side er nr 20; blad lige om og se, at den er der. Fortsæt på side 2 1

Herunder er et eksempel på hvorledes svar-arket kunne se ud: Studienummer, s123456 Spørgsmål (1),1 Spørgsmål (2),2 Spørgsmål (3),3 Spørgsmål (4), Spørgsmål (5),4 Spørgsmål (6),5 Spørgsmål (7),6 Spørgsmål (8), Spørgsmål (9),1 Spørgsmål (10),2 Spørgsmål (11),3 Spørgsmål (12),4 Spørgsmål (13),5 Spørgsmål (14),6 Spørgsmål (15),1 Spørgsmål (16),2 Spørgsmål (17),3 Spørgsmål (18),4 Spørgsmål (19),5 Spørgsmål (20),6 Spørgsmål (21), Spørgsmål (22), Spørgsmål (23), Spørgsmål (24), Spørgsmål (25),1 Spørgsmål (26),2 Spørgsmål (27),3 Spørgsmål (28),4 Spørgsmål (29),5 Spørgsmål (30),6 Fortsæt på side 3 2

Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder er meningsfulde. Opgave I For at sammenligne sværdhedsgraden af 2 forskellige kurser på et universitet har man registreret følgende karakterfordeling (givet som antal elever der opnåede karakteren) Kursus 1 Kursus 2 Total Karakteren 12 20 14 34 Karakteren 10 14 14 28 Karakteren 7 16 27 43 Karakteren 4 20 22 42 Karakteren 2 12 27 39 Karakteren 0 16 17 33 Karakteren -3 10 22 32 Total 108 143 251 Spørgsmål I.1 (1) Hvad er medianen for de 251 opnåede karakterer? 1 0 2 2 3 4 4 4.6 5 7 Fortsæt på side 4 3

Spørgsmål I.2 (2): Man ønsker at sammenligne beståelsesandelen for de to kurser, p 1 og p 2. Idet karakterene -3 og 0 betyder ikke bestået, får man følgende skema over antal elever: Kursus 1 Kursus 2 Total Bestået 82 104 186 Ikke bestået 26 39 65 Total 108 143 251 Et 95% konfidensinterval for forskellen mellem de to beståelsesandele bliver: 82 26 1 0.032 ± 1.96 + 104 29 [ 0.0768; 0.141] 108 3 143 3 186 65 2 (108/7 143/7) ± 1.96 251 [ 18.60; 8.603] 108 143 3 (108/7 143/7) ± t 0.025 (250) 251 [ 20.45; 10.45] 186 65 4 0.032 ± 1.96 251 [ 13.57; 13.63] 82 26 5 0.032 ± 1.645 108 + 104 39 143 [ 10.48; 10.54] Spørgsmål I.3 (3) Et χ 2 -test for hypotesen H 0 : p 1 = p 2 mod et tosidet alternativ med signifikansniveau α = 0.01 har følgende kritiske værdi: 1 13.27 (i R: 2*qchisq(0.99,1)) 2 1.645 (i R: qnorm(0.95)) 3 2.326 (i R: qnorm(0.99)) 4 6.635 (i R: qchisq(0.99,1)) 5 3.841 (i R: qchisq(0.95,1)) Fortsæt på side 5 4

Spørgsmål I.4 (4) Hvis en beståelsesandel for et kursus, der gives gentagne gange, antages gennemsnitligt at ligge på 0.80, og der er 250 elever, der går til eksamen hver gang, hvad er da middelværdi, µ og spredning, σ, for antallet af elever, der ikke består eksamen for et tilfældigt udvalgt kursus? 1 µ = 200 og σ = 40 2 µ = 50 og σ = 6.32 3 µ = 125 og σ = 7.91 4 µ = 50 og σ = 40 5 µ = 0.8 og σ = 0.00064 Opgave II I et studie af 3 forskellige dæktypers ( treatment ) effekt på brændstoføkonomien har man kørt 1000 km i 4 forskellige biler ( blocks ). Resultatet er angivet i nedenstående tabel (km/l). Bil 1 Bil 2 Bil 3 Bil 4 Middel Dæk 1 20.5 23.3 23.9 22.4 22.525 Dæk 2 21.5 21.3 23.9 18.4 21.275 Dæk 3 22.2 21.9 21.7 17.9 20.925 Middel 21.400 22.167 23.167 19.567 21.575 Spørgsmål hvilket? II.1 (5) Lad y ij være resultatet for dæk i og bil j. Netop et af følgende udsagn er sandt, 1 SST 3 4 i=1 j=1 (y ij 21.575) 2 2 SS(Bl) 3 ( (21.400 21.575) 2 + (22.167 21.575) 2 + (23.167 21.575) 2 + (19.567 21.575) 2) 3 SS(T r) 3 ( (22.525 21.575) 2 + (21.275 21.575) 2 + (20.925 21.575) 2) 4 SST SSE + SS(T r) + SS(Bl) 5 MSE SSE/6 Fortsæt på side 6 5

Spørgsmål II.2 (6) Hvis man kører følgende i R: y=c(20.5,23.3,23.9,22.4, 21.5,21.3,23.9,18.4, 22.2,21.9,21.7,17.9) bil=factor(rep(1:4,3)) daek=factor(rep(1:3,c(4,4,4))) mydata=data.frame(y,bil,daek) anova(lm(y~bil+daek,data=mydata)) får man følgende resultat: > anova(lm(y~bil+daek,data=mydata)) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) bil 3 20.843 6.9475 3.1342 0.1086 daek 2 5.660 2.8300 1.2767 0.3452 Residuals 6 13.300 2.2167 Hvilken af følgende konklusioner er den mest rigtige?(hvis man anvender signifikansniveau α = 0.05) 1 Der er større forskel på dæktyperne end på bilerne 2 Der kan påvises forskel på dæktypernes effekt på brændstoføkonomien, men der kan ikke påvises forskel på bilernes brændstoføkonomi 3 Der kan påvises forskel på dæktypernes effekt på brændstoføkonomien, og der kan påvises forskel på bilernes brændstoføkonomi 4 Der kan ikke påvises forskel på dæktypernes effekt på brændstoføkonomien, men der kan påvises forskel på bilernes brændstoføkonomi 5 Der kan ikke påvises forskel på dæktypernes effekt på brændstoføkonomien, og iøvrigt heller ikke på bilernes brændstoføkonomi Spørgsmål II.3 (7) Betragt R-kode og -outputtet i ovenstående spørgsmål. Der er angivet to P- værdier - en ud for biler og en ud for dæk (daek). Skulle man udføre de to tilsvarende hypotesetest ved hjælp af kritisk-værdi-metoden, nu med signifikansniveau α = 0.01, hvad bliver da de to kritiske værdier: 1 For biler: 9.78. For dæk: 10.92 2 For biler: 5.41. For dæk: 5.95 3 For biler: 3.49. For dæk: 3.83 4 For biler: 9.21. For dæk: 11.35 5 For biler: 4.82. For dæk: 5.07 Fortsæt på side 7 6

Opgave III 13 løbere fik målt deres puls ved slutningen af en træningstur og 1 minut efter igen, og man fik følgende pulsmålinger: Løber 1 2 3 4 5 6 7 8 9 10 11 12 13 Puls slut 173 175 174 183 181 180 170 182 188 178 181 183 185 Puls 1min 120 115 122 123 125 140 108 133 134 121 130 126 128 Følgende kørtes i R: > Puls_slut=c(173,175,174,183,181,180,170,182,188,178,181,183,185) > Puls_1min=c(120,115,122,123,125,140,108,133,134,121,130,126,128) > mean(puls_slut) [1] 179.4615 > mean(puls_1min) [1] 125 > sd(puls_slut) [1] 5.18998 > sd(puls_1min) [1] 8.406347 > sd(puls_slut-puls_1min) [1] 5.767949 Spørgsmål III.1 (8) Hvad er et 99% konfidensinterval for middelpulsfaldet? (underforstået pulsfaldet på 1 minut fra træningsslut) 1 54.46 ± 1.96 5.7682 26 [51.95; 56.97] 2 54.46 ± 2.797 3 54.46 ± 2.179 5.190 2 +8.406 2 2 2/13 [46.80; 62.13] 5.190 2 +8.406 2 2 1/13 [50.24; 58.68] 4 54.46 ± 3.054 5.768 13 [49.58; 59.35] 5 5.758 ± 1.96 5.768 26 [52.24; 56.68] Fortsæt på side 8 7

Spørgsmål III.2 (9) Betragt nu de 13 pulsslutmålinger (første række i tabellen). Angiv et 95% konfidensinterval for spredningen for disse: 1 σ ± 1.96 5.190 13 2 3.92 < σ < 7.86 3 14.16 < σ 2 < 69.91 4 3.72 < σ < 8.57 5 σ ± 2.179 5.190 13 Spørgsmål III.3 (10) Et mål for løbegruppen var at opnå en gennemsnitlig form, svarende til et 1 minuts middelpulsfald på mere end 50. Er det med de givne data muligt for gruppen at påvise statistisk signifikant (på signifikansniveau α = 0.05) et sådan middelpulsfald, eller anderledes udtrykt kan man forkaste nulhypotesen H 0 : µ pulsfald = 50 (på signifikansniveau α = 0.05) mod alternativet H 1 : µ pulsfald > 50? (Både konklusion og argument skal være korrekt) 1 Ja, idet den relevante test-størrelse er 2.79, som er større end den kritiske værdi 1.78 2 Ja, idet den relevante test-størrelse er 1.63, som er mindre end den kritiske værdi 1.71 3 Nej, idet den relevante test-størrelse er 1.63, som er mindre end den kritiske værdi 1.71 4 Nej, idet den relevante test-størrelse er 2.79, som er større end den kritiske værdi 1.78 5 Ja, idet den relevante test-størrelse er 34.04, som er større end den kritiske værdi 2.18 Fortsæt på side 9 8

Spørgsmål III.4 (11) Et 95% konfidensinterval for middelpulsfaldet ønskedes UDEN brug af normalfordelingsantagelser. Derfor kørte man følgende i R: k = 100000 mysamples = replicate(k, sample(puls_slut-puls_1min, replace = TRUE)) mymeans = apply(mysamples, 2, mean) round(quantile(mymeans,c(0.001,0.005,0.01,0.025,0.050,0.95,0.975,0.99,0.995,0.999)),2) hvor round afrunder de angivne fraktiler til 2 decimaler. Man fik følgende fraktiler som resultat: 0.1% 0.5% 1% 2.5% 5% 95% 97.5% 99% 99.5% 99.9% 49.00 50.15 50.54 51.23 51.77 56.85 57.23 57.69 57.92 58.54 Hvad bliver 95% konfidensintervallet baseret på dette? 1 [50.15; 57.92] 2 [51.23; 57.23] 3 [49.00; 58.54] 4 [51.77; 56.85] 5 Ingen af ovenstående Fortsæt på side 10 9

Opgave IV Det såkaldte BMI (Body Mass Index) er et mål for forholdet mellem vægt og højde, og defineres som vægt (V ) i kg divideret med den kvadrerede højde (H) i meter: BMI = V H 2. Antag, at BMI-fordelingen i en population er en lognormal-fordeling med signifikansniveau α = 3.1 og β = 0.15 (altså at log(bmi) er normalfordelt med middelværdi 3.1 og spredning 0.15). Spørgsmål IV.1 (12) En definition af fedme er en BMI-værdi på mindst 30. Hvor stor en andel af populationen er i så fald fede? 1 3.1% 2 1.27% 3 > 99% 4 < 0.01% 5 2.23% Spørgsmål beregne: IV.2 (13): Hvis en person skal bestemme sin egen log(bm I)-værdi, skal personen således log(bmi) = log(v ) 2 log(h) Det antages i det følgende at standardafvigelsen på en måling af højden er σ H = 0.005m og standardafvigelsen på en måling af vægten er σ V = 1.5kg. Det oplyses desuden at de partielle afledede af log(bmi) er log(bmi) V = 1 V og log(bmi) H = 2 H. Hvis en person måler sin højde til 1.67m og sin vægt til 64.3 kg, og altså dermed sin log(bmi)-værdi til log(64.3) 2 log(1.67) = 3.14, hvad er da omtrent spredningen på denne log(bmi)-måling? 1 1.5/64.3 + 0.005/1.67 = 0.026 2 1.5 2 + 0.005 2 = 1.50 3 1.5 2 /64.3 2 + 4 0.005 2 /1.67 2 = 0.024 4 1.96 (1.5/64.3 + 0.005/1.67) = 0.052 5 log( 64.3) log(1.67 2 ) = 1.06 Fortsæt på side 11 10

Opgave V I et studie af spædbørns fødselsvægt for forskellige erhvervsgrupper registreredes denne for nogle førstegangsfødende frisører. Nedenstående tabel viser resultatet i gram (data er angivet i sorteret rækkefølge) for 20 fødsler i alt, 10 pigefødsler og 10 drengefødsler. Det kan antages at fødselsvægtene er normalfordelte. Piger (x) 2474 2547 2830 3219 3429 3448 3677 3872 4001 4116 Drenge (y) 2844 2863 2963 3239 3379 3449 3582 3926 4151 4356 Det oplyses endvidere at x = 3361.3, ȳ = 3475.2, s 1 = 587.299 (for piger) og s 2 = 532.126 (for drenge). Spørgsmål V.1 (14) Hvad er 20% og 80% fraktilerne for pigefødselsvægtene ved brug af bogens definition? (Husk at R som default bruger en anden definition end bogens) 1 20% fraktil: 2547 og 80% fraktil: 4001 2 20% fraktil: 2688.5 og 80% fraktil: 3936.5 3 20% fraktil: 2474 og 80% fraktil: 4116 4 20% fraktil: 2830 og 80% fraktil: 3872 5 20% fraktil: 3361.3 0.30 587.299 og 80% fraktil: 3361.3 + 0.30 587.299 Spørgsmål V.2 (15) Kan man baseret på disse data påvise statistisk signifikant, at drenges middelfødselsvægt er større end pigers? (Både konklusion og argument skal være korrekt) 1 Ja, idet en relevant teststørrelse er 2.3055 som er mindre end t 0.025 (18) = 2.101 2 Nej, idet en relevant teststørrelse er 113.9 som er større end z 0.025 = 1.96 3 Nej, idet en relevant teststørrelse er 2.3055 som er større end t 0.025 (9) = 2.262 4 Ja, idet en relevant teststørrelse er 2.3055 som er mindre end t 0.05 (9) = 1.833 5 Nej, idet en relevant teststørrelse er 0.4545 som ikke er mindre end t 0.05 (18) = 1.734 Fortsæt på side 12 11

Spørgsmål V.3 (16) Resultatet for hypotesetestet på signifikansniveau α = 0.05 om ens varianser: H 0 : σ 2 1 = σ 2 2 mod et tosidet alternativ kan opsummeres som følger: korrekt) (Både konklusion og argument skal være 1 Varianserne kan påvises forskellige idet 3475.2 2 /3361.3 2 F 0.05 (9, 9) 2 Varianserne kan ikke påvises forskellige idet 3475.2 2 /3361.3 2 F 0.025 (10, 10) 3 Spredningerne kan påvises ens idet 587.299 2 /532.126 2 > F 0.025 (9, 9) 4 Varianserne kan ikke påvises forskellige idet 587.299 2 /532.126 2 F 0.025 (9, 9) 5 Varianserne kan påvises forskellige idet 587.299 2 /532.126 2 > F 0.05 (10, 10) Fortsæt på side 13 12

Spørgsmål V.4 (17) Man kender den generelle middelfødselsvægt for (førstefødte) piger (3450g) og (førstefødte) drenge (3600g). Man kigger derfor nu på de 20 (relevante) forskelle til disse midler, og kører følgende i R: (hvoraf ikke nødvendigvis alt giver lige god mening) difs=c(x-3450,y-3600) t.test(difs,mu=3525) t.test(difs) med følgende resultat: > t.test(difs,mu=3525) One Sample t-test data: difs t = -29.7598, df = 19, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 3525 95 percent confidence interval: -362.1735 148.6735 sample estimates: mean of x -106.75 > t.test(difs) One Sample t-test data: difs t = -0.8747, df = 19, p-value = 0.3926 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -362.1735 148.6735 sample estimates: mean of x -106.75 Kan man med disse data påvise statistisk signifikant (på signifikansniveau α = 0.05) at frisørers førstefødte har en anden middelvægt end det generelle niveau? (Både konklusion og argument skal være korrekt) 1 Nej, idet den relevante P-værdi er 0.3926 som er større end 0.05 2 Nej, idet den relevante P-værdi er ca. 0 som er mindre end 0.05 3 Ja, idet den relevante P-værdi er 0.3926 som er større end 0.05 4 Ja, idet den relevante P-værdi er ca. 0 som er mindre end 0.05 5 Ja, idet konfidensintervallet indeholder tallet 0 Fortsæt på side 14 13

Spørgsmål V.5 (18) I et kommende studie vil man gerne have et 90% konfidensinterval for middelpigefødselsvægten for frisører med en bredde på ca. 100g (dvs. ±50g). Hvor mange pigefødselsvægte skal registreres for at opnå dette? 1 Omtrent 0.10 0.9 (1.96/0.25 2 ) 2 dvs. mindst 89 2 Omtrent 0.25 (1.96/0.25) 2 dvs. mindst 16 3 Omtrent (1.96 587.2993/50) 2 dvs. mindst 531 4 Omtrent (qnorm(0.90) 587.2993/50) 2 dvs. mindst 227 5 Omtrent (qnorm(0.95) 587.2993/50) 2 dvs. mindst 374 Fortsæt på side 15 14

Opgave VI For at undersøge effekten af to nyere danske vandmiljøplaner, har man i et bestemt vandløb målt koncentrationen af kvælstof (målt i g/m 3 ) lige før vandmiljøplanerne trådte i kraft (1998 og 2003) samt i 2011. Hver måling er gentaget 6 gange på en kort strækning af vandløbet. Resultatet er vist i nedenstående tabel: N 1998 N 2003 N 2011 5.01 5.59 3.02 6.23 5.13 4.76 5.98 5.33 3.46 5.31 4.65 4.12 5.13 5.52 4.51 5.65 4.92 4.42 Gennemsnit 5.5517 5.1900 4.0483 Det oplyses, at den totale variation i data er SST = 11.4944. Man fik følgende output fra R svarende til en envejs variansanalyse: (hvor det meste af informationen dog er erstattet af bogstaverne A-E samt U og V) > anova(lm(n~aar)) Analysis of Variance Table Response: N Df SumSq MeanSq Fvalue Pr(>F) Aar A B C U V Residuals D 4.1060 E Spørgsmål VI.1 (19) Hvilke tal har bogstaverne A-D erstattet: 1 A: 3, B: 7.3884, C: 3.6942, D: 17 2 A: 3, B: 11.4944, C: 3.8315, D: 15 3 A: 2, B: 7.3884, C: 3.6942, D: 15 4 A: 2, B: 11.4955, C: 5.7472, D: 17 5 A: 2, B: 7.3884, C: 11.4944, D: 22 Fortsæt på side 16 15

Spørgsmål VI.2 (20) Hvis man anvender signifikansniveau α = 0.05, hvilken kritisk værdi skal så bruges for det hypotesetest, der er udført i analysen (og i tabellen illustreret med tallene U og V)? 1 F 0.025 (3, 15) = 4.153 2 F 0.01 (3, 18) = 5.092 3 χ 2 0.025 (2) = 7.378 4 F 0.05 (2, 15) = 3.682 5 χ 2 0.05 (1) = 3.841 Spørgsmål VI.3 (21) Kan man med disse data påvise statistisk signifikant (på signifikansniveau α = 0.05) nogen form for forskelligheder i N-middelværdierne fra år til år? (Både konklusion og argument skal være korrekt) 1 Ja, idet tallet V er mindre end 0.05 2 Nej, idet tallet V er større end 0.05 3 Ja, idet tallet U er mindre end 0.05 4 Nej, idet tallet U er større end 0.05 5 Nej, idet tallet U/V er mindre end 0.05 Spørgsmål VI.4 (22) Et 90% konfidensinterval for middelforskellen mellem år 2011 og år 1998 bliver: 1 1.50 ± 1.753 0.587 1/6 2 1.50 ± 1.645 0.587 2/3 3 1.50 ± 2.131 0.2737 2/6 4 1.50 ± 1.96 0.2737 2/3 5 1.50 ± 1.753 0.523 1/3 Fortsæt på side 17 16

Opgave VII I 2013 var der 110.000 views på de DTU-statistik-videoer, der ligger tilgængeligt online. Antag først, at forekomsten af views igennem 2014 følger en poisson-process med et 2013-gennemsnit: λ 365dage = 110000. Spørgsmål VII.1 (23) Hvad er sandsynligheden for, at der inden for en tilfældig udvalgt halv time ikke forekommer nogen views? 1 0.002 2 < 0.0005 3 365/110000 = 0.003 4 1/(365 24 2) = 0.00006 5 0.81 Spørgsmål VII.2 (24) Der har netop været et view, hvad er sandsynligheden for at man skal vente mere end et kvarter på næste view? 1 0.067 2 < 0.0001 3 0.957 4 0.043 5 0.25 Spørgsmål VII.3 (25) I juni måned 2013 var der 17560 views. Hvilket af følgende svar, er det bedste på spørgsmålet: Er dette juni-tal i modstrid med en antagelse om at forekomsten af views fordeler sig helt jævnt hen over året? (Alle sandsynlighedsudsagn i svarmulighederne er korrekte, og X P o(λ) betyder at X følger en poisson-fordeling med intensitet λ) 1 Nej, idet P (X 17560) < 0.498, hvor X P o(λ), λ = 17560 2 Nej, idet P (X 9167) = 0.497, hvor X P o(λ), λ = 9167 3 Ja, idet P (X 9167) = 0.497, hvor X P o(λ), λ = 9167 4 Nej, idet P (X 17560) > 0.999999, hvor X P o(λ), λ = 9167 5 Ja, idet P (X 17560) < 0.000001, hvor X P o(λ), λ = 9167 Fortsæt på side 18 17

Opgave VIII Ved rensning af drikkevand kan man benytte såkaldt membranfiltrering. I et forsøg ønsker man at undersøge sammenhængen mellem trykfaldet over en membran og den såkaldte flux gennem membranen. Man observerer følgende 10 sammenhængende værdier af tryk (x) og flux (y): 1 2 3 4 5 6 7 8 9 10 Tryk (x) 1.02 2.08 2.89 4.01 5.32 5.83 7.26 7.96 9.11 9.99 Flux (y) 1.15 0.85 1.56 1.72 4.32 5.07 5.00 5.31 6.17 7.04 Følgende kørtes i R: Tryk=c(1.02,2.08,2.89,4.01,5.32,5.83,7.26,7.96,9.11,9.99) Flux=c(1.15,0.85,1.56,1.72,4.32,5.07,5.00,5.31,6.17,7.04) mean(tryk) mean(flux) var(tryk) var(flux) sum((tryk-mean(tryk))*(flux-mean(flux))) summary(lm(flux~tryk)) med følgende resultater: > mean(tryk) [1] 5.547 > mean(flux) [1] 3.819 > var(tryk) [1] 9.251068 > var(flux) [1] 5.198143 > sum((tryk-mean(tryk))*(flux-mean(flux))) [1] 60.15307 > summary(lm(flux~tryk)) Call: lm(formula = Flux ~ Tryk) Residuals: Min 1Q Median 3Q Max -0.9886-0.3176-0.1399 0.4540 1.0465 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.18857 0.44171-0.427 0.681 Tryk 0.72248 0.07064 10.227 7.18e-06 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.6446 on 8 degrees of freedom Multiple R-squared: 0.9289,Adjusted R-squared: 0.9201 F-statistic: 104.6 on 1 and 8 DF, p-value: 7.177e-06 Fortsæt på side 19 18

Spørgsmål VIII.1 (26) Korrelationen mellem tryk og flux estimeres til og fortolkes som følger: (begge dele skal være korrekt) 1 0.7225, så flux stiger med stigende tryk 2 0.9638, så flux stiger med stigende tryk 3-0.1886, så flux falder med stigende tryk 4 0.9289, så flux stiger med stigende tryk. 5 0.6446, så flux stiger med stigende tryk. Spørgsmål VIII.2 (27) Et 90% konfidensinterval for hældningskoefficienten β i regressionsmodellen, der ligger til grund for den udførte analyse, bliver: 1 0.7225 ± 110.227 0.6446 60.15307 2 0.7225 ± 1.960 0.6446 9.251068 0.6446 3 0.7225 ± 1.860 9 9.251068 1 4 0.1886 ± 0.427 0.6446 10 + 5.5472 9 9.251068 5 0.1886 ± 1.860 0.6446 1 10 + 3.8192 9 9.251068 Spørgsmål VIII.3 (28) Hvor stor en del af flux-variationen ( 10 i=1 (y i 3.819) 2 ) er ikke forklaret af trykforskelligheder? 1 68.1% 2 3.62% 3 92.89% 4 7.99% 5 7.11% Fortsæt på side 20 19

Spørgsmål VIII.4 (29) Kan man på signifikansniveau α = 0.05 afvise hypotesen om at regressionslinien passerer gennem (0, 0)? (Både konklusion og argument skal være korrekt) 1 Ja, idet antallet af observationer er mindre end 30 2 Ja, idet den relevante P-værdi er ca. 0, som er mindre end α 3 Nej, idet den relevante P-værdi er ca. 0, som er mindre end α 4 Nej, idet den relevante P-værdi er 0.681, som er større end α 5 Ja, idet den relevante P-værdi er 0.681, som er større end α Spørgsmål VIII.5 (30) Et konfidensinterval for linien ved tre forskellige trykværdier: x A 0 = 3.5, x B 0 = 5.0 og xc 0 = 9.5 vil se ud som følger: a + b x U 0 ± C U hvor U så er enten A, B eller C. Hvilket af følgende udsagn omkring størrelserne af C A, C B og C C er sandt? (Antag at det samme konfidensniveau er anvendt for alle tre intervaller) 1 C B = C A < C C 2 C B < C A < C C 3 C B > C A > C C 4 C B < C A = C C 5 C B = C A = C C SÆTTET ER SLUT. GOD SOMMER! 20