Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Relaterede dokumenter
Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

(studienummer) (underskrift) (bord nr)

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Løsning til eksamen d.27 Maj 2010

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

(studienummer) (underskrift) (bord nr)

Forelæsning 11: Kapitel 11: Regressionsanalyse

(studienummer) (underskrift) (bord nr)

Danmarks Tekniske Universitet Side?? af 20 sider

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Danmarks Tekniske Universitet Side 1 af 19 sider

Løsning eksamen d. 15. december 2008

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

(studienummer) (underskrift) (bord nr)

Løsning til eksaminen d. 14. december 2009

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Løsning til eksaminen d. 29. maj 2009

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

(studienummer) (underskrift) (bord nr)

Skriftlig eksamen Science statistik- ST501

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

(studienummer) (underskrift) (bord nr)

Konfidensintervaller og Hypotesetest

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

CIVILINGENIØREKSAMEN Side 1 af 18 sider. Skriftlig prøve, den: XY. december 200Z Kursus nr : (navn) (underskrift) (bord nr)

Appendiks Økonometrisk teori... II

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Side 1 af 21 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december Kursus navn og nr: Introduktion til Statistik, 02402

(studienummer) (underskrift) (bord nr)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Kapitel 7 Forskelle mellem centraltendenser

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 16. december 2010 Kursus nr : (navn) (underskrift) (bord nr)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

1 Hb SS Hb Sβ Hb SC = , (s = )

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Reeksamen i Statistik for biokemikere. Blok

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Eksamen i Statistik for biokemikere. Blok

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Reeksamen i Statistik for Biokemikere 6. april 2009

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2010 Kursus nr : (navn) (underskrift) (bord nr)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Besvarelse af vitcap -opgaven

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Klasseøvelser dag 2 Opgave 1

Multiple choice opgaver

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

En Introduktion til SAS. Kapitel 5.

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

DANMARKS TEKNISKE UNIVERSITET Side 1 af 18 sider. Skriftlig prøve, den: 4. juni 2013 Kursus nr : (navn) (underskrift) (bord nr)

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Forelæsning 9: Inferens for andele (kapitel 10)

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

2 Gennemsnitligt indhold af aktivt stof i en tablet fra et glas med 200 tabletter

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2011 Kursus nr : (navn) (underskrift) (bord nr)

Test nr. 5 af centrale elementer 02402

Normalfordelingen. Statistik og Sandsynlighedsregning 2

1 Regressionsproblemet 2

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Forelæsning 11: Envejs variansanalyse, ANOVA

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

To-sidet varians analyse

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

(student number) (signature) (table number)

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Transkript:

Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 15. december 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift) (bord nr) Opgavesættet består af 30 spørgsmål af multiple choice typen fordelt på 16 opgaver. Besvarelserne af multiple choice spørgsmålene anføres ved at udfylde skemaet på forsiden (denne side), med numrene på de svarmuligheder, du mener er de korrekte. Et forkert svar kan rettes ved at sværte det forkerte svar over og anføre det rigtige i stedet. Er der tvivl om meningen med en rettelse, eller er der anført flere end ét nummer ved et spørgsmål, betragtes spørgsmålet som ubesvaret. Kladde, mellemregninger eller andet tillægges ingen betydning, kun svarene i tabellen tæller. Der gives 5 point for et korrekt multiple choice svar og 1 for et ukorrekt svar. Ubesvarede spørgsmål eller et 6-tal (svarende til ved ikke ) giver 0 point. Det antal point, der kræves for, at et sæt anses for tilfredstillende besvaret, afgøres endeligt ved censureringen af sættene. Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Kun skemaet tillægges betydning ved besvarelsen. Opgaveteksten skal dog afleveres i sin helhed, inden eksamen forlades også selv om du vælger at aflevere blankt. Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 4 3 5 2 2 2 4 4 1 5 Opgave VI.3 VI.4 VI.5 VII.1 VII.2 VII.3 VIII.1 VIII.2 IX.1 IX.2 Spørgsmål (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) Svar 3 5 1 3 3 5 2 1 2 4 Opgave X.1 X.2 X.3 XI.1 XII.1 XIII.1 XIII.2 XIV.1 XV.1 XV.2 Spørgsmål (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) Svar 5 5 1 5 3 2 2 5 4 1 Husk at forsyne opgavesættet med dit nummer. Sættets sidste side er nr 18; blad lige om og se, at den er der. Fortsæt på side 2 1

Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder er meningsfulde. Opgave I To forskellige matematikundervisningsmetoder blev sammenlignet: 60 elever blev undervist efter metode 1 mens 120 andre elever blev undervist efter metode 2. En efterfølgende test af eleverne gav følgende resultater: n Gennemsnit Spredning Metode 1 60 79.5 15.7 Metode 2 120 65.8 13.4 Spørgsmål I.1 (1): En sædvanlig teststørrelse for hypotesen om ingen forskel i det gennemsnitlige kundskabsniveau efter de to metoder er givet ved 1 (79.5 65.8)/ s 2 p (1/60 + 1/120), hvor s p = (15.7 + 13.4)/2 2 (79.5 65.8) 2 / 15.7 2 + 13.4 2 3 15.7 2 /13.4 2 4 (79.5 65.8)/ 15.7 2 /60 + 13.4 2 /120 5 79.5 2 /65.8 2 Spørgsmål I.2 (2): Et hypotesetest på niveau α = 0.05 for hypotesen om ens varianser har følgende resultat: (argumentet skal også være i orden) 1 Forkastelse, idet 15.7/13.4 < χ 2 0.05 (15) = 24.996 2 Forkastelse, idet 15.7/13.4 < F 0.01 (59,119) 1.53 3 Accept, idet 15.7 2 /13.4 2 < F 0.05 (59,119) 1.43 4 Accept, idet 15.7/13.4 < F 0.025 (60,120) 1.45 5 Accept, idet 15.7 2 /13.4 2 < χ 2 0.05 (15) = 24.996 2

Opgave II Nogle IQ-tests er konstrueret således, at IQ-scorene har en normalfordeling med middelværdi 100 og spredning 16, N(100,16 2 ). Spørgsmål II.1 (3): Hvor mange i en population på 3 millioner voksne har en IQ score på over 140? 1 2.981.371 (lidt mindre end 3 millioner) 2 Halvdelen 3 316.949 (omtrent 317 tusinde) 4 Ingen 5 18.629 (omtrent 18-19 tusinde) Spørgsmål II.2 (4): Gennemsnitsscoren for 10 tilfældige personer på en arbejsplads er 105. Viser dette med nogenlunde sikkerhed, at arbejdspladsens medarbejdere har en gennemsnitlig IQ, der ligger over populationsgennemsnittet på 100? 1 Ja, idet 105 er åbenlyst større end 100 2 Nej, idet P(Z > 5/ 16 2 /10) 0.16 ikke er speciel lille 3 Ja, for ellers ville stikprøvegennemsnittet være mindre end 100 4 Ja, idet 1 P(Z > 5/ 16 2 /10) 0.84 ikke er speciel lille 5 Nej, man skal have mindst 30 personer i stikprøven 3

Opgave III Microsoft registrerer forskellige mål for omfanget af kodeændringer i software udviklingsprocessen som f.eks. M1=Churned LOC/Total LOC, som er andelen af det totale antal kodelinier, der er blevet ændret eller tilføjet, og M2=Deleted LOC/Total LOC som er andelen af det totale antal kodelinier, der er blevet slettet. For udviklingen af Windows Server 2003 Service Pack 1 (W2k3-SP1) fik man på tværs af 2465 observationer (binaries) en korrelationskoefficient på 0.831 mellem M1 og M2. Spørgsmål III.1 (5): Hvilket af følgende udsagn er mest korrekt omkring observationernes struktur: 1 En forskel på 100 i M1 vil typisk svare til en forskel på 83.1 i M2. 2 Høje værdier for M1 følges typisk ad med høje værdier af M2. 3 Lave værdier for M1 følges typisk ad med høje værdier af M2. 4 Høje værdier for M1 følges typisk ad med lave værdier af M2. 5 En forskel på 83.1 i M1 vil typisk svare til en forskel på 100 i M2. Spørgsmål III.2 (6): Det vigtige for Microsoft efter et produkt er kommet på markedet, er den såkaldte defect density, som er et kvantitativt mål for hvor ofte et delprodukt (binary) fejler. Man fik for de 2465 binaries i W2k3-SP1 følgende korrelationer mellem dette mål og henholdsvis M1 og M2: 0.883 og 0.798. Man ønsker at bruge enten M1 eller M2 til i fremtiden at forudsige defect density vha. en simpel lineær regressionsmodel. Hvilken af de to har den bedste forklaringsgrad i dette tilfælde og hvad er forklaringsgraden? 1 M1 med forklaringsgrad 88% 2 M1 med forklaringsgrad 78% 3 M2 med forklaringsgrad 64% 4 M2 med forklaringsgrad 80% 5 M2 med forklaringsgrad 36% 4

Opgave IV Der ses herunder boxplots for fire forskellige grupper af data bestående af 100 observationer i hver gruppe: 20 15 10 5 0 5 1 2 3 4 Spørgsmål IV.1 (7): Hvilket af følgende udsagn er mest korrekt? 1 Der er ingen observationer større end 20 2 Den største af de fire medianer er omkring 22 3 Der er omtrent samme variation i de fire grupper 4 De fire gruppers medianer svinger mellem ca. 7 og 12 5 De fire gruppers tredje kvartiler (Q 3 ere) svinger mellem ca. 4 og 15 5

Opgave V Der ses herunder fire normalfordelinger: a b 0.4 0.8 0.3 0.6 0.2 0.4 0.1 0.2 0.0 0.0 5 6 7 8 9 10 11 12 13 7 8 9 10 11 c d 0.8 0.20 0.6 0.15 0.4 0.10 0.2 0.05 0.0 0.00 7 8 9 10 11 1 3 5 7 9 11 13 15 17 Der oplyses følgende: To af disse fordelinger viser to forskellige populationer, A og B, mens de andre to viser fordelingerne for to forskellige stikprøvegennemsnit - en fra hver af de to populationer, hvor n A > n B > 1. Spørgsmål V.1 (8): De fire fordelinger, der viser population A, population B, stikprøvegennemsnit A (n A ) og stikprøve gennemsnit B (n B ) er (i nævnte rækkefølge): 1 b), c), d), a) 2 d), c), a), b) 3 b), c), a), d) 4 d), a), b), c) 5 a), d), b), c) 6

Opgave VI Pulse oximetry er en metode til måling af blodets iltindhold ved hjælp af en sensor, som sættes på patientens finger. I et forsøg undersøgtes metodens følsomhed over for forskellige grader af rysten i patienten. Man fik for 12 rystende patienter indelt i tre grupper følgende resultater: (Gennemsnittet af samtlige 12 observationer er 1.7533) Grad af rysten Målinger Gennemsnit Spredning Mild 2.51 2.14 2.13 1.98 2.19 0.23 Moderat 1.95 2.03 2.75 1.99 2.18 0.38 Svær 0.97 1.13 0.78 0.68 0.89 0.20 Spørgsmål VI.1 (9): Estimatet for spredningen for disse målinger er i den sædvanlige model for sådanne data givet ved: 1 (0.23 2 + 0.38 2 + 0.20 2 )/3 = 0.28 2 (0.23 2 + 0.38 2 + 0.20 2 )/11 = 0.044 3 (0.23 2 + 0.38 2 + 0.20 2 )/11 = 0.022 4 ((2.19 1.7533) 2 + (2.18 1.7533) 2 + (0.89 1.7533) 2 )/3 = 0.61 5 ((2.19 1.7533) 2 + (2.18 1.7533) 2 + (0.89 1.7533) 2 )/11 = 0.32 Spørgsmål VI.2 (10): Tælleren i F-test størrelsen for hypotesen om ingen forskel på grupperne er givet ved: 1 (0.23 2 + 0.38 2 + 0.20 2 )/3 = 0.079 2 (0.23 2 + 0.38 2 + 0.20 2 )/2 = 0.12 3 (4(2.19 1.7533) 2 + 4(2.18 1.7533) 2 + 4(0.89 1.7533) 2 )/3 = 1.49 4 ((2.19 1.7533) 2 + (2.18 1.7533) 2 + (0.89 1.7533) 2 )/2 = 0.559 5 (4(2.19 1.7533) 2 + 4(2.18 1.7533) 2 + 4(0.89 1.7533) 2 )/2 = 2.24 7

Spørgsmål VI.3 (11): F-test størrelsen for hypotesen om ingen forskel på grupperne skal vurderes i en: 1 F(3,11)-fordeling 2 χ 2 (2,9)-fordeling 3 F(2,9)-fordeling 4 χ 2 (11)-fordeling 5 F(2,11)-fordeling Spørgsmål VI.4 (12): For en anden type patienter fik man følgende resultater for et tilsvarende forsøg ved en kørsel i Splus: (information om frihedsgraderne er fjernet fra udskriften) Analysis of Variance Table Response: Y Terms added sequentially (first to last) Sum of Sq Mean Sq F value Pr(F) grp 0.98562 0.49281 5.8509 0.02355 Residuals 0.75805 0.08423 Hvad det mest korrekte svar på spørgsmålet: Er der signifikant (på niveau α = 5%) forskel på grupperne i dette tilfælde? 1 Ja idet 2 0.02355 5% 2 Nej, idet 0.49281 > 0.08423 3 Ja, idet 0.98562 > 0.75805 4 Nej, idet 0.02355 < 0.05 5 Ja, idet 0.02355 < 0.05 Spørgsmål VI.5 (13): De fire målinger på moderat rystende patienter har en spredning på 0.38. Hvad er et 95% konfidensinterval for denne spredning? 1 3 0.38/ 9.348 < σ < 3 0.38/ 0.216 2 0.38 ± 2 3 3 0.38/ 0.484 < σ < 3 0.38/ 9.488 4 0.38 ± 1.96 5 2 0.38/ 9.488 < σ < 2 0.38/ 0.711 8

Opgave VII En persons månedlige emailaktivitet blev registreret i årene 2000-2005 og man fik følgende udvikling i antal emails (sendte og modtagede) hen over årene: 600 500 Antal emails pr. måned 400 300 200 100 2000 2001 2002 2003 2004 2005 En kørsel svarende til figuren i Splus gav blandt andet følgende output: Call: lm(formula = emails ~ aar) Coefficients: Value Std. Error t value Pr(> t ) (Intercept) -222932.8770 28259.3507-7.8888 0.0014 aar 111.4762 14.1120 7.8994 0.0014 Residual standard error: 59.03 on 4 degrees of freedom Multiple R-Squared: 0.9398 F-statistic: 62.4 on 1 and 4 degrees of freedom, the p-value is 0.001389 Correlation of Coefficients: (Intercept) aar -1 Spørgsmål VII.1 (14): Hvad var omtrentlig den månedlige emailaktivitet omkring årskiftet 2003-2004? 1 111 2 (2005 2000) 111.4762 557 3 222932.887 + 111.4762 2003.5 410 4 28259.3507 111.4762 14.112 26686 5 Det ved man ikke noget om med de givne oplysninger År 9

Spørgsmål VII.2 (15): Den sædvanlige teststørrelse for hypotesen om hældning lig nul (β = 0) er: 1 7.8888 2 0.0014 3 7.8994 4 111.4762 5 59.03 Spørgsmål VII.3 (16): Hvad er korrelationskoefficienten mellem år og det månedlige antal emails? 1 0.8832 2 1 3 0.9398 4 1 5 0.9694 10

Opgave VIII En undersøgelse viste, at blandt 530 tilfældig udvalgte voksne personer havde 23% af 275 mænd og 18% af 255 kvinder købt bøger online. Spørgsmål VIII.1 (17): Kan der påvises signifikant forskel på mænd og kvinder i denne henseende? 1 Ja, idet 0.23 er klart større end 0.18 2 Nej, idet (0.23 0.18)/ 0.206 0.794/275 + 0.206 0.794/255 < 1.96 3 Ja, idet (0.23 0.18)/ 0.205 0.795/530 > 1.96 4 Nej, idet (0.23 0.18) ± 1.96 0.205/ 530 ikke indeholder 0 5 Ja, idet (0.23 0.18) ± 1.96 0.206/ 530 ikke indeholder 0 Spørgsmål VIII.2 (18): I en ny undersøgelse vil man gerne vide ret præcist hvor stor en andel af kvinderne, der køber bøger online. Man ønsker et 95% konfidensinterval for andelen på plus/minus 1 procentpoint. Hvor mange kvinder skal omtrent spørges for at opnå denne præcision? 1 0.18 0.82 (1.96/0.01) 2 5670 2 530 0.18 0.82 1.96 2 301 3 4 (1.96/0.1) 2 1537 4 [(1.96 0.18)/0.01] 2 1245 5 [(1.645 0.18 0.82)/0.01] 2 590 11

Opgave IX Følgende sandsynlighedsfordeling formodes at beskrive antallet af opkald på en time til en virksomhed: Antal opkald pr. time 0 1 2 3 Sandsynlighed 0.15 0.25 0.4 0.2 Spørgsmål IX.1 (19): Hvad er henholdsvis middelværdi og spredning for den stokastiske variabel X = Antal opkald på en time? 1 λ og λ 2 1.65 og 0.9631 3 1.65 og 1.2910 4 1.5 og 1.6667 5 0.25 og 0.1080 I en undersøgelse fandt man følgende antal af opkald pr. time for i alt 121 timer: Antal opkald pr. time 0 1 2 3 Antal 14 30 40 37 Spørgsmål IX.2 (20): Hvilken metode ville være mest oplagt at bruge for at undersøge om data er i modstrid med den formodede sandsynlighedsfordeling givet ovenfor? 1 Et parret t-test 2 Et uafhængigt t-test 3 Et F-test for ens varianser 4 Et χ 2 goodness of fit test 5 Et rank sum test 12

Opgave X Seks forskellige fredag den 13. blev sammenlignet med fredagen før (dvs. den 6.): Antallet af rapporterede biluheld blev opgjort til: År Måned Fredag den 6. Fredag den 13. 1989 Oktober 9 13 1990 Juli 6 12 1991 September 11 14 1991 December 11 10 1992 Marts 3 4 1992 November 5 12 Spørgsmål X.1 (21): Et sign test med formålet at påvise en øget risiko for biluheld fredag den 13. (sammenlignet med fredag den 6.) giver følgende resultat: 1 P-værdi= 0.8906 2 P-værdi= 0.9688 3 P-værdi= 0.0624 4 P-værdi= 0.0156 5 P-værdi= 0.1094 Spørgsmål X.2 (22): Hvis man antager at forskellen i antal biluheld mellem de to dage følger en normalfordeling, hvad bliver så et 95% konfidensinterval for forskellen på dagene? 1 3.33 ± 2.571 (3.33/ 6 + 3.60/ 6) 2 3.33 ± 1.96 3.01/ 5 3 3.33 ± 1.96 3.33/ 6 4 3.33 ± 2.712 3.33/ 6 5 3.33 ± 2.571 3.01/ 6 13

Spørgsmål X.3 (23): Man ønsker i en ny undersøgelse at bestemme forskellen i antal uheld mellem fredag den 13. og andre fredage med en maximal fejl på 1 med 99% konfidens. Antag at spredningen for forskellen er omkring 3. Hvor mange gange kræver det at man har informationen om en fredag den 13. (og dermed samtidigt den foregående fredag)? 1 Omtrent (2.576 3) 2 60 2 Omtrent (1.96 3 2 ) 2 311 3 Omtrent 6 0.99 2.575 2 32 4 Omtrent 1 4 [1.96/0.1]2 96 5 Omtrent (1.96 3) 2 35 Opgave XI Antallet af røde eksemplarer blev opgjort for en bestemt type biller på tre forskellige tidspunkter på sæsonen. Man fik følgende tabel for i alt 671 registrede biller: Sæson Røde Andre farver Total Tidlig forår 29 11 40 Sen forår 273 191 464 Sommer 72 95 167 Total 374 297 671 Spørgsmål XI.1 (24): Den sædvanlige teststørrelse for at undersøge om der er nogen sammenhæng mellem sæsonerne og andelen af røde biller skal vurderes i en: 1 F-fordeling med frihedsgraderne (3,9) 2 F-fordeling med frihedsgraderne (2,9) 3 χ 2 -fordeling med 1 frihedsgrad 4 χ 2 -fordeling med 3 frihedsgrader 5 χ 2 -fordeling med 2 frihedsgrader 14

Opgave XII Fem forskellige såkaldte Optimal Mark Reader (OMR) maskiner blev undersøgt i seks forskellige miljøer ved at måle hvor mange tusinde skemaer pr. time hver maskine kunne håndtere i hvert miljø. I følgende tabel ses en delmængde af variansanalysetabellen for disse data: DF SS MS F Maskine (a) 1.026 (f) (g) Miljø (b) 0.047 (h) (i) Fejl (c) (d) (e) Total 1.144 Spørgsmål XII.1 (25): Den manglende information (i rækkefølgen (a),(b),(c),(d),(e),(f),(g),(h),(i)) er givet ved : 1 4, 5, 20, 2.217, 0.111, 0.2565, 2.314, 0.0094, 0.0848 2 5, 6, 24, 0.071, 0.00296, 0.2052, 69.36, 0.00783, 2.65 3 4, 5, 20, 0.071, 0.00355, 0.2565, 72.25, 0.0094, 2.65 4 4, 5, 29, 0.071, 0.00245, 0.2565, 104.7, 0.0094, 3.84 5 5, 6, 24, 2.217, 0.09238, 0.2052, 2.22, 0.00783, 0.0848 15

Opgave XIII 100 stiklinger af Begonia behandledes med asparaginsyre i fortynding 10 5 eller 10 3, og 50 stiklinger fik ingen behandling. Efter et stykke tid registreredes for hver stikling om der var dannet rod. Resultaterne ses i følgende tabel over antallene af stiklinger. Behandling Antal med rod Antal i alt Ingen beh. 31 50 Konc. 10 5 34 50 Konc. 10 3 37 50 Spørgsmål XIII.1 (26): Tabellen med alle de relevante forventede antal stiklinger under nulhypotesen om ingen forskel på de tre behandlingsgrupper er givet ved: 1 2 3 4 5 Ingen beh. 34 50 Konc. 10 5 34 50 Konc. 10 3 34 50 Ingen beh. 34 16 Konc. 10 5 34 16 Konc. 10 3 34 16 Ingen beh. 34 16 Behandling 68 32 Ingen beh. 34 Konc. 10 5 34 Konc. 10 3 34 Ingen beh. 31 19 Konc. 10 5 34 16 Konc. 10 3 37 13 Spørgsmål XIII.2 (27): Den kritiske værdi (på niveau 5%) for den sædvanlige teststørrelse for hypotesen om ingen forskel på de tre behandlingsgrupper er: 1 Den kan man ikke finde, idet den ene observation er mindre end 15 2 χ 2 0.05 (2) = 5.991 3 χ 2 0.95 (2) = 0.103 4 F 0.05 (3,2) = 9.55 5 F 0.05 (2,1) = 200 16

Opgave XIV I et forsøg indsamledes i alt 379 chronomidfluer, og man noterede antallet af vandmider på hver flue. Resultaterne findes i tabellen nedenfor. antal mider antal pr. flue fluer 0 262 1 91 2 20 3 5 4 1 Der var således 262 af fluerne, der ikke bar vandmider overhovedet, 91 der bar 1 mide, 20 der bar 2, osv. Spørgsmål XIV.1 (28): Hvilken sandsynlighedsfordeling ville være umiddelbart naturlig at bruge som potentiel model for disse data? 1 Normalfordelingen 2 Eksponentialfordelingen 3 Den Hypergemometriske fordeling 4 Binomialfordelingen 5 Poissonfordelingen 17

Opgave XV I et antal uger registreredes dagligt medarbejdertilfredsheden (Y) i en virksomhed. Man fik følgende resultater fra Splus ved at køre anova(lm(y~dag+uge)), hvor Dag angiver ugedagen (mandag, tirsdag etc.) og Uge angiver ugenummeret: (De samme ugedage indgik i hver uge) Analysis of Variance Table Response: Y Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) Dag 4 94.1991 23.54978 1.999234 0.1183369 Uge 8 575.2280 71.90350 6.104172 0.0000874 Residuals 32 376.9409 11.77940 Spørgsmål XV.1 (29): Hvor mange forskellige dage henholdsvis uger indgår i undersøgelsen og hvad er estimatet for spredningen ˆσ i den model, der sædvanligvis ligger til grund for den udførte analyse? 1 5 dage, 9 uger og ˆσ 2 = 11.7794 2 2 7 dage, 8 uger og ˆσ = 11.7794 3 32 dage, 8 uger og ˆσ = 11.7794 = 3.43 4 5 dage, 9 uger og ˆσ = 11.7794 = 3.43 5 4 dage, 8 uger og ˆσ = 11.7794/32 = 0.607 Spørgsmål XV.2 (30): Hvad er konklusionerne med hensyn til om der lader til at være forskel på medarbejdertilfredsheden på de forskellige dage henholdsvis uger? 1 Der er forskel på ugerne men ikke på dagene 2 Der er forskel på dagene men ikke på ugerne 3 Der er forskel på både ugerne og dagene 4 Der er hverken forskel på ugerne eller dagene 5 Dagene har en forskellig variation 18