DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1 I.2 I.3 II.1 I1.2 III.1 III.2 IV.1 IV.2 IV.3 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 1 4 2 3 5 2 1 3 3 1 Opgave V.1 V.2 V.3 VI.1 VII.1 VIII.1 VIII.2 IX.1 IX.2 X.1 Spørgsmål (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) Svar 2 1 1 2 4 5 3 4 3 5 Opgave X.2 XI.1 XII.1 XII.2 XIII.1 XIII.2 XIV.1 XV.1 XVI.1 XVI.2 Spørgsmål (21) (22) (23) (24) (25) (26) (27) (28) (29) (30) Svar 1 1 1 1 4 2 4 1 2 4 Opgave I Spørgsmål I.1 (1): Dette er en opgave i antalstabel [Kap. 10, Kap. 9]. Først opskrives tabellen med række og søjle total: Ikke røgfri Røgfri Total Kvinder 91 352 443 Mænd 32 212 244 Total 123 564 687 Herefter udregnes de forventede frekvenser for hver celle: Ikke røgfri Røgfri Kvinder 79.3 363.7 Mænd 43.7 200.3 1
Teststørrelsen udregnes herefter til: χ 2 = (91 79.3)2 79.3 + (32 43.7)2 43.7 + (352 363.7)2 363.7 + (212 200.3)2 200.3 = 5.91 Og det ses, at det rigtige svar er 1. Opgaven kan løses i R som følgende: > x=c(91,32) > y=c(352,212) > chisq.test(matrix(c(x,y),nrow=2),correct=false) Pearson s Chi-squared test data: matrix(c(x, y), nrow = 2) X-squared = 5.9046, df = 1, p-value = 0.0151 Spørgsmål I.2 (2): Vi skal finde P (X 18) = 1 P (X 17) i binomialfordelingen, og benytter tabel 1 med n = 20, x = 17 og p = 0.80, men da 1 B(17; 20, 0.80) IKKE er en af svar mulighederne skal det indses at vi istedet vælger at kigge på sandsynligheden for at man IKKE bliver røgfri, som altså må være 20 %. Og vi finder i stedet sandsynligheden for at 2 eller færre deltagere ikke bliver røgfrie, dvs. P (X 2), dvs. B(2; 20, 0.20), og det ses at det korrekte svar er nr. 4. Spørgsmål I.3 (3): Sandsynligheden for IKKE at blive røgfri er 20 %. Så vi søger det mindste n, hvor P (X 1) > 0.5, X bin(n; 0.2; x) Og da P (X 1) = 1 P (X = 0) er dette ækvivalent med et finde det mindste n, hvor: P (X = 0) < 0.5, X bin(n; 0.2; x) Og da P (X = 0) = 0.8 n, svarer det til at checke: 0.8 1 = 0.8, 0.8 2 = 0.64, 0.8 3 = 0.512 og 0.8 4 = 0.4096, hvorved vi får at n skal være 4: Opgave II Spørgsmål II.1 (4): Idet det antages at de to grupper har samme varians, og da der er tale om små stikprøver, benyttes formlen s. [252, 264], hvor den poolede varians udregnes til 17.53. 2
Spørgsmål II.2 (5): Vi benytter formlen s. [272, 286], og udregner teststørrelsen til: F = 18.232 15.34 2 = 1.41. Den kritiske værdi findes i tabel 6(b), idet α = 0.02 og testet er tosidet. Frihedsgraderne er hhv. 20 og 7 for variansen i tælleren og nævneren, og den kritiske værdi aflæses til: F 0.01 (20, 7) = 6.16. Da teststørrelsen er mindre end den kritiske værdi, accepteres H 0. Korrekt svarmulighed er nr. 5. Opgave III Spørgsmål III.1 (6): Der er her tale om test i antalstabel. Antallet af frihedsgrader er (5 1)(3 1) = 4 2 = 8. I tabel 5 aflæses den kritiske værdi for α = 0.01 til 16.812. Da teststørrelsen er større end denne værdi, vil p-værdien være mindre end α. For at finde den eksakte p-værdi skal R benyttes med kommandoen 1-pchisq(79.25,8). Spørgsmål III.2 (7): Forskellen fra tidligere spørgsmål, er at antallet af kolonner nu kun er 3 i stedet for 5, og den nye firhedsgrad bliver da: (3 1)(3 1) = 4. Korrekt svarmulighed er nr. 1 Opgave IV Spørgsmål IV.1 (8): Antallet af producenter er 3, og dermed er frihedsgraden herfor 3 1 = 2. Det totale antal målinger er 15, hvorved frihedsgraden udfor total bliver 14. Ud for fejlen fås N k, hvor N er det samlede antal målinger og k antallet af producenter, og dermed N k = 15 3 = 12. Spørgsmål IV.2 (9): Fremgangsmåden for at udregne den 3. kvartil er givet på side [29-30,33-34]. Først opstilles målingerne i størrelses orden: 43, 49, 52, 57, 62. Vi udregner nu p n = 0.75 5 = 3.75, og runder op til 4, og den 3. kvartil findes altså til måling nr. 4 som er 57. Spørgsmål IV.3 (10): Det står beskrevet s. [361,406] at MSE er et estimat for σ 2. Dvs. et estimat for standard afvigelsen for fejlen er altså 69.8. Opgave V 3
Spørgsmål V.1 (11): Det man ønsker at bevise, vælges altid som H 1. For at de 16 elever har en dårligere kondition end landsgennemsnittet, skal det bevises at middelværdien er mindre end 2000. Dvs H 0 er µ = 2000 og H 1 er µ < 2000. Spørgsmål V.2 (12): Dette er en alm. t-test og formlen på s. [233,250] benyttes til at udregne teststørrelsen, som bliver -1.69. Da antallet af frihedsgrader er 15, fås den kritiske værdi i tabel 4 til -1.753, som er mindre end teststørrelsen. Dermed accepteres H 0, og det kan ikke konkluderes at eleverne har en dårligere kondition end landsgennemsnittet. Spørgsmål V.3 (13): Man ville i stedet benytte et fortegns test (sign test) som er alternativ til test af en middelværdi når antagelsen om normalfordeling ikke er opfyldt. Opgave VI Spørgsmål VI.1 (14): Da antallet af frihedsgrader er (2 1)(3 1) = 2, findes χ 2 0.01(2)- værdien i tabel 5 til 9.210. Korrekt svarmulighed er nr. 2 Opgave VII Spørgsmål VII.1 (15): Rank sum test kan benyttes som alternativ til almindelig t- test for 2 uafhængige stikprøver, i tilfælde af at normalfordelingsantagelsen ikke holder. Rank sum test benyttes altså ikke som alternativ til F-test. Opgave VIII Spørgsmål VIII.1 (16): Da der ikke er nogen antagelse om normalfordeling benyttes i stedet et sign test. Der er 5 fremvisninger der ligger over medianen på 10. Yderligere er der 2 fremvisninger som er lig medianen på 10, og disse udgår derfor af testet. Vi benytter nu binomialfordelingen til at finde P (X 5) = 1 P (X 5). Vi slår op i tabel 1 for n = 8, x = 4 og p = 0.50, og får: 1 P (X 4) = 1 0.6367 = 0.3633. Idet 4
denne værdi er større end α = 0.05, accepteres H 0. Korrekt svarmulighed er nr. 5. Spørgsmål VIII.2 (17): Medianen udregnes som den 2. kvartil givet på side [30,34]. Dvs. n p = 10 0.50 = 5, og medianen findes altså som middelværdien af den femte og sjette måling når værdierne opstilles i størrelsesorden. Dvs. 10+11 2 = 10.5. Opgave IX Spørgsmål IX.1 (18): Sandsynligheden for at opleve komplikationer i en enkelt fødsel er 0.20. Vi skal finde P (X 1) = 1 P (X = 0) ud af i alt 3 fødsler. Sandsynligheden for ikke at opleve komplikationer må være 1 0.20 = 0.80. Dvs. P (X = 0) = 0.80 3. Spørgsmål IX.2 (19): Til dette benyttes formlen s. [280, 295]. z α/2 findes nederst i tabel 4 til 1.96. Opgave X Spørgsmål X.1 (20): Fordeling a har en middelværdi på 5 og strækker sig ud til ca. 3 og 7, dvs. 5 ± 2, dvs. en spredning på ca. 1. Fordeling c har en middelværdi på 5 og strækker sig ud til ca. 0 og 10, dvs. 5 ± 5, dvs. en spredning på ca. 2.5. Korrekt svarmulighed er nr. 5. Spørgsmål X.2 (21): 2.5 % og 97.5 % fraktilerne svarer til middelværdien ±2 σ. Da spredningen er oplyst til 0.3, så bliver fraktilerne ±0.6. Opgave XI Spørgsmål XI.1 (22): Af formlen s. [97,119] kan variansen direkte udregnes til 9.5. Opgave XII 5
Spørgsmål XII.1 (23): Da der er tale om en lille stikprøve benyttes formlen s. [211,233]. Middelværdien for målingerne udregnes til 6.42 og spredningen til 0.66. t(5) α/2 -værdien slås op i tabel 4 til 4.032. Indsættes værdierne i formlen fås: 6.42 ± 4.032 0.66 6 = 6.42 ± 4.032 0.268. Spørgsmål XII.2 (24): Vi benytter formlen s. [207,229] og ønsker at estimere n, således at E maksimalt er 0.2. Da α = 1 0.95 = 0.05, fås z α/2 til 1.96. Vi kan nu ( indsætte i formlen og isolere n: 0.2 > 1.96 0.362 n > 1.96 0.6 ) 2. n 0.2 Opgave XIII Spørgsmål XIII.1 (25): Vi benytter formlerne s. [304,340] til at bestemme a og b. Da b = S xy /S xx, og S xy er givet til 31.42 og S xx til 23.85, kan b direkte udregnes til 31.42/23.85 = 1.32. Til udregning af a benyttes middelværdierne for x i og y i målingerne som er givet til 3.84 og 7.19 hhv., og a kan derfor udregnes til: a = y b x = 7.19 1.32 3.84 = 2.13. Spørgsmål XIII.2 (26): Benyt formlen s. [310,346]. Da S yy = 48.25, S xx = 23.85, S xy = 31.42 og n = 12 fås at korrekt svarmulighed er nr. 2. Opgave XIV Spørgsmål XIV.1 (27): Hvis der ikke er nogle yderliggende punkter (outliers), så vil de ydre streger i boxplottet markere min og max værdierne. Når der er yderliggende punkter vil de yderste streger i stedet markere 5 % og 95 % fraktilerne. Dermed vil 95 % fraktilen i boxplot a være ca. 10 og ikke 12. Opgave XV Spørgsmål XV.1 (28) Der er tale om et antal indenfor en tidsperiode hvor der ikke er defineret en øvre grænse. Derfor er der tale om Poisson fordelingen. For at opnå en fortjeneste skal taxachaufføren have 4 kunder pr. time, dvs. minimum 12 kunder 6
pr. 3 timer. Vi ønsker nu at finde sandsynligheden for at få 9 eller færre kunder, hvis middelværdien for antal kunder er 12. Dvs. P (X 9), hvor X Poisson(12). Opgave XVI Spørgsmål XVI.1 (29) Korrelationskoefficienten beskriver den lineære sammenhæng mellem x og y, og vil altid have samme fortegn som hældningskoefficienten. Da hældningen er positiv og punktene stort set ligger på en lige linie, så vil korrelationskoefficienten være tæt på 1. Spørgsmål XVI.2 (30): Vi benytter formlerne s. [304,340]. Estimaterne for skæring med y-aksen, a, og hældningen b er givet nederst i output et til hhv. -38.3762 og 31.1562. 7