Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Spørgsmål 1 Vi ønsker at afgøre, om de to varianser er signifikant forskellige ved signifikansniveau 10%. Under nul hypotesen følger forholdet mellem de to varianser en F-fordeling, cf. s. [273, 287]. Den største varians sættes i tælleren, sådan at test statistikken bliver 2.6726 2.6458. Variansen i tælleren er den for kvinder, og altså baseret på 8 individer, hvorimod variansen i nævneren er baseret på 7 individer. Altså skal vi benytte F-fordelingen med (8-1, 7-1) frihedsgrader. Spørgsmål 2 Vi skal her undersøge en forskel mellem middelværdier baseret på et småt sample. Altså må vi benytte boksen s. [254, 266]. Vi har n 1 7, n 2 8, s 1 2.6458, s 2 2.6726, og finder t α/2 (n 1 + n 2 2) t 0.025 (13) 2.16. Korrekt svarmulighed er 2. Spørgsmål 3 Middelværdien og standardafvigelsen af albumin indhold for kvinder er henholdsvis 43.5 og 2.6726. Lad X angive albuminindholdet for en enkelt, tilfældig kvinde. Da er X N(43.5, 2.6726). Vi finder P (X > 48) 1 P (X 48) I R kan dette findes ved hjælp af pnorm som følger > 1-pnorm(48, mean43.5, sd2.6726) [1] 0.04611464 Ved at gange dette resultat med 100000 findes svaret. Spørgsmål 4 Fra s. [281, 296] har vi, at n p(1 p) ( z α/2 ) E hvor n er den stikprøvestørrelse, vi ønsker bestemt. E er den tilladte fejl, i.e. 1 i dette tilfælde. Vi finder z α/2 > qnorm(.01/2) [1] -2.575829 Til slut benytter vi, at p(1 p) er lig variansen i en binomialfordeling, således at p(1 p) 2.65 2. Spørgsmål 5 Se s. [362, 406]. For at finde kvadratafvigelsessummen, skal vi kende middelkvadratafvigelsen og antallet af frihedsgrader (df). Middelkvadratafvigelsen er angivet i opgaven. 1
Værdien af df findes ved at bemærke, at der er 18 observationer og 3 behandlingsmetoder (N 18, k 3). Altså er df15. Vi finder da, at summen af kvadratafvigelser (SSE) er SSE MSE (N k) 20.04 15. Spørgsmål 6 Test statistikken følger en F-fordeling med k 1, N k frihedsgrader, cf. s. [362, 406]. Da N 18 og k 3, får vi frihedsgraderne (2, 15). Spørgsmål 7 Definitionen af p-værdi er givet på s. [231, 248]. Små p-værdier indikerer, at de observerede data er usandsynlige hvis nul hypotesen er sand. Dette medfører afvisning af nul hypotesen. I ANOVA er er nul hypotesen, at alle middelværdier for grupper er ens. Altså er den lille p-værdi 5.649e-07 i outputtet bevis på, at der er forskellige middelværdier i mindst to grupper. Spørgsmål 8 Estimatorerne af α og β er angivet på s. [304, 340]. Vi finder b S xy 325.20 S xx 42.00 6 1.29 a ȳ b x 13.1143 1.29 9.0 1.50 Definitionerne af S xx, S yy, og S xy findes på s. [304, 340]. Spørgsmål 9 Estimatet af σ 2 er givet på s. [308, 343]. Vi regner: ˆ sigma S yy Sxy/S 2 xx n 2 6 70.5381 325.22 /(6 42) 0.844 5 Spørgsmål 10 Hældnigenskoefficienten er parameteren β. Konfidens intervallet for β er givet på s. [311, 346]. Vi benytter også test statistikken for b med β 0, hvilket er oplyst som t value i outputtet, og betegnet t her. Information vedrørende b findes i linjen i outputtet, der begynder med x2. b ± t α/2 (n 2) ˆσ Sxx b ± t α/2 (n 2) b t 5.4117 ± 2.365 0.2258 [4.88; 5.95] Vi får 2.365 fra t-fordelingen med 7 frihedsgrader (qt(0.05/2,7)). At der er 7 frihedsgrader indses f.eks. som følger: 2
Residual standardafvigelsen har 7 frihedsgrader (læses i outputtet). Antallet af frihedsgrader for residual standardafvigelsen er n 2, cf. s. [310, 346]. Altså må der have været 9 observationer. Da vi skal benytte t-fordelingen med n 2 frihedsgrader, ender vi altså med 7 frihedgrader. Spørgsmål 11 P-værdien 5.59e-08 er tydeligvis mindre end α 0.1%. Da det observerede data er mere usandsynligt end den på forhånd specificerede grænser på 0.1% afvises nul hypotesen. Spørgsmål Vi bruger prædiktionsgrænserne givet på s. [314, 350]. S xx kan ikke findes direkte i outputtet. Istedet benytter vi relationen t b β Sxx ˆσ Hvor β er 0, t er t-værdien givet i outputtet for hældningen, og ˆσ residual standardafvigelsen. Vi får > 23.972^2 * 3.497^2/5.4117^2 [1] 239.9564 t 2 b2 ˆσ 2 S xx S xx t 2 ˆσ2 b 2 For at finde prædiktionsgrænserne bruger vi t α/2 (n 2) t 0.025 (7) 2.365. Vi kan nu finde prædiktionsgrænserne: (a + bx 0 ) ± t α/2 ˆσ 1 + 1 n + (x 0 x) 2 S xx (5.5178 + 9 5.4117) ± 2.365 3.497 1 + 1 (9 8)2 + 9 239.96 ( (5.5178 + 9 5.4117) ± 2.365 3.497 2 1 + 1 9 + 1 ) 240 Spørgsmål 13 Vi benytter en test for tilfældighed s. [455, 329]. Først skal vi finde medianen af residualerne. Residualerne i stigende rækkefølge er -4.11-3.40-3.16-0.98 0.08 0.66 1.81 3.87 5.24. Medianen er 0.08. Vi kan nu identificere runs. Alle tal over medianen betegnes med a, og alle under med b. Værdierne lig medianen skal ikke betragtes, cf. eksemplet s. [457, 330]. Residualerne er 0.08 0.66-3.16 1.81-4.11 3.87 5.24-0.98-3.40. Vi finder følgende runs : a b a b aa bb. Altså er u 6, n 1 4, og n 2 4. Beregn µ u og σ u 3
Altså bliver test statistikken µ u 2 4 4 4 + 4 + 1 5 2 4 4(2 4 4 4 4) σ u (4 + 4) 2 (4 + 4 1) 32 24 4 3 64 7 7 7 1.309 u µ u σ u 6 5 1.309 Sandsynligheden for at finde denne værdi, eller noget mere ekstremt, hvis nul hypotesen er sand er ( P Z < 6 5 ) + P 1.309 ( 2 P Z > 6 5 ) 1.309 ( Z > 6 5 ) 1.309 ) 2 pnorm(1/1.309, lower.tail F ALSE) 0.44 Altså er det rimelig sandsynligt, (det vil ske 44% af tiden), at man finder denne værdi for test statistikken hvis nul hypotesen er sand. Vi kan derfor ikke afvise nul hypotesen om, at tallene er tilfældige. Spørgsmål 14 Konfidensintervaller for andele er beskrevet i afsnit [10.1, 9.1]. Vi har, at +2335 forsøg blev udført på æg fra Fie (et forsøg per æg, i.e. klækker det eller ej). Ud af disse, var successer. Altså bliver den øvre grænse på konfidensintervallet 35 + 1.96 35 ( ) 1 35 23 35 35 + 1.96 35 35 35 Hvor 1.96 is bliver brugt da dette er 97.5% fraktilen i den standardiserede normalfordeling. Korrekt svarmulighed er 2. Spørgsmål 15 Dette er en test for uafhængighed i antalstabel, beskrevet i afsnit [10.3, 9.3]. Vi benytter boksen statistic for test concerning difference among proportions på s. [286, 301], og ser at test statistikken er (observeret forventet)2 forventet summeret over alle celler. De forventede værdier er angivet i tabellen givet i denne opgavet, og de observerede i tabellen ved opgave 14. Korrekt svarmulighed er 2. Spørgsmål 16 Den kritiske værdi findes i χ 2 -fordelingen med (3 1) 2 frihedsgrader, cf. s. [285, 301]. Vi benytter α 0.05, og finder den kritiske værdi i tabel 5 s. [517, 588]. 4
Spørgsmål 17 Lad X være en stokastisk variabel, der angiver antallet af point opnået i en opgave. Dette er -1 med sandsynlighed 2 3 ig 3 med sandsynlighed 1 3. Vi bruger mean of discrete probability distribution s. [94, 116] og computing formula for the variance s. [99, 1], og regner E(X) 1 2/3 + 3 1/3 1/3 E(X 2 ) mu 2 ( 1) 2 2/3 + 3 2 1/3 11/3 V ar(x) 11/3 1/9 33/9 1/9 32/9 Lad nu Y 10 X i hvor X i følger samme fordeling som X for i 1, 2,..., 10. Brug til sidst boksen nederst s. [153, 185]. Spørgsmål 18 Hvis ingen kender svaret, er sandsynligheden for at besvare det korrekt 1 3 for hver elev. Lad X være en stokastisk variabel, der angiver antallet af elever der besvarer spørgsmålet korrekt. Da er X Bin(66, 1/3) under nul hypotesen H 0 at ingen kender svaret. Den alternative hypotese er, at nogle elever kender svaret. Under H 0, er E(X) 22. Vi ønsker at teste, om den sande middelværdi af X, µ 0 er større end 22. Vi finder p-værdien som følger P (X 33) 1 P (X 32) > 1 pbinom(32, 66, 1/3) 0.003741 Hvis approximationen til normalfordelingen benyttes istedet, fåes 1 pnorm(32.5, 22, 66 1/3 2/3) 0.003056. Da p-værdien er mindre end det specificerede signifikansniveau, må vi afvise nul hypotesen. Spørgsmål 19 Da stikprøverne er små, kan vi ikke lave fordelingsantagelser. Istedet bruger vi den ikke-parametriske rank-sum test, afsnit [14.3, 10.3]. Først tildeler vi ranks: 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 4 4 4 A A A A A A A A B B B B A A B B B B B B rank: 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16 17 18 19 20 means: 3 9 15 19 suma 5*3 + 3*9 + 2*15 72 sumb 4*9 + 3*15 + 3*19 138 Vi kan nu beregne 10(10 + 1) U 1 72 72 55 17 2 10 10 µ U1 50 2 σu 2 10 10(10 + 10 + 1) 1 2100 175 test statistik: U 1 µ U1 17 50 2.495 σ U1 175 5
Vi finder så P (Z < 2.495) pnorm( 2.495) 0.006298. Dette er en meget lille sandsynlighed, og vi afviser nul hypotesen om at de to TV er er lige gode. Spørgsmål 20 Vi skal benytte boksen F ratio for treatments, s. [373, 419]. SS(Tr) 194.25, og SSE 34.25. Der er 5 behandlinger og 4 metoder, hvorved vi får (5-1)*(4-1) frihedsgrader for residualfejlen. Spørgsmål 21 Fra teksten s. [361, 406] og s. [371, 418], ser vi, at middelkvadratafvigelsen ( 34.25 ) giver variansen af fejlen. Standardafvigelsen er, som altid, kvadratroden af dette. Spørgsmål 22 Hvis der ikke tages højde for metoderne, kommer variansen forklaret af metoder til at indgå i residual variansen. Altså bliver kvadratsummen fra metode til at blive inkluderet i kvadratafvigelsessummen istedet. Ligeledes vil antallet af frihedsgrader for fejlen stige, og blive lig equal N-k (k er antallet af behandlinger og N det totale antal observationer), ligesom i en ensidet ANOVA. Spørgsmål 23 Da vi har mange stikprøver, kan vi benytte boksen large sample confidence interval for p s. [280, 295]. Vi har observeret x 107 successer ud af et totalt antal forsøg på n 482. Vi regner: x x n ± z n α/2 ( ) 1 x n n 107 482 ( ) 1 107 482 107 482 ± 1.645 482 107 107 375 482 ± 1.645 482 3 Da z α/2 z 0.10/2 z 0.05 qnorm(0.05) 1.645. Spørgsmål 24 Lad p 1 betegne andelen rapporteret d. 27/11/2008, og p 2 den tidligere rapporterede andel. Vi ønsker at teste nul hypotesen p 1 p 2 imod den alternative hypotese p 1 > p 2. Benyt s. [288, 304] til at udregne test statistikken ˆp X 1 + X 2 52 + 107 n 1 + n 2 322 + 482 0.1978 X 1 n 1 X2 n 2 ( ) 1 ˆp(1 ˆp) n 1 + 1 n 2 107 482 52 322 0.1978(1 0.1978) ( 1 482 + 1 322 ) 2.110239 6
Vi finder nu p-værdien, og lader Z N(0, 1). P (Z > 2.110239) 1 P (Z < 2.110239) 1 pnorm(2.110239) 0.01741889 Da denne p-værdi er lav, afviser vi nul hypotesen, og beviser altså at andelen er steget. Spørgsmål 25 Da vi antager, at andelen er omtrent den samme som nu ( 107 482 0.22), kan vi bruge boksen sample size determination s. [281, 296]. Bredden af konfidensintervallet skal være plus/minus 2 procent point, i.e. plus/minus 0.02. Altså er E 0.02. Med konfidensniveau 95% får vi z α/2 z 0.05/2 z 0.025 1.96. Vi finder da n 0.22 0.78 ( ) 2 1.96 0.02 Spørgsmål 26 Vi skal finde fordelingen af summen af otte stokastiske variable, hvor hver enkelt følger normalfordelingen med middelværdi 100 og varians 1. Ved at benytte s. [153-154, 185], og at antage at vægten af de enkelte stykker chokolade er uafhængige, finder vi X i N(100, 1), i [1, 2,..., 8] Y X i E(Y ) E( X i ) V ar(y ) V ar( E(X i ) X i ) 100 800 V ar(x i ) 1 8 Summen af normalfordelte variable er selv normalfordelt. Altså har vi Y N(800, 8). Standardafvigelsen af Y er således 8 2 2 2.83. 2.5% af sandsynlighedsmassen ligger til hver side af intervallet [800 ± 1.96 2.83]. Altså må den korrekte fordeling være symmetrisk, og have det meste af sin masse mellem 794.5 og 805.5, men stadig have lidt (2.5% til hver side) udenfor det interval. Spørgsmål 27 De to linjer der indikerer 25% og 75% fraktilerne (heholdsvis lige under og lige over den tykke linje, der viser middelværdien) passer ikke med 25% og 75% fraktilerne for nogen af de givne fordelinger. Linjerne er symmetriske om middelværdien, hvorved den assymetriske fordeling tages ud af betragtning. 25% fraktilen er tegnet ved ca. 775, and 75% frakilen ved ca. 825. Ingen af de tre symmetriske fordelinger ser ud til at indeholde 50% sandsynlighedsmasse imellem 775 og 825. Spørgsmål 28 Vi benytter estimatoren af fællesskøn af varians s. [252, 264] og finder 7
Korrekt svarmulighed er 2. ˆσ 2 (n 1 1)S1 2 + (n 2 1)S2 2 n 1 + n 2 2 4 5.23 2 + 4 2.1459 2 15.88648 3.9858 2 8 Spørgsmål 29 Under nul hypotesen (at varianserne er ens), følger brøken 5.232 2.1459 2 en F- fordeling med (4, 4) frihedsgrader, cf. s. [273, 287]. Altså bliver den kritiske værdi 6.39, fundet i tabel 6(a) s. [518, 589]. Spørgsmål 30 Jævnfør [s. 246 og 251, afsnit 7.8], skal de to stikprøver være fra normalfordelte populationer, have samme varians, og være tilfældigt og uafhængigt valgt. Den eneste unødvendige antagelse er, at stikprøver indeholder mere end 15 observationer. Korrekt svarmulighed er 2. 8