DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Spørgsmål Vi skal finde den falske påstand og går nu gennem de givne påstande en ad gangen. : Ja, det totale areal under kurven er da dette er sandt for alle sandsynlighedsfordelinger, cf. s. [2, 49]. 2: Ja, middelværdien er, og det gælder at 2 =. : Nej, standard afvigelsen er to og variansen er fire. 4: Ja, fordelingen er symmetrisk om middelværdien, cf. section 5.2 i begge editions af bogen. 5: Ja, tætheden for normalfordelingen er defineret imellem og. Spørgsmål 2 Vi har at gøre med en diskret sandsynlighedsfordeling og antal der ikke har en øvre grænse. Det er altså naturligt at bruge Poisson fordelingen, p. [04, 27]. Definer en stokastisk variabel X P ois(5), hvor X angiver antallet af opkald i løbet af et minut. Ved at benytte egenskaberne ved Poisson fordelingen forklaret på s. [04, 27] får vi at Y P ois(0) angiver antallet opkald i et to-minutters interval. Vi skal nu finde P (Y = 0). Vi beregner, og benytter tabellen over Poisson sandsynligheder bagest i bogen: P (Y = 0) = P (Y 0) P (Y 9) = 0.58 0.458 = 0.25 Korrekt svarmulighed er 4. Spørgsmål Vi har tæthedsfunktionen f(x) = k hvis 2 x 2 og 0 ellers. For at finde værdien af k skal vi bruge det, at tæthedsfunktion altid integrerer til, cf. s. [2, 49]. Vi får da: 2 f(x)dx = 2 2 2 kdx = k[2 ( 2)] = 4k = k = 4 Spørgsmål 4 Vi benytter samme tæthedsfunktion som i forrige spørgsmål, således at X Uniform( 2, 2). Vi regner: P (X > ) = 4 Fra gemometriske betragtninger, eller P (X > ) = 2 4 dx = 4
Spørgsmål 5 For at finde medianen må vi opstille data i sorteret rækkefølge, cf. s. [25, 29]: 7, 9, 6, 8, 9, 9, 2, 2, 25, 25. Da vi har 0 observationer er medianen gennemsnittet af den femte (0.5 0 = 5) og sjette observation i det sorterede data. Altså bliver medianen 9+9 2 = 9. Spørgsmål 6 Vi benytter boksen på s. [27, ]. Middelværdien af observationerne er 8. Ligefremme beregninger giver, at variansen er 6. Følgende R-kode kan også bruges til at beregne variansen. x <- c(7, 9, 6, 8, 9, 9, 2, 2, 25, 25) v <- 0 for(i in x) { v <- v + (i-mean(x))^2 } v <- v/(length(x)-) Spørgsmål 7 Vi skal finde den falske påstand. : p-værdien for den to-sidede nul-hypotese var 0.000502, hvilket betyder at der er en forskel i de to metoder på alle signifikansniveauer højere end 0.000502. Middelværdien af x (2.25) er lavere end middelværdien af y (8.800), altså er påstand sand. 2: Betydningen af denne påstand er ækvivalent med den første påstand. : Nej, 0.00025 er lavere end p-værdien 0.000502, fundet i testen. Der er altså ikke signifikant forskel når signifikansniveauet 0.00025 benyttes. 4: Ja, 0.0 er lavere end 0.000502. 5: Ja, dette er sandt uafhængigt af data benyttet her, og værdierne kan findes i tabellen over t-værdier bagest i bogen. Spørgsmål 8 Se s. [27, 287]. S m og S M som estimaterne er givet output fra S-plus output > sqrt(var(x)) [] 2.997022 > sqrt(var(x2)) [].42595 respektivt. Test statistikken er altså.42595 2 /2.997022 2 =.06. Antallet af observationer benyttet for at komme frem til S m og S M var henholdsvis 8 og 0. Altså er den kritiske værdi F 0.05 (0, 8 ) = F 0.05 (9, 7) =.68, fundet i tabel 6(a). Korrekt svarmulighed er 4. Spørgsmål 9 Se p. [208, 20], sample size determination. Vi ønsker et konfidens interval med en bredde på maksimalt en, hvilket betyder at fejlen højst må være 0.5, i.e. 2
E = 0.5. Da vi ønsker et 95% konfidens interval bruger vi z α/2 = z 0.025 =.96. Da det er oplyst, at standard afvigelsen er får vi følgende n = 9 (.96/.5) 2 8 Spørgsmål 0 Sandsynligheden for at brødrene spiller præcis tre spil er lig med sandsynligheden for, at den der vinder første spil også vinder de to næste spil. Sandsynligheden for at en given bror vinder et spil er 2. Altså er sandsynligheden for, at ham der vinder første spil også vinder de næste to 2 2 = 4. Spørgsmål Der er to muligheder:. Bror vinder første spil, og bror 2 vinder de tre næste spil. Sandsynligheden for dette er (sandsynligheden for at bror vinder første spil) gange (sandsynligheden for at bror 2 vinder de tre næste) = /2 (/2) = (/2) 4 2. Bror 2 vinder første spil, og bror vinder de tre næste spil. På samme vis som ovenfor er sandsynligheden for dette udfald også (/2) 4. På begge måder bliver der spillet fire spil, så sandsynligheden for at der bliver spillet fire spil er (/2) 4 + (/2) 4 = (/2), hvormed det korrekte svar bliver nr. 2. Spørgsmål 2 Se s. [288, 04]. Vi har, at n = n 2 = 00. Vi benytter dette og boksen Statistic for test concerning difference between two proportions, og regner: 5 + 68 ˆp = = 0.595 200.5.68 Z = = 2.44877 ˆp( ˆp) (/00 + /00) Lad X N(0, ), så findes p-værdien som P (X < Z) = P (X < 2.44877) = 0.0077. Spørgsmål Vi ønsker at teste, om m 2 er signifikant større end m. Vi benytter boksen test statistic for large samples concerning difference between two means s. [249, 26], og beregner test statistikken Z i R: z <-(8.25-5.97)/sqrt((2+2)/00) For at finde p-værdien, skal vi finde sandsynligheden for at en stokastisk variabel X der følger standard normal fordelingen ( N(0, )) er større end den netop beregnede værdi af z. Vi finder P (X > z) = P (X z) = P (X z). I R kan vi bruge funktionen pnorm til at finde denne sandsynlighed: pnorm(-z) = 0.000298489
Dette er p-værdien, altså sandsynligheden for at se en værdi af test-statistikken lig den fundet her, eller mere ekstrem, hvis nul-hypotesen er sand. Da denne sandsynlighed er lille har vi tilstrækkeligt bevis i data imod nul-hypotesen, og afviser derfor denne. Altså er processen effektiv. Spørgsmål 4 Se s. [282, 296], sample size (p unknown). Vi ønsker, at konfidensintervallet højest får en bredde på 2 procent point. Altså kan fejlen E højst være procent point (0.0). Da vi er ude efter 95% konfidensintervallet bruger vi z α/2 =.96. Vi kan nu finde n n = 4 ( ) 2.96 = 9604 9600 0.0 Spørgsmål 5 Da vi kun har henholdsvis 0 og 6 observationer i de to stikprøver er vi nødsaget til at benytte en metode der tager højde for, at vi har få observationer. Vi bruger derfor small sample method to compare the two means, cf. s. [252, 264]. Estimatet af fælles variansen er S 2 p = (n ) ˆσ 2 + (n 2 ) ˆσ 2 2 n + n 2 2 = 9. + 5.4 4.2 Vi kan nu beregne test statistikken t t = 69. 62.5 S p /0 + /6 7.4 Spørgsmål 6 Vi skal finde konfidensintervallet for middel værdien baseret på en lille stikprøve. Vi skal altså benytte small sample confidence interval, cf. s. [2, 2]. Vi finder stikprøve middelværdien og variansen, for eksemple ved brug af følgende R-kode, som der implementerer udtrykket for stikprøve varians givet på s. [27, ]: x <- c(.4,.20,.7) mean(x) v <- 0 for(i in x) { v <- v + (i-mean(x))^2 } v <- v/(length(x)-) Her er v variansen. Resultatet er v = 0.072. 2.5% kvantilen i t-fordelingen med 2 frihedsgrader kan findes i R som følger > qt(0.025,2) [] -4.0265 4
Vi når altså frem til følgende resultat x ± t 0.025 (2) 0.072.45 ± 4. 0.54 Spørgsmål 7 Vi har nok observationer til at benytte normal approximationen selvom vi estimerer variansen baseret på data. Vi skal altså bruge test statistic for large samples concerning difference between two means s. [249, 26]. Test statistikken er Z = 2.7.6.6 2 50 + 2.92 82.02 Da dette er en sidet test ved signifikansniveau α = 5% hvor H er µ x > µ y, er den kritiske værdi z α = z.95 =.64. Denne kan for eksempel findes i R ved kaldet qnorm(0.95). Spørgsmål 8 Vi har at X N(6, 2 ). Lad Z N(0, ) og regn P (X 0) = P ( X 6 0 6 ) = P (Z 2) = P (Z < 2) 0.977 Spørgsmål 9 For at fitte en linje til data benytter vi regressionsanalyse. Vi har nok oplysninger fra opgavestillingen til at benytte estimatorerne for skæringspunkt og hældning givet på s. [04, 40]. Vi finder b = S xy S xx = 28 2 = 7 8 = 0.875 a = 4 7 8 = 2 2 8 = 8 =.75 Spørgsmål 20 En estimator for variansen af residualerne er givet på s. [08m 4]. Ved at benytte denne får vi ˆσ 2 ɛ = S yy S 2 xy/s xx n 2 = 26 282 /2 8 Spørgsmål 2 Vi kan benytte de oplyste summer af kvadrater til at udregne r 2, s. [8, 78]. Vi får 28 2 26 2 0.942 5
Spørgsmål 22 Hvis variansen imellem grupper er signifikant større end variansen indenfor grupper, afviser nul-hypotesen om, at gruppe middelværdierne er ens. Logikken er, at forskellige middelværdier i de forskellige grupper netop ville forårsage større forskel mellem observationer fra forskellige grupper end forskellen (altså variansen) observeret imellem observationer fra samme gruppe. Estimatet af variansen indenfor gruper er variansen af residualerne. Den test statistik vi skal bruge for at teste om der er signifikant forskel mellem variansen indenfor og imellem grupper er F ratio givet på s. [62, 406]. Ved at benytte denne får vi F = 292.45/2 877.65/27 292/2 877/27 Spørgsmål 2 Hvis nul-hypotesen er sand, så følger F -ratio test statistikken F -fordelingen med frihedsgrader (2, 27), cf. s. [62, 406]. Spørgsmål 24 Vi kan udlede antallet af observationer i hver gruppe ved at bemærke, at det totale antal frihedsgrader er 29, hvilket er lig det totale antal observationer minus en. Altså indeholdt eksperimentet 0 observationer ialt. Da hver gruppe indeholdt det samme antal observationer må hver gruppe have haft 0 observationer. Variansen er estimeret ved hjælp af den forventede middelkvadratafvigelsessum (mean square error, MSE) fra ANOVA tabellen s. [66, 40]. Konfidensintervallet for forskellen i middelværdier er også givet på s. [66, 40]. Kvadratafvigelsessummen har 27 frihedsgrader, og vi skal derfor bruge t-fordelingen med 27 frihedsgrader til at finde den rette kvantile. Vi får qt(0.025, 27) = -2.058. Vi har altså fundet, at konfidensintervallet må være Korrekt svarmulighed er 4. 5.5 ± 2.052 877/27 (2/0) Spørgsmål 25 For at besvare dette spørgsmål behøver vi blot se definitionen af signifikansniveau, altså sandsynligheden for at begå en type I fejl, cf. s. [227, 244]. Spørgsmål 26 Da dette er før-og-efter data, er en parret t-test det rette valg. En sådan test tager højde for, at målingerne er udført på de samme individer før og efter en behandling. På denne måde undgår man, at variansen imellem individer indgår i variansen imellem målinger. Hvis man brugte en standard t-test ville variansen imellem individer indgå i residual variansen, hvilket ville gøre det sværere at opnå signifikante resultater. Spørgsmål 27 Da vi kun har 0 observationer er vi nødt til at bruge t-fordelingen med ni frihedsgrader. P-værdien er sandsynligheden for at observere det, vi faktisk har observeret, eller noget mere ekstremt. Da t-fordelingen er symmetrisk kan denne sandsynlighed findes ved to gange sandsynligheden for at observere en værdi på.25 eller højere i t-fordelingen med ni frihedsgrader. Vi bruger R > 2*(-pt(.25,9)) [] 0.0099977 6
Dette er cirka 0.0. Spørgsmål 28 En positiv korrelation mellem X og Y betyder, at højere værdier på den politiske skala er observeret sammen med høje værdier af antallet af gange en person læser avis ugentligt. Spørgsmål 29 I denne opgave kan to fremgangsmåder benyttes. Den ene metode benytter statistic for test concerning difference between proportions på s. [288, 04]. Denne test statistik følger normal fordelingen. Fra svarmulighederne i opgaven ser vi, at ingen er lig 0.5% kvantilen i normal fordelingen. Altså må det være den anden metode, vi skal benytte for at kunne besvare spørgsmålet. Dette er χ 2 testet, s. [285-286, 00, 0]. Ved at benytte dette finder vi > qchisq(-0.0, ) [] 6.64897 Spørgsmål 0 Den stokastiske variabel X følger den jævne fordeling, U(0, 6). Vi ønsker at finde P (X <.5). Dette er lig med den andel, intervallet mellem 0 og.5 udgør af det totale interval som X er defineret over. Vi får altså P (X <.5) =.5 6 = 0.25. 7