Løsning eksamen d. 15. december 2008

Relaterede dokumenter
Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 29. maj 2009

Løsning til eksamen d.27 Maj 2010

Konfidensintervaller og Hypotesetest

(studienummer) (underskrift) (bord nr)

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Forelæsning 9: Inferens for andele (kapitel 10)

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Forelæsning 11: Envejs variansanalyse, ANOVA

Besvarelser til øvelsesopgaver i uge 6

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

En Introduktion til SAS. Kapitel 5.

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

(studienummer) (underskrift) (bord nr)

Tema. Dagens tema: Indfør centrale statistiske begreber.

To-sidet varians analyse

Normalfordelingen og Stikprøvefordelinger

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Opgaver til kapitel 3

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

(studienummer) (underskrift) (bord nr)

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

(studienummer) (underskrift) (bord nr)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kvantitative Metoder 1 - Forår Dagens program

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

1 Hb SS Hb Sβ Hb SC = , (s = )

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Note om Monte Carlo metoden

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Nanostatistik: Opgavebesvarelser

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Forsøgsplanlægning Stikprøvestørrelse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Vejledende løsninger kapitel 8 opgaver

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Transkript:

Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Spørgsmål 1 Vi ønsker at afgøre, om de to varianser er signifikant forskellige ved signifikansniveau 10%. Under nul hypotesen følger forholdet mellem de to varianser en F-fordeling, cf. s. [273, 287]. Den største varians sættes i tælleren, sådan at test statistikken bliver 2.6726 2.6458. Variansen i tælleren er den for kvinder, og altså baseret på 8 individer, hvorimod variansen i nævneren er baseret på 7 individer. Altså skal vi benytte F-fordelingen med (8-1, 7-1) frihedsgrader. Spørgsmål 2 Vi skal her undersøge en forskel mellem middelværdier baseret på et småt sample. Altså må vi benytte boksen s. [254, 266]. Vi har n 1 7, n 2 8, s 1 2.6458, s 2 2.6726, og finder t α/2 (n 1 + n 2 2) t 0.025 (13) 2.16. Korrekt svarmulighed er 2. Spørgsmål 3 Middelværdien og standardafvigelsen af albumin indhold for kvinder er henholdsvis 43.5 og 2.6726. Lad X angive albuminindholdet for en enkelt, tilfældig kvinde. Da er X N(43.5, 2.6726). Vi finder P (X > 48) 1 P (X 48) I R kan dette findes ved hjælp af pnorm som følger > 1-pnorm(48, mean43.5, sd2.6726) [1] 0.04611464 Ved at gange dette resultat med 100000 findes svaret. Spørgsmål 4 Fra s. [281, 296] har vi, at n p(1 p) ( z α/2 ) E hvor n er den stikprøvestørrelse, vi ønsker bestemt. E er den tilladte fejl, i.e. 1 i dette tilfælde. Vi finder z α/2 > qnorm(.01/2) [1] -2.575829 Til slut benytter vi, at p(1 p) er lig variansen i en binomialfordeling, således at p(1 p) 2.65 2. Spørgsmål 5 Se s. [362, 406]. For at finde kvadratafvigelsessummen, skal vi kende middelkvadratafvigelsen og antallet af frihedsgrader (df). Middelkvadratafvigelsen er angivet i opgaven. 1

Værdien af df findes ved at bemærke, at der er 18 observationer og 3 behandlingsmetoder (N 18, k 3). Altså er df15. Vi finder da, at summen af kvadratafvigelser (SSE) er SSE MSE (N k) 20.04 15. Spørgsmål 6 Test statistikken følger en F-fordeling med k 1, N k frihedsgrader, cf. s. [362, 406]. Da N 18 og k 3, får vi frihedsgraderne (2, 15). Spørgsmål 7 Definitionen af p-værdi er givet på s. [231, 248]. Små p-værdier indikerer, at de observerede data er usandsynlige hvis nul hypotesen er sand. Dette medfører afvisning af nul hypotesen. I ANOVA er er nul hypotesen, at alle middelværdier for grupper er ens. Altså er den lille p-værdi 5.649e-07 i outputtet bevis på, at der er forskellige middelværdier i mindst to grupper. Spørgsmål 8 Estimatorerne af α og β er angivet på s. [304, 340]. Vi finder b S xy 325.20 S xx 42.00 6 1.29 a ȳ b x 13.1143 1.29 9.0 1.50 Definitionerne af S xx, S yy, og S xy findes på s. [304, 340]. Spørgsmål 9 Estimatet af σ 2 er givet på s. [308, 343]. Vi regner: ˆ sigma S yy Sxy/S 2 xx n 2 6 70.5381 325.22 /(6 42) 0.844 5 Spørgsmål 10 Hældnigenskoefficienten er parameteren β. Konfidens intervallet for β er givet på s. [311, 346]. Vi benytter også test statistikken for b med β 0, hvilket er oplyst som t value i outputtet, og betegnet t her. Information vedrørende b findes i linjen i outputtet, der begynder med x2. b ± t α/2 (n 2) ˆσ Sxx b ± t α/2 (n 2) b t 5.4117 ± 2.365 0.2258 [4.88; 5.95] Vi får 2.365 fra t-fordelingen med 7 frihedsgrader (qt(0.05/2,7)). At der er 7 frihedsgrader indses f.eks. som følger: 2

Residual standardafvigelsen har 7 frihedsgrader (læses i outputtet). Antallet af frihedsgrader for residual standardafvigelsen er n 2, cf. s. [310, 346]. Altså må der have været 9 observationer. Da vi skal benytte t-fordelingen med n 2 frihedsgrader, ender vi altså med 7 frihedgrader. Spørgsmål 11 P-værdien 5.59e-08 er tydeligvis mindre end α 0.1%. Da det observerede data er mere usandsynligt end den på forhånd specificerede grænser på 0.1% afvises nul hypotesen. Spørgsmål Vi bruger prædiktionsgrænserne givet på s. [314, 350]. S xx kan ikke findes direkte i outputtet. Istedet benytter vi relationen t b β Sxx ˆσ Hvor β er 0, t er t-værdien givet i outputtet for hældningen, og ˆσ residual standardafvigelsen. Vi får > 23.972^2 * 3.497^2/5.4117^2 [1] 239.9564 t 2 b2 ˆσ 2 S xx S xx t 2 ˆσ2 b 2 For at finde prædiktionsgrænserne bruger vi t α/2 (n 2) t 0.025 (7) 2.365. Vi kan nu finde prædiktionsgrænserne: (a + bx 0 ) ± t α/2 ˆσ 1 + 1 n + (x 0 x) 2 S xx (5.5178 + 9 5.4117) ± 2.365 3.497 1 + 1 (9 8)2 + 9 239.96 ( (5.5178 + 9 5.4117) ± 2.365 3.497 2 1 + 1 9 + 1 ) 240 Spørgsmål 13 Vi benytter en test for tilfældighed s. [455, 329]. Først skal vi finde medianen af residualerne. Residualerne i stigende rækkefølge er -4.11-3.40-3.16-0.98 0.08 0.66 1.81 3.87 5.24. Medianen er 0.08. Vi kan nu identificere runs. Alle tal over medianen betegnes med a, og alle under med b. Værdierne lig medianen skal ikke betragtes, cf. eksemplet s. [457, 330]. Residualerne er 0.08 0.66-3.16 1.81-4.11 3.87 5.24-0.98-3.40. Vi finder følgende runs : a b a b aa bb. Altså er u 6, n 1 4, og n 2 4. Beregn µ u og σ u 3

Altså bliver test statistikken µ u 2 4 4 4 + 4 + 1 5 2 4 4(2 4 4 4 4) σ u (4 + 4) 2 (4 + 4 1) 32 24 4 3 64 7 7 7 1.309 u µ u σ u 6 5 1.309 Sandsynligheden for at finde denne værdi, eller noget mere ekstremt, hvis nul hypotesen er sand er ( P Z < 6 5 ) + P 1.309 ( 2 P Z > 6 5 ) 1.309 ( Z > 6 5 ) 1.309 ) 2 pnorm(1/1.309, lower.tail F ALSE) 0.44 Altså er det rimelig sandsynligt, (det vil ske 44% af tiden), at man finder denne værdi for test statistikken hvis nul hypotesen er sand. Vi kan derfor ikke afvise nul hypotesen om, at tallene er tilfældige. Spørgsmål 14 Konfidensintervaller for andele er beskrevet i afsnit [10.1, 9.1]. Vi har, at +2335 forsøg blev udført på æg fra Fie (et forsøg per æg, i.e. klækker det eller ej). Ud af disse, var successer. Altså bliver den øvre grænse på konfidensintervallet 35 + 1.96 35 ( ) 1 35 23 35 35 + 1.96 35 35 35 Hvor 1.96 is bliver brugt da dette er 97.5% fraktilen i den standardiserede normalfordeling. Korrekt svarmulighed er 2. Spørgsmål 15 Dette er en test for uafhængighed i antalstabel, beskrevet i afsnit [10.3, 9.3]. Vi benytter boksen statistic for test concerning difference among proportions på s. [286, 301], og ser at test statistikken er (observeret forventet)2 forventet summeret over alle celler. De forventede værdier er angivet i tabellen givet i denne opgavet, og de observerede i tabellen ved opgave 14. Korrekt svarmulighed er 2. Spørgsmål 16 Den kritiske værdi findes i χ 2 -fordelingen med (3 1) 2 frihedsgrader, cf. s. [285, 301]. Vi benytter α 0.05, og finder den kritiske værdi i tabel 5 s. [517, 588]. 4

Spørgsmål 17 Lad X være en stokastisk variabel, der angiver antallet af point opnået i en opgave. Dette er -1 med sandsynlighed 2 3 ig 3 med sandsynlighed 1 3. Vi bruger mean of discrete probability distribution s. [94, 116] og computing formula for the variance s. [99, 1], og regner E(X) 1 2/3 + 3 1/3 1/3 E(X 2 ) mu 2 ( 1) 2 2/3 + 3 2 1/3 11/3 V ar(x) 11/3 1/9 33/9 1/9 32/9 Lad nu Y 10 X i hvor X i følger samme fordeling som X for i 1, 2,..., 10. Brug til sidst boksen nederst s. [153, 185]. Spørgsmål 18 Hvis ingen kender svaret, er sandsynligheden for at besvare det korrekt 1 3 for hver elev. Lad X være en stokastisk variabel, der angiver antallet af elever der besvarer spørgsmålet korrekt. Da er X Bin(66, 1/3) under nul hypotesen H 0 at ingen kender svaret. Den alternative hypotese er, at nogle elever kender svaret. Under H 0, er E(X) 22. Vi ønsker at teste, om den sande middelværdi af X, µ 0 er større end 22. Vi finder p-værdien som følger P (X 33) 1 P (X 32) > 1 pbinom(32, 66, 1/3) 0.003741 Hvis approximationen til normalfordelingen benyttes istedet, fåes 1 pnorm(32.5, 22, 66 1/3 2/3) 0.003056. Da p-værdien er mindre end det specificerede signifikansniveau, må vi afvise nul hypotesen. Spørgsmål 19 Da stikprøverne er små, kan vi ikke lave fordelingsantagelser. Istedet bruger vi den ikke-parametriske rank-sum test, afsnit [14.3, 10.3]. Først tildeler vi ranks: 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 4 4 4 A A A A A A A A B B B B A A B B B B B B rank: 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16 17 18 19 20 means: 3 9 15 19 suma 5*3 + 3*9 + 2*15 72 sumb 4*9 + 3*15 + 3*19 138 Vi kan nu beregne 10(10 + 1) U 1 72 72 55 17 2 10 10 µ U1 50 2 σu 2 10 10(10 + 10 + 1) 1 2100 175 test statistik: U 1 µ U1 17 50 2.495 σ U1 175 5

Vi finder så P (Z < 2.495) pnorm( 2.495) 0.006298. Dette er en meget lille sandsynlighed, og vi afviser nul hypotesen om at de to TV er er lige gode. Spørgsmål 20 Vi skal benytte boksen F ratio for treatments, s. [373, 419]. SS(Tr) 194.25, og SSE 34.25. Der er 5 behandlinger og 4 metoder, hvorved vi får (5-1)*(4-1) frihedsgrader for residualfejlen. Spørgsmål 21 Fra teksten s. [361, 406] og s. [371, 418], ser vi, at middelkvadratafvigelsen ( 34.25 ) giver variansen af fejlen. Standardafvigelsen er, som altid, kvadratroden af dette. Spørgsmål 22 Hvis der ikke tages højde for metoderne, kommer variansen forklaret af metoder til at indgå i residual variansen. Altså bliver kvadratsummen fra metode til at blive inkluderet i kvadratafvigelsessummen istedet. Ligeledes vil antallet af frihedsgrader for fejlen stige, og blive lig equal N-k (k er antallet af behandlinger og N det totale antal observationer), ligesom i en ensidet ANOVA. Spørgsmål 23 Da vi har mange stikprøver, kan vi benytte boksen large sample confidence interval for p s. [280, 295]. Vi har observeret x 107 successer ud af et totalt antal forsøg på n 482. Vi regner: x x n ± z n α/2 ( ) 1 x n n 107 482 ( ) 1 107 482 107 482 ± 1.645 482 107 107 375 482 ± 1.645 482 3 Da z α/2 z 0.10/2 z 0.05 qnorm(0.05) 1.645. Spørgsmål 24 Lad p 1 betegne andelen rapporteret d. 27/11/2008, og p 2 den tidligere rapporterede andel. Vi ønsker at teste nul hypotesen p 1 p 2 imod den alternative hypotese p 1 > p 2. Benyt s. [288, 304] til at udregne test statistikken ˆp X 1 + X 2 52 + 107 n 1 + n 2 322 + 482 0.1978 X 1 n 1 X2 n 2 ( ) 1 ˆp(1 ˆp) n 1 + 1 n 2 107 482 52 322 0.1978(1 0.1978) ( 1 482 + 1 322 ) 2.110239 6

Vi finder nu p-værdien, og lader Z N(0, 1). P (Z > 2.110239) 1 P (Z < 2.110239) 1 pnorm(2.110239) 0.01741889 Da denne p-værdi er lav, afviser vi nul hypotesen, og beviser altså at andelen er steget. Spørgsmål 25 Da vi antager, at andelen er omtrent den samme som nu ( 107 482 0.22), kan vi bruge boksen sample size determination s. [281, 296]. Bredden af konfidensintervallet skal være plus/minus 2 procent point, i.e. plus/minus 0.02. Altså er E 0.02. Med konfidensniveau 95% får vi z α/2 z 0.05/2 z 0.025 1.96. Vi finder da n 0.22 0.78 ( ) 2 1.96 0.02 Spørgsmål 26 Vi skal finde fordelingen af summen af otte stokastiske variable, hvor hver enkelt følger normalfordelingen med middelværdi 100 og varians 1. Ved at benytte s. [153-154, 185], og at antage at vægten af de enkelte stykker chokolade er uafhængige, finder vi X i N(100, 1), i [1, 2,..., 8] Y X i E(Y ) E( X i ) V ar(y ) V ar( E(X i ) X i ) 100 800 V ar(x i ) 1 8 Summen af normalfordelte variable er selv normalfordelt. Altså har vi Y N(800, 8). Standardafvigelsen af Y er således 8 2 2 2.83. 2.5% af sandsynlighedsmassen ligger til hver side af intervallet [800 ± 1.96 2.83]. Altså må den korrekte fordeling være symmetrisk, og have det meste af sin masse mellem 794.5 og 805.5, men stadig have lidt (2.5% til hver side) udenfor det interval. Spørgsmål 27 De to linjer der indikerer 25% og 75% fraktilerne (heholdsvis lige under og lige over den tykke linje, der viser middelværdien) passer ikke med 25% og 75% fraktilerne for nogen af de givne fordelinger. Linjerne er symmetriske om middelværdien, hvorved den assymetriske fordeling tages ud af betragtning. 25% fraktilen er tegnet ved ca. 775, and 75% frakilen ved ca. 825. Ingen af de tre symmetriske fordelinger ser ud til at indeholde 50% sandsynlighedsmasse imellem 775 og 825. Spørgsmål 28 Vi benytter estimatoren af fællesskøn af varians s. [252, 264] og finder 7

Korrekt svarmulighed er 2. ˆσ 2 (n 1 1)S1 2 + (n 2 1)S2 2 n 1 + n 2 2 4 5.23 2 + 4 2.1459 2 15.88648 3.9858 2 8 Spørgsmål 29 Under nul hypotesen (at varianserne er ens), følger brøken 5.232 2.1459 2 en F- fordeling med (4, 4) frihedsgrader, cf. s. [273, 287]. Altså bliver den kritiske værdi 6.39, fundet i tabel 6(a) s. [518, 589]. Spørgsmål 30 Jævnfør [s. 246 og 251, afsnit 7.8], skal de to stikprøver være fra normalfordelte populationer, have samme varians, og være tilfældigt og uafhængigt valgt. Den eneste unødvendige antagelse er, at stikprøver indeholder mere end 15 observationer. Korrekt svarmulighed er 2. 8