Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16

Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8, 15.9, 16.1, 16.2, 16.0, 15.9, 16.0, 15.7 Lav et konfidensinterval for indholdet af sukker. Nanostatistik: Opgavebesvarelser p. 2/16

Til at beskrive data vil vi bruge modellen X 1,...,X 10 er uafhængige med X i N(µ,σ 2 ) Her er X i den stokastiske variabel hørende til den i te tilfældigt udvalgte pakke. 1) Først undersøger vi om data kan beskrives ved en normalfordeling. Vi laver følgende tabel (ved brug af tabel 2 i bogen) i 1 2 3 4 5 6 7 8 9 10 x [i] 15.7 15.8 15.8 15.9 15.9 16.0 16.0 16.1 16.1 16.2 i 0.5 10 0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 Φ 1 ( i 0.5 ) 10-1.64-1.04-0.67-0.3-0.13 0.13 0.39 0.67 1.04 1.64 Nanostatistik: Opgavebesvarelser p. 3/16

Punkterne (x [i], Φ 1 ( i 0.5 10 )) indtegnes nu på et stykke papir. For dataene her ligger punkterne omkring en ret linie. 2) Vi beregner x i = 159.5, x 2 i = 2544.25, og dermed x = 15.95 og s 2 = (2544.25 159.5 2 /10)/9 = 0.025 (afsnit 1.2 i Notat 2). Vi laver et 95% konfidensinterval: Ved tabelopslag (tabel 3 i bogen) finder vi t 0.975 [9] = 2.26. Konfidensintervallet (baseret på et test af hypotesen µ = µ 0 mod [ alternativet µ µ 0 ) bliver (afsnit 2.2 i Notat 2) 15.95 2.26 0.025/10, 15.95 + 2.26 ] 0.025/10 = [15.837, 16.063] Nanostatistik: Opgavebesvarelser p. 4/16

Vælgertilslutning 225 tilfældigt udvalgte personer er blevet spurgt om de vil stemme på Venstre hvis der er folketingsvalg i morgen. Af disse svarede 75 ja. Lav et konfidensinterval for Venstres vælgertilslutning Nanostatistik: Opgavebesvarelser p. 5/16

Vi betragter de 225 udvalgte som uafhængige alle med den samme sandsynlighed p for at stemme på Venstre. Lad X være den stokastiske variabel der angiver hvor mange blandt 225 der stemmer på Venstre. Så er X binomialfordelt med antalsparameter 225 og sandsynlighedsparameter p. Vi har fået observationen x = 75, hvilket giver estimatet ˆp = 75/225 = 0.33 (afsnit 1.1 i Notat 2). Nanostatistik: Opgavebesvarelser p. 6/16

Bruger vi normalfordelingsapproksimationen til binomialfordelingen har vi følgende approksimative 95% konfidensinterval (afsnit 2.4 i Notat 2, baseret på et test af hypotesen [ p = p 0 mod alternativet p p 0 ): 0.33 1.96 0.33(1 0.33)/225, 0.33 + 1.96 ] 0.33(1 0.33)/225 [0.27, 0.39] = Bemærk at nˆp = 75 > 5 og n(1 ˆp) = 150 > 5. Nanostatistik: Opgavebesvarelser p. 7/16

Vælgertilslutning 225 tilfældigt udvalgte personer er blevet spurgt om de vil stemme på Venstre hvis der er folketingsvalg i morgen. Af disse svarede 75 ja. I sidste måned blev 900 personer spurgt og af disse svarede 400 ja. Undersøg om Venstres vælgertilslutning har ændret sig. Nanostatistik: Opgavebesvarelser p. 8/16

Som model siger vi at X binomial(225,p 1 ) med observationen x = 75, og Y binomial(900,p 2 ) med observationen y = 400. Desuden er X og Y uafhængige. Vi vil teste hypotesen p 1 = p 2 mod alternativet p 1 p 2. Vi laver et test på niveau 5%. Først beregner vi skøn: ˆp 1 = 75/225 = 0.333, ˆp 2 = 400/900 = 0.444, ˆp = (75 + 400)/(225 + 900) = 0.422. Nanostatistik: Opgavebesvarelser p. 9/16

Dernæst laver vi testet: Ifølge afsnit 2.8 i Notat 2 bliver teststørrelsen z = 0.333 0.444 0.422(1 0.422)(1/225 + 1/900) = 3.02 Vi skal vurdere om denne numerisk er mindre end u 0.975 = 1.96. Da dette ikke er tilfældet forkaster vi hypotesen om at p 1 = p 2. Vi må altså konkludere at tallene tyder på at Venstres vælgertilslutning er faldet. Fra tabel 1 i bogen finder vi at p-værdien er 2 0.0013 = 0.0026. Vi bemærker at 225ˆp = 95 > 5, 225(1 ˆp) = 130 > 5, 900ˆp = 380 > 5, og 900(1 ˆp) = 520 > 5. Nanostatistik: Opgavebesvarelser p. 10/16

Tuberkulinreaktion BCG-vaccination af ægyptiske skolebørn er i nogle skoler udført udendørs i direkte sollys og i andre skoler indendørs. Tuberkulinreaktionen 12.5 uger efter vaccinationen er undersøgt for 166 børn hvor vaccinationen er udført udendørs, og for 336 børn hvor vaccinationen er udført indendørs. Opgaven går ud på at undersøge om tuberkulinreaktionen størrelse afhænger af om vaccinen har været udsat for direkte sollys. QQplots for de to grupper viser at data kan betragtes som normalfordelt. Summen af observationerne og summen af de kvadrerede observationer for de to grupper er: xi x 2 i I sollys 2314 34780 Indendørs 6269 119505 Nanostatistik: Opgavebesvarelser p. 11/16

Lad X 1,...,X 166 være de stokastiske variable hørende til 166 tilfældigt udvalgte blandt dem der får vaccinen i direkte sollys, og lad Y 1,...,Y 336 være de stokastiske variable hørende til 336 tilfældigt udvalgte blandt dem der får vaccinen indendørs. Vi bruger modellen X 1,...,X 166 uafhængige, X i N(µ 1,σ 2 1 ), Y 1,...,Y 336 uafhængige, Y i N(µ 2,σ 2 2 ), og Y -erne er uafhængige af X-erne. Gennemsnit og variansskøn for de to grupper er n x s 2 I sollys 166 2314 166 = 13.94 (34780 23142 /166)/165 = 15.29 Indendørs 336 6269 336 = 18.66 (119505 62692 /336)/335 = 7.581 Nanostatistik: Opgavebesvarelser p. 12/16

1) Vi undersøger først om variansen i de to grupper er ens. Dertil beregner vi w = s 2 1 /s2 2 = 15.29/7.581 = 2.02. Vi tester hypotesen σ1 2 = σ2 2 mod alternativet σ2 1 σ2 2. Ifølge 2.7 i Notat 2 skal vi sammenligne med 97.5% fraktilen i en F[165, 335]-fordeling. En approksimation til denne fraktil er (afsnit 4 i Notat 3) 335 335 1 + 1.96 335 2 (165 + 2) 165(335 4)(335 2) 335 2 (335 1) 2 = 1.31. Vi forkaster derfor klart hypotesen om ens varianser ved et test på niveau 5%. De to variansskøn viser at variansen er større når vaccinationen foregår i sollys. Nanostatistik: Opgavebesvarelser p. 13/16

2) Vi undersøger dernæst om middelværdien i de to grupper kan antages at være ens. Vi tester hypotesen µ 1 = µ 2 mod alternativet µ 1 µ 2. Teststørrelsen bliver (afsnit 2.6 i Notat 2) t = 13.94 18.66 15.29 166 + 7.581 336 = 13.94 Denne skal vurderes i en t-fordeling med f frihedsgrader, hvor f = (15.29/166 + 7.581/336) 2 (15.29/166) 2 /165 + (7.581/336) 2 /335 = 248. Nanostatistik: Opgavebesvarelser p. 14/16

Ved opslag i tabel 3 i bogen sætter vi 97.5% fraktilen i denne t-fordeling til 1.96. Da 13.94 > 1.96 forkaster vi klart hypotesen om ens middelværdier ved et test på niveau 5%. Ved opslag i tabel 3 ser vi også at p-værdien er langt mindre end 2(1 0.995) = 0.01. Data peger således på at tuberkulinreaktionen bliver nedsat når vaccinationen foregår i sollys. Nanostatistik: Opgavebesvarelser p. 15/16

Variansberegning Hvis den stokastiske variabel X har middelværdi 5 og varians 10, hvad er da variansen på den stokastiske variabel B = 3 X? Ifølge side 64 og 65 i bogen er svaret V (B) = 3 2 V (X) = 9 10 = 90. Nanostatistik: Opgavebesvarelser p. 16/16