Nanostatistik: Opgavebesvarelser

Relaterede dokumenter
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Nanostatistik: Opgaver

Nanostatistik: Konfidensinterval

StatDataN: Test af hypotese

Nanostatistik: Test af hypotese

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Kvantitative Metoder 1 - Forår 2007

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Konfidensintervaller og Hypotesetest

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Løsninger til kapitel 6

Eksamen i Statistik for biokemikere. Blok

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Forår 2007

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Normalfordelingen og Stikprøvefordelinger

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Produkt og marked - matematiske og statistiske metoder

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Kvantitative Metoder 1 - Forår Dagens program

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Om hypoteseprøvning (1)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Løsning eksamen d. 15. december 2008

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kvantitative Metoder 1 - Efterår Dagens program

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Note til styrkefunktionen

Hvorfor er normalfordelingen så normal?

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Løsning til eksaminen d. 29. maj 2009

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Kvantitative Metoder 1 - Efterår Dagens program

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Kapitel 7 Forskelle mellem centraltendenser

Kvantitative Metoder 1 - Forår 2007

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Løsning til eksamen d.27 Maj 2010

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Skriftlig eksamen Science statistik- ST501

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Højde af kvinder 2 / 18

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Opgaver til kapitel 3

Stastistik og Databehandling på en TI-83

Kapitel 12 Variansanalyse

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Definition. Definitioner

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt over nyttige fordelinger

Kapitel 12 Variansanalyse

Estimation og usikkerhed

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

(studienummer) (underskrift) (bord nr)

k normalfordelte observationsrækker (ensidet variansanalyse)

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

2 X 2 = gennemsnitligt indhold af aktivt stof i én tablet fra et glas med 200 tabletter

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

StatDataN: Plot af data

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Løsninger til kapitel 9

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

En Introduktion til SAS. Kapitel 5.

Lidt om fordelinger, afledt af normalfordelingen

Note om Monte Carlo metoden

Transkript:

Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16

Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8, 15.9, 16.1, 16.2, 16.0, 15.9, 16.0, 15.7 Lav et konfidensinterval for indholdet af sukker. Nanostatistik: Opgavebesvarelser p. 2/16

Til at beskrive data vil vi bruge modellen X 1,...,X 10 er uafhængige med X i N(µ,σ 2 ) Her er X i den stokastiske variabel hørende til den i te tilfældigt udvalgte pakke. 1) Først undersøger vi om data kan beskrives ved en normalfordeling. Vi laver følgende tabel (ved brug af tabel 2 i bogen) i 1 2 3 4 5 6 7 8 9 10 x [i] 15.7 15.8 15.8 15.9 15.9 16.0 16.0 16.1 16.1 16.2 i 0.5 10 0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 Φ 1 ( i 0.5 ) 10-1.64-1.04-0.67-0.3-0.13 0.13 0.39 0.67 1.04 1.64 Nanostatistik: Opgavebesvarelser p. 3/16

Punkterne (x [i], Φ 1 ( i 0.5 10 )) indtegnes nu på et stykke papir. For dataene her ligger punkterne omkring en ret linie. 2) Vi beregner x i = 159.5, x 2 i = 2544.25, og dermed x = 15.95 og s 2 = (2544.25 159.5 2 /10)/9 = 0.025 (afsnit 1.2 i Notat 2). Vi laver et 95% konfidensinterval: Ved tabelopslag (tabel 3 i bogen) finder vi t 0.975 [9] = 2.26. Konfidensintervallet (baseret på et test af hypotesen µ = µ 0 mod [ alternativet µ µ 0 ) bliver (afsnit 2.2 i Notat 2) 15.95 2.26 0.025/10, 15.95 + 2.26 ] 0.025/10 = [15.837, 16.063] Nanostatistik: Opgavebesvarelser p. 4/16

Vælgertilslutning 225 tilfældigt udvalgte personer er blevet spurgt om de vil stemme på Venstre hvis der er folketingsvalg i morgen. Af disse svarede 75 ja. Lav et konfidensinterval for Venstres vælgertilslutning Nanostatistik: Opgavebesvarelser p. 5/16

Vi betragter de 225 udvalgte som uafhængige alle med den samme sandsynlighed p for at stemme på Venstre. Lad X være den stokastiske variabel der angiver hvor mange blandt 225 der stemmer på Venstre. Så er X binomialfordelt med antalsparameter 225 og sandsynlighedsparameter p. Vi har fået observationen x = 75, hvilket giver estimatet ˆp = 75/225 = 0.33 (afsnit 1.1 i Notat 2). Nanostatistik: Opgavebesvarelser p. 6/16

Bruger vi normalfordelingsapproksimationen til binomialfordelingen har vi følgende approksimative 95% konfidensinterval (afsnit 2.4 i Notat 2, baseret på et test af hypotesen [ p = p 0 mod alternativet p p 0 ): 0.33 1.96 0.33(1 0.33)/225, 0.33 + 1.96 ] 0.33(1 0.33)/225 [0.27, 0.39] = Bemærk at nˆp = 75 > 5 og n(1 ˆp) = 150 > 5. Nanostatistik: Opgavebesvarelser p. 7/16

Vælgertilslutning 225 tilfældigt udvalgte personer er blevet spurgt om de vil stemme på Venstre hvis der er folketingsvalg i morgen. Af disse svarede 75 ja. I sidste måned blev 900 personer spurgt og af disse svarede 400 ja. Undersøg om Venstres vælgertilslutning har ændret sig. Nanostatistik: Opgavebesvarelser p. 8/16

Som model siger vi at X binomial(225,p 1 ) med observationen x = 75, og Y binomial(900,p 2 ) med observationen y = 400. Desuden er X og Y uafhængige. Vi vil teste hypotesen p 1 = p 2 mod alternativet p 1 p 2. Vi laver et test på niveau 5%. Først beregner vi skøn: ˆp 1 = 75/225 = 0.333, ˆp 2 = 400/900 = 0.444, ˆp = (75 + 400)/(225 + 900) = 0.422. Nanostatistik: Opgavebesvarelser p. 9/16

Dernæst laver vi testet: Ifølge afsnit 2.8 i Notat 2 bliver teststørrelsen z = 0.333 0.444 0.422(1 0.422)(1/225 + 1/900) = 3.02 Vi skal vurdere om denne numerisk er mindre end u 0.975 = 1.96. Da dette ikke er tilfældet forkaster vi hypotesen om at p 1 = p 2. Vi må altså konkludere at tallene tyder på at Venstres vælgertilslutning er faldet. Fra tabel 1 i bogen finder vi at p-værdien er 2 0.0013 = 0.0026. Vi bemærker at 225ˆp = 95 > 5, 225(1 ˆp) = 130 > 5, 900ˆp = 380 > 5, og 900(1 ˆp) = 520 > 5. Nanostatistik: Opgavebesvarelser p. 10/16

Tuberkulinreaktion BCG-vaccination af ægyptiske skolebørn er i nogle skoler udført udendørs i direkte sollys og i andre skoler indendørs. Tuberkulinreaktionen 12.5 uger efter vaccinationen er undersøgt for 166 børn hvor vaccinationen er udført udendørs, og for 336 børn hvor vaccinationen er udført indendørs. Opgaven går ud på at undersøge om tuberkulinreaktionen størrelse afhænger af om vaccinen har været udsat for direkte sollys. QQplots for de to grupper viser at data kan betragtes som normalfordelt. Summen af observationerne og summen af de kvadrerede observationer for de to grupper er: xi x 2 i I sollys 2314 34780 Indendørs 6269 119505 Nanostatistik: Opgavebesvarelser p. 11/16

Lad X 1,...,X 166 være de stokastiske variable hørende til 166 tilfældigt udvalgte blandt dem der får vaccinen i direkte sollys, og lad Y 1,...,Y 336 være de stokastiske variable hørende til 336 tilfældigt udvalgte blandt dem der får vaccinen indendørs. Vi bruger modellen X 1,...,X 166 uafhængige, X i N(µ 1,σ 2 1 ), Y 1,...,Y 336 uafhængige, Y i N(µ 2,σ 2 2 ), og Y -erne er uafhængige af X-erne. Gennemsnit og variansskøn for de to grupper er n x s 2 I sollys 166 2314 166 = 13.94 (34780 23142 /166)/165 = 15.29 Indendørs 336 6269 336 = 18.66 (119505 62692 /336)/335 = 7.581 Nanostatistik: Opgavebesvarelser p. 12/16

1) Vi undersøger først om variansen i de to grupper er ens. Dertil beregner vi w = s 2 1 /s2 2 = 15.29/7.581 = 2.02. Vi tester hypotesen σ1 2 = σ2 2 mod alternativet σ2 1 σ2 2. Ifølge 2.7 i Notat 2 skal vi sammenligne med 97.5% fraktilen i en F[165, 335]-fordeling. En approksimation til denne fraktil er (afsnit 4 i Notat 3) 335 335 1 + 1.96 335 2 (165 + 2) 165(335 4)(335 2) 335 2 (335 1) 2 = 1.31. Vi forkaster derfor klart hypotesen om ens varianser ved et test på niveau 5%. De to variansskøn viser at variansen er større når vaccinationen foregår i sollys. Nanostatistik: Opgavebesvarelser p. 13/16

2) Vi undersøger dernæst om middelværdien i de to grupper kan antages at være ens. Vi tester hypotesen µ 1 = µ 2 mod alternativet µ 1 µ 2. Teststørrelsen bliver (afsnit 2.6 i Notat 2) t = 13.94 18.66 15.29 166 + 7.581 336 = 13.94 Denne skal vurderes i en t-fordeling med f frihedsgrader, hvor f = (15.29/166 + 7.581/336) 2 (15.29/166) 2 /165 + (7.581/336) 2 /335 = 248. Nanostatistik: Opgavebesvarelser p. 14/16

Ved opslag i tabel 3 i bogen sætter vi 97.5% fraktilen i denne t-fordeling til 1.96. Da 13.94 > 1.96 forkaster vi klart hypotesen om ens middelværdier ved et test på niveau 5%. Ved opslag i tabel 3 ser vi også at p-værdien er langt mindre end 2(1 0.995) = 0.01. Data peger således på at tuberkulinreaktionen bliver nedsat når vaccinationen foregår i sollys. Nanostatistik: Opgavebesvarelser p. 15/16

Variansberegning Hvis den stokastiske variabel X har middelværdi 5 og varians 10, hvad er da variansen på den stokastiske variabel B = 3 X? Ifølge side 64 og 65 i bogen er svaret V (B) = 3 2 V (X) = 9 10 = 90. Nanostatistik: Opgavebesvarelser p. 16/16