Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 3 Den statistiske sprogbrug og formelle ramme

Relaterede dokumenter
Dansk. Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 2 Konfidensintervallet for µ Eksempel. 3 Den statistiske sprogbrug og formelle ramme

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Estimation ved momentmetoden. Estimation af middelværdiparameter

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Stikprøvefordelinger og konfidensintervaller

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Konfidens intervaller

Generelle lineære modeller

Løsninger til kapitel 7

Sammenligning af to grupper

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

antal gange krone sker i første n kast = n

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Motivation. En tegning

Maja Tarp AARHUS UNIVERSITET

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Opsamling. Lidt om det hele..!

9. Binomialfordelingen

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Diskrete og kontinuerte stokastiske variable

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Vejledende besvarelser til opgaver i kapitel 15

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Program. Middelværdi af Y = t(x ) Transformationssætningen

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Hovedpointer fra SaSt

Forelæsning 11: Envejs variansanalyse, ANOVA

Asymptotisk optimalitet af MLE

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Den flerdimensionale normalfordeling

Morten Frydenberg version dato:

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Statistik Lektion 8. Test for ens varians

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

STATISTIKNOTER Simple normalfordelingsmodeller

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Claus Munk. kap. 1-3

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

STATISTISKE GRUNDBEGREBER

Uge 40 I Teoretisk Statistik, 30. september 2003

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Estimation og test i normalfordelingen

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Kursus 02402/02323 Introducerende Statistik

Introduktion til Statistik

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Asymptotisk estimationsteori

Statistiske Modeller 1: Notat 1

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

STATISTISKE GRUNDBEGREBER

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Matematisk Modellering 1 Hjælpeark

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

x-klasserne Gammel Hellerup Gymnasium

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Sandsynlighedsregning

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Teoretisk Statistik, 9. februar Beskrivende statistik

STATISTISKE GRUNDBEGREBER

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

STATISTIK x-klasserne Gammel Hellerup Gymnasium

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

Løsning eksamen d. 15. december 2008

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Lys og gitterligningen

Noter om Kombinatorik 2, Kirsten Rosenkilde, februar

Renteformlen. Erik Vestergaard

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Transkript:

Itroduktio til Statistik Forelæsig 4: Kofidesiterval for middelværdi (og spredig) Peder Bacher DTU Compute, Dyamiske Systemer Bygig 303B, Rum 009 Damarks Tekiske Uiversitet 2800 Lygby Damark e-mail: pbac@dtu.dk Forår 2018 Kapitel 3: Kofidesitervaller for é gruppe/stikprøve Grudlæggede kocepter Populatio og tilfældig stikprøve Estimatio (f.eks. ˆµ er estimat af µ) Sigifikasiveau α Kofidesitervaller (fager rigtige prm. 1 α af gagee) Stikprøvefordeliger (stikprøvegeemsit (t) og empirisk varias (χ 2 )) Cetrale græseværdisætig Specifikke metoder, é gruppe/stikprøve Kofidesiterval for middelværdi (t-fordelig) Kofidesiterval for varias (χ 2 -fordelig) DTU Compute Itroduktio til Statistik Forår 2018 1 / 56 DTU Compute Itroduktio til Statistik Forår 2018 2 / 56 Chapter 3: Oe sample cofidece itervals Oversigt Geeral cocepts Populatio ad a radom sample Estimatio (e.g. ˆµ is estimate of µ) Sigificace level α Cofidece itervals (Catches true value 1 α times) Samplig distributios (sample mea (t) ad sample vaiace (χ 2 )) Cetral Limit Theorem Specific methods, oe sample Cofidece iterval for the mea (t-distributio) Cofidece iterval for the variace (χ 2 -distributio) 1 t-fordelige 2 Kofidesitervallet for µ 3 De statistiske sprogbrug og formelle ramme 4 Ikke-ormale data, Cetral Græseværdisætig (CLT) 5 Kofidesiterval for varias og spredig DTU Compute Itroduktio til Statistik Forår 2018 3 / 56 DTU Compute Itroduktio til Statistik Forår 2018 4 / 56

: Populatio og fordelig Theorem 3.2: Fordelig for geemsit af ormalfordeliger (Uedelig) Populatio Tilfældigt udvalgt Stikprøve {x 1,x 2,...,x } (Stikprøve-) fordelige for X Assume that X 1,...,X are idepedet ad idetically ormally distributed radom variables, X i N(µ,σ 2 ) ad i = 1,...,, the: X = 1 i=1 X i X N (µ, σ 2 ) Middelværdi µ Statistisk iferes Vi går u på jagt efter µ! Stikprøvegeemsit x DTU Compute Itroduktio til Statistik Forår 2018 5 / 56 DTU Compute Itroduktio til Statistik Forår 2018 7 / 56 Middelværdi og varias følger af regeregler Spørgsmål om stikprøvegeemsittet (socrative.com, room: PBAC) Theorem 2.40: Lieær fuktio af ormal distribuerede variable er også ormalfordelt Two ormal distributios Theorem 2.53: Middelværdie af X ( ) 1 E( X) = E X i = 1 i=1 i ) = i=1e(x 1 Theorem 2.53: Variase for X i=1 µ = 1 µ = µ Var( X) = 1 2 Var(X i ) = 1 i=1 2 σ 2 = 1 i=1 2 σ 2 = σ 2 DTU Compute Itroduktio til Statistik Forår 2018 8 / 56 De ee pdf hører til X i og de ade til X. Hvad ka kokluderes (for > 1)? A: De sorte hører til X i og de blå til X B: De sorte hører til X og de blå til X i C: Det ka ikke afgøres D: Ved ikke µ DTU Compute Itroduktio til Statistik Forår 2018 9 / 56

: Simuler middelværdi og spredig af stikprøvegeemsit Stadardiseret fejl vi begår, Corollary 3.3: ## Middelværdie mu <- -5 ## Stadard afvigelse sigma <- 2 ## Stikprøvestørrelse <- 50 ## Simuler ormalfordelte X_i x <- rorm(=, mea=mu, sd=sigma) ## Se realiserigere x ## Empirisk tæthed hist(x, prob=true, col='blue') ## Bereg geemsittet (stikprøve middelværdie, i.e. sample mea) mea(x) ## Bereg stikprøvevariase (sample variace) var(x) ## Getag de simulerede stikprøvetagig mage gage mat <- replicate(100, rorm(=, mea=mu, sd=sigma)) ## Bereg geemsittet for hver af dem xbar <- apply(mat, 2, mea) ## Nu har vi mage realiseriger af stikprøvegeemsittet xbar ## Se deres fordelig hist(xbar, prob=true, col='blue') ## Deres geemsit mea(xbar) DTU Compute Itroduktio til Statistik Forår 2018 10 / 56 ## og deres variaser var(xbar) Når vi bruger X som estimat for µ: Så begår vi fejle X µ Fordelige for de stadardiserede fejl vi begår: Assume that X 1,...,X are idepedet ad idetically ormally distributed radom variables, X i N ( µ,σ 2) where i = 1,...,, the: Z = X µ = X µ σ ( X µ) σ/ N(0,12 ) That is, the stadardized sample mea Z follows a stadard ormal distributio. DTU Compute Itroduktio til Statistik Forår 2018 11 / 56 Trasformatio til stadard ormalfordelig: Pdf for geemsittet X år X i N(µ,σ 2 ) Trasformatio til stadard ormalfordelig: Pdf for fejle vi begår X µ år X i N(µ,σ 2 ) X N(µ, σ 2 ) X µ N(0, σ 2 ) σ X = σ σ ( X µ) = σ µ 0 µ DTU Compute Itroduktio til Statistik Forår 2018 12 / 56 DTU Compute Itroduktio til Statistik Forår 2018 13 / 56

Trasformatio til stadard ormalfordelig: X µ Pdf for de stadardiserede fejl σ/ år X i N(µ,σ 2 ) X µ σ/ N(0,12 ) Nu ka et 95% kofidesiterval udledes 95% kofidesiterval for µ: P(z 0.025 < Z < z 0.975 ) = 0.95 ( P z 0.025 < X µ ) σ/ < z 0.975 σ σ ) P (z 0.025 < X µ < z 0.975 = 0.95 = 0.95 σ ( ) X µ = 1 σ/ ( σ σ ) P X + z 0.025 < µ < X + z 0.975 = 0.95 0 µ Stadardiseret til stadard ormalfordelig (oteres Z = X µ σ/ N(0,12 )) DTU Compute Itroduktio til Statistik Forår 2018 14 / 56 DTU Compute Itroduktio til Statistik Forår 2018 15 / 56 1. simulerig: Beregig af 95% kofidesiterval 2. simulerig: Beregig af 95% kofidesiterval Kofidesitervallet er omkrig x og fager her µ Kofidesitervallet er omkrig x og fager her µ pdf for X i Pdf for X pdf for X i Pdf for X µ µ x + z 0.025 σ x x x + z 0.975 σ x + z 0.025 σ x x + z 0.975 σ DTU Compute Itroduktio til Statistik Forår 2018 16 / 56 DTU Compute Itroduktio til Statistik Forår 2018 17 / 56

2. simulerig: Beregig af 99% kofidesiterval 20 simuleriger: Beregig at 95% kofidesiterval 99% kofidesitervallet er breddere ed 95% kofidesitervallet (det skal fage µ oftere) MISS pdf for X i Pdf for X µ µ µ µ µ µ µ µ µ µ µ µ µ µ µ µ x + z 0.005 σ x x + z 0.995 σ µ µ µ µ µ DTU Compute Itroduktio til Statistik Forår 2018 18 / 56 DTU Compute Itroduktio til Statistik Forår 2018 19 / 56 100 simuleriger: Beregig at 95% kofidesiterval Spørgsmål om kofidesiterval (socrative.com, room: PBAC) MISS µ µ µ µ µ µ µ µ µ µ MISS MISS µ µ µ µ µ µ µ µ µ µ MISS µ µ µ µ µ µ µ µ µ µ Hvis vi plalægger at berege et 98% kofidesiterval for middelværdie, hvad er da sadsylighede for at middelværdie ikke ligger ide i itervallet? A: 1% B: 2% C: 4% D: De keder vi ikke E: Ved ikke DTU Compute Itroduktio til Statistik Forår 2018 20 / 56 DTU Compute Itroduktio til Statistik Forår 2018 21 / 56

Spørgsmål om kofidesiterval (socrative.com, room: PBAC) Praktisk problem!! Når vi så har udført eksperimetet og har stikprøve, ved vi da om middelværdie er ideholdt i det kofidesiterval vi har bereget? A: Ja B: Nej C: Ved ikke Populatiosspredige σ idgår i formle og de keder vi ikke!! Oplagt løsig: Aved stikprøvespredige S som estimatet af σ i stedet for! MEN MEN: Så bryder de give teori faktisk samme!! HELDIGVIS: Der fides e heldigvis udvidet teori, der ka klare det!! DTU Compute Itroduktio til Statistik Forår 2018 22 / 56 DTU Compute Itroduktio til Statistik Forår 2018 23 / 56 t-fordelige t-fordelige Theorem 3.4: More applicable extesio of the same stuff: (kopi af Theorem 2.49) t-fordelige med 9 frihedsgrader ( = 10) og stadardormalfordelige t-fordelige tager højde for usikkerhede i at bruge s: Assume that X 1,...,X are idepedet ad idetically ormally distributed radom variables, where X i N ( µ,σ 2) ad i = 1,...,, the T = X µ S/ t where t is the t-distributio with 1 degrees of freedom. 0.0 0.1 0.2 0.3 0.4 Red: t Black: stadard ormal z 0.025 = 1.96 z 0.975 = 1.96 t 0.025 = 2.26 t 0.975 = 2.26-4 -2 0 2 4 DTU Compute Itroduktio til Statistik Forår 2018 24 / 56 DTU Compute Itroduktio til Statistik Forår 2018 25 / 56

t-fordelige Kofidesitervallet for µ t-fordelige med 29 frihedsgrader ( = 30) og stadardormalfordelige Metodeboks 3.8: Oe-sample kofidesiterval for µ 0.0 0.1 0.2 0.3 0.4 Red: t Black: stadard ormal z 0.025 = 1.96 z 0.975 = 1.96 t 0.025 = 2.05 t 0.975 = 2.05 Brug de rigtige t-fordelig til at lave kofidesitervallet: For a sample x 1,...,x the 100(1 α)% cofidece iterval is give by: x ± t 1 α/2 s where t 1 α/2 is the 100(1 α)% quatile from the t-distributio with 1 degrees of freedom. Mest almideligt med α = 0.05: The most commoly used is the 95%-cofidece iterval: x ± t 0.975 s -4-2 0 2 4 DTU Compute Itroduktio til Statistik Forår 2018 26 / 56 DTU Compute Itroduktio til Statistik Forår 2018 28 / 56 Kofidesitervallet for µ Kofidesitervallet for µ - Højde af 10 studerede Højde-eksempel, 95% kofidesiterval (CI) Stikprøve, = 10: 168 161 167 179 184 166 198 187 191 179 ## 97.5% fraktile af t-fordelige for =10: qt(p=0.975, df=9) ## [1] 2.26 Sample mea og stadard deviatio: x = 178 s = 12.21 Estimer populatio mea og stadard deviatio: ˆµ = 178 ˆσ = 12.21 Idsat i formle giver det 178 ± 2.26 12.21 10 178 ± 8.74 = [169.3; 186.7] DTU Compute Itroduktio til Statistik Forår 2018 29 / 56 DTU Compute Itroduktio til Statistik Forår 2018 30 / 56

Kofidesitervallet for µ Kofidesitervallet for µ Højde-eksempel, 99% Kofidesiterval (CI) Der fides e R-fuktio, der ka gøre det hele (med mere): ## 99.5% fraktile af t-fordelige for =10: qt(p=0.995, df=9) ## [1] 3.25 ## Agiv data x <- c(168,161,167,179,184,166,198,187,191,179) ## Bereg 99% kofidesiterval t.test(x, cof.level=0.99) Idsat i formle giver det 178 ± 3.25 12.21 10 178 ± 12.55 = [165.4; 190.6] ## ## Oe Sample t-test ## ## data: x ## t = 50, df = 9, p-value = 5e-12 ## alterative hypothesis: true mea is ot equal to 0 ## 99 percet cofidece iterval: ## 165 191 ## sample estimates: ## mea of x ## 178 DTU Compute Itroduktio til Statistik Forår 2018 31 / 56 DTU Compute Itroduktio til Statistik Forår 2018 32 / 56 Kofidesitervallet for µ De statistiske sprogbrug og formelle ramme Svar via socrative.com eller Socrative app. Room: PBAC Geemsit x = 14.4, stikprøvespredige s = 6, atal obs. er = 9 Formle for kofidesitervallet er x ± t 0.975 s 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 t-fordelige med 8 frihedsgrader t 0.025 = 2.31 t 0.975 = 2.31-10 -5 0 5 10 x 15 20 25 Hvilket af itervallere er det rigtige 95% kofidesiterval? A: Turkise B: Sorte C: Grøe D: Blå E: Røde De formelle ramme for statistisk iferes Fra boge, kapitel 1: A observatioal uit is the sigle etity/level about which iformatio is sought (e.g. a perso) (Observatiosehed) The statistical populatio cosists of all possible measuremets o each observatioal uit (Populatio) The sample from a statistical populatio is the actual set of data collected. (Stikprøve) Sprogbrug og kocepter: µ og σ er parametre, som beskriver populatioe x er estimatet for µ (kokret udfald) X er estimatore for µ (u set som stokastisk variabel) Begrebet statistic(s) er e fællesbetegelse for begge DTU Compute Itroduktio til Statistik Forår 2018 33 / 56 DTU Compute Itroduktio til Statistik Forår 2018 35 / 56

De statistiske sprogbrug og formelle ramme De formelle ramme for statistisk iferes - De statistiske sprogbrug og formelle ramme Statistisk iferes = Learig from data Fra boge, kapitel 1, højdeeksempel Vi måler højde for 10 tilfældige persoer i Damark Stikprøve/The sample: De 10 kokrete talværdier: x 1,...,x 10 Populatioe: Højdere for alle meesker i Damark. Observatiosehede: E perso Learig from data is learig about parameters of distributios that describe populatios Vigtigt i de forbidelse: Stikprøve skal på meigsfuld vis være repræsetativ for e eller ade veldefieret populatio Hvorda sikrer ma det Ved at sikre at stikprøve er fuldstædig tilfældig udtaget DTU Compute Itroduktio til Statistik Forår 2018 36 / 56 DTU Compute Itroduktio til Statistik Forår 2018 37 / 56 De statistiske sprogbrug og formelle ramme Tilfældig stikprøveudtagig Ikke-ormale data, Cetral Græseværdisætig (CLT) Theorem 3.13: The Cetral Limit Theorem Defiitio 3.11: A radom sample from a (ifiite) populatio: A set of observatios X 1,X 2,...,X costitutes a radom sample of size from the ifiite populatio f (x) if: 1 Each X i is a radom variable whose distributio is give by f (x) 2 These radom variables are idepedet Hvad betyder det???? 1 Alle observatioer skal komme fra de samme populatio 2 De må IKKE dele iformatio med hiade (f.eks. hvis ma havde udtaget hele familier i stedet for ekeltidivider) Geemsittet af e tilfældig stikprøve følger altid e ormalfordelig hvis er stor ok: Let X be the mea of a radom sample of size take from a populatio with mea µ ad variace σ 2, the Z = X µ σ/ is a radom variable whose distributio fuctio approaches that of the stadard ormal distributio, N(0,1 2 ), as Dvs., hvis er stor ok, ka vi (tilærmelsesvist) atage: X µ σ/ N(0,12 ) og X µ S/ t ved t-fordelige med 1 frihedsgrader DTU Compute Itroduktio til Statistik Forår 2018 38 / 56 DTU Compute Itroduktio til Statistik Forår 2018 40 / 56

Ikke-ormale data, Cetral Græseværdisætig (CLT) CLT i actio - geemsit af Uiform fordelte observatioer Ikke-ormale data, Cetral Græseværdisætig (CLT) CLT i actio - geemsit af Uiform fordelte observatioer ## Stikprøvestørrelse =1 ## Atal getagelser k=1000 ## Simuler u=matrix(ruif(k*),col=) ## Se empirisk tæthed hist(apply(u,1,mea), col='blue', mai='=1', xlab='meas', class=15, prob=true, xlim=c(0,1)) ## Stikprøvestørrelse =2 ## Atal getagelser k=1000 ## Simuler u=matrix(ruif(k*),col=) ## Se empirisk tæthed hist(apply(u,1,mea), col='blue', mai='=2', xlab='meas', class=15, prob=true, xlim=c(0, Desity 0.0 0.2 0.4 0.6 0.8 1.0 1.2 =1 Desity 0.0 0.5 1.0 1.5 2.0 =2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Meas Meas DTU Compute Itroduktio til Statistik Forår 2018 41 / 56 DTU Compute Itroduktio til Statistik Forår 2018 42 / 56 Ikke-ormale data, Cetral Græseværdisætig (CLT) CLT i actio - geemsit af Uiform fordelte observatioer Ikke-ormale data, Cetral Græseværdisætig (CLT) CLT i actio - geemsit af Uiform fordelte observatioer ## Stikprøvestørrelse =6 ## Atal getagelser k=1000 ## Simuler u=matrix(ruif(k*),col=) ## Se empirisk tæthed hist(apply(u,1,mea), col='blue', mai='=6', xlab='meas', class=15, prob=true, xlim=c(0,1)) ## Stikprøvestørrelse =30 ## Atal getagelser k=1000 ## Simuler u=matrix(ruif(k*),col=) ## Se empirisk tæthed hist(apply(u,1,mea), col='blue', mai='=30', xlab='meas', class=15, prob=true, xlim=c(0 Desity 0.0 0.5 1.0 1.5 2.0 2.5 3.0 =6 Desity 0 2 4 6 8 =30 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Meas Meas DTU Compute Itroduktio til Statistik Forår 2018 43 / 56 DTU Compute Itroduktio til Statistik Forår 2018 44 / 56

Ikke-ormale data, Cetral Græseværdisætig (CLT) Kosekves af CLT: Ikke-ormale data, Cetral Græseværdisætig (CLT) Svar via socrative.com eller Socrative app. Room: PBAC Vores CI-metode virker OGSÅ for ikke-ormale data: Vi ka bruge kofides-iterval baseret på t-fordelige i stort set alle situatioer, blot er stor ok Hvad er stor ok? Faktisk svært at svare præcist på, MEN: Tommelfigerregel: 30 Selv for midre ka formle være (æste) gyldig for ikke-ormale data. Er lydiveauet behageligt? A: Fio B: Nope, skru op C: Nope, skru ed D: Nope, der er dårlig og ubehagelig lyd heride med det lydalægget DTU Compute Itroduktio til Statistik Forår 2018 45 / 56 DTU Compute Itroduktio til Statistik Forår 2018 46 / 56 Ikke-ormale data, Cetral Græseværdisætig (CLT) Svar via socrative.com eller Socrative app. Room: PBAC Kofidesiterval for varias og spredig Stikprøvefordelige for varias-estimatet (Theorem 2.56) Bør Peder klæde sig mere ydeligt? A: Ja, for de da! Det er grimt det tøj B: Nej, ha ser faktisk rigtig checket ud C: Nej, det ka være lige meget med tøjet, ha skal barbere sig og rede sit hår først D: Ved ikke, jeg har simpelthe været for optaget af statistikke til at lægge mærke til has påklædig Variasestimater opfører sig som e χ 2 -fordelig: Let the: S 2 = 1 1 χ 2 = i=1 (X i X) 2 ( 1)S2 σ 2 is a radom variable followig the χ 2 -distributio with v = 1 degrees of freedom. DTU Compute Itroduktio til Statistik Forår 2018 47 / 56 DTU Compute Itroduktio til Statistik Forår 2018 49 / 56

Kofidesiterval for varias og spredig χ 2 -fordelige med ν = 9 frihedsgrader ## Plot chi^2 tæthedsfuktio med 9 frihedsgrader ## E sekves af x værdier x <- seq(0, 30, by = 0.1) ## Plot chi^2 tæthedsfuktio plot(x, dchisq(x, df = 9), type = 'l', ylab="f(x)") Kofidesiterval for varias og spredig Metode 3.18: Kofidesiterval for stikprøvevarias og stikprøvespredig Variase: A 100(1 α)% cofidece iterval for the variace σ 2 is: [ ] ( 1)s 2 ( 1)s 2 χ1 α/2 2 ; χα/2 2 f(x) 0.00 0.02 0.04 0.06 0.08 0.10 where the quatiles come from a χ 2 -distributio with ν = 1 degrees of freedom. Spredige: A 100(1 α)% cofidece iterval for the sample stadard deviatio ˆσ is: [ ] ( 1)s 2 ( 1)s 2 0 5 10 15 20 25 30 x χ 2 1 α/2 ; χ 2 α/2 DTU Compute Itroduktio til Statistik Forår 2018 50 / 56 DTU Compute Itroduktio til Statistik Forår 2018 51 / 56 Produktio af tabletter Kofidesiterval for varias og spredig Vi producerer pulverbladig og tabletter deraf, så kocetratioe af det aktive stof i tablettere skal være 1 mg/g med de midst mulige spredig. E tilfældig stikprøve udtages, hvor vi måler mægde af aktivt stof. Data: E tilfældig stikprøve med = 20 tabletter er udtaget og fra dee får ma: ˆµ = x = 1.01, ˆσ 2 = s 2 = 0.07 2 95%-kofidesiterval for variase - vi skal bruge χ 2 -fraktilere: Kofidesiterval for varias og spredig Så kofidesitervallet for variase σ 2 bliver: [ 19 0.7 2 32.85 ; 19 0.7 2 ] = [0.002834; 0.01045] 8.907 Og kofidesitervallet for spredige σ bliver: [ 0.002834; 0.01045 ] = [0.053; 0.102] χ 2 0.025 = 8.9065, χ2 0.975 = 32.8523 ## 2.5% og 97.5% fraktilere i chi^2 fordelige for =20 qchisq(c(0.025, 0.975), df = 19) DTU Compute Itroduktio til Statistik Forår 2018 52 / 56 DTU Compute Itroduktio til Statistik Forår 2018 53 / 56

Højdeeksempel Kofidesiterval for varias og spredig Kofidesiterval for varias og spredig - Højde af 10 studerede - recap: Vi skal bruge χ 2 -fraktilere med ν = 9 frihedsgrader: χ 2 0.025 = 2.700389, χ2 0.975 = 19.022768 Stikprøve, = 10: 168 161 167 179 184 166 198 187 191 179 ## 2.5% og 97.5% fraktilere i chi^2 fordelige for =10 qchisq(c(0.025, 0.975), df = 9) ## [1] 2.7 19.0 Sample mea og stadard deviatio: x = 178 s = 12.21 Estimer populatio mea og stadard deviatio: ˆµ = 178 ˆσ = 12.21 Så kofidesitervallet for højdespredige σ bliver: [ ] 9 12.21 2 9 12.21 19.022768 ; 2 = [8.4; 22.3] 2.700389 NYT:Kofidesiterval, µ: 178 ± 2.26 12.21 10 [169.3; 186.7] NYT:Kofidesiterval, σ: [8.4; 22.3] DTU Compute Itroduktio til Statistik Forår 2018 54 / 56 DTU Compute Itroduktio til Statistik Forår 2018 55 / 56 Kofidesiterval for varias og spredig Svar via socrative.com eller Socrative app. Room: PBAC Hvilket af følgede udsag er korrekt? A: Statistik er virkelig skod, jeg tror ikke det ka bruges til oget B: Statistik er altså øv, ma skal bare sidde og sætte e masse tal id i ogle dumme formler C: Jeg burde ligge uder mi dye og blive frisk til at feste igeem i afte D: Statistik er virkelig fedt, det er fascierede, at ma ikke bare ka rege et estimat ud, me ma ka også rege ud hvor præcist det er DTU Compute Itroduktio til Statistik Forår 2018 56 / 56