Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel



Relaterede dokumenter
Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Forelæsning 8: Inferens for varianser (kap 9)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Modul 5: Test for én stikprøve

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Konfidensinterval for µ (σ kendt)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X X n ) N(µ, σ2

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Konfidensintervaller og Hypotesetest

Statistik og Sandsynlighedsregning 2

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Løsning eksamen d. 15. december 2008

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Module 12: Mere om variansanalyse

Kapitel 3 Centraltendens og spredning

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Forelæsning 11: Kapitel 11: Regressionsanalyse

Basal statistik. 30. januar 2007

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

En Introduktion til SAS. Kapitel 5.

Dansk. Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 2 Konfidensintervallet for µ Eksempel. 3 Den statistiske sprogbrug og formelle ramme

Susanne Ditlevsen Institut for Matematiske Fag susanne

Basic statistics for experimental medical researchers

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Forelæsning 9: Inferens for andele (kapitel 10)

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Kursus 02402/02323 Introducerende Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Note til styrkefunktionen

Question I.1 (1) We use Method 3.8 from Chapter 3 to achieve

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 11: Envejs variansanalyse, ANOVA

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Løsning til eksaminen d. 14. december 2009

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Modul 3: Kontinuerte stokastiske variable

Løsning til eksaminen d. 29. maj 2009

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Klasseøvelser dag 2 Opgave 1

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Normalfordelingen og Stikprøvefordelinger

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Ensidet variansanalyse

Forelæsning 10: Statistik ved hjælp af simulering

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Vina Nguyen HSSP July 13, 2008

Statistik for MPH: 7

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Reeksamen i Statistik for Biokemikere 6. april 2009

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Transkript:

Kursus 02402/02323 Introducerende Statistik Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: klaus@cancer.dk Oversigt 1 2 3 Konfidensintervallet for µ 4 Den statistiske sprogbrug og formelle ramme 5 Ikke-normale data, Central Grænseværdisætning (CLT) 6 En formel fortolkning af konfidensintervallet 7 Planlægning af studie med krav til præcision, højdedata igen 8 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 1 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 2 / 47 - Højde af 10 studerende: Theorem 3.2: Fordeling for gennemsnit af normalfordelinger Stikprøve, n = 10: 168 161 167 179 184 166 198 187 191 179 Sample mean og standard deviation: x = 178 s = 12.21 NYT:Konfidensinterval, µ: 178±2.26 12.21 10 [169.3; 186.7] Estimerer population mean og standard deviation: ˆµ = 178 ˆσ = 12.21 NYT:Konfidensinterval, σ: [8.4; 22.3] (Stikprøve-) fordelingen/ The (sampling) distribution for X Assume that X 1,..., X n are independent and identically normally distributed random variables, X i N(µ, σ 2 ), i = 1,..., n, then: X = 1 n X i N ) (µ, σ2 n Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 4 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 6 / 47

Middelværdi og varians følger af regneregler Vi kender nu fordelingen af den fejl vi begår: (Når vi bruger x som estimat for µ) Middelværdien af X E( X) = 1 n E(X i ) = 1 n µ = 1 n nµ = µ Spredningen af X σ X = σ n Variansen for X Var( X) = 1 n 2 Var(X i ) = 1 n 2 σ 2 = 1 n 2 nσ2 = σ2 n Spredningen af ( X µ) σ ( X µ ) = σ n Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 7 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 8 / 47 Standardiseret version af de samme ting, Corollary 3.3: Praktisk problem i alt dette, so far: Fordelingen for den standardiserede fejl vi begår: Assume that X 1,..., X n are independent and identically normally distributed random variables, X i N (µ, σ 2 ) where i = 1,..., n, then: Z = X µ σ/ n N ( 0, 1 2) That is, the standardized sample mean Z follows a standard normal distribution. Hvordan skal alt dette omsættes til et konkret interval for µ? Når nu populationsspredningen σ indgår i alle formlerne? Oplagt løsning: Anvend estimtatet s i stedet for σ i formlerne! MEN MEN: Så bryder den givne teori faktisk sammen!! HELDIGVIS: Der findes en udvidet teori, der kan klare det!! Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 9 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 10 / 47

Theorem 3.4: More applicable extension of the same stuff: (kopi af Theorem 2.49) med 9 frihedsgrader (n = 10): tager højde for usikkerheden i at bruge s: Assume that X 1,..., X n are independent and identically normally distributed random variables, where X i N ( µ, σ 2) and i = 1,..., n, then: T = X µ S/ n t where t is the t-distribution with n 1 degrees of freedom. dt(x, 9) 0.0 0.1 0.2 0.3 0.4 Black: standard normal Red: t(9) 4 2 0 2 4 x Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 11 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 12 / 47 med 9 frihedsgrader og standardnormalfordelingen: med 9 frihedsgrader og standardnormalfordelingen: dt(x, 9) 0.0 0.1 0.2 0.3 0.4 Black: standard normal Red: t(9) P(T>2)=0.038 dt(x, 9) 0.0 0.1 0.2 0.3 0.4 Black: standard normal Red: t(9) P(Z>2)=0.023 4 2 0 2 4 4 2 0 2 4 x x Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 13 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 14 / 47

Konfidensintervallet for µ Konfidensintervallet for µ Metodeboks 3.8: One-sample konfidensinterval for µ Højde-eksempel Brug den rigtige t-fordeling til at lave konfidensintervallet: For a sample x 1,..., x n the 100(1 α)% confidence interval is given by: x ± t 1 α/2 s n where t 1 α/2 is the 100(1 α)% quantile from the t-distribution with n 1 degrees of freedom. Mest almindeligt med α = 0.05: The most commonly used is the 95%-confidence interval: x ± t 0.975 s n The t-quantiles for n=10: qt(0.975,9) [1] 2.2622 Og vi kan genkende det allerede angivne resultat: which is: 178 ± 2.26 12.21 10 178 ± 8.74 = [169.3; 186.7] Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 16 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 17 / 47 Konfidensintervallet for µ Konfidensintervallet for µ Højde-eksempel, 99% Konfidensinterval (CI) Der findes en R-funktion, der kan gøre det hele (og lidt mere til): qt(0.995,9) [1] 3.2498 som giver 178 ± 3.25 12.21 10 178 ± 12.55 = [165.4; 190.6] x <- c(168,161,167,179,184,166,198,187,191,179) t.test(x,conf.level=0.99) Results of Hypothesis Test -------------------------- Null Hypothesis: mean = 0 Alternative Hypothesis: True mean is not equal to 0 Test Name: One Sample t-test Estimated Parameter(s): mean of x = 178 Data: x Test Statistic: t = 46.096 Test Statistic Parameter: df = 9 P-value: 5.3257e-12 99% Confidence Interval: LCL = 165.45 UCL = 190.55 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 18 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 19 / 47

Den statistiske sprogbrug og formelle ramme Den formelle ramme for statistisk inferens Den statistiske sprogbrug og formelle ramme Den formelle ramme for statistisk inferens - Fra enote, Chapter 1: An observational unit is the single entity/level about which information is sought (e.g. a person) (Observationsenhed) The statistical population consists of all possible measurements on each observational unit (Population) The sample from a statistical population is the actual set of data collected. (Stikprøve) Sprogbrug og koncepter: µ og σ er parametre, som beskriver populationen x er estimatet for µ (konkret udfald) X er estimatoren for µ (nu set som stokastisk variabel) Fra enote, Chapter 1, højdeeksempel Vi måler højden for 10 tilfældige personer i Danmark Stikprøven/The sample: De 10 konkrete talværdier: x 1,..., x 10 Populationen: Højderne for alle mennesker i Danmark. Observationsenheden: En person Begrebet statistic(s) er en fællesbetegnelse for begge Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 21 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 22 / 47 Den statistiske sprogbrug og formelle ramme Statistisk inferens = Learning from data Den statistiske sprogbrug og formelle ramme Tilfældig stikprøveudtagning Learning from data: Is learning about parameters of distributions that describe populations. Vigtigt i den forbindelse: Stikprøven skal på meningsfuld vis være repræsentativ for en eller anden veldefineret population Hvordan sikrer man det: F.eks. ved at sikre at stikprøven er fuldstændig tilfældig udtaget Definition 3.11: A random sample from an (infinite) population: A set of observations X 1, X 2,..., X n constitutes a random sample of size n from the infinite population f(x) if: 1 Each X i is a random variable whose distribution is given by f(x) 2 These n random variables are independent Hvad betyder det???? 1 Alle observationer skal komme fra den samme population 2 De må IKKE dele information med hinanden (f.eks. hvis man havde udtaget hele familier i stedet for enkeltindivider) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 23 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 24 / 47

Ikke-normale data, Central Grænseværdisætning (CLT) Theorem 3.13: The Central Limit Theorem Uanset hvad bliver fordelingen for et gennemsnit en normalfordeling: Let X be the mean of a random sample of size n taken from a population with mean µ and variance σ 2, then Z = X µ σ/ n Ikke-normale data, Central Grænseværdisætning (CLT) CLT in action - gennemsnit af Uniform fordelte observationer n=1 k=1000 u=matrix(runif(k*n),ncol=n) hist(apply(u,1,mean),col="blue",main="means: n=1",xlab="", cex.lab =0.7, cex=0.7) Means: n=1 is a random variable whose distribution function approaches that of the standard normal distribution, N(0, 1 2 ), as n Dvs., hvis n er stor nok, kan vi (tilnærmelsesvist) antage: Frequency 0 60 X µ σ/ n N(0, 12 ) 0.0 0.4 0.8 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 26 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 27 / 47 Ikke-normale data, Central Grænseværdisætning (CLT) CLT in action - gennemsnit af Uniform fordelte observationer Ikke-normale data, Central Grænseværdisætning (CLT) CLT in action - gennemsnit af Uniform fordelte observationer n=2 k=1000 u=matrix(runif(k*n),ncol=n) hist(apply(u,1,mean),col="blue",main="means: n=2",xlab="", cex.lab =0.7, cex=0.7) n=6 k=1000 u=matrix(runif(k*n),ncol=n) hist(apply(u,1,mean),col="blue",main="means: n=6",xlab="", cex.lab =0.7, cex=0.7) Means: n=2 Means: n=6 Frequency 0 100 Frequency 0 100 0.0 0.4 0.8 0.2 0.4 0.6 0.8 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 28 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 29 / 47

Ikke-normale data, Central Grænseværdisætning (CLT) CLT in action - gennemsnit af Uniform fordelte observationer Ikke-normale data, Central Grænseværdisætning (CLT) Konsekvens af CLT: n=30 k=1000 u=matrix(runif(k*n),ncol=n) hist(apply(u,1,mean),col="blue",main="means: n=30",xlab="", nclass=15, cex.lab =0.7, cex=0.7) Frequency 0 60 140 Means: n=30 Vores CI-metode virker OGSÅ for ikke-normale data: Vi kan bruge konfidens-interval baseret på i stort set alle situationer, blot n er stor nok Hvad er stor nok? Faktisk svært at svare præcist på, MEN: Tommelfingerregel:n 30 Selv for mindre n kan formlen være (næsten)gyldig for ikke-normale data. 0.35 0.50 0.65 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 30 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 31 / 47 En formel fortolkning af konfidensintervallet Repeated sampling fortolkning En formel fortolkning af konfidensintervallet Repeated sampling fortolkning I det lange løb fanger vi den sande værdi i 95% af tilfældene: Konfidensintervallet vil variere i både bredde (s) og position ( x) hvis man gentager sit studie. Mere formelt udtrykt (Theorem 3.4 og 2.49): ( ) X µ P S/ n < t 0.975 = 0.95 Som er ækvivalent med: ( ) S P X t 0.975 n < µ < X S + t 0.975 n = 0.95 P( X µ S n < t 0.975) t 0.025 0 t 0.975 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 33 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 34 / 47

Planlægning af studie med krav til præcision Planlægning af studie med krav til præcision Planlægning af studie med krav til præcision, højdedata igen, højdedata igen Method 3.45: The one-sample CI sample size formula: When σ is known or guessed at some value, we can calculate the sample size n needed to achieve a given margin of error, ME, with probability 1 α as: ( z1 α/2 σ ) 2 n = (1) ME Sample mean og standard deviation: x = 178 s = 12.21 Estimerer population mean og standard deviation: ˆµ = 178 ˆσ = 12.21 Hvis vi nu ønsker at ME = 3cm med 95% konfidens, hvor stor skal n så være? ( ) 1.96 12.21 2 n = = 63.64 3 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 36 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 37 / 47 Stikprøvefordelingen for varians-estimatet (Theorem 2.53) Produktion af tabletter Vi producere pulverblanding og tabletter deraf, så koncenttrationen af det aktive stof i tabletterne skal være 1 mg/g med den mindst mulige spredning. En tilfældig stikprøve udtages, hvor vi måler mængden af aktivt stof. Variansestimater opfører sig som en χ 2 -fordeling: Let then: S 2 = 1 n 1 χ 2 = (X i X) 2 (n 1)S2 σ 2 is a stochastic variable following the χ 2 -distribution with v = n 1 degrees of freedom. Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 39 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 40 / 47

χ 2 -fordelingen med ν = 9 frihedsgrader x <- seq(0, 20, by = 0.1) plot(x, dchisq(x, df = 9), type = "l") dchisq(x, df = 9) 0.00 0.04 0.08 0 5 10 15 20 x Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 41 / 47 Metode 3.18: Konfidensinterval for stikprøvevarians og -spredning Variansen: A 100(1 α)% confidence interval for a sample variance ˆσ 2 is: [ ] (n 1)s 2 (n 1)s 2 χ 2 ; 1 α/2 χ 2 α/2 where the quantiles come from a χ 2 -distribution with ν = n 1 degrees of freedom. Spredningen: A 100(1 α)% confidence interval for the sample standard deviation ˆσ is: [ ] (n 1)s 2 (n 1)s 2 ; χ 2 1 α/2 χ 2 α/2 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 42 / 47 Data: En tilfældig stikprøve med n = 20 tabletter er udtaget og fra denne får man: ˆµ = x = 1.01, ˆσ 2 = s 2 = 0.07 2 95%-konfidensinterval for variansen - vi skal bruge χ 2 -fraktilerne: χ 2 0.025 = 8.9065, χ 2 0.975 = 32.8523 qchisq(c(0.025, 0.975), df = 19) Så konfidensintervallet for variansen σ 2 bliver: [ 19 0.7 2 32.85 ; 19 0.7 2 ] = [0.002834; 0.01045] 8.907 Og konfidensintervallet for spredningen σ bliver: [ 0.002834; 0.01045 ] = [0.053; 0.102] [1] 8.9065 32.8523 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 43 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 44 / 47

Højdeeksempel - Højde af 10 studerende - recap: Vi skal bruge χ 2 -fraktilerne med ν = 9 frihedsgrader: χ 2 0.025 = 2.700389, χ 2 0.975 = 19.022768 qchisq(c(0.025, 0.975), df = 9) [1] 2.7004 19.0228 Så konfidensintervallet for højdespredningen σ bliver: [ ] 9 12.21 2 9 12.21 19.022768 ; 2 = [8.4; 22.3] 2.700389 Stikprøve, n = 10: 168 161 167 179 184 166 198 187 191 179 Sample mean og standard deviation: x = 178 s = 12.21 NYT:Konfidensinterval, µ: 178±2.26 12.21 10 [169.3; 186.7] Estimerer population mean og standard deviation: ˆµ = 178 ˆσ = 12.21 NYT:Konfidensinterval, σ: [8.4; 22.3] Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 45 / 47 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 46 / 47 Oversigt 1 2 3 Konfidensintervallet for µ 4 Den statistiske sprogbrug og formelle ramme 5 Ikke-normale data, Central Grænseværdisætning (CLT) 6 En formel fortolkning af konfidensintervallet 7 Planlægning af studie med krav til præcision, højdedata igen 8 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 4 Efteråret 2016 47 / 47