Forelæsning 10: Statistik ved hjælp af simulering

Relaterede dokumenter
Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kapitel 4: Statistik ved simulering. Kursus 02323: Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

enote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher

Forelæsning 9: Inferens for andele (kapitel 10)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Forelæsning 8: Inferens for varianser (kap 9)

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

R i 02402: Introduktion til Statistik

Note om Monte Carlo metoden

Løsning til eksaminen d. 29. maj 2009

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forelæsning 1: Intro og beskrivende statistik

(studienummer) (underskrift) (bord nr)

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Løsning til eksamen d.27 Maj 2010

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

(studienummer) (underskrift) (bord nr)

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Løsning eksamen d. 15. december 2008

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår 2007

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Forelæsning 11: Envejs variansanalyse, ANOVA

(studienummer) (underskrift) (bord nr)

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsning til eksaminen d. 14. december 2009

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Danmarks Tekniske Universitet Side?? af 20 sider

Kursus Introduktion til Statistik. Oversigt, Inferens for gennemsnit (One-sample setup)

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Statistik og Sandsynlighedsregning 2

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Kvantitative Metoder 1 - Efterår Dagens program

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Test nr. 5 af centrale elementer 02402

Uge 10 Teoretisk Statistik 1. marts 2004

(studienummer) (underskrift) (bord nr)

Test nr. 4 af centrale elementer 02402

Definition. Definitioner

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

StatDataN: Test af hypotese

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Statistik og Sandsynlighedsregning 2

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Nanostatistik: Konfidensinterval

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Opgaver til kapitel 3

Eksempel I. Tiden mellem kundeankomster på et posthus er eksponential fordelt med middelværdi µ =2minutter.

Transkript:

Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: perbb@dtu.dk Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 1 / 27

Oversigt 1 Introduktion til simulering Eksempel 1 2 Fejlophobningslove Eksempel 1, fortsat 3 Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Two-sample situationen Eksempel 3 4 Hypotesetest ved hjælp af simulering Vha. bootstrap konfidensintervaller One-sample setup, Eksempel 2, fortsat Hypotesetest ved hjælp af permutationstest Two-sample setup, Eksempel 3, fortsat Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 2 / 27

Introduktion til simulering Oversigt 1 Introduktion til simulering Eksempel 1 2 Fejlophobningslove Eksempel 1, fortsat 3 Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Two-sample situationen Eksempel 3 4 Hypotesetest ved hjælp af simulering Vha. bootstrap konfidensintervaller One-sample setup, Eksempel 2, fortsat Hypotesetest ved hjælp af permutationstest Two-sample setup, Eksempel 3, fortsat Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 3 / 27

Introduktion til simulering Motivation Table 8.1 har et "hul : Små stikprøver som IKKE kommer fra en normalfordeling?? I gl. dage: non-parametriske tests, e.g. Kapitel 14. Mere almindeligt nu: Simuleringsbaseret: Konfidensintervaller er meget nemmere at opnå De er meget nemmere at anvende i mere komplicerede situationer De "forgrover ikke informationen i samme udstrækning De afspejler i højere grad dagens virkelighed - de anvendes simpelt hen nu i rigtig mange sammenhænge Kræver: Brug af computer - R er et super værktøj til dette! Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 4 / 27

Introduktion til simulering Hvad er simulering egentlig? (Pseudo)tilfældige tal genereret af en computer En tilfældighedsgenerator er en algoritme der kan generere x i+1 ud fra x i En sekvens af tal "ser tilfældige ud Kræver en "start - kaldet "seed.(bruger typisk uret i computeren) Grundlæggende simuleres den uniforme fordeling, og så bruges: Hvis U Uniform(0, 1) og F er en fordelingsfunktion for en eller anden sandsynlighedsfordeling, så vil F 1 (U) følge fordelingen givet ved F Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 5 / 27

Introduktion til simulering I praksis i R De forskellige fordelinger er gjort klar til simulering: rbinom rpois rhyper rnorm rlnorm rexp runif rt rchisq rf Binomialfordelingen Poissonfordelingen Den hypergeometriske fordeling Normalfordelingen Lognormalfordelingen Eksponentialfordelingen Den uniforme(lige) fordeling t-fordelingen χ 2 -fordelingen F-fordelingen Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 6 / 27

Introduktion til simulering Eksempel 1 Eksempel 1 En virksomhed producerer rektangulære plader. Længden af pladerne (i meter), X, antages at kunne beskrives med en normalfordeling N(2, 0.1 2 ) og bredden af pladerne (i meter), Y, antages at kunne beskrives med en normalfordeling N(3, 0.2 2 ). Man er interesseret i arealet, som jo så givet ved A = XY. Hvad er middelarealet? Hvad er spredningen i arealet fra plade til plade? Hvor ofte sådanne plader har et areal, der afviger mere end 0.1m 2 fra de 6m 2? Sandsynligheden for andre mulige hændelser? Generelt: Hvad er sandsynlighedsfordelingen for A? Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 7 / 27

Introduktion til simulering Eksempel 1 Eksempel 1, løsning i R Kode: k=10000 X=rnorm(k,2,0.1) Y=rnorm(k,3,0.2) A=X*Y mean(a) sd(a) sum(abs(a-6)>0.1)/k Resultat: > mean(a) [1] 5.999061 > sd(a) [1] 0.5030009 > sum(abs(a- 6)>0.1)/k [1] 0.8462 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 8 / 27

Fejlophobningslove Oversigt 1 Introduktion til simulering Eksempel 1 2 Fejlophobningslove Eksempel 1, fortsat 3 Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Two-sample situationen Eksempel 3 4 Hypotesetest ved hjælp af simulering Vha. bootstrap konfidensintervaller One-sample setup, Eksempel 2, fortsat Hypotesetest ved hjælp af permutationstest Two-sample setup, Eksempel 3, fortsat Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 9 / 27

Fejlophobningslove Fejlophobningslove Skal kunne finde: σf(x 2 1,...,X = Var(f(X n) 1,..., X n )) Vi kender allerede: n n σf(x 2 1,...,X n) = a 2 i σi 2, hvis f(x 1,..., X n ) = a i X i Ny regel for ikke-lineære funktioner: i=1 i=1 σ 2 f(x 1,...,X n) n ( f i=1 X i ) 2 σ 2 i Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 10 / 27

Fejlophobningslove Fejlophobningslove Eller ved simulering: Simuler k udfald af samtlige n målinger som N(X i, σi 2 ): X (j) i, j = 1..., k Beregn spredningen direkte som den observerede spredning af de k værdier for f: σ f(x1,...,x n) = k i=1 (f j f) 2 1 k 1 f j = f(x (j) 1,..., X (j) n ) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 11 / 27

Fejlophobningslove Eksempel 1, fortsat Eksempel 1, fortsat Vi har allerede brugt simulerings-metoden i første del af eksemplet. To konkrete målinger for X og Y, er givet: x = 2.05m og y = 2.99m. Hvad er "fejlen" på A = 2.05 2.99 = 6.13 fundet ved den ikke-lineære fejlophobningslov? Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 12 / 27

Fejlophobningslove Eksempel 1, fortsat Eksempel 1, fortsat Faktisk kan man finde variansen for A = XY teoretisk: Var(XY ) = E [ (XY ) 2] [E(XY )] 2 = E(X 2 )E(Y 2 ) E(X) 2 E(Y ) 2 = [ Var(X) + E(X) 2] [ Var(Y ) + E(Y ) 2] E(X) 2 E(Y ) 2 = Var(X)Var(Y ) + Var(X)E(Y ) 2 + Var(Y )E(X) 2 = 0.1 2 0.2 2 + 0.1 2 3 2 + 0.2 2 2 2 = 0.0004 + 0.09 + 0.16 = 0.2504 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 13 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Oversigt 1 Introduktion til simulering Eksempel 1 2 Fejlophobningslove Eksempel 1, fortsat 3 Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Two-sample situationen Eksempel 3 4 Hypotesetest ved hjælp af simulering Vha. bootstrap konfidensintervaller One-sample setup, Eksempel 2, fortsat Hypotesetest ved hjælp af permutationstest Two-sample setup, Eksempel 3, fortsat Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 14 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Konfidensintervaller ved hjælp af simulering: bootstrapping What to do med en lille stikprøve, som IKKE er normalfordelt? To mulige løsninger 1 Find/identificer/antag en anden og mere rigtig fordeling for populationen("systemet") 2 Undlad at antage nogen fordeling overhovedet Bootstrapping findes i to versioner: 1 Parametrisk bootstrap: Simuler gentagne stikprøver fra den antagede fordeling. 2 Ikke-parametrisk bootstrap: Simuler gentagne stikprøver direkte fra data. Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 15 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Ikke-parametrisk bootstrap for one-sample situationen Data: x 1,..., x n. 100(1 α)%-konfidensintervallet for µ: Simuler k stikprøver af størrelse n ved at udtage tilfældigt blandt de tilgængelige data (med tilbagelægning - stort k, e.g. k > 1000) Beregn gennemsnittet i hver af de k stikprøver: x 1,..., x k Beregn 100α/2%- og 100(1 α/2)% fraktilerne for disse Intervallet er: [ fraktil 100α/2%, fraktil 100(1 α/2)% ] Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 16 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Eksempel 2, one-sample I et studie undersøgte man kvinders cigaretforbrug før og efter fødsel. Man fik følgende observationer af antal cigaretter pr. dag: før efter før efter 8 5 13 15 24 11 15 19 7 0 11 12 20 15 22 0 6 0 15 6 20 20 Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 17 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Eksempel 2, løsning i R Dataindlæsning: x1=c(8,24,7,20,6,20,13,15,11,22,15) x2=c(5,11,0,15,0,20,15,19,12,0,6) dif=x1-x2 R-Metode 1: k=10000 mysamples = replicate(k, sample(dif, replace = TRUE)) mymeans = apply(mysamples, 2, mean) quantile(mymeans,c(0.025,0.975)) R-Metode 2: (Installer først pakken "bootstrap") library(bootstrap) quantile(bootstrap(dif,k,mean)$thetastar,c(0.025,0.975)) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 18 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Two-sample situationen Two-sample situationen Data: x 1,..., x n1 og y 1,..., y n2 100(1 α)%-konfidensintervallet for µ 1 µ 2 : Simuler k sæt af 2 stikprøver af størrelse n 1 og n 2 ved at udtage tilfældigt blandt de tilgængelige data (med tilbagelægning - stort k, e.g. k > 1000) Beregn forskellen i gennemsnittene for hver af de k stikprøvepar: x 1 ȳ 1,..., x k ȳ k Beregn 100α/2%- og 100(1 α/2)% fraktilerne for disse Intervallet er: [ fraktil 100α/2%, fraktil 100(1 α/2)% ] Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 19 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 3 Eksempel 3 I et studie ville man undersøge, om børn der havde fået mælk fra flaske som barn havde dårligere eller bedre tænder end dem, der ikke havde fået mælk fra flaske. Fra 19 tilfældigt udvalgte børn registrerede man hvornår de havde haft deres første tilfælde af karies. flaske alder flaske alder flaske alder nej 9 nej 10 ja 16 ja 14 nej 8 ja 14 ja 15 nej 6 ja 9 nej 10 ja 12 nej 12 nej 12 ja 13 ja 12 nej 6 nej 20 ja 19 ja 13 Find konfidensintervallet for forskellen! Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 20 / 27

Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 3 Eksempel 3, løsning i R Dataindlæsning: x=c(9,10,12,6,10,8,6,20,12) y=c(14,15,19,12,13,13,16,14,9,12) Bootsrapping i R: k=10000 xsamples = replicate(k, sample (x, replace = TRUE)) ysamples = replicate(k, sample (y, replace = TRUE)) mymeandifs = apply(xsamples, 2, mean)-apply(ysamples, 2, mean) quantile(mymeandifs,c(0.025,0.975)) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 21 / 27

Hypotesetest ved hjælp af simulering Oversigt 1 Introduktion til simulering Eksempel 1 2 Fejlophobningslove Eksempel 1, fortsat 3 Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Two-sample situationen Eksempel 3 4 Hypotesetest ved hjælp af simulering Vha. bootstrap konfidensintervaller One-sample setup, Eksempel 2, fortsat Hypotesetest ved hjælp af permutationstest Two-sample setup, Eksempel 3, fortsat Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 22 / 27

Hypotesetest ved hjælp af simulering Vha. bootstrap konfidensintervaller Hypotesetest ved hjælp af bootstrap konfidensintervaller Sammenhæng mellem hypotese og konfidensinterval: H 0 : θ = θ 0 accepteres θ 0 ligger i konfidensintervallet for θ F.eks.ensidet hypotese-test vha. bootstrap: H 0 : θ = θ 0 mod H 1 : θ > θ 0 accepteres θ 0 > 100α%-fraktilen for bootstrapværdierne for θ Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 23 / 27

Hypotesetest ved hjælp af simulering One-sample setup, Eksempel 2, fortsat One-sample setup, Eksempel 2, fortsat Vi fortsætter cigaretforbrugseksemplet. Man vil nu gerne påvise, at cigaretforbruget er faldet efter fødslen: H 0 : µ 1 µ 2 = 0 mod H 1 : µ 1 µ 2 > 0 P-værdien findes i R som: sum(mymeans<0)/k Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 24 / 27

Hypotesetest ved hjælp af simulering Hypotesetest ved hjælp af permutationstest Hypotesetest ved hjælp af permutationstest Vi har nu stikprøverne: x 1,..., x n1 og y 1,..., y n2 ˆµ 1 = x og ˆµ 2 = ȳ Et permutationstest for hypotesen µ 1 = µ 2 er defineret ved: Simuler k sæt af 2 stikprøver af størrelse n 1 og n 2 ved at permutere de tilgængelige data (stort k, e.g. k > 1000) Beregn forskellen i gennemsnittene for hver af de k stikprøvepar: x 1 ȳ 1,..., x k ȳ k Find P-værdien ud fra positionen af x ȳ i denne fordeling (2-sidet eller 1-sidet - på sædvanlig vis) Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 25 / 27

Hypotesetest ved hjælp af simulering Two-sample setup, Eksempel 3, fortsat Two-sample setup, Eksempel 3, fortsat Vi fortsætter eksemplet med tænderne. Vi ønsker at udføre et tosidet test for om µ 1 = µ 2. Følgende R-kode gennemfører beregningerne: x=c(9,10,12,6,10,8,6,20,12) y=c(14,15,19,12,13,13,16,14,9,12) k=100000 perms = replicate(k,sample(c(x,y))) mymeandifs = apply(perms[1:9,], 2, mean)-apply(perms[10:19,], 2, mean) sum(abs(mymeandifs)>abs(mean(x)-mean(y)))/k Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 26 / 27

Hypotesetest ved hjælp af simulering Two-sample setup, Eksempel 3, fortsat Oversigt 1 Introduktion til simulering Eksempel 1 2 Fejlophobningslove Eksempel 1, fortsat 3 Konfidensintervaller ved hjælp af simulering: bootstrapping Eksempel 2, one-sample Two-sample situationen Eksempel 3 4 Hypotesetest ved hjælp af simulering Vha. bootstrap konfidensintervaller One-sample setup, Eksempel 2, fortsat Hypotesetest ved hjælp af permutationstest Two-sample setup, Eksempel 3, fortsat Per Bruun Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 10 Foråret 2014 27 / 27