Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff

Relaterede dokumenter
Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik

Kapitel 4: Statistik ved simulering. Kursus 02323: Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik.

Forelæsning 10: Statistik ved hjælp af simulering

enote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Løsning eksamen d. 15. december 2008

Basic statistics for experimental medical researchers

Løsning til eksaminen d. 29. maj 2009

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

Note om Monte Carlo metoden

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Forelæsning 11: Kapitel 11: Regressionsanalyse

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kursus navn og nr: Introduktion til Statistik (02323, og 02593) (studienummer) (underskrift) (bord nr)

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Løsning til eksaminen d. 14. december 2009

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Sandsynlighed og Statistik

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Forelæsning 11: Envejs variansanalyse, ANOVA

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Vina Nguyen HSSP July 13, 2008

(studienummer) (underskrift) (bord nr)

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

En Introduktion til SAS. Kapitel 5.

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

DoodleBUGS (Hands-on)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Forelæsning 9: Inferens for andele (kapitel 10)

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

(studienummer) (underskrift) (bord nr)

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

R i 02402: Introduktion til Statistik

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Hvorfor er det lige at vi skal lære det her?

Nanostatistik: Konfidensinterval

(studienummer) (underskrift) (bord nr)

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Almindelige kontinuerte fordelinger

Basal statistik. 30. januar 2007

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Klasseøvelser dag 2 Opgave 1

1 Hb SS Hb Sβ Hb SC = , (s = )

Ikke-parametriske tests

Statistik for MPH: 7

Kvantitative Metoder 1 - Forår Dagens program

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Kursus 02402/02323 Introducerende Statistik

(studienummer) (underskrift) (bord nr)

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Transkript:

Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: klaus@cancer.dk Oversigt 1 Eksempel, Areal af plader 2 Introduction to bootstrap One-sample konfidensinterval for µ for en vilkårlig fordeling 3 One-sample konfidensinterval for µ Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 1 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 2 / 43 Motivation Mange relevant beregningsstørrelser ("computed features") har komplicerede samplingfordelinger: Et trimmed gennemsnit Medianen Fraktiler generelt, dvs. f.eks. også IQR= Q 3 Q 1 Variationkoefficienten Enhver ikke-lineær function af en eller flere input variable (Spredningen) Data/populations fordelingen kan være ikke-normal, hvilket komplicerer den statistiske teori for selv en simpel gennemsnitsberegning Vi kan HÅBE på the magic of CLT (Central Limit Theorem) MEN men: Vi kan aldrig være helt sikre på om det er godt nok - simulering kan gøre os mere sikre! Kræver: Brug af computer - R er et super værktøj til dette! (Pseudo)tilfældige tal genereret af en computer En tilfældighedsgenerator er en algoritme der kan generere x i+1 ud fra x i En sekvens af tal "ser tilfældige ud Kræver en "start - kaldet "seed.(bruger typisk uret i computeren) Grundlæggende simuleres den uniforme fordeling, og så bruges: Hvis U Uniform(0, 1) og F er en fordelingsfunktion for en eller anden sandsynlighedsfordeling, så vil F 1 (U) følge fordelingen givet ved F Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 4 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 5 / 43

Eksempel: Exponentialfordelingen med λ = 0.5: I praksis i R Uniforme udfald F (x) = 0.0 0.2 0.4 0.6 0.8 1.0 x 0 f(t)dt = 1 e 0.5x 5 0 5 10 Exponentielle udfald De forskellige fordelinger er gjort klar til simulering: rbinom Binomialfordelingen rpois Poissonfordelingen rhyper Den hypergeometriske fordeling rnorm Normalfordelingen rlnorm Lognormalfordelingen rexp Eksponentialfordelingen runif Den uniforme(lige) fordeling rt t-fordelingen rchisq χ 2 -fordelingen rf F-fordelingen Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 6 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 7 / 43 Eksempel, Areal af plader Eksempel, Areal af plader Eksempel, Areal af plader En virksomhed producerer rektangulære plader. Længden af pladerne (i meter), X, antages at kunne beskrives med en normalfordeling N(2, 0.01 2 ) og bredden af pladerne (i meter), Y, antages at kunne beskrives med en normalfordeling N(3, 0.02 2 ). Man er interesseret i arealet, som jo så givet ved A = XY. Hvad er middelarealet? Hvad er spredningen i arealet fra plade til plade? Hvor ofte sådanne plader har et areal, der afviger mere end 0.1m 2 fra de 6m 2? Sandsynligheden for andre mulige hændelser? Generelt: Hvad er sandsynlighedsfordelingen for A? Eksempel, Løsning ved simulering set.seed(345) k = 10000 # Number of simulations X = rnorm(k, 2, 0.01) Y = rnorm(k, 3, 0.02) A = X*Y mean(a) ## [1] 5.9995 sd(a) ## [1] 0.049575 mean(abs(a-6)>0.1) ## [1] 0.0439 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 8 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 9 / 43

Fejlophobning - ved simulering Har brug for at finde: σ 2 f(x 1,...,X n) = Var(f(X 1,..., X n )) Vi kender allerede: σ 2 f(x 1,...,X n) = n a 2 i σi 2, if f(x 1,..., X n ) = i=1 Method 4.6: for ikke-lineære funktioner: n ( ) f 2 σf(x 2 1,...,X n) σi 2 x i i=1 n a i X i i=1 Method 4.7: Error propagation by simulation Assume we have actual measurements x 1,..., x n with known/assumed error variances σ 2 1,..., σ2 n. 1 Simulate k outcomes of all n measurements from assumed error distributions, e.g. N(x i, σi 2 ): X(j) i, j = 1..., k 2 Calculate the standard deviation directly as the observed standard deviation of the k simulated values of f: s sim f(x 1,...,X = 1 k n) (f j k 1 f) 2 where i=1 f j = f(x (j) 1,..., X(j) n ) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 10 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 11 / 43 Eksempel, fortsat Eksempel, fortsat Vi har allerede brugt simulerings-metoden i første del af eksemplet. To konkrete målinger for X og Y, er givet: x = 2.05m og y = 2.99m. Hvad er "fejlen" på A = 2.00 3.00 = 6.00 fundet ved den ikke-lineære fejlophobningslov? Varianserne er: σ 2 1 = V ar(x) = 0.01 2 og σ 2 2 = V ar(y ) = 0.02 2 Funktionen og de afledede er: f(x, y) = xy, f f = y, x y = x Så resultatet bliver: V ar(a) ( ) f 2 σ1 2 + x ( ) f 2 σ2 2 y Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 12 / 43 = y 2 σ 2 1 + x 2 σ 2 2 = 3.00 2 0.01 2 + 2.00 2 0.02 2 = 0.0025 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 13 / 43

Eksempel 1, fortsat Areal-eksempel et summary Faktisk kan man finde variansen for A = XY teoretisk: Var(XY ) = E [ (XY ) 2] [E(XY )] 2 = E(X 2 )E(Y 2 ) E(X) 2 E(Y ) 2 = [ Var(X) + E(X) 2] [ Var(Y ) + E(Y ) 2] E(X) 2 E(Y ) 2 = Var(X)Var(Y ) + Var(X)E(Y ) 2 + Var(Y )E(X) 2 = 0.01 2 0.02 2 + 0.01 2 3 2 + 0.02 2 2 2 = 0.00000004 + 0.0009 + 0.0016 = 0.00250004 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 14 / 43 Tre forskellige approaches: 1 Simuleringsbaseret 2 Teoretisk udledning 3 Den analytiske, men approksimative, error propagation metode The simulation approach has a number of crucial advantages: 1 It offers a simple tool to compute many other quantities than just the standard deviation (the theoretical derivations of such other quantities could be much more complicated than what was shown for the variance here) 2 It offers a simple tool to use any other distribution than the normal, if we believe such better reflect reality. 3 It does not rely on any linear approximations of the true non-linear relations. Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 15 / 43 Introduction to bootstrap One-sample konfidensinterval for µ Bootstrapping Bootstrapping findes i to versioner: 1 Parametrisk bootstrap: Simuler gentagne samples fra den antagede (og estimerede) fordeling. 2 : Simuler gentagne samples direkte fra data. Eksempel: Konfidensinterval for middelværdien i en Antag at vi har observeret følgende 10 opkaldsventetider (i sekunder) i et call center: Vi estimerer fra data: 32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0 ˆµ = x = 26.08 og dermed er raten: ˆλ = 1/26.08 = 0.03834356 Vores fordelingsantagelse: Ventetiderne kommer fra en Hvad er konfidensintervallet for µ? Baseret på tidligere indhold i dette kursus: Det ved vi ikke! Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 17 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 18 / 43

One-sample konfidensinterval for µ Eksempel: Konfidensinterval for middelværdien i en One-sample konfidensinterval for µ Example: Konfidensinterval for middelværdien i en ## Set the number of simulations: ## 1. Simulate 10 exponentials with the right mean k times: set.seed(9876) simsamples <- replicate(k, rexp(10, 1/26.08)) ## 2. Compute the mean of the 10 simulated observations k times: simmeans <- apply(simsamples, 2, mean) ## 3. Find the two relevant quantiles of the k simulated means: quantile(simmeans, c(0.025, 0.975)) ## 12.587 44.627 hist(simmeans, col="blue", nclass=30) Histogram of simmeans Frequency 0 2000 6000 10000 20 40 60 80 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 19 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, simmeans Forelæsning 7 Efteråret 2016 20 / 43 Eksempel: Konfidensinterval for medianen i en Antag at vi har observeret følgende 10 opkaldsventetider (i sekunder) i et call center: Vi estimerer fra data: 32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0 Vores fordelingsantagelse: Median = 21.4 og ˆµ = x = 26.08 Ventetiderne kommer fra en Hvad er konfidensintervallet for medianen? Baseret på tidligere indhold i dette kursus: Det ved vi ikke! Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 21 / 43 Eksempel: Konfidensinterval for medianen i en ## Set the number of simulations: ## 1. Simulate 10 exponentials with the right mean k times: set.seed(9876) simsamples <- replicate(k, rexp(10, 1/26.08)) ## 2. Compute the median of the n=10 simulated observations k times: simmedians <- apply(simsamples, 2, median) ## 3. Find the two relevant quantiles of the k simulated medians: quantile(simmedians, c(0.025, 0.975)) ## 7.038 38.465 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 22 / 43

Eksempel: Konfidensinterval for medianen i en hist(simmedians, col="blue", nclass=30) Frequency 0 2000 6000 10000 Histogram of simmedians 0 20 40 60 80 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til simmedians Statistik, Forelæsning 7 Efteråret 2016 23 / 43 Konfidensinterval for en vilkårlig beregningsstørrelse Method 4.10: Confidence interval for any feature θ by parametric bootstrap Assume we have actual observations x 1,..., x n and assume that they stem from some probability distribution with density f. 1 Simulate k samples of n observations from the assumed distribution f where the mean a is set to x. 2 Calculate the statistic ˆθ in each of the k samples ˆθ 1,..., ˆθ k. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% a And otherwise chosen to match the data as good as possible: Some distributions have more than just a single mean related parameter, e.g. the normal or the log-normal. For these one should use a distribution with a variance that matches the sample variance of the data. Even more generally the approach would be to match the chosen distribution to the data by the so-called maximum likelihood approach Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 24 / 43 for en vilkårlig fordeling Et andet eksempel: 99% konfidensinterval for Q 3 for en normalfordeling ## Read in the heights data: x <- c(168, 161, 167, 179, 184, 166, 198, 187, 191, 179) n <- length(x) ## Define a Q3-function: Q3 <- function(x){ quantile(x, 0.75)} ## Set the number of simulations: ## 1. Simulate k samples of n=10 normals with the right mean and variance: set.seed(9876) simsamples <- replicate(k, rnorm(n, mean(x), sd(x))) ## 2. Compute the Q3 of the n=10 simulated observations k times: simq3s <- apply(simsamples, 2, Q3) ## 3. Find the two relevant quantiles of the k simulated medians: quantile(simq3s, c(0.005, 0.995)) ## 0.5% 99.5% ## 172.82 198.00 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 25 / 43 Two-sample konfidensinterval for en vilkårlig feature sammenligning θ 1 θ 2 (inkl. µ 1 µ 2 ) Method 4.13: Two-sample confidence interval for any feature comparison θ 1 θ 2 by parametric bootstrap Assume we have actual observations x 1,..., x n and y 1,..., y n and assume that they stem from some probability distributions with density f 1 and f 2. 1 Simulate k sets of 2 samples of n 1 and n 2 observations from the assumed distributions setting the means a to ˆµ 1 = x and ˆµ 2 = ȳ, respectively. 2 Calculate the difference between the features in each of the k samples ˆθ x1 ˆθ y1,..., ˆθ xk ˆθ yk. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% a As before Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 26 / 43

for en vilkårlig fordeling for en vilkårlig fordeling Eksempel: Konfidensinterval for the forskellen mellem to exponentielle middelværdier ## Day 1 data: x <- c(32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0) ## Day 2 data: y <- c(9.6, 22.2, 52.5, 12.6, 33.0, 15.2, 76.6, 36.3, 110.2, 18.0, 62.4, 10.3) n1 <- length(x) n2 <- length(y) Eksempel: Konfidensinterval for the forskellen mellem to exponentielle middelværdier ## Set the number of simulations: ## 1. Simulate k samples of each n1=10 and n2=12 ## exponentials with the right means: set.seed(9876) simxsamples <- replicate(k, rexp(n1, 1/mean(x))) simysamples <- replicate(k, rexp(n2, 1/mean(y))) ## 2. Compute the difference between the simulated ## means k times: simdifmeans <- apply(simxsamples, 2, mean) - apply(simysamples, 2, mean) ## 3. Find the two relevant quantiles of the ## k simulated differences of means: quantile(simdifmeans, c(0.025, 0.975)) ## -40.735 14.117 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 27 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 28 / 43 for en vilkårlig fordeling Parametrisk bootstrap - et overblik - et overblik Vi antager en eller anden fordeling! To konfidensinterval-metodeboxe blev givet: One-sample Two-sample For any feature Method 4.10 Method 4.13 Vi antager IKKE noget om nogen fordelinger! To konfidensinterval-metodeboxe bliver givet: One-sample Two-sample For any feature Method 4.18 Method 4.20 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 29 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 31 / 43

One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug I et studie undersøgte man kvinders cigaretforbrug før og efter fødsel. Man fik følgende observationer af antal cigaretter pr. dag: før efter før efter 8 5 13 15 24 11 15 19 7 0 11 12 20 15 22 0 6 0 15 6 20 20 Sammenlign før og efter! Er der sket nogen ændring i gennemsnitsforbruget! Et parret t-test setup, MEN med tydeligvis ikke-normale data! x1 <- c(8, 24, 7, 20, 6, 20, 13, 15, 11, 22, 15) x2 <- c(5, 11, 0, 15, 0, 20, 15, 19, 12, 0, 6) dif <- x1-x2 dif ## [1] 3 13 7 5 6 0-2 -4-1 22 9 mean(dif) ## [1] 5.2727 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 32 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 33 / 43 One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug - bootstrapping One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug - de ikke-parametrisk bootstrap resultater: t(replicate(5, sample(dif, replace = TRUE))) ## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] ## [1,] 3 6 0 9 3 9-4 0 0-1 6 ## [2,] -1 9 5 5 6 9 3 13 3 22 22 ## [3,] -4-2 3-1 3-1 7 3 9 6 0 ## [4,] 6 3-4 9 3 22 3-1 -1-4 7 ## [5,] 13 0 5 22 0 9 9 5 0 22-1 k = 100000 simsamples = replicate(k, sample(dif, replace = TRUE)) simmeans = apply(simsamples, 2, mean) quantile(simmeans, c(0.025,0.975)) ## 1.3636 9.8182 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 34 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 35 / 43

One-sample konfidensinterval for en vilkårlig feature θ (inkl. µ) Eksempel: Kvinders cigaretforbrug Method 4.18: Confidence interval for any feature θ by non-parametric bootstrap Assume we have actual observations x 1,..., x n. 1 Simulate k samples of size n by randomly sampling among the available data (with replacement) 2 Calculate the statistic ˆθ in each of the k samples ˆθ 1,..., ˆθ k. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% Lad os finde 95% konfidensintervallet for ændringen af median cigaretforbruget k = 100000 simsamples = replicate(k, sample(dif, replace = TRUE)) simmedians = apply(simsamples, 2, median) quantile(simmedians, c(0.025,0.975)) ## -1 9 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 36 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 37 / 43 Eksempel: Tandsundhed og flaskebrug I et studie ville man undersøge, om børn der havde fået mælk fra flaske som barn havde dårligere eller bedre tænder end dem, der ikke havde fået mælk fra flaske. Fra 19 tilfældigt udvalgte børn registrerede man hvornår de havde haft deres første tilfælde af karies. flaske alder flaske alder flaske alder nej 9 nej 10 ja 16 ja 14 nej 8 ja 14 ja 15 nej 6 ja 9 nej 10 ja 12 nej 12 nej 12 ja 13 ja 12 nej 6 nej 20 ja 19 ja 13 Find konfidensintervallet for forskellen! Eksempel: Tandsundhed og flaskebrug - et 95% konfidensinterval for µ 1 µ 2 ## Reading in no group: x <- c(9, 10, 12, 6, 10, 8, 6, 20, 12) ## Reading in yes group: y <- c(14,15,19,12,13,13,16,14,9,12) simxsamples <- replicate(k, sample(x, replace = TRUE)) simysamples <- replicate(k, sample(y, replace = TRUE)) simmeandifs <- apply(simxsamples, 2, mean)- apply(simysamples, 2, mean) quantile(simmeandifs, c(0.025,0.975)) ## -6.23333-0.14444 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 38 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 39 / 43

Two-sample konfidensinterval for θ 1 θ 2 (inkl. µ 1 µ 2 ) med ikke-parametrisk bootstrap Eksempel: Tandsundhed og flaskebrug - et 99% confidence interval for median-forskellen Method 4.20: Two-sample confidence interval for θ 1 θ 2 by non-parametric bootstrap Assume we have actual observations x 1,..., x n and y 1,..., y n. 1 Simulate k sets of 2 samples of n 1 and n 2 observations from the respective groups (with replacement) 2 Calculate the difference between the features in each of the k samples ˆθ x1 ˆθ y1,..., ˆθ xk ˆθ yk. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% simxsamples <- replicate(k, sample(x, replace = TRUE)) simysamples <- replicate(k, sample(y, replace = TRUE)) simmediandifs <- apply(simxsamples, 2, median)- apply(simysamples, 2, median) quantile(simmediandifs, c(0.005,0.995)) ## 0.5% 99.5% ## -8 0 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 40 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 41 / 43 Bootstrapping - et overblik Oversigt Vi har fået 4 ikke så forskellige metode-bokse 1 Med eller uden fordeling (parametrisk eller ikke-parametrisk) 2 For one- eller two-sample analyse (en eller to grupper) Bemærk: Middelværdier(means) er inkluderet i vilkårlige beregningsstørrelser (other features). Eller: Disse metoder kan også anvendes for andre analyser end for means! Hypotesetest også muligt Vi kan udføre hypotese test ved at kigge på konfidensintervallerne! 1 Eksempel, Areal af plader 2 Introduction to bootstrap One-sample konfidensinterval for µ for en vilkårlig fordeling 3 One-sample konfidensinterval for µ Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 42 / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret 2016 43 / 43