Kapitel 4: Statistik ved simulering. Kursus 02323: Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik.
|
|
- Anne Marie Karlsen
- 5 år siden
- Visninger:
Transkript
1 Kursus 02323: Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark Efterår 2018 Kapitel 4: Statistik ved simulering Simulering: Træk tilfældige værdier og beregn statistik mange gange Fejlforplantning (error propagation rules) (F.eks. igennem ikke-lineær funktion) Bootstrapping af konfidensintervaller: Parametrisk (Simuler mange udfald af stokastisk var.) Ikke-parametrisk (Træk direkte fra data) Specifikke setups: (4 versioner af konfidensintervaller) Èn gruppe/stikprøve og to grupper/stikprøver data Parametrisk vs. ikke-parametrisk DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Chapter 4: Statistics by simulation Oversigt Simulation: Draw random values and calculate the statistic many times Error propagation rules (e.g. through a non-linear function) Bootstrapping of confidence intervals: Parametric (Simulate many outcomes of random var.) Non-parametric (Draw values directly from data) Specific situations: (4 versions of confidence intervals) One-sample and Two-sample data Parametric vs. non-parametric 1 Introduktion til simulation 2 3 Parametrisk bootstrap Introduction to bootstrap One-sample konfidensinterval for µ for en vilkårlig fordeling 4 One-sample konfidensinterval for µ DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
2 Introduktion til simulation Introduktion til simulation Motivation Anvendelser Mange relevant statistikker ( computed features ) har komplicerede samplingfordelinger: Medianen Fraktiler generelt, dvs. f.eks. også IQR= Q 3 Q 1 Enhver ikke-lineær funktion af en eller flere input variable... Populations (og stikprøve) fordelingen kan være ikke-normal (komplicerer den statistiske teori) MEN: Nogle gange kan vi ikke være helt sikre på om det er godt nok - simulering kan hjælpe til at verificere! Stokastisk simulering anvendes mange steder: Trafiksimulering Kø simulering, f.eks. call-center Agent baseret simulering, f.eks. evakuering og markeder... Generelt, kan bruges til at modellere komplekse stokastiske processer ved generere tilfældige udfald Kræver: Brug af computer - R er et super værktøj til dette! DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Introduktion til simulation Introduktion til simulation Eksempel: Exponentialfordelingen med λ = 0.5 (Pseudo)tilfældige tal genereret af en computer x F(x) = f (t)dt = 1 e 0.5x 0 En tilfældighedsgenerator er en algoritme der kan generere x i+1 ud fra x i En sekvens af tal ser tilfældige ud Kræver en start - kaldet seed (Bruger typisk uret i computeren) Kapitel 2.6: Grundlæggende simuleres den uniforme fordeling, og så bruges: Remark 2.51: Hvis U Uniform(0,1) og F er en fordelingsfunktion for en eller anden sandsynlighedsfordeling, så vil F 1 (U) følge fordelingen givet ved F Uniforme udfald Exponentielle udfald DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
3 Introduktion til simulation Introduktion til simulation Øvelse: Simuler på papir I praksis i R De forskellige fordelinger er gjort klar til simulering: Tegn på papir (el. pc) Tegn eksponentiel fordelingsfunktion (F 1 ) Træk uniform fordelte værdier og put dem igennem F 1 Gentag med normal fordelingsfunktion rbinom rpois rhyper rnorm rlnorm rexp runif rt rchisq rf Binomialfordelingen Poissonfordelingen Den hypergeometriske fordeling Normalfordelingen Lognormalfordelingen Eksponentialfordelingen Den uniforme(lige) fordeling t-fordelingen χ 2 -fordelingen F-fordelingen DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Introduktion til simulation Introduktion til simulation Eksempel: Simuler 100 binomialfordelte værdier Eksempel: Areal af plader En virksomhed producerer rektangulære plader ## Simuler fra nogle fordelinger ## Sæt et seed for at få samme udfald hver gang set.seed(123) ## 100 realisationer fra binomialfordelingen: ## Antal successer fra 25 trækninger med 0.2 sandsynlighed for succes rbinom(n=100, size=25, prob=0.2) ## Exponential fordelte hist(rexp(n=100, rate=2), prob=true) ## Plot the theoretical pdf xseq <- seq(0,10,len=1000) lines(xseq, dexp(xseq, rate=2)) Bredden X af pladerne (i meter) antages at kunne beskrives med en normalfordeling N(2, ) og længden Y af pladerne (i meter) antages at kunne beskrives med en normalfordeling N(3, ) Man er interesseret i arealet, som jo så givet ved Spørgsmål som kan stilles er f.eks.: A = XY Hvor ofte sådanne plader har et areal, der afviger mere end 0.1m 2 fra de 6m 2? Sandsynligheden for andre mulige hændelser? Generelt: Hvad er sandsynlighedsfordelingen for A? DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
4 Introduktion til simulation Eksempel: Areal af plader Fejlophobning Hvor ofte sådanne plader har et areal, der afviger mere end 0.1m 2 fra de 6m 2? Løsning ved simulering: ## Sæt et seed for at få samme udfald hver gang set.seed(345) ## Antal simuleringer k = ## Simuler længderne af siderne x = rnorm(k, 2, 0.01) y = rnorm(k, 3, 0.02) ## Beregn arealet for hver simulering area = x*y ## Beregn statistikker ## (stikprøve)gennemsnit mean(area) ## (stikprøve)spredning sd(area) ## Fraktion af arealer afviger mere end 0.1 sum(abs(area-6) > 0.1) / k Fejlophobning (error propagation) Vi har n stokastiske variabler X 1,X 2,...,X n og kender deres varianser σ 2 1,σ2 2,...,σ2 n Og vil finde variansen af en ikke-lineær funktion af dem σ 2 f (X 1,...,X n ) = Var( f (X 1,...,X n ) ) 3 måder at løse på for ikke-lineær funktion f (): Simulation (Method 4.4) Lineær approksimation (Method 4.3) Teoretisk udledning DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Fejlophobning - ved simulering Eksempel: Varians af areal (Simulering) Method 4.4: Error propagation by simulation Assume we have actual measurements x 1,...,x n with known/assumed error variances σ 2 1,...,σ2 n. 1 Simulate k outcomes of all n measurements from assumed error distributions, e.g. N(x i,σi 2 ): X(j),j = 1,...,k i 2 Calculate the standard deviation directly as the observed standard deviation of the k simulated values of f s sim f (X 1,...,X n ) = 1 k k 1 (f j f ) 2 i=1 Beregn variansen af arealet med simulering: ## Beregn variansen af arealet med simulering ## Antal simuleringer k = ## Simuler længderne af siderne x = rnorm(k, 2, 0.01) y = rnorm(k, 3, 0.02) ## Beregn arealet for hver simulering area = x*y ## Beregn variansen af de simulerede arealer var(area) where f j = f (X (j) 1,...,X(j) n ) DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
5 Fejlophobning - ved lineær approksimation Spørgsmål om hvilken metode til beregning af varians (socrative.com - ROOM:PBAC) Vi kender allerede regneregel for lineære funktioner (Theorem 2.56) σf 2 n (X 1,...,X n ) = a 2 i σi 2 hvis f (X 1,...,X n ) = i=1 Method 4.3: for ikke-lineære funktioner σf 2 n ( ) f 2 (X 1,...,X n ) σi 2 i=1 x i n i=1 a i X i Hvordan beregnes: Var(2 2 X Y)? A: Som lineær funktion B: Som ikke-lineær funktion C: Ved ikke Svar: A: Som lineær funktion (Regneregel: Theorem 2.56 mean and variance of linear combinations) Hvordan beregnes: Var(X + Y 1 )? A: Som lineær funktion B: Som ikke-lineær funktion C: Ved ikke Svar: B: Som ikke-lineær funktion (Brug approximation (Method 4.3) eller simulation (Method 4.4)) DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Eksempel: Varians af areal (ikke-lineære fejlophobningslov) Eksempel: Varians af areal (ikke-lineære fejlophobningslov) Vi har allerede brugt eksemplet med areal af en plade Nu spørger vi: Hvad er fejlen på A = = 6.00 m 2 fundet ved den ikke-lineære fejlophobningslov? Varianserne er σ 2 X = Var(X) = og σ 2 Y = Var(Y) = Funktionen og de partielt afledte er Så resultatet bliver f (x,y) = xy, f x = y, f y = x ( ) f 2 ( ) f 2 Var(A) σx 2 + σy 2 x y Method 4.3: σf 2 n ( ) f 2 (X 1,...,X n) σi 2 i=1 x i = y 2 σ 2 X + x 2 σ 2 Y = = DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
6 Eksempel: Varians af areal (Teoretisk udledning) Et summary Faktisk kan man finde variansen for A = XY teoretisk [ Var(XY) = E (XY) 2] [E(XY)] 2 = E(X 2 )E(Y 2 ) E(X) 2 E(Y) 2 [ = Var(X) + E(X) 2][ Var(Y) + E(Y) 2] E(X) 2 E(Y) 2 = Var(X)Var(Y) + Var(X)E(Y) 2 + Var(Y)E(X) 2 = = = Igen: 3 måder til beregning af varians af ikke-lineær funktion (husk, det er rent teoretisk, dvs. ingen data): 1 Simuleringsbaseret 2 Den analytiske, men approksimative, fejlophobningslov 3 Teoretisk udledning Simulering har en række fordele: 1 Simpel måde at beregne andre størrelser (kan være mere komplicerede, f.eks. udtryk sværere at differentiere) 2 Simpel måde at bruge andre fordelinger end normalfordelingen 3 Afhænger ikke af en lineær approksimation (som error propagation) til den underliggende ikke-lineære funktion DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Parametrisk bootstrap Introduction to bootstrap Parametrisk bootstrap One-sample konfidensinterval for µ Bootstrapping Bootstrapping findes i to versioner: 1 Parametrisk bootstrap: Simuler gentagne samples fra en antagede (og estimerede) fordeling 2 : Simuler gentagne samples direkte fra data Eksempel: Konfidensinterval for middelværdien i en Antag at vi har observeret følgende 10 opkaldsventetider (i sekunder) i et call center 32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0 Vi estimerer fra data (eksponential fordelingen har en parameter raten) ˆµ = x = og dermed er raten: ˆλ = 1/26.08 = Vores fordelingsantagelse: Ventetiderne kommer fra en Hvad er konfidensintervallet for µ? Baseret på tidligere indhold i dette kursus: Det ved vi ikke! DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
7 Parametrisk bootstrap One-sample konfidensinterval for µ Eksempel: Konfidensinterval for middelværdien i en Parametrisk bootstrap One-sample konfidensinterval for µ Eksempel: Konfidensinterval for middelværdien i en ## Beregn konfidensinterval for middelværdien med simulering ## Sæt seed hvis sammen resultat ønskes set.seed(758) ## Første gang: Simuler 10 observationer og beregn gennemsnit simsample <- rexp(10, 1/26.08) mean1 <- mean(simsample) ## Anden gang: Simuler 10 observationer og beregn gennemsnit simsample <- rexp(10, 1/26.08) mean2 <- mean(simsample) ## Tredje gang: Simuler 10 observationer og beregn gennemsnit simsample <- rexp(10, 1/26.08) mean3 <- mean(simsample) ## Gør det gange! Alright, det må kunne gøres smartere!! DTU Compute Introduktion til Statistik Efterår / 56 ## Beregn konfidensinterval for middelværdien med simulering ## Set the number of simulations: set.seed(321) ## 1. Simulate 10 exponentials k times and keep in a matrix: simsamples <- replicate(k, rexp(10, 1/26.08)) ## 2. Compute the mean of the 10 simulated observations k times: simmeans <- apply(simsamples, 2, mean) ## 3. Find the two relevant quantiles of the k simulated means: quantile(simmeans, c(0.025, 0.975)) ## 2.5% 98% ## DTU Compute Introduktion til Statistik Efterår / 56 Parametrisk bootstrap One-sample konfidensinterval for µ Parametrisk bootstrap Example: Konfidensinterval for middelværdien i en hist(simmeans, col="blue", nclass=30) abline(v=quantile(simmeans, c(0.025, 0.975)), col="red") Frequency Histogram of simmeans simmeans DTU Compute Introduktion til Statistik Efterår / 56 Eksempel: Konfidensinterval for medianen i en Antag at vi har observeret følgende 10 opkaldsventetider (i sekunder) i et call center Vi estimerer fra data Vores fordelingsantagelse 32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0 Median = 21.4 og ˆµ = x = Ventetiderne kommer fra en Hvad er konfidensintervallet for medianen? Baseret på tidligere indhold i dette kursus: Det ved vi ikke! DTU Compute Introduktion til Statistik Efterår / 56
8 Parametrisk bootstrap Parametrisk bootstrap Eksempel: Konfidensinterval for medianen i en ## Beregn konfidensinterval for medianen med parametrisk bootstrapping Eksempel: Konfidensinterval for medianen i en hist(simmedians, col="blue", nclass=30) abline(v=quantile(simmedians, c(0.025, 0.975)), col="red") ## Set the number of simulations: set.seed(543) ## 1. Simulate 10 exponentials with the right mean k times: simsamples <- replicate(k, rexp(10, 1/26.08)) ## 2. Compute the median of the n=10 simulated observations k times: simmedians <- apply(simsamples, 2, median) ## 3. Find the two relevant quantiles of the k simulated medians: quantile(simmedians, c(0.025, 0.975)) ## 2.5% 98% ## 7 38 Frequency Histogram of simmedians simmedians DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Parametrisk bootstrap One-sample konfidensinterval for µ Konfidensinterval for en vilkårlig beregningsstørrelse Method 4.7: Confidence interval for any feature θ by parametric bootstrap Assume we have actual observations x 1,...,x n and assume that they stem from some probability distribution with density f. 1 Simulate k samples of n observations from the assumed distribution f where the mean a is set to x 2 Calculate the statistic ˆθ in each of the k samples ˆθ 1,..., ˆθ k 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q 100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q 100(α/2)%, q 100(1 α/2)% a And otherwise chosen to match the data as good as possible: Some distributions have more than just a single mean related parameter, e.g. the normal or the log-normal. For these one should use a distribution with a variance that matches the sample variance of the data. Even more generally the approach would be to match the chosen distribution to the data by the so-called maximum likelihood approach DTU Compute Introduktion til Statistik Efterår / 56 Parametrisk bootstrap One-sample konfidensinterval for µ Et andet eksempel: 99% konfidensinterval for Q 3 for en normalfordeling ## Konfidensinterval for den øvre kvartil (Q_3) i en normalfordeling ## Read in the heights data: x <- c(168, 161, 167, 179, 184, 166, 198, 187, 191, 179) n <- length(x) ## Define a (upper-quartile) Q3-function: Q3 <- function(x){ quantile(x, 0.75)} ## Set the number of simulations: set.seed(543) ## 1. Simulate k samples of n=10 normals with the right mean and variance: simsamples <- replicate(k, rnorm(n, mean(x), sd(x))) ## 2. Compute the Q3 of the n=10 simulated observations k times: simq3s <- apply(simsamples, 2, Q3) ## 3. Find the two relevant quantiles of the k simulated medians: quantile(simq3s, c(0.005, 0.995)) ## 0.5% 100% ## DTU Compute Introduktion til Statistik Efterår / 56
9 Parametrisk bootstrap for en vilkårlig fordeling Parametrisk bootstrap for en vilkårlig fordeling Two-sample konfidensinterval for en vilkårlig feature sammenligning θ X θ Y (inkl. µ X µ Y ) Eksempel: Konfidensinterval for the forskellen mellem to exponentielle middelværdier Method 4.10: Two-sample confidence interval for any feature comparison θ X θ Y by parametric bootstrap Assume we have actual observations x X,...,x n and y X,...,y n and assume that they stem from some probability distributions with density f X and f Y. 1 Simulate k sets of 2 samples of n X and n Y observations from the assumed distributions setting the means a to ˆµ X = x and ˆµ Y = ȳ, respectively 2 Calculate the difference between the features in each of the k samples ˆθ x1 ˆθ y1,..., ˆθ xk ˆθ yk 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q 100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q 100(α/2)%, q 100(1 α/2)% ## Konfidensinterval for the forskellen mellem to exponentielle middelværdier ## Day 1 data: x <- c(32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0) ## Day 2 data: y <- c(9.6, 22.2, 52.5, 12.6, 33.0, 15.2, 76.6, 36.3, 110.2, 18.0, 62.4, 10.3) ## Keep sample sizes n1 <- length(x) n2 <- length(y) a As before DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Parametrisk bootstrap for en vilkårlig fordeling Parametrisk bootstrap for en vilkårlig fordeling Eksempel: Konfidensinterval for the forskellen mellem to exponentielle middelværdier ## Konfidensinterval for the forskellen mellem to exponentielle middelværdier ## Set the number of simulations: set.seed(987) ## 1. Simulate k samples of each n1=10 and n2=12 ## exponentials with the right means: simxsamples <- replicate(k, rexp(n1, 1/mean(x))) simysamples <- replicate(k, rexp(n2, 1/mean(y))) ## 2. Compute the difference between the simulated ## means k times: simdifmeans <- apply(simxsamples, 2, mean) - apply(simysamples, 2, mean) ## 3. Find the two relevant quantiles of the ## k simulated differences of means: quantile(simdifmeans, c(0.025, 0.975)) Parametrisk bootstrap - et overblik Vi antager en fordeling! Der er parametre i en fordeling, derfor parametrisk bootstrap To konfidensinterval-metodeboxe blev givet: One-sample Two-sample For any feature Method 4.7 Method 4.10 ## 2.5% 98% ## DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
10 - et overblik One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug Vi antager IKKE noget om nogen fordelinger! Altså der er ingen parametre, derfor ikke-parametrisk bootstrap To konfidensinterval-metodeboxe bliver givet: One-sample Two-sample For any feature Method 4.15 Method 4.17 I et studie undersøgte man kvinders cigaretforbrug før og efter fødsel Man fik følgende observationer af antal cigaretter pr. dag: før efter før efter Sammenlign før og efter! Er der sket nogen ændring i gennemsnitsforbruget! DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug - bootstrapping Et parret t-test setup, MEN med tydeligvis ikke-normale data! ## Parret test af middelværdiforskel med ikke-parametrisk bootstrapping ## Input the two cigaret use samples x1 <- c(8, 24, 7, 20, 6, 20, 13, 15, 11, 22, 15) x2 <- c(5, 11, 0, 15, 0, 20, 15, 19, 12, 0, 6) ## Calculate the difference dif <- x1 - x2 dif ## [1] ## And the sample mean mean(dif) ## [1] 5.27 ################################ ## Resample several times sample(dif, replace = TRUE) ## [1] sample(dif, replace = TRUE) ## [1] sample(dif, replace = TRUE) ## [1] sample(dif, replace = TRUE) ## [1] DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
11 One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug - de ikke-parametriske bootstrap resultater: One-sample konfidensinterval for en vilkårlig feature θ (inkl. µ) ## Resample calculate mean statistic many time, and find 95% confidence interval k = simsamples = replicate(k, sample(dif, replace = TRUE)) ## Take the mean for every resample simmeans = apply(simsamples, 2, mean) ## Take the two quantiles to get the confidence interval quantile(simmeans, c(0.025,0.975)) ## 2.5% 97.5% ## Method 4.15: Confidence interval for any feature θ by non-parametric bootstrap Assume we have actual observations x 1,...,x n. 1 Simulate k samples of size n by randomly sampling among the available data (with replacement) 2 Calculate the statistic ˆθ in each of the k samples ˆθ 1,..., ˆθ k. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q 100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q 100(α/2)%, q 100(1 α/2)% DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Eksempel: Kvinders cigaretforbrug Eksempel: Tandsundhed og flaskebrug Lad os finde 95% konfidensintervallet for ændringen af median cigaretforbruget ## Konfidensintervallet for ændringen af median cigaretforbruget ## Simulate many times k = simsamples = replicate(k, sample(dif, replace = TRUE)) ## Take the median for each resample simmedians = apply(simsamples, 2, median) ## Take the two quantiles to get the confidence interval quantile(simmedians, c(0.025,0.975)) ## 2.5% 97.5% ## -1 9 I et studie ville man undersøge, om børn der havde fået mælk fra flaske som barn havde dårligere eller bedre tænder end dem, der ikke havde fået mælk fra flaske. Fra 19 tilfældigt udvalgte børn registrerede man hvornår de havde haft deres første tilfælde af karies. flaske alder flaske alder flaske alder nej 9 nej 10 ja 16 ja 14 nej 8 ja 14 ja 15 nej 6 ja 9 nej 10 ja 12 nej 12 nej 12 ja 13 ja 12 nej 6 nej 20 ja 19 ja 13 Find konfidensintervallet for forskellen! DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
12 Eksempel: Tandsundhed og flaskebrug - et 95% konfidensinterval for µ X µ Y ## Tandsundhed og flaskebrug. Konfidensinterval for forskel i middelværdi ## Reading in no group: x <- c(9,10,12,6,10,8,6,20,12) ## Reading in yes group: y <- c(14,15,19,12,13,13,16,14,9,12) ## Resample many times simxsamples <- replicate(k, sample(x, replace = TRUE)) simysamples <- replicate(k, sample(y, replace = TRUE)) ## Take the mean for each time and subtract simmeandifs <- apply(simxsamples, 2, mean) - apply(simysamples, 2, mean) ## Take the two quantiles to get the confidence interval quantile(simmeandifs, c(0.025,0.975)) ## 2.5% 97.5% ## Two-sample konfidensinterval for θ X θ Y (inkl. µ X µ Y ) med ikke-parametrisk bootstrap Method Method 4.17: Two-sample confidence interval for θ X θ Y by non-parametric bootstrap Assume we have actual observations x 1,...,x n and y 1,...,y n. 1 Simulate k sets of 2 samples of n X and n Y observations from the respective groups (with replacement) 2 Calculate the difference between the features in each of the k samples ˆθ x1 ˆθ y1,..., ˆθ xk ˆθ yk. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q 100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q 100(α/2)%, q 100(1 α/2)% DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Eksempel: Tandsundhed og flaskebrug - et 99% confidence interval for median-forskellen ## Tandsundhed og flaskebrug. Konfidensinterval for forskel i median ## Resample many times simxsamples <- replicate(k, sample(x, replace = TRUE)) simysamples <- replicate(k, sample(y, replace = TRUE)) ## Take the difference in medians simmediandiffs <- apply(simxsamples, 2, median)- apply(simysamples, 2, median) ## Take the two quantiles to get the confidence interval quantile(simmediandiffs, c(0.005,0.995)) ## 0.5% 99.5% ## -8 0 Spørgsmål: bootstrapping methods (socrative.com - ROOM:PBAC) ## Resample many times simxsamples <- replicate(k, sample(x, replace = TRUE)) simysamples <- replicate(k, sample(y, replace = TRUE)) ## Define a (upper-quartile) Q3-function: Q3 <- function(x){ quantile(x, 0.75)} ## Calculate the simulated statistic simq3diffs <- apply(simxsamples, 2, Q3) - apply(simysamples, 2, Q3) ## Find the two relevant quantiles of the k simulated differences quantile(simq3diffs, c(0.005, 0.995)) Hvilken analyse udføres? A: One-sample parametric B: Two-sample parametric C: One-sample non-parametric D: Two-sample non-parametric Svar D Resampling af x og y, men ingen fordelingsantagelse. Derfor to stikprøver og non-parametric. DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
13 Spørgsmål: bootstrapping methods (socrative.com - ROOM:PBAC) Spørgsmål: bootstrapping methods (socrative.com - ROOM:PBAC) ## Resample many times simxsamples <- replicate(k, sample(x, replace = TRUE)) ## Define a (upper-quartile) Q3-function: Q3 <- function(x){ quantile(x, 0.75)} ## Calculate the simulated statistic simq3 <- apply(simxsamples, 2, Q3) ## Find the two relevant quantiles of the k simulated differences quantile(simq3, c(0.005, 0.995)) ## Resample many times simxsamples <- replicate(k, rnorm(length(x), mean(x), sd(x))) ## Define a (upper-quartile) Q3-function: Q3 <- function(x){ quantile(x, 0.75)} ## Calculate the simulated statistic simq3 <- apply(simxsamples, 2, Q3) ## Find the two relevant quantiles of the k simulated differences quantile(simq3, c(0.005, 0.995)) Hvilken analyse udføres? Svar C Hvilken analyse udføres? Svar A A: One-sample parametric B: Two-sample parametric C: One-sample non-parametric D: Two-sample non-parametric Kun resampling af x, og ingen fordelingsantagelse. Derfor kun een stikprøve og non-parametric. A: One-sample parametric B: Two-sample parametric C: One-sample non-parametric D: Two-sample non-parametric Kun resampling af x og fordelingsantagelse (normalfordeling). Derfor kun een stikprøve og parametric. DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56 Spørgsmål: bootstrapping methods (socrative.com - ROOM:PBAC) Bootstrapping - et overblik ## Resample many times simxsamples <- replicate(k, rnorm(length(x), mean(x), sd(x))) simysamples <- replicate(k, rnorm(length(y), mean(y), sd(y))) ## Define a (upper-quartile) Q3-function: Q3 <- function(x){ quantile(x, 0.75)} ## Calculate the simulated statistic simq3diffs <- apply(simxsamples, 2, Q3) - apply(simysamples, 2, Q3) ## Find the two relevant quantiles of the k simulated differences quantile(simq3diffs, c(0.005, 0.995)) Hvilken analyse udføres? A: One-sample parametric B: Two-sample parametric C: One-sample non-parametric Svar B Resampling af x og y, samt fordelingsantagelse (normal). Derfor to stikprøver og parametric. Vi har fået 4 ret ens forskellige metode-bokse: 1 Med eller uden fordeling (parametrisk eller ikke-parametrisk) 2 For one- eller two-sample analyse (en eller to grupper) Bemærk: Middelværdier (means) er inkluderet i vilkårlige beregningsstørrelser (other features). Eller: Disse metoder kan også anvendes for andre analyser end for means! Hypotesetest også muligt Vi kan udføre hypotese test ved at kigge på konfidensintervallerne! D: Two-sample non-parametric DTU Compute Introduktion til Statistik Efterår / 56 DTU Compute Introduktion til Statistik Efterår / 56
Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik
Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereOversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff
Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800
Læs mereenote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher
Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereForelæsning 10: Statistik ved hjælp af simulering
Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereOversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.
Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereKursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher
Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk
Læs mereKursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff
Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet
Læs mereIntroduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk
Læs mereenote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions
Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår
Læs mereIntroduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereOversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger
Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800
Læs mereIntroduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereKursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Læs mereForelæsning 4: Konfidensinterval for middelværdi (og spredning)
Introduktion til Statistik Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereForelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Læs mere1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger
Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University
Læs mereOversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger
Course 02402/02323 Introducerende Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet
Læs mereForelæsning 3: Kapitel 5: Kontinuerte fordelinger
Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereOversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.
Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:
Læs mere1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger
Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Peder Bacher DTU Compute, Dynamiske Systemer Building 303B, Room 017 Danish Technical University 2800 Lyngby
Læs mereOversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff
Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark
Læs mereNote om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Læs mereI dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)
I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest
Læs mereKursus navn og nr: Introduktion til Statistik (02323, og 02593) (studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 26 sider. Skriftlig prøve: 16. august 2015 Kursus navn og nr: Introduktion til Statistik (02323, 02402 og 02593) Tilladte hjælpemidler: Alle Dette sæt er besvaret
Læs mereLøsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereIntroduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher
Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk
Læs mereForelæsning 2: Kapitel 4, Diskrete fordelinger
Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereOversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger
Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Rune Haubo B Christensen (based on slides by Per Bruun Brockhoff) DTU Compute, Statistik og Dataanalyse Bygning
Læs mereOversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable
Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereForelæsning 11: Envejs variansanalyse, ANOVA
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereOversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen
Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereLøsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereProgram. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Læs mereKursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher
Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Læs mereEnsidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Læs mereKursus 02402/02323 Introducerende Statistik
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereIntroduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher
Introduktion til Statistik Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereOversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Læs mereOverheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.
Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.
Læs mereForelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereBasic statistics for experimental medical researchers
Basic statistics for experimental medical researchers Sample size calculations September 15th 2016 Christian Pipper Department of public health (IFSV) Faculty of Health and Medicinal Science (SUND) E-mail:
Læs mereBinomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/
Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial
Læs mereStatistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Læs mereTeoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.
Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt
Læs mere(studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 26 sider. Skriftlig prøve: 20. august 2017 Kursus navn og nr: Introduktion til Statistik (02323 og 02402) Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs mereKonfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Læs mereKursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper
Kursus 02402/02323 Introducerende Statistik Forelæsning 6: Sammenligning af to grupper Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs merek UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:
Læs mereIntroduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher
Introduktion til Statistik Forelæsning 10: Inferens for andele Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår
Læs mereIntroduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher
Introduktion til Statistik Forelæsning 12: Inferens for andele Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår
Læs mereMotivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser
Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren
Læs mereSandsynlighed og Statistik
36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet,
Læs mereProgram: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Læs mereOversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus
Læs mereAgenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Læs mereOversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereKursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Læs mereenote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt
enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med
Læs mere1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...
Indhold 1 Sandsynlighed 1 1.1 Sandsynlighedsbegrebet................................. 1 1.2 Definitioner........................................ 2 1.3 Diskret fordeling.....................................
Læs mereNanostatistik: Konfidensinterval
Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:
Læs mereNaturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Læs mereEn Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Læs mereHvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
Læs mereKvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
Læs meret-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.
t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs mereTrin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Læs mereKvantitative Metoder 1 - Forår Dagens program
Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer
Læs mereNormalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereOversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel
Kursus 02402/02323 Introducerende Statistik Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske
Læs mereInstitut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver
Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2 Københavns Universitet Susanne Ditlevsen og Helle Sørensen R opgaver Det er en god ide at vænne sig til at skrive kommandoerne i en editor
Læs mereAlmindelige kontinuerte fordelinger
Almindelige kontinuerte fordelinger Den uniforme fordeling Symbol: X Uniform a,b Beskrivelse: Et tilfældigt tal mellem a og b. Støtte: V X a, b. Tæthedsfunktion: f x 1/ b a for x a,b Fordelingsfunktion:
Læs mereStatistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Statistisk Model Indhold Binomialfordeling Sandsynlighedsfunktion Middelværdi og spredning 1 Aalen: Innføring i statistik med medisinske eksempler
Læs mereHvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler
Læs mereSandsynlighedsregning 4. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse
Læs mereSandsynlighedsregning 4. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse
Læs mereStatistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter
Læs mereGeneralized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US
Generalized Probit Model in Design of Dose Finding Experiments Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US Outline Motivation Generalized probit model Utility function Locally optimal designs
Læs mere02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5
02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling
Læs mereenote 3: Hypotesetests for én gruppe/stikprøve Introduktion til Statistik Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Peder Bacher
Introduktion til Statistik Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs mereForelæsning 9: Inferens for andele (kapitel 10)
Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereProgram: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Læs mereStatDataN: Plot af data
StatDataN: Plot af data JLJ StatDataN: Plot af data p. 1/39 Repetition binomial(n,p): P(X = k) = ( n) k p k (1 p) n k n uafhængige kast med en mønt, X= antal krone X binomial(n, p), Y binomial(m, p), uafhængige
Læs mere4 Oversigt over kapitel 4
IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt
Læs mereSandsynlighedsregning 4. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse
Læs mereOversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens
Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve
Læs mereOversigt over nyttige fordelinger
Oversigt over nyttige fordelinger Helene Regitze Lund Wandsøe November 14, 2011 1 Bernoulli-fordelingen 1 Når et eksperiment har to mulige udfald: succes eller fiasko. X er en stokastisk variabel med følgende
Læs mereBasal statistik. 29. januar 2008
Basal statistik 29. januar 2008 Deskriptiv statistik Grafik Summary statistics Normalfordelingen Typer af data Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns
Læs mereBasal statistik. 30. januar 2007
Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet
Læs mereStikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Læs mereI dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mere(studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs mereBasal statistik. 2. september 2008
Basal statistik 2. september 2008 Deskriptiv statistik Grafik Summary statistics Normalfordelingen Typer af data Esben Budtz-Jørgensen, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns
Læs mereMuligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.
Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side
Læs mere