Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff

Størrelse: px
Starte visningen fra side:

Download "Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Klaus K. Andersen og Per Bruun Brockhoff"

Transkript

1 Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800 Lyngby Danmark Oversigt 1 Eksempel, Areal af plader 2 Introduction to bootstrap One-sample konfidensinterval for µ for en vilkårlig fordeling 3 One-sample konfidensinterval for µ Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Motivation Mange relevant beregningsstørrelser ("computed features") har komplicerede samplingfordelinger: Et trimmed gennemsnit Medianen Fraktiler generelt, dvs. f.eks. også IQR= Q 3 Q 1 Variationkoefficienten Enhver ikke-lineær function af en eller flere input variable (Spredningen) Data/populations fordelingen kan være ikke-normal, hvilket komplicerer den statistiske teori for selv en simpel gennemsnitsberegning Vi kan HÅBE på the magic of CLT (Central Limit Theorem) MEN men: Vi kan aldrig være helt sikre på om det er godt nok - simulering kan gøre os mere sikre! Kræver: Brug af computer - R er et super værktøj til dette! (Pseudo)tilfældige tal genereret af en computer En tilfældighedsgenerator er en algoritme der kan generere x i+1 ud fra x i En sekvens af tal "ser tilfældige ud Kræver en "start - kaldet "seed.(bruger typisk uret i computeren) Grundlæggende simuleres den uniforme fordeling, og så bruges: Hvis U Uniform(0, 1) og F er en fordelingsfunktion for en eller anden sandsynlighedsfordeling, så vil F 1 (U) følge fordelingen givet ved F Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

2 Eksempel: Exponentialfordelingen med λ = 0.5: I praksis i R Uniforme udfald F (x) = x 0 f(t)dt = 1 e 0.5x Exponentielle udfald De forskellige fordelinger er gjort klar til simulering: rbinom Binomialfordelingen rpois Poissonfordelingen rhyper Den hypergeometriske fordeling rnorm Normalfordelingen rlnorm Lognormalfordelingen rexp Eksponentialfordelingen runif Den uniforme(lige) fordeling rt t-fordelingen rchisq χ 2 -fordelingen rf F-fordelingen Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Eksempel, Areal af plader Eksempel, Areal af plader Eksempel, Areal af plader En virksomhed producerer rektangulære plader. Længden af pladerne (i meter), X, antages at kunne beskrives med en normalfordeling N(2, ) og bredden af pladerne (i meter), Y, antages at kunne beskrives med en normalfordeling N(3, ). Man er interesseret i arealet, som jo så givet ved A = XY. Hvad er middelarealet? Hvad er spredningen i arealet fra plade til plade? Hvor ofte sådanne plader har et areal, der afviger mere end 0.1m 2 fra de 6m 2? Sandsynligheden for andre mulige hændelser? Generelt: Hvad er sandsynlighedsfordelingen for A? Eksempel, Løsning ved simulering set.seed(345) k = # Number of simulations X = rnorm(k, 2, 0.01) Y = rnorm(k, 3, 0.02) A = X*Y mean(a) ## [1] sd(a) ## [1] mean(abs(a-6)>0.1) ## [1] Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

3 Fejlophobning - ved simulering Har brug for at finde: σ 2 f(x 1,...,X n) = Var(f(X 1,..., X n )) Vi kender allerede: σ 2 f(x 1,...,X n) = n a 2 i σi 2, if f(x 1,..., X n ) = i=1 Method 4.6: for ikke-lineære funktioner: n ( ) f 2 σf(x 2 1,...,X n) σi 2 x i i=1 n a i X i i=1 Method 4.7: Error propagation by simulation Assume we have actual measurements x 1,..., x n with known/assumed error variances σ 2 1,..., σ2 n. 1 Simulate k outcomes of all n measurements from assumed error distributions, e.g. N(x i, σi 2 ): X(j) i, j = 1..., k 2 Calculate the standard deviation directly as the observed standard deviation of the k simulated values of f: s sim f(x 1,...,X = 1 k n) (f j k 1 f) 2 where i=1 f j = f(x (j) 1,..., X(j) n ) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Eksempel, fortsat Eksempel, fortsat Vi har allerede brugt simulerings-metoden i første del af eksemplet. To konkrete målinger for X og Y, er givet: x = 2.05m og y = 2.99m. Hvad er "fejlen" på A = = 6.00 fundet ved den ikke-lineære fejlophobningslov? Varianserne er: σ 2 1 = V ar(x) = og σ 2 2 = V ar(y ) = Funktionen og de afledede er: f(x, y) = xy, f f = y, x y = x Så resultatet bliver: V ar(a) ( ) f 2 σ1 2 + x ( ) f 2 σ2 2 y Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 = y 2 σ x 2 σ 2 2 = = Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

4 Eksempel 1, fortsat Areal-eksempel et summary Faktisk kan man finde variansen for A = XY teoretisk: Var(XY ) = E [ (XY ) 2] [E(XY )] 2 = E(X 2 )E(Y 2 ) E(X) 2 E(Y ) 2 = [ Var(X) + E(X) 2] [ Var(Y ) + E(Y ) 2] E(X) 2 E(Y ) 2 = Var(X)Var(Y ) + Var(X)E(Y ) 2 + Var(Y )E(X) 2 = = = Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Tre forskellige approaches: 1 Simuleringsbaseret 2 Teoretisk udledning 3 Den analytiske, men approksimative, error propagation metode The simulation approach has a number of crucial advantages: 1 It offers a simple tool to compute many other quantities than just the standard deviation (the theoretical derivations of such other quantities could be much more complicated than what was shown for the variance here) 2 It offers a simple tool to use any other distribution than the normal, if we believe such better reflect reality. 3 It does not rely on any linear approximations of the true non-linear relations. Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Introduction to bootstrap One-sample konfidensinterval for µ Bootstrapping Bootstrapping findes i to versioner: 1 Parametrisk bootstrap: Simuler gentagne samples fra den antagede (og estimerede) fordeling. 2 : Simuler gentagne samples direkte fra data. Eksempel: Konfidensinterval for middelværdien i en Antag at vi har observeret følgende 10 opkaldsventetider (i sekunder) i et call center: Vi estimerer fra data: 32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0 ˆµ = x = og dermed er raten: ˆλ = 1/26.08 = Vores fordelingsantagelse: Ventetiderne kommer fra en Hvad er konfidensintervallet for µ? Baseret på tidligere indhold i dette kursus: Det ved vi ikke! Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

5 One-sample konfidensinterval for µ Eksempel: Konfidensinterval for middelværdien i en One-sample konfidensinterval for µ Example: Konfidensinterval for middelværdien i en ## Set the number of simulations: ## 1. Simulate 10 exponentials with the right mean k times: set.seed(9876) simsamples <- replicate(k, rexp(10, 1/26.08)) ## 2. Compute the mean of the 10 simulated observations k times: simmeans <- apply(simsamples, 2, mean) ## 3. Find the two relevant quantiles of the k simulated means: quantile(simmeans, c(0.025, 0.975)) ## hist(simmeans, col="blue", nclass=30) Histogram of simmeans Frequency Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, simmeans Forelæsning 7 Efteråret / 43 Eksempel: Konfidensinterval for medianen i en Antag at vi har observeret følgende 10 opkaldsventetider (i sekunder) i et call center: Vi estimerer fra data: 32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0 Vores fordelingsantagelse: Median = 21.4 og ˆµ = x = Ventetiderne kommer fra en Hvad er konfidensintervallet for medianen? Baseret på tidligere indhold i dette kursus: Det ved vi ikke! Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Eksempel: Konfidensinterval for medianen i en ## Set the number of simulations: ## 1. Simulate 10 exponentials with the right mean k times: set.seed(9876) simsamples <- replicate(k, rexp(10, 1/26.08)) ## 2. Compute the median of the n=10 simulated observations k times: simmedians <- apply(simsamples, 2, median) ## 3. Find the two relevant quantiles of the k simulated medians: quantile(simmedians, c(0.025, 0.975)) ## Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

6 Eksempel: Konfidensinterval for medianen i en hist(simmedians, col="blue", nclass=30) Frequency Histogram of simmedians Klaus KA og Per BB (klaus@cancer.dk) Introduktion til simmedians Statistik, Forelæsning 7 Efteråret / 43 Konfidensinterval for en vilkårlig beregningsstørrelse Method 4.10: Confidence interval for any feature θ by parametric bootstrap Assume we have actual observations x 1,..., x n and assume that they stem from some probability distribution with density f. 1 Simulate k samples of n observations from the assumed distribution f where the mean a is set to x. 2 Calculate the statistic ˆθ in each of the k samples ˆθ 1,..., ˆθ k. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% a And otherwise chosen to match the data as good as possible: Some distributions have more than just a single mean related parameter, e.g. the normal or the log-normal. For these one should use a distribution with a variance that matches the sample variance of the data. Even more generally the approach would be to match the chosen distribution to the data by the so-called maximum likelihood approach Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 for en vilkårlig fordeling Et andet eksempel: 99% konfidensinterval for Q 3 for en normalfordeling ## Read in the heights data: x <- c(168, 161, 167, 179, 184, 166, 198, 187, 191, 179) n <- length(x) ## Define a Q3-function: Q3 <- function(x){ quantile(x, 0.75)} ## Set the number of simulations: ## 1. Simulate k samples of n=10 normals with the right mean and variance: set.seed(9876) simsamples <- replicate(k, rnorm(n, mean(x), sd(x))) ## 2. Compute the Q3 of the n=10 simulated observations k times: simq3s <- apply(simsamples, 2, Q3) ## 3. Find the two relevant quantiles of the k simulated medians: quantile(simq3s, c(0.005, 0.995)) ## 0.5% 99.5% ## Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Two-sample konfidensinterval for en vilkårlig feature sammenligning θ 1 θ 2 (inkl. µ 1 µ 2 ) Method 4.13: Two-sample confidence interval for any feature comparison θ 1 θ 2 by parametric bootstrap Assume we have actual observations x 1,..., x n and y 1,..., y n and assume that they stem from some probability distributions with density f 1 and f 2. 1 Simulate k sets of 2 samples of n 1 and n 2 observations from the assumed distributions setting the means a to ˆµ 1 = x and ˆµ 2 = ȳ, respectively. 2 Calculate the difference between the features in each of the k samples ˆθ x1 ˆθ y1,..., ˆθ xk ˆθ yk. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% a As before Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

7 for en vilkårlig fordeling for en vilkårlig fordeling Eksempel: Konfidensinterval for the forskellen mellem to exponentielle middelværdier ## Day 1 data: x <- c(32.6, 1.6, 42.1, 29.2, 53.4, 79.3, 2.3, 4.7, 13.6, 2.0) ## Day 2 data: y <- c(9.6, 22.2, 52.5, 12.6, 33.0, 15.2, 76.6, 36.3, 110.2, 18.0, 62.4, 10.3) n1 <- length(x) n2 <- length(y) Eksempel: Konfidensinterval for the forskellen mellem to exponentielle middelværdier ## Set the number of simulations: ## 1. Simulate k samples of each n1=10 and n2=12 ## exponentials with the right means: set.seed(9876) simxsamples <- replicate(k, rexp(n1, 1/mean(x))) simysamples <- replicate(k, rexp(n2, 1/mean(y))) ## 2. Compute the difference between the simulated ## means k times: simdifmeans <- apply(simxsamples, 2, mean) - apply(simysamples, 2, mean) ## 3. Find the two relevant quantiles of the ## k simulated differences of means: quantile(simdifmeans, c(0.025, 0.975)) ## Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 for en vilkårlig fordeling Parametrisk bootstrap - et overblik - et overblik Vi antager en eller anden fordeling! To konfidensinterval-metodeboxe blev givet: One-sample Two-sample For any feature Method 4.10 Method 4.13 Vi antager IKKE noget om nogen fordelinger! To konfidensinterval-metodeboxe bliver givet: One-sample Two-sample For any feature Method 4.18 Method 4.20 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

8 One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug I et studie undersøgte man kvinders cigaretforbrug før og efter fødsel. Man fik følgende observationer af antal cigaretter pr. dag: før efter før efter Sammenlign før og efter! Er der sket nogen ændring i gennemsnitsforbruget! Et parret t-test setup, MEN med tydeligvis ikke-normale data! x1 <- c(8, 24, 7, 20, 6, 20, 13, 15, 11, 22, 15) x2 <- c(5, 11, 0, 15, 0, 20, 15, 19, 12, 0, 6) dif <- x1-x2 dif ## [1] mean(dif) ## [1] Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug - bootstrapping One-sample konfidensinterval for µ Eksempel: Kvinders cigaretforbrug - de ikke-parametrisk bootstrap resultater: t(replicate(5, sample(dif, replace = TRUE))) ## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] ## [1,] ## [2,] ## [3,] ## [4,] ## [5,] k = simsamples = replicate(k, sample(dif, replace = TRUE)) simmeans = apply(simsamples, 2, mean) quantile(simmeans, c(0.025,0.975)) ## Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

9 One-sample konfidensinterval for en vilkårlig feature θ (inkl. µ) Eksempel: Kvinders cigaretforbrug Method 4.18: Confidence interval for any feature θ by non-parametric bootstrap Assume we have actual observations x 1,..., x n. 1 Simulate k samples of size n by randomly sampling among the available data (with replacement) 2 Calculate the statistic ˆθ in each of the k samples ˆθ 1,..., ˆθ k. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% Lad os finde 95% konfidensintervallet for ændringen af median cigaretforbruget k = simsamples = replicate(k, sample(dif, replace = TRUE)) simmedians = apply(simsamples, 2, median) quantile(simmedians, c(0.025,0.975)) ## -1 9 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Eksempel: Tandsundhed og flaskebrug I et studie ville man undersøge, om børn der havde fået mælk fra flaske som barn havde dårligere eller bedre tænder end dem, der ikke havde fået mælk fra flaske. Fra 19 tilfældigt udvalgte børn registrerede man hvornår de havde haft deres første tilfælde af karies. flaske alder flaske alder flaske alder nej 9 nej 10 ja 16 ja 14 nej 8 ja 14 ja 15 nej 6 ja 9 nej 10 ja 12 nej 12 nej 12 ja 13 ja 12 nej 6 nej 20 ja 19 ja 13 Find konfidensintervallet for forskellen! Eksempel: Tandsundhed og flaskebrug - et 95% konfidensinterval for µ 1 µ 2 ## Reading in no group: x <- c(9, 10, 12, 6, 10, 8, 6, 20, 12) ## Reading in yes group: y <- c(14,15,19,12,13,13,16,14,9,12) simxsamples <- replicate(k, sample(x, replace = TRUE)) simysamples <- replicate(k, sample(y, replace = TRUE)) simmeandifs <- apply(simxsamples, 2, mean)- apply(simysamples, 2, mean) quantile(simmeandifs, c(0.025,0.975)) ## Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

10 Two-sample konfidensinterval for θ 1 θ 2 (inkl. µ 1 µ 2 ) med ikke-parametrisk bootstrap Eksempel: Tandsundhed og flaskebrug - et 99% confidence interval for median-forskellen Method 4.20: Two-sample confidence interval for θ 1 θ 2 by non-parametric bootstrap Assume we have actual observations x 1,..., x n and y 1,..., y n. 1 Simulate k sets of 2 samples of n 1 and n 2 observations from the respective groups (with replacement) 2 Calculate the difference between the features in each of the k samples ˆθ x1 ˆθ y1,..., ˆθ xk ˆθ yk. 3 Find the 100(α/2)% and 100(1 α/2)% quantiles for these, q100(α/2)% and q 100(1 α/2)% as the 100(1 α)% confidence interval: [ ] q100(α/2)%, q 100(1 α/2)% simxsamples <- replicate(k, sample(x, replace = TRUE)) simysamples <- replicate(k, sample(y, replace = TRUE)) simmediandifs <- apply(simxsamples, 2, median)- apply(simysamples, 2, median) quantile(simmediandifs, c(0.005,0.995)) ## 0.5% 99.5% ## -8 0 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Bootstrapping - et overblik Oversigt Vi har fået 4 ikke så forskellige metode-bokse 1 Med eller uden fordeling (parametrisk eller ikke-parametrisk) 2 For one- eller two-sample analyse (en eller to grupper) Bemærk: Middelværdier(means) er inkluderet i vilkårlige beregningsstørrelser (other features). Eller: Disse metoder kan også anvendes for andre analyser end for means! Hypotesetest også muligt Vi kan udføre hypotese test ved at kigge på konfidensintervallerne! 1 Eksempel, Areal af plader 2 Introduction to bootstrap One-sample konfidensinterval for µ for en vilkårlig fordeling 3 One-sample konfidensinterval for µ Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 7 Efteråret / 43

Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik

Kursus 02402/02323 Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Kapitel 4: Statistik ved simulering. Kursus 02323: Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik.

Kapitel 4: Statistik ved simulering. Kursus 02323: Introducerende Statistik. Forelæsning 7: Simuleringsbaseret statistik. Kursus 02323: Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Forelæsning 10: Statistik ved hjælp af simulering

Forelæsning 10: Statistik ved hjælp af simulering Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

enote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher

enote 4: Statistik ved simulering Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher Kursus 02402/02323 Introducerende Statistik Forelæsning 7: Simuleringsbaseret statistik Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff. Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Course 02402/02323 Introducerende Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Rune Haubo B Christensen (based on slides by Per Bruun Brockhoff) DTU Compute, Statistik og Dataanalyse Bygning

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Introduktion til Statistik Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Basic statistics for experimental medical researchers

Basic statistics for experimental medical researchers Basic statistics for experimental medical researchers Sample size calculations September 15th 2016 Christian Pipper Department of public health (IFSV) Faculty of Health and Medicinal Science (SUND) E-mail:

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel Kursus 02402/02323 Introducerende Statistik Forelæsning 4: Konfidensinterval for middelværdi (og spredning) Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Peder Bacher DTU Compute, Dynamiske Systemer Building 303B, Room 017 Danish Technical University 2800 Lyngby

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Kursus navn og nr: Introduktion til Statistik (02323, og 02593) (studienummer) (underskrift) (bord nr)

Kursus navn og nr: Introduktion til Statistik (02323, og 02593) (studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 26 sider. Skriftlig prøve: 16. august 2015 Kursus navn og nr: Introduktion til Statistik (02323, 02402 og 02593) Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US Generalized Probit Model in Design of Dose Finding Experiments Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US Outline Motivation Generalized probit model Utility function Locally optimal designs

Læs mere

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen Kursus 02402/02323 Introducerende Statistik Forelæsning 6: Sammenligning af to grupper Oversigt 1 Motiverende eksempel - energiforbrug 2 Hypotesetest (Repetition) 3 Klaus K. Andersen og Per Bruun Brockhoff

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Sandsynlighed og Statistik

Sandsynlighed og Statistik 36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet,

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Vina Nguyen HSSP July 13, 2008

Vina Nguyen HSSP July 13, 2008 Vina Nguyen HSSP July 13, 2008 1 What does it mean if sets A, B, C are a partition of set D? 2 How do you calculate P(A B) using the formula for conditional probability? 3 What is the difference between

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 26 sider. Skriftlig prøve: 20. august 2017 Kursus navn og nr: Introduktion til Statistik (02323 og 02402) Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Kursus 02402/02323 Introducerende Statistik Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske

Læs mere

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed... Indhold 1 Sandsynlighed 1 1.1 Sandsynlighedsbegrebet................................. 1 1.2 Definitioner........................................ 2 1.3 Diskret fordeling.....................................

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper Kursus 02402/02323 Introducerende Statistik Forelæsning 6: Sammenligning af to grupper Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher

Introduktion til Statistik. Forelæsning 5: Hypotesetest, power og modelkontrol - one sample. Peder Bacher Introduktion til Statistik Forelæsning 5: Hypotesetest, power og modelkontrol - one sample Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

DoodleBUGS (Hands-on)

DoodleBUGS (Hands-on) DoodleBUGS (Hands-on) Simple example: Program: bino_ave_sim_doodle.odc A simulation example Generate a sample from F=(r1+r2)/2 where r1~bin(0.5,200) and r2~bin(0.25,100) Note that E(F)=(100+25)/2=62.5

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse

Læs mere

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU OUTLINE INEFFICIENCY OF ATTILA WAYS TO PARALLELIZE LOW COMPATIBILITY IN THE COMPILATION A SOLUTION

Læs mere

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher

Introduktion til Statistik. Forelæsning 12: Inferens for andele. Peder Bacher Introduktion til Statistik Forelæsning 12: Inferens for andele Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

R i 02402: Introduktion til Statistik

R i 02402: Introduktion til Statistik R i 02402: Introduktion til Statistik Per Bruun Brockhoff DTU Informatik, DK-2800 Lyngby 20. juni 2011 Indhold 1 Anvendelse af R på Databar-systemet på DTU 5 1.1 Adgang......................................

Læs mere

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher Introduktion til Statistik Forelæsning 10: Inferens for andele Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik

Læs mere

Hvorfor er det lige at vi skal lære det her?

Hvorfor er det lige at vi skal lære det her? Lektion 8 Stokastiske variable En stokastisk variabel er en afbildning af udfaldsrummet ind i de reelle tal. Man benytter ofte store bogstaver som X, Y og Z til at betegne en stokastisk variabel. Ved at

Læs mere

Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse

Læs mere

Almindelige kontinuerte fordelinger

Almindelige kontinuerte fordelinger Almindelige kontinuerte fordelinger Den uniforme fordeling Symbol: X Uniform a,b Beskrivelse: Et tilfældigt tal mellem a og b. Støtte: V X a, b. Tæthedsfunktion: f x 1/ b a for x a,b Fordelingsfunktion:

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Statistik for MPH: 7

Statistik for MPH: 7 Statistik for MPH: 7 3. november 2011 www.biostat.ku.dk/~pka/mph11 Attributable risk, bestemmelse af stikprøvestørrelse (Silva: 333-365, 381-383) Per Kragh Andersen 1 Fra den 6. uges statistikundervisning:

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Kvant Eksamen December 2010 3 timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Kvant Eksamen December 2010 3 timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer. Kvant Eksamen December 2010 3 timer med hjælpemidler 1 Hvad er en continuous variable? Giv 2 illustrationer. What is a continuous variable? Give two illustrations. 2 Hvorfor kan man bedre drage konklusioner

Læs mere

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2012 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017

Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017 Vejledende studieplan for kvantitativ metode og statistik FYS 514 Modul 14 efteråret 2017 Generelle kommentarer. Undervisningen følger lærebogen og det må kraftigt anbefales at anskaffe denne. Bogen koster

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere