Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Efterår 2016 DTU Compute Introduktion til Statistik Efterår 2016 1 / 55

enote 2: Kontinuerte fordelinger Grundlæggende koncepter: Tæthedsfunktion: f (x) (pdf) Fordelingsfunktion: F(x) = P(X x) (cdf) Middelværdi (µ) og varians (σ 2 ) Regneregler for stokastiske variabler Specifikke fordelinger: Normal Log-Normal Uniform Eksponential t χ 2 (Chi-i-anden) F DTU Compute Introduktion til Statistik Efterår 2016 2 / 55

enote 2: Continuous Distributions General concepts: Density function: f (x) (pdf) Distribution: F(x) = P(X x) (cdf) Mean (µ) and variance (σ 2 ) Calculation rules for random variables Specific distributions: Normal Log-Normal Uniform Exponential t χ 2 (Chi-square) F DTU Compute Introduktion til Statistik Efterår 2016 3 / 55

Oversigt 1 Kontinuerte Stokastiske variable og fordelinger Tæthedsfunktion Fordelingsfunktion Middelværdi af en kontinuert stokastisk variabel Varians af en kontinuert stokastisk variabel 2 Konkrete Statistiske fordelinger Kontinuerte fordelinger i R Uniform fordeling Eksempel 1 Normalfordelingen Eksempel 2 Eksempel 3 Eksempel 4 Log-Normal fordelingen 3 Eksponentialfordelingen Eksempel 5 Eksempel 6 Eksempel 7 4 Regneregler for stokastiske variable Eksempel 8 Eksempel 9 DTU Compute Introduktion til Statistik Efterår 2016 4 / 55

Kontinuerte Stokastiske variable og fordelinger Tæthedsfunktion Tæthedsfunktion (probability density function (pdf)) Tæthedsfunktionen for en stokastisk variabel betegnes ved f (x) f (x) siger noget om hyppigheden af udfaldet x for den stokastiske variabel X For kontinuerte variable svarer tætheden ikke til sandsynligheden, dvs. f (x) P(X = x) Et godt plot af f (x) er et histogram (kontinuert) DTU Compute Introduktion til Statistik Efterår 2016 6 / 55

Kontinuerte Stokastiske variable og fordelinger Tæthedsfunktion Tæthedsfunktion for en kontinuert variabel f (x) 0.0 0.1 0.2 0.3 0.4 P(a < X b) -4-2 a 0 b 2 4 x DTU Compute Introduktion til Statistik Efterår 2016 7 / 55

Kontinuerte Stokastiske variable og fordelinger Tæthedsfunktion Tæthedsfunktion for en kontinuert variabel For en kontinuert stokastisk variabel skrives tæthedsfunktionen som: Der gælder: f (x) f (x) 0 for alle mulige x f (x)dx = 1 DTU Compute Introduktion til Statistik Efterår 2016 8 / 55

Kontinuerte Stokastiske variable og fordelinger Fordelingsfunktion Fordelingsfunktion (distribution function eller cumulative density function (cdf)) Fordelingsfunktion for en kontinuert stokastisk variabel betegnes ved F(x) Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion: F(x) = P(X x) x F(x) = f (u)du f (x) = F (x) DTU Compute Introduktion til Statistik Efterår 2016 9 / 55

Kontinuerte Stokastiske variable og fordelinger Fordelingsfunktion Fordelingsfunktion (distribution function eller cumulative density function (cdf)) F(x) 0.0 0.2 0.4 0.6 0.8 1.0 P(a < X b) = F(b) F(a) -4-2 a 0 b 2 4 x DTU Compute Introduktion til Statistik Efterår 2016 10 / 55

Kontinuerte Stokastiske variable og fordelinger Fordelingsfunktion Spørgsmål om sandsynligheder (socrative.com, room: PBAC) f (x) 0.0 0.1 0.2 0.3 0.4? -4-2 0 2 4 a b x Spørgsmål: Hvilket areal (sandsynlighed) er markeret? A: b f (x)dx Svar C: b a f (x)dx B: 1 b a f (x)dx C: b a f (x)dx D: 1 a f (x)dx DTU Compute Introduktion til Statistik Efterår 2016 11 / 55

Kontinuerte Stokastiske variable og fordelinger Fordelingsfunktion Spørgsmål om sandsynligheder (socrative.com, room: PBAC) f (x) 0.0 0.1 0.2 0.3 0.4? -4-2 0 2 4 a b x Spørgsmål: Hvordan kan vi nemmest udregne det markerede areal? A: b a f (x)dx B: b a F(x)dx C: f (b) f (a) D: F(b) F(a) Svar D: F(b) F(a) (vi gør det i R med (normalfordelt): pnorm(b) - pnorm(a)) DTU Compute Introduktion til Statistik Efterår 2016 12 / 55

Kontinuerte Stokastiske variable og fordelinger Fordelingsfunktion Den empiriske cumulative distribution function - ecdf vs. cdf Student height example from Chapter 1: ## Plot empirisk cdf (ecdf) og estimeret cdf ## Højderne x <- c(168,161,167,179,184,166,198,187,191,179) ## Plot den empiriske cdf plot(ecdf(x), verticals = TRUE) ## En række x punkter xp <- 150:210 ## Den estimerede cdf lines(xp, pnorm(xp, mean(x), sd(x))) DTU Compute Introduktion til Statistik Efterår 2016 13 / 55

Kontinuerte Stokastiske variable og fordelinger Middelværdi af en kontinuert stokastisk variabel Middelværdi (mean) af en kontinuert stokastisk variabel Middelværdien af en kontinuert stokastisk variabel µ = x f (x)dx Sammenlign med den diskrete definition: µ = x f (x) alle x DTU Compute Introduktion til Statistik Efterår 2016 14 / 55

Kontinuerte Stokastiske variable og fordelinger Varians af en kontinuert stokastisk variabel Varians af en kontinuert stokastisk variabel Variansen af en kontinuert stokastisk variabel: σ 2 = (x µ) 2 f (x)dx Sammenlign med den diskrete definition: σ 2 = (x µ) 2 f (x) alle x DTU Compute Introduktion til Statistik Efterår 2016 15 / 55

Kontinuerte Stokastiske variable og fordelinger Varians af en kontinuert stokastisk variabel Spørgsmål om middelværdi (socrative.com, room: PBAC) f (x) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 f 1 (x) f 2 (x) -4-2 0 2 4 x Spørgsmål: Hvilken middelværdi er størst? A: µ 1 < µ 2 B: µ 1 > µ 2 C: µ 1 = µ 2 D: Kan ikke afgøres Svar A: µ 1 < µ 2. (D er også fint at svare, da man ikke kan se hvad der er under -4 og over 4.) DTU Compute Introduktion til Statistik Efterår 2016 16 / 55

Kontinuerte Stokastiske variable og fordelinger Varians af en kontinuert stokastisk variabel Spørgsmål om middelværdi (socrative.com, room: PBAC) f (x) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 f 1 (x) f 2 (x) -4-2 0 2 4 x Spørgsmål: Hvilken spredning er størst? A: σ 1 < σ 2 B: σ 1 > σ 2 C: σ 1 = σ 2 D: Kan ikke afgøres Svar B: σ 1 > σ 2. (D er også fint at svare, da man ikke kan se hvad der er under -4 og over 4.) DTU Compute Introduktion til Statistik Efterår 2016 17 / 55

Konkrete Statistiske fordelinger Konkrete statistiske fordelinger Der findes en række statistiske fordelinger, som kan bruges til at beskrive og analysere forskellige problemstillinger med Følgende kontinuerte fordelinger: Uniform fordeling Normalfordelingen Log-normalfordelingen Eksponentialfordelingen DTU Compute Introduktion til Statistik Efterår 2016 19 / 55

Konkrete Statistiske fordelinger Kontinuerte fordelinger i R Kontinuerte fordelinger i R R norm unif lnorm exp Betegnelse Normalfordelingen Uniform fordeling Log-normalfordelingen Eksponentialfordelingen d Tæthedsfunktion f (x) (probability density function). p Fordelingsfunktion F(x) (cumulative distribution function). q Fraktil (quantile) i fordeling. r Tilfældige tal fra fordelingen. DTU Compute Introduktion til Statistik Efterår 2016 20 / 55

Uniform fordeling Konkrete Statistiske fordelinger Uniform fordeling Skrivemåde: X U(α,β) (Læses: X følger en uniform fordeling med parametre α og β) Tæthedsfunktion: f (x) = 1 β α Middelværdi: µ = α+β 2 Varians: σ 2 = 12 1 (β α)2 DTU Compute Introduktion til Statistik Efterår 2016 21 / 55

Uniform fordeling Konkrete Statistiske fordelinger Uniform fordeling Uniform fordeling U(4,5) 1 0.8 Taethed, f(x) 0.6 0.4 0.2 0 3.5 4 4.5 5 5.5 x DTU Compute Introduktion til Statistik Efterår 2016 22 / 55

Konkrete Statistiske fordelinger Uniform fordeling Spørgsmål om uniform fordelt variabel (socrative.com, room: PBAC) Medarbejdere på en arbejdsplads ankommer mellem klokken 8.00 og 8.30. Det antages, at ankomsttiden kan beskrives ved en uniform fordeling. Hvad er sandsynligheden for at en tilfældig udvalgt medarbejder ankommer mellem 8.20 og 8.30? A: 1/2 B: 1/6 C: 1/3 D: 0 E: Ved ikke Svar C: 10/30=1/3 punif(30,0,30)-punif(20,0,30) [1] 0.33 DTU Compute Introduktion til Statistik Efterår 2016 23 / 55

Konkrete Statistiske fordelinger Uniform fordeling Spørgsmål om uniform fordelt variabel (socrative.com, room: PBAC) Medarbejdere på en arbejdsplads ankommer mellem klokken 8.00 og 8.30. Det antages, at ankomsttiden kan beskrives ved en uniform fordeling. Spørgsmål: Hvad er sandsynligheden for at en tilfældig udvalgt medarbejder ankommer efter 8.30? Svar: P(X > 30) = 0 1-punif(30,0,30) [1] 0 DTU Compute Introduktion til Statistik Efterår 2016 24 / 55

Normalfordelingen Konkrete Statistiske fordelinger Normalfordelingen Skrivemåde: X N(µ,σ 2 ) Tæthedsfunktion: f (x) = 1 (x µ)2 σ e 2σ 2 2π Middelværdi: µ = µ Varians: σ 2 = σ 2 DTU Compute Introduktion til Statistik Efterår 2016 25 / 55

Normalfordelingen Konkrete Statistiske fordelinger Normalfordelingen 0.5 Normalfordeling 0.45 0.4 0.35 Taethed, f(x) 0.3 0.25 0.2 0.15 0.1 0.05 0 5 4 3 2 1 0 1 2 3 4 5 x DTU Compute Introduktion til Statistik Efterår 2016 26 / 55

Normalfordelingen Konkrete Statistiske fordelinger Normalfordelingen Sammenligning af to normalfordelinger med forskellig middelvardi og ens varians 0.45 N(0,1 2 ) N(5,1 2 ) 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0.05 5 0 5 10 DTU Compute Introduktion til Statistik Efterår 2016 27 / 55

Normalfordelingen Konkrete Statistiske fordelinger Normalfordelingen Sammenligning af tre normalfordelinger med ens middelvardi og forskellig varians 0.5 0.4 Taethed, f(x) 0.3 0.2 0.1 0 10 8 6 4 2 0 2 4 6 8 10 x DTU Compute Introduktion til Statistik Efterår 2016 28 / 55

Normalfordelingen Konkrete Statistiske fordelinger Normalfordelingen En standard normalfordeling: Z N(0,1 2 ) En normalfordeling med middelværdi 0 og varians 1. Standardisering: En vilkårlig normalfordelt variabel X N(µ,σ 2 ) kan standardiseres ved at beregne Z = X µ σ DTU Compute Introduktion til Statistik Efterår 2016 29 / 55

Konkrete Statistiske fordelinger Normalfordelingen Eksempel 2 Målefejl: En vægt har en målefejl, Z, der kan beskrives ved en standard normalfordeling, dvs Z N(0,1 2 ) dvs. middelværdi µ = 0 og spredning σ = 1 gram. Vi måler nu vægten af ét emne Spørgsmål a): Hvad er sandsynligheden for at vægten måler mere end 2 gram for lidt? DTU Compute Introduktion til Statistik Efterår 2016 30 / 55

Eksempel 2 Konkrete Statistiske fordelinger Normalfordelingen dnorm(z) -3-2 -1 0 1 2 3 z Svar: P(Z 2) = 0.02275 pnorm(-2) [1] 0.023 DTU Compute Introduktion til Statistik Efterår 2016 31 / 55

Konkrete Statistiske fordelinger Normalfordelingen Eksempel 2 Spørgsmål: Hvad er sandsynligheden for at vægten måler mindst 2 gram for meget? Svar: P(Z 2) = 1 P(Z < 2) = 0.02275 1-pnorm(2) dnorm(z) [1] 0.023-3 -2-1 0 1 2 3 z DTU Compute Introduktion til Statistik Efterår 2016 32 / 55

Konkrete Statistiske fordelinger Normalfordelingen Eksempel 2 Spørgsmål: Hvad er sandsynligheden for at vægten måler mere end ±1 gram forkert? A: pnorm(1) - pnorm(-1) B: 2*pnorm(-1) C: 2*pnorm(1) D: Ved ikke Svar B: P(Z 1 Z > 1) = P(Z 1) + P(Z > 1) = 2P(Z 1) = 0.32 2*pnorm(-1) dnorm(z) [1] 0.32-3 -2-1 0 1 2 3 z DTU Compute Introduktion til Statistik Efterår 2016 33 / 55

Konkrete Statistiske fordelinger Normalfordelingen Eksempel 3 Indkomstfordeling: Det antages, at blandt en gruppe lærere i folkeskolen, at lønnen kan beskrives ved en normalfordeling med middelværdi µ = 280.000 og spredning σ = 10.000. Hvad er sandsynligheden for at en tilfældig udvalgt lærer tjener mere end 300.000? A: P(Z > 300 280 10 ) B: P(Z > 300) C: P(Z > 280 10 ) D: Ved ikke Svar: P(X > 300) = P(Z > 300 280 10 ) = P(Z > 2) = 0.023 X N(300,10 2 ) Z = X 280 10 N(0,1 2 ) DTU Compute Introduktion til Statistik Efterår 2016 34 / 55

Eksempel 3 Konkrete Statistiske fordelinger Normalfordelingen Indkomstfordeling: Det antages, at blandt en gruppe lærere i folkeskolen, at lønnen kan beskrives ved en normalfordeling med middelværdi µ = 280.000 og spredning σ = 10.000. Spørgsmål: Hvad er sandsynligheden for at en tilfældig udvalgt lærer tjener mere end 300.000? Svar: 1-pnorm((300-280)/10) [1] 0.023 dnorm(z) 1-pnorm(300, mean = 280, sd = 10) [1] 0.023 z 250 260 270 280 290 300 310 DTU Compute Introduktion til Statistik Efterår 2016 35 / 55

Konkrete Statistiske fordelinger Normalfordelingen Eksempel 4 Ny indkomstfordeling Det antages, at blandt en gruppe lærere i folkeskolen, at lønnen kan beskrives ved en normalfordeling med middelværdi µ = 290.000 og spredning σ = 4.000 Omvendt spørgsmål Angiv det interval, der dækker over 95% af læreres løn Svar: qnorm(0.025, mean = 290, sd = 4) [1] 282.2 qnorm(0.975, mean = 290, sd = 4) [1] 297.8 DTU Compute Introduktion til Statistik Efterår 2016 36 / 55

Log-Normalfordelingen Konkrete Statistiske fordelinger Log-Normal fordelingen Skrivemåde: X LN(α,β 2 ) (Hvis X følger log-normal så følger log(x) normal) Tæthedsfunktion: f (x) = { 1 x 2πβ e (ln(x) α)2 /2β 2 x > 0, β > 0 0 ellers Middelværdi: µ = e α+β 2 /2 Varians: σ 2 = e 2α+β 2 (e β 2 1) DTU Compute Introduktion til Statistik Efterår 2016 37 / 55

Konkrete Statistiske fordelinger Log-normal fordelingen Log-Normal fordelingen 0.25 Log Normalfordeling LN(1,1) 0.2 LN(1,1) Taethed, f(x) 0.15 0.1 0.05 0 0 5 10 15 20 25 30 x DTU Compute Introduktion til Statistik Efterår 2016 38 / 55

Konkrete Statistiske fordelinger Log-normal fordelingen Log-Normal fordelingen Lognormal og Normalfordelingen: En log-normal fordelt variabel Y LN(α,β 2 ), kan transformeres til en standard normalfordelt variabel X ved dvs. X = ln(y) α β X N(0,1 2 ) DTU Compute Introduktion til Statistik Efterår 2016 39 / 55

Eksponentialfordelingen Eksponentialfordelingen Skrivemåde: X Exp(λ) Tæthedsfunktionen { λe λx x > 0 f (x) = 0 ellers Middelværdi µ = 1 λ Varians σ 2 = 1 λ 2 DTU Compute Introduktion til Statistik Efterår 2016 41 / 55

Eksponentialfordelingen Eksponentialfordelingen Eksponential fordeling med β=1 1 0.8 EXP(1) Taethed, f(x) 0.6 0.4 0.2 0 1 0 1 2 3 4 5 6 7 8 9 10 x DTU Compute Introduktion til Statistik Efterår 2016 42 / 55

Eksponentialfordelingen Eksponentialfordelingen Eksponentialfordelingen er et special tilfælde af Gammafordelingen Eksponentialfordelingen anvendes f.eks. til at beskrive levetider og ventetider Eksponentialfordelingen kan bruges til at beskrive (vente)tiden mellem hændelser i poissonproces DTU Compute Introduktion til Statistik Efterår 2016 43 / 55

Eksponentialfordelingen Sammenhæng mellem eksponential- og poissonfordelingen Poisson: Diskrete hændelser pr. enhed Eksponential: Kontinuert afstand mellem hændelser t 1 t 2 tid t DTU Compute Introduktion til Statistik Efterår 2016 44 / 55

Eksponentialfordelingen Eksempel 5 Eksempel 5 Kø-model - poissonproces Tiden mellem kundeankomster på et posthus er eksponentialfordelt med middelværdi µ = 2 minutter. Spørgsmål: En kunde er netop ankommet. Hvad er sandsynligheden for at der ikke kommer flere kunder indefor en periode på 2 minutter? Svar: 1-pexp(2, rate = 1/2) [1] 0.37 DTU Compute Introduktion til Statistik Efterår 2016 45 / 55

Eksponentialfordelingen Eksempel 6 Eksempel 6 Spørgsmål: En kunde er netop ankommet. Beregn sandsynligheden for at der ikke kommer flere kunder indefor en periode på 2 minutter vha. poissonfordelingen Svar: λ 2min = 1, P(X = 0) = e 1 1! 10 = e 1 dpois(0,1) [1] 0.37 exp(-1) [1] 0.37 DTU Compute Introduktion til Statistik Efterår 2016 46 / 55

Eksponentialfordelingen Eksempel 7 Eksempel 7 Andre tidsperioder: Tiden mellem kundeankomster på et posthus er eksponentialfordelt med middelværdi µ = 2 minutter. Vi betragter nu en periode på 10 minutter Spørgsmål: Beregn sandsynligheden for at der ikke kommer nogen kunder i perioden vha. poissonfordelingen Svar: λ 10min = 5, P(X = 0) = e 5 1! 50 = e 5 dpois(0,5) [1] 0.0067 DTU Compute Introduktion til Statistik Efterår 2016 47 / 55

Regneregler for stokastiske variable Regneregler for stokastiske variable (Gælder BÅDE kontinuert og diskret) X er en stokastisk variabel Vi antager at a og b er konstanter. Da gælder: Middelværdi-regel: E(aX + b) = ae(x) + b Varians-regel: Var(aX + b) = a 2 Var(X) DTU Compute Introduktion til Statistik Efterår 2016 49 / 55

Regneregler for stokastiske variable Eksempel 8 Eksempel 8 X er en stokastisk variabel En stokastisk variabel X har middelværdi 4 og varians 6. Spørgsmål: Beregn middelværdi og varians for Y = 3X + 2 Svar: E(Y) = 3E(X) + 2 = 3 4 + 2 = 10 Var(Y) = ( 3) 2 Var(X) = 9 6 = 54 DTU Compute Introduktion til Statistik Efterår 2016 50 / 55

Regneregler for stokastiske variable Eksempel 8 Regneregler for stokastiske variable X 1,...,X n er stokastiske variable Da gælder (når de er uafhængige): Middelværdi-regel: E(a 1 X 1 + a 2 X 2 +.. + a n X n ) = a 1 E(X 1 ) + a 2 E(X 2 ) +.. + a n E(X n ) Varians-regel: Var(a 1 X 1 + a 2 X 2 +.. + a n X n ) = a 2 1 Var(X 1) +.. + a 2 nvar(x n ) DTU Compute Introduktion til Statistik Efterår 2016 51 / 55

Regneregler for stokastiske variable Eksempel 9 Eksempel 9 Flypassager-planlægning Vægten af passagerer på en flystrækning antages normalfordelt X N(70,10 2 ). Et fly, der kan tage 55 passagerer, må max. lastes med 4000 kg (kun passageres vægt betragtes som last). Spørgsmål: Beregn sandsynligheden for at flyet bliver overlastet Hvad er Y=Total passagervægt? Hvad er Y? I hvert fald IKKE: Y = 55 X!!!!!! DTU Compute Introduktion til Statistik Efterår 2016 52 / 55

Eksempel 9 Regneregler for stokastiske variable Eksempel 9 Hvad er Y=Total passagervægt? Y = 55 i=1 X i, hvor X i N(70,10 2 ) Middelværdi og varians for Y: E(Y) = Var(Y) = 55 i=1 55 i=1 E(X i ) = Var(X i ) = 55 i=1 55 i=1 70 = 55 70 = 3850 100 = 55 100 = 5500 Bruger normalfordeling for Y: 1-pnorm(4000, mean = 3850, sd = sqrt(5500)) [1] 0.022 DTU Compute Introduktion til Statistik Efterår 2016 53 / 55

Regneregler for stokastiske variable Eksempel 9 Eksempel 9 - FORKERT ANALYSE Hvad er Y? I hvert fald IKKE: Y = 55 X!!!!!! Middelværdi og varians for Y: E(Y) = 55 70 = 3850 Var(Y) = 55 2 Var(X) = 55 2 100 = 550 2 Bruger normalfordeling for Y: 1-pnorm(4000, mean = 3850, sd = 550) [1] 0.39 Konsekvens af forkert beregning: MANGE spildte penge for flyselskabet!!! DTU Compute Introduktion til Statistik Efterår 2016 54 / 55

Oversigt Regneregler for stokastiske variable Eksempel 9 1 Kontinuerte Stokastiske variable og fordelinger Tæthedsfunktion Fordelingsfunktion Middelværdi af en kontinuert stokastisk variabel Varians af en kontinuert stokastisk variabel 2 Konkrete Statistiske fordelinger Kontinuerte fordelinger i R Uniform fordeling Eksempel 1 Normalfordelingen Eksempel 2 Eksempel 3 Eksempel 4 Log-Normal fordelingen 3 Eksponentialfordelingen Eksempel 5 Eksempel 6 Eksempel 7 4 Regneregler for stokastiske variable Eksempel 8 Eksempel 9 DTU Compute Introduktion til Statistik Efterår 2016 55 / 55