Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: perbb@dtu.dk Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 1 / 55 Oversigt 1 Tæthedsfunktion Fordelingsfunktion Middelværdi af en kontinuert stokastisk variabel Varians af en kontinuert stokastisk variabel Kovariansen af to stokastiske variable 2 Eksempel 1 Eksempel 3 Eksempel 4 Eksempel 5 Eksempel 6 Eksempel 7 Eksempel 8 3 Regneregler for stokastiske variable Eksempel 9 Eksempel 1 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 2 / 55 Tæthedsfunktion Tæthedsfunktion Tæthedsfunktion (probability density function (pdf)) Tæthedsfunktion for en kontinuert variabel Tæthedsfunktionen for en stokastisk variabel betegnes ved f() f() siger noget om hyppigheden af udfaldet for den stokastiske variabel X For kontinuerte variable svarer tætheden ikke til sandsynligheden, dvs. f() P (X = ) Et godt plot af f() er et histogram (kontinuert) f()..1.2.3.4 P (a < X b) a -4-2 2 4 b Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 4 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 5 / 55
Tæthedsfunktion Fordelingsfunktion Tæthedsfunktion for en kontinuert variabel Fordelingsfunktion (distribution function eller cumulative density function (cdf)) For en kontinuert stokastisk variabel skrives tæthedsfunktionen som: f() Der gælder: f() for alle mulige f()d = 1 Fordelingsfunktion for en kontinuert stokastisk variabel betegnes ved F (). Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion: F () = P (X ) F () = f(u)du f() = F () Et godt plot for fordelingsfunktionen er den kumulative fordeling Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 6 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 7 / 55 Fordelingsfunktion Fordelingsfunktion Fordelingsfunktion (distribution function eller cumulative density function (cdf)) Den empiriske cumulative distribution function - ecdf Student height eample from Chapter 1: F ()..2.4.6.8 1. P (a < X b) = F (b) F (a) a -4-2 2 4 b <- c(168,161,167,179,184,166,198,187,191,179) plot(ecdf(), verticals = TRUE) p <- seq(.9*min(), 1.1*ma(), length.out = 1) lines(p, pnorm(p, mean(), sd())) Fn()..2.4.6.8 1. ecdf() 16 17 18 19 2 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 8 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 9 / 55
Middelværdi af en kontinuert stokastisk variabel Varians af en kontinuert stokastisk variabel Middelværdi (mean) af en kontinuert stokastisk variabel Varians af en kontinuert stokastisk variabel Middelværdien af en kontinuert stokastisk variabel µ = f()d Variansen af en kontinuert stokastisk variabel: σ 2 = ( µ) 2 f()d Sammenlign med den diskrete definition: Sammenlign med den diskrete definition: µ = i f( i ) i=1 σ 2 = ( i µ) 2 f( i ) i=1 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 1 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 11 / 55 Kovariansen af to stokastiske variable Kovariansen af to stokastiske variable Konkrete statistiske fordelinger Kovariansen af to stokastiske variable: Let X and Y be two random variables, then the covariance between X and Y, is Cov(X, Y ) = E[(X E[X])(Y E[Y ])] Der findes en række statistiske fordelinger, som kan bruges til at beskrive og analysere forskellige problemstillinger med Vi betragter nu kontinuerte fordelinger Normal fordelingen Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 12 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 14 / 55
Skrivemåde: X U(α, β) Tæthedsfunktion: f() = 1 β α Middelværdi: µ = α+β 2 Taethed, f() 1.8.6.4.2 Uniform fordeling U(4,5) Varians: σ 2 = 1 12 (β α)2 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 15 / 55 3.5 4 4.5 5 5.5 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 16 / 55 Eksempel 1 Eksempel 1 - forts. Medarbejdere på en arbejdsplads ankommer mellem klokken 8. og 8.3. Det antages, at ankomsttiden kan beskrives ved en uniform fordeling. Hvad er sandsynligheden for at en tilfældig udvalgt medarbejder (Hans) ankommer mellem 8.2 og 8.3? 1/3=1/3 punif(3,,3)-punif(2,,3) Hvad er sandsynligheden for at en tilfældig udvalgt medarbejder (Martin) ankommer efter 8.3? 1-punif(3,,3) [1] [1].33333 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 17 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 18 / 55
Taethed, f().5.45.4.35.3.25.2 Normalfordeling Normal fordelingen Skrivemåde: X N(µ, σ 2 ) Tæthedsfunktion: f() = 1 σ 2π ( µ) 2 e 2σ 2.15.1.5 5 4 3 2 1 1 2 3 4 5 Middelværdi: µ = µ Varians: σ 2 = σ 2 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 19 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 2 / 55 Normalfordeling N(,1 2 ) Sammenligning af to normalfordelinger med forskellig middelvardi og ens varians.45.4.45.4 N(,1 2 ) N(5,1 2 ).35.35.3.3 Taethed, f().25.2.15.25.2.15.1.1.5.5 3σ 2σ σ µ.5 5 4 3 2 1 1 2 3 4 5 σ 2σ 3σ.5 5 5 1 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 21 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 22 / 55
Sammenligning af tre normalfordelinger med ens middelvardi og forskellig varians Normal fordelingen Taethed, f().5.4.3.2.1 En standard normal fordeling: Z N(, 1 2 ) En normalfordeling med middelværdi og varians 1. Standardisering: En vilkårlig normal fordelt variabel X N(µ, σ 2 ) kan standardiseres ved at beregne Z = X µ σ 1 8 6 4 2 2 4 6 8 1 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 23 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 24 / 55 Målefejl: En vægt har en målefejl, Z, der kan beskrives ved en standard normalfordeling, dvs Z N(, 1 2 ) dvs. middelværdi µ = og spredning σ = 1 gram. Vi måler nu vægten af ét emne pnorm(-2) [1].2275 Spørgsmål a): Hvad er sandsynligheden for at vægten måler mindst 2 gram for lidt? dnorm(z) P (Z 2) =.2275 3 2 1 1 2 3 z pnorm(-2) Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 25 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 26 / 55
Spørgsmål b): Hvad er sandsynligheden for at vægten måler mindst 2 gram for meget? P (Z 2) =.2275 Spørgsmål c): Hvad er sandsynligheden for at vægten måler højst ±1 gram forkert? P ( Z 1) = P ( 1 Z 1) = P (Z 1) P (Z 1) =.683 1-pnorm(2) [1].2275 dnorm(z) pnorm(1)-pnorm(-1) [1].68269 dnorm(z) 3 1 1 2 3 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 27 / 55 z 3 1 1 2 3 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, z Forelæsning 3 Foråret 216 28 / 55 Spørgsmål c): Hvad er sandsynligheden for at vægten måler højst ±1 gram forkert? P ( Z 1) = P ( 1 Z 1) = P (Z 1) P (Z 1) =.683 pnorm(1)-pnorm(-1) [1].68269 dnorm(z) Eksempel 3 Indkomstfordeling: Det antages, at blandt en gruppe lærere i folkeskolen, at lønnen kan beskrives ved en normalfordeling med middelværdi µ = 28. og spredning σ = 1.. Spørgsmål a): Hvad er sandsynligheden for at en tilfældig udvalgt lærer tjener mere end 3.? P (X > 3) = P (Z > 3 28 1 ) = P (Z > 2) =.23 3 1 1 2 3 X N(3, 1 2 ) Z = X 28 1 N(, 1 2 ) Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, z Forelæsning 3 Foråret 216 29 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 3 / 55
Eksempel 3 Spørgsmål a): Hvad er sandsynligheden for at en tilfældig udvalgt lærer tjener mere end 3.? 1-pnorm(3, m = 28, s = 1) [1].2275 1-pnorm((3-28)/1) [1].2275 dnorm(z) Eksempel 4 En mere smal fordeling: Det antages, at blandt en gruppe lærere i folkeskolen, at lønnen kan beskrives ved en normalfordeling med middelværdi µ = 29. og spredning σ = 4.. Spørgsmål a): Hvad er sandsynligheden for at en tilfældig udvalgt lærer tjener mere end 3.? 25 27 29 31 z Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 31 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 32 / 55 Eksempel 4 Spørgsmål a): Hvad er sandsynligheden for at en tilfældig udvalgt lærer tjener mere end 3.? 1-pnorm(3, m = 29, s = 4) [1].6297 Eksempel 5 Samme indkomstfordeling Det antages, at blandt en gruppe lærere i folkeskolen, at lønnen kan beskrives ved en normalfordeling med middelværdi µ = 29. og spredning σ = 4. Omvendt spørgsmål Angiv det interval, der dækker over 95% af læreres løn dnorm(z) qnorm(c(.25,.975), m = 29, s = 4) [1] 282.16 297.84 278 282 286 29 294 298 32 z Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 33 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 34 / 55
Skrivemåde: X LN(α, β) Tæthedsfunktion: Middelværdi: µ = e α+β2 /2 f() = { 1 β 2π 1 e (ln() α)2 /2β 2 >, β > ellers Taethed, f().25.2 LN(1,1).15.1.5 Log Normalfordeling LN(1,1) Varians: σ 2 = e 2α+β2 (e β2 1) 5 1 15 2 25 3 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 35 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 36 / 55 Kontinuerte fordelinger i R Lognormal og : En log-normal fordelt variabel Y LN(α, β), kan transformeres til en standard normal fordelt variabel X ved dvs. X = ln(y ) α β X N(, 1 2 ) R norm unif lnorm ep Betegnelse Den uniforme fordeling Log-normalfordelingen Eponentialfordelingen d Tæthedsfunktion f() (probability density function). p Fordelingsfunktion F () (cumulative distribution function). q Fraktil (quantile) i fordeling. r Tilfældige tal fra fordelingen. Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 37 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 38 / 55
Eksponentialfordelingen Tæthedsfunktionen { 1 f() = β e /β >, β > ellers er et special tilfælde af Gamma fordelingen anvendes f.eks. til at beskrive levetider og ventetider kan bruges til at beskrive (vente)tiden mellem hændelser i poisson fordelingen Middelværdi µ = β Varians σ 2 = β 2 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 39 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 4 / 55 Sammenhæng mellem Eksponential og Poisson fordelingen Eksponential fordeling med β=1 1 Poisson: Diskrete hændelser pr. enhed.8 EXP(1) t 1 t 2 Eksponential: Kontinuert afstand mellem hændelser Taethed, f().6.4 tid t.2 1 1 2 3 4 5 6 7 8 9 1 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 41 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 42 / 55
Eksempel 6 Eksempel 6 Kø-model - poisson proces Ep(2) distribution Tiden mellem kundeankomster på et posthus er eksponential fordelt med middelværdi µ = 2 minutter. En kunde er netop ankommet. Hvad er sandsynligheden for at der ikke kommer flere kunder indefor en periode på 2 minutter? 1-pep(2, rate = 1/2) dep(z, 1/2)..1.2.3.4.5 P(X<2) =.63 P(X>2) =.37 2 4 6 8 [1].36788 z Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 43 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 44 / 55 Eksempel 6 z=seq(,8,by=.1) plot(z,dep(z, 1/2),type = "l", main = "Ep(2) - distribution") polygon(c(2, seq(2, 8, by =.1), 8, 2), c(, dep(seq(2, 8, by =.1), 1/2),, ), col = "pink") tet(3,.7,"p(x>2)") tet(3,.3,"=.37") polygon(c(2, seq(2,, by = -.1),, 2), c(, dep(seq(2,, by =-.1), 1/2),, ), col = "grey") tet(1,.1,"p(x<2)") tet(1,.5,"=.63") Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 45 / 55 Eksempel 7 En kunde er netop ankommet. Beregn sandsynligheden for at der ikke kommer flere kunder indefor en periode på 2 minutter vha. Poissonfordelingen λ 2min = 1, P (X = ) = e 1 1! 1 = e 1 dpois(,1) [1].36788 ep(-1) [1].36788 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 46 / 55
Regneregler for stokastiske variable Eksempel 8 Andre tidsperioder: Tiden mellem kundeankomster på et posthus er eksponential fordelt med middelværdi µ = 2 minutter. Vi betragter nu en periode på 1 minutter Beregn sandsynligheden for at der ikke kommer nogen kunder i perioden vha. Poissonfordelingen λ 1min = 5, P (X = ) = e 5 1! 5 = e 5 dpois(,5) Regneregler for stokastiske variable (Gælder BÅDE kontinuert og diskret) X er en stokastisk variabel. Vi antager at a og b er konstanter Da gælder: Middelværdi-regel: E(aX + b) = ae(x) + b Varians-regel: V ar(ax + b) = a 2 V ar(x) [1].67379 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 47 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 49 / 55 Eksempel 9 Regneregler for stokastiske variable Eksempel 9 Regneregler for stokastiske variable Eksempel 9 Regneregler for stokastiske variable X er en stokastisk variabel. En stokastisk variabel X har middelværdi 4 og varians 6. Beregn middelværdi og varians for Y = 3X + 2 E(Y ) = 3E(X) + 2 = 3 4 + 2 = 1 Var(Y ) = ( 3) 2 Var(X) = 9 6 = 54 X 1,..., X n er stokastiske variable Da gælder (når de er uafhængige): Middelværdi-regel: E(a 1 X 1 + a 2 X 2 +.. + a n X n ) = a 1 E(X 1 ) + a 2 E(X 2 ) +.. + a n E(X n ) Varians-regel: V ar(a 1 X 1 + a 2 X 2 +.. + a n X n ) = a 2 1V ar(x 1 ) +.. + a 2 nv ar(x n ) Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 5 / 55 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 51 / 55
Eksempel 1 Flypassager-planlægning Regneregler for stokastiske variable Eksempel 1 Vægten af passagerer på en flystrækning antages normalfordelt X N(7, 1 2 ). Et fly, der kan tage 55 passagerer, må ma. lastes med 4 kg (kun passageres vægt betragtes som last). Beregn sandsynligheden for at flyet bliver overlastet Hvad er Y=Total passagervægt? Hvad er Y? I hvert fald IKKE: Y = 55 X!!!!!! Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 52 / 55 Eksempel 1 Regneregler for stokastiske variable Eksempel 1 Hvad er Y=Total passagervægt? Y = 55 i=1 X i, hvor X i N(7, 1 2 ) Middelværdi og varians for Y : 55 55 E(Y ) = E(X i ) = 7 = 55 7 = 385 i=1 i=1 55 55 Var(Y ) = Var(X i ) = 1 = 55 1 = 55 i=1 Bruger normalfordeling for Y : i=1 1-pnorm(4, m = 385, s = sqrt(55)) [1].21557 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 53 / 55 Regneregler for stokastiske variable Eksempel 1 Eksempel 1 - FORKERT ANALYSE Hvad er Y? I hvert fald IKKE: Y = 55 X!!!!!! Middelværdi og varians for Y : E(Y ) = 55 7 = 385 Var(Y ) = 55 2 Var(X) = 55 2 1 = 55 2 Bruger normalfordeling for Y : 1-pnorm(4, m = 385, s = 55) [1].39253 Konsekvens af forkert beregning: MANGE spildte penge for flyselskabet!!! Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 54 / 55 Oversigt Regneregler for stokastiske variable Eksempel 1 1 Tæthedsfunktion Fordelingsfunktion Middelværdi af en kontinuert stokastisk variabel Varians af en kontinuert stokastisk variabel Kovariansen af to stokastiske variable 2 Eksempel 1 Eksempel 3 Eksempel 4 Eksempel 5 Eksempel 6 Eksempel 7 Eksempel 8 3 Regneregler for stokastiske variable Eksempel 9 Eksempel 1 Per Brockhoff (perbb@dtu.dk) Introduktion til Statistik, Forelæsning 3 Foråret 216 55 / 55