Mogens Bladt www2.imm.dtu.dk/courses/02405 12. Oktober, 2007
Kontinuerte fordelinger Vi har hidtil set på fordelinger af stokastiske variable der højst kan antage tælleligt mange værdier (diskrete stokastiske variable). Enten er udfaldsrummet endeligt eller kan numereres ved IN. Det er ofte ønskeligt, at beskrive stokastiske modeller der tillader kontinuerte udfald, dvs. udfaldsrummet indeholder flere end tælleligt mange elementer. Eksempler: Højde, vægt, blodtryk. Aktiepris, renteniveauer, forsikringsskader. Hastighed, GPS koordinater, lufttryk, temperatur.
Kontinuerte fordelinger I princippet kunne man i de fleste tilfælde nøjes med diskrete modeller: Højde og vægt måles indtil en vis usikkerhed, f.eks. ned til hele gram. Aktierkurser måles ned til 1/8 USD, renter typisk ned til kvarte procentpoint og skader ned til hele kroner. Mere generelt er de rationelle tal (de som kan skrives som brøker mellem to heltal) tællelige og approximerer ethvert reelt tal så godt som det måtte ønskes. Så i princippet er der stort set ikke behov for kontinuerte modeller! Kontinuerte modeller er mere elegante og giver større fleksibilitet i mulige fordelinger, Analyse i kontinuerte fordelinger er oftest lettere end i diskrete fordelinger. Mange fænomerner er naturligt set af den kontinuert type.
Kontinuerte fordelinger Kontinuerte fordelinger kan ikke defineres som de diskrete som en samling tal (sandsynligheder) der summer til 1. Vi definerer dem ud fra stokastiske variable istedet. Ved en kontinuert stokastisk variabel X forstås en stokastisk variabel som kan tage mere en tælleligt mange værdier. Med definitionen fra diskret teori i baghovedet, så definerer vi en kontinuert stokastisk variabel som X : Ω E, hvor Ω er udfaldsrummet, som skal være overtælleligt, og en mængde, typisk de reelle tal IR. Hvis Ω kun var endelig eller tællelig så ville der højst være endeligt (tælleligt) mange X (ω), ω Ω. Defor skal den være overtællelig.
Kontinuerte fordelinger Fordelingen af en kontinuert stokastisk variabel er karakteriseret ved sandsynligheder på formen IP(a X b). Specielt er den karakteriseret ved fordelingsfunktionen F X (x) = IP(X x). Specielt fås IP(a < X b) = IP(X b) IP(X a) = F (b) F (a). Denne formel er vigtig så vi viser den en gang til for Prins Knud.
Kontinuerte fordelinger Hvis B A så er IP(A\B) = IP(A B c ). A = (A\B) B og disse er disjunkte. Derfor er IP(A) = IP(A\B) + IP(B), eller IP(A\B) = IP(A) IP(B). For a < b er {X a} {X b}. Derfor er IP(a < X b) = IP({X b} {X a} c ) = IP({X b}\{x a}) = IP(X b) IP(X a) = F (b) F (a).
Kontinuerte fordelinger For kontinuerte stokastiske variable gælder, at IP(X = x) = 0 for alle x. Derfor gælder også, at IP(a X b) = IP(X b) IP(X a). Hvis fordelingsfunktionen F for en stokastisk variabel er differentiabel defineres tætheden (density) af X ved Nu er så når h er lille. f (x) = df (x) dx = F (x). f (x) = F (x) = lim h 0 F (x + h) F (x) h F (x + h) F (x) f (x)h
Kontinuerte fordelinger Dette skrives også nogengange som F (x + dx) F (x) = f (x)dx. Så fortolkningen af tætheden f er, at f (x)dx = F (x + dx) F (x) = IP(x < X < x + dx) er sandsynligheden for at X ligger mellem x og x + dx.
Kontinuerte fordelinger Det er klart, at F (x) = x f (y)dy.
Momenter Som for diskrete fordelinger defineres momenter for kontinuerte fordelinger som de tilsvarende integraler. Middelværdi: IE(X ) = xf (x)dx. n th moment: IE(X n ) = x n f (x)dx. Generelt, IE(g(X )) = g(x)f (x)dx. Varians: Var(X ) = IE(X 2 ) IE(X ) 2.
Ligelig (uniform) fordeling Den uniforme fordeling er en meget simpel fordeling som samtidig er byggesten for mange andre fordelinger. X Unif(a, b) har tæthed givet ved f (x) = { 1 b a x (a, b) 0 ellers. For c < d, c, d (a, b) har vi, at IP(c < X < d) = d Fordelingensfunktionen er givet ved F (x) = x c f (y)dy = f (x)dx = d c b a. x a 1 b a = x a b a.
Ligelig (uniform) fordeling Hvis X Unif(a, b) så er U = X a b a Unif(0, 1). Hvis U Unif(0, 1), så er X = a + (b a)u Unif(a, b). Dette er meget let at indse. F.eks. F U (u) = IP(U u) = IP( X a b a u) = IP(X a (b a)u) = IP(X a + (b a)u) Så er = F X (a + (b a)u). f U (u) = F U (u) = d du F X (a+(b a)u) = (b a)f X (a+(b a)u). Nu er f X (a + (b a)u) = 1 hvis u (0, 1). b a Så er f U (u) = 1 hvis u (0, 1) og nul ellers. hvis a + (b a)u (a, b), i.e.
Momenter i den uniforme fordeling U Unif(0, 1), så er IE(U) = xf (x)dx = 1 0 x 1dx = 1 2. IE(U 2 ) = 1 0 x 2 dx = 1 3. Hvis X Unif(a, b), kan vi skrive X = a + (b a)u hvor U Unif(0, 1). Dermed følger, at IE(X ) = IE(a+(b a)u) = a+(b a)ie(u) = a+ b a 2 = a + b 2. Var(X ) = IE(X 2 ) IE(X ) 2 ( ) a + b 2 = IE((a + (b a)u) 2 ) 2 ( a + b = a 2 + 2a(b a)ie(u) + (b a) 2 IE(U 2 ) 2 = ab + (b a)2 3 (a + b)2 4 = (b a)2. 12 ) 2
Normalfordelingen X N(0, 1) hvis f (x) = φ(x) = 1 2π e x2 /2. Middelværdien er 0 (symmetri) og varians 1 (partiel integration; følger senere i kurset). Dvs. vi har at φ(x)dx, xφ(x)dx = 0, x 2 φ(x)dx = 1. Vi siger, at X N(µ, σ 2 ) hvis X = µ + σy, hvor Y N(0, 1). Det følger umiddelbart, at IE(X ) = µ og Var(X ) = σ 2. Lad os beregne tætheden f X for X N(µ, σ 2 ).
Normalfordelingen Dette er et standard argument: Så er Dvs. F X (x) = IP(X x) = IP(µ + σy x) = IP(Y x µ σ ) = F Y ( x µ σ ). f X (x) = d dx F X (x) = d dx F Y ( x µ σ ) = 1 σ φ(x µ σ ). f X (x) = 1 2πσ exp ( (x µ) 2 2σ 2 ).
Exponentialfordelingen X exp(λ) har tæthed f (x) = λ exp( λx), x 0. Fordelingensfunktion: F (x) = x 0 f (y)dy = 1 e λx. Hale: IP(X > x) = exp( λx). Middelværdi: IE(X ) = 1 λ, Varians: Var(X ) = 1 λ 2. Manglende hukommelse: IP(X > t + s X > s) = = IP(X > t + s, X > s) IP(X > s) IP(X > t + s) IP(X > s) = e λ(s+t) e λs = e λt = IP(X > t).
Poissonprocessen Vi betragter nu en såkaldt punktprocess, der en samling af stokastiske punkter på IR + = [0, ). Lad T 1, T 2,... være tidpunkterne mellem ankomster af f.eks. ulykker rapporteret til et forsikringsselskab. Dvs. S n = T 1 +... + T n er netop tidspunktet for den n te ulykke. Lad nu N t være antallet af ulykker registreret i [0, t).
Poissonprocessen Hvis T 1, T 2,... er uafhængige of exponentialfordelte med parameter λ, så kaldes punktprocessen for en Poisson process med intensitet λ. For en Poissonprocess har vi, at N t Po(λt). i.e. IP(N t = k) = (λt)k e λt. k! Fordelingen af S n, i.e. tidspunktet for den n te ankomst, følger en såkaldt Gamma fordeling Γ(n, λ), f Sn (t) = λip(n(t) = n 1) = λ (λt)n 1 (n 1)! e λt.
Poissonprocessen Hvis T exp(λ) så er IP(T [t, t + dt) T > t) = IP(T t + dt T > t) = 1 IP(T > t + dt T > t) = 1 IP(T > dt) manglende hukommelse = 1 e λdt = 1 (1 λdt + λ2 2! (dt)2...) Taylor udvikling = λdt + o(dt) hvor o(t) betyder en funktion der er så lille, at o(h)/h 0 når h 0. Dvs. IP(T [t, t + dt) T > t) = λdt.
Poissonprocessen Betragt tætheden for den n te hændelse S n, f n (t) = f Sn (t). Så er f n (t)dt = IP(S n [t, t + dt)) = IP(N(t) = n 1, S n [t, t + dt)) = IP(S n [t, t + dt) N(t) = n 1)IP(N(t) = n 1) = λdtip(n(t) = n 1).