3 Stokastiske variable 3.1 Diskrete variable Punktsandsnligheden benævnes P(x) = P(X = x). {x, P(x)} er en sandsnlighedsfordeling for den stokastiske variabel, X, hvis 1) P(x) $ 0 for alle værdier af x. 2) P(x) = 1 Den kumulerede sandsnlighedsfordeling, F(x), for den stokastiske variabel, X, er: F(x) = P(X <= x) Den forventede værdi af den stokastiske variabel, X, er: E(X) = µ = x*p(x) Variansen af den stokastiske variabel, X, er: V(X) = σ 2 = E(X - µ) 2 = E(X 2 ) [E(X)] 2 2 2 2 = (x µ ) *P(x) = x *P(x) µ 3.2 Kontinuerte variable I det kontinuerte tilfælde er punktsandsnligheden 0, og denne erstattes af f(x), der benævnes sandsnlighedstætheden for den stokastiske variabel, X, hvis 1) f(x) 0 i hele variationsområdet for x, 2) f (x)dx = 1 Den kumulerede sandsnlighedsfordeling, F(x), for den stokastiske variabel, X, er: F(x) = x f(x)dx= P(X x) I det kontinuerte tilfælde beregnes sandsnligheden som b P(a#X# b) = f(x)dx = F(b) - F(a) = P(X# b) - P(X# a) a Den forventede værdi af den stokastiske variabel, X, er: E(X) = µ = x *f (x)dx = 1 Variansen af den stokastiske variabel, X, er: V(X) = σ 2 = E(X - µ) 2 = E(X 2 ) - [E(X)] 2 = 2 2 2 (x µ ) *f(x)dx= x *f(x)dx µ Side 1af 6
3.3 Simultane sandsnlighedsfordelinger 1. Lad X og Y være to diskrete stokastiske variable. Deres simultane sandsnlighedsfordeling udtrkker sandsnligheden for, at X antager værdien x samtidig med, at Y antager værdien, som en funktion af x og. Den anvendte notation er P(x,), således at P(x,) = P(X=x Y=) Følgende skal være opfldt for, at P(x,) kan være en simultan sandsnlighedsfordeling: i. P(x,) $ 0 for en hvilken som helst kombination af X og Y ii. P(x, ) = 1 Generelt: Hvis X 1, X 2,..., X k er k diskrete stokastiske variable, er deres simultane sandsnlighedsfordeling P(x 1,x 2,, x k ) =P(X 1 = x 1 X 2 = x 2. X k =x k ) 2. Lad X og Y være to simultant fordelte stokastiske variable. I denne forbindelse kaldes sandsnlighedsfordelingen for X for den marginale sandsnlighedsfordeling, og denne fremkommer ved summering af de simultane sandsnligheder for alle værdier af, dvs. P(x) = alle P(x, ) På samme måde fremkommer den marginale sandsnlighedsfordeling for den stokastiske variabel Y P() = alle X P(x, ) Generelt: Hvis X 1, X 2,-----, X k er simultant fordelte stokastiske variable, da fås den marginale sandsnlighedsfordeling for en hvilken som helst af de stokastiske variable ved at summere de simultane sandsnligheder over alle mulige kombinationer af værdier for de øvrige variable. 3. Lad X og Y være to simultant fordelte diskrete stokastiske variable. Den betingede sandsnlighedsfordeling for den stokastiske variabel Y, givet at den stokastiske variabel X antager værdien x, udtrkker sandsnligheden for, at Y antager værdien som en funktion af, når X antager værdien x. Dette udtrkkes P( x), således at vi ved definitionen af betinget sandsnlighed har P(x, ) P(X = x Y = ) P( x) = = P(x) P(X = x) Ligeledes er den betingede sandsnlighedsfordeling for X, forudsat at Y=, givet ved P(x, ) P(X = x Y = ) P(x ) = = P() P(Y = ) Side 2af 6
4. Eksempel til belsning af simultan sandsnlighedsfordeling, marginal sandsnlighedsfordeling og betinget sandsnlighedsfordeling. Lad de stokastiske variable (X,Y) være defineret ved følgende simultane sandsnlighedsfordeling: x 0 1 2 3 4 1 0,08 0,13 0,09 0,06 0,03 2 0,03 0,08 0,08 0,09 0,07 3 0,01 0,03 0,06 0,08 0,08 I tabellen findes således sandsnligheden for alle forekommende tilfælde af (x,), f.eks. er P(2,3) = P(X=2 _Y=3) = 0,09. Det ses af tabellen, at kravene til en sandsnlighedsfordeling er opfldt. Af den simultane sandsnlighedsfordeling kan udledes de marginale sandsnlighedsfordelinger; f.eks findes P(Y=1) som P(X=1 _ Y=1) + P(X=2 _ Y=1) + P(X=3 _ Y=1). Den marginale sandsnlighedsfordeling for X er: x 1 2 3 P(X=x) 0,39 0,35 0,26 Den marginale sandsnlighedsfordeling for Y er: 0 1 2 3 4 P(Y=) 0,12 0,24 0,23 0,23 0,18 Det ses af de to ovenstående tabeller, at kravene til en sandsnlighedsfordeling er opfldt. Af den simultane sandsnlighedsfordeling kan også udledes betingede sandsnlighedsfordelinger. F.eks. sandsnlighedsfordelingen for Y betinget af, at X=2. P(Y = ) X = 2) Formlen P(Y= X=2) = anvendes. P(X = 2) 0 1 2 3 4 P(Y= X=2) 3/35 8/35 8/35 9/35 7/35 Også her ses, at kravene til en sandsnlighedsfordeling er opfldt. Side 3af 6
5. De stokastiske variable X og Y er uafhængige, når deres simultane sandsnlighedsfordeling er produktet af deres marginale sandsnlighedsfordelinger, dvs. hvis P(x,) = P(x)P() for alle mulige kombinationer af X og Y. Generelt: De k stokastiske variable X 1, X 2,..., X k er uafhængige, hvis P(x 1,x 2,-----,x k ) = P(x 1 )P(x 2 )...P(x k ) 6. Den simultane kumulerede sandsnlighedsfordeling, F(x,), for to diskrete stokastiske variable X og Y udtrkker sandsnligheden for, at X ikke overstiger værdien x samtidig med, at Y ikke overstiger værdien, som en funktion af x og. Heraf fås F(x,) = P(X x Y ) = P(x, ) X x Y 3.4 Kovarians 1. Lad X være en stokastisk variabel med gennemsnit : X, og Y en stokastisk variabel med gennemsnit : Y. Den forventede værdi af (X - µ X )(Y - µ Y ) kaldes kovariansen mellem X og Y, og benævnes Cov(X,Y). For diskrete stokastiske variable gælder, at Cov(X,Y) = E[(X - µ X )(Y - µ Y )] = (x µ x)( µ Y)P(x,), dette kan omskrives til Cov(X,Y) = E(XY) - µ X µ Y = (x*p(x,) µ xµ. 2. Kovariansen er et mål for lineær afhængighed. i. Hvis de to stokastiske variable udviser en positiv lineær tendens, er dette ensbetdende med, at kovariansen er positiv. ii. Omvendt hvis de to stokastiske variable udviser en negativ lineær tendens, er dette ensbetdende med, at kovariansen er negativ. iii. Hvis de to stokastiske variable X og Y er stokastisk uafhængige, er kovariansen mellem dem 0. Det modsatte gælder derimod ikke altid, dvs. Cov(X,Y) kan godt være 0, når der foreligger en anden form for afhængighed end en lineære afhængighed. Et problem ved kovariansen som mål for afhængigheden er, at kovariansen er niveauafhængig, dvs. værdien afhænger af, hvilke enheder de to variable måles i. Dette problem kan løses ved, at kovariansen divideres med produktet af de to variables standardafvigelse. Derved får vi et mål for graden af lineær afhængighed. Dette mål kaldes korrelationskoefficienten og benævnes D. D = Cov(X,Y) σσ x Kovariansen og korrelationskoefficienten må have samme fortegn. Det kan vises, at -1 # D # 1 Side 4af 6
D = -1, når Y er en lineær funktion af X med negativ hældning. D = 1, når Y er en lineær funktion af X med positiv hældning. 3.5 Regneregler for forventet værdi og varians I det følgende er a og b konstanter, medens X og Y er stokastiske variable. 3.5.1 Regneregler for forventet værdi E(b) = b E(aX) = a *E(X) E(b+aX) = b + a*e(x) E(X+Y) = E(X) + E(Y) E(aX + by) = a*e(x) + b* E(Y) E(X-Y) = E(X) E(Y) E(aX by) = a*e(x) b*e(y) 3.5.2 Regneregler for varians V(b) = 0 V(aX) = a 2 *V(X) V(b+aX) = a 2 *V(X) V(X+Y) = V(X) + V(Y), hvis X og Y er stokastisk uafhængige. V(aX + by) = a 2 *V(X) + b 2 * V(Y), hvis X og Y er stokastisk uafhængige. V(X-Y) = V(X) + V(Y), hvis X og Y er stokastisk uafhængige. V(aX by) = a 2 *V(X) + b 2 *V(Y), hvis X og Y er stokastisk uafhængige. Ud fra den generelle definition af variansen fås : V(X+Y) = E[(X+Y) (µ x - µ )] 2 = E[(X - µ x )+(Y - µ )] 2 = E[(X - µ x ) 2 +(Y - µ ) 2 + 2(X - µ x )(Y - µ)] = E(X - µ x ) 2 + E(Y - µ ) 2 + 2E[(X - µ x )(Y - µ)] = V(X) + V(Y) + 2 COV(X,Y) Hvis de stokastiske variable X og Y ikke er stokastisk uafhængige fås derfor : V(X+Y) = V(X) + V(Y) + 2 COV(X,Y) V(aX +by) = a 2 *V(X) + b 2 V(Y) + 2 ab*cov(x,y) V(X -Y) = V(X) + V(Y) - 2 COV(X,Y) V(aX - by) = a 2 *V(X) + b 2 V(Y) - 2 ab*cov(x,y) 3.5.3 Eksemplet i note 3.3 pkt 4 - Beregning af forventede værdier, varianser, kovarians og korrelationskoefficient. Den forventede værdi og varians for henholdsvis X og Y kan beregnes til: E(X) = µ X = 1,87 2 V(X) = F X = 4,13 - (1,87) 2 = 0,6331 E(X) = µ Y = 2,11 V(Y) = F 2 Y = 6,11 - (2,11) 2 = 1,6579 Lad os definere en stokastisk variabel W = X + Y. Hvad er E(W) og V(W)? Side 5af 6
E(W) = E(X + Y) = E(X) + E(Y) = 1,87 + 2,11 = 3,98. V(W) = V(X + Y) = V(X) + V(Y) + 2Cov(X,Y) = 0,6331 + 1,6579 + 0,7486 = 3,0396. Cov(X,Y) = x**p(x,) µ Xµ = 1 0 0,08 + 1 1 0,13 + 1 2 0,09 + 1 3 0,06 + 1 4 0,03 +2 0 0,03 + 2 1 0,08 + 2 2 0,08 + 2 3 0,09 + 2 4 0,07 + 3 0 0,01 + 3 1 0,03 + 3 2 0,06 + 3 3 0,08 + 3 4 0,08-1,87 2,11= +0,3743. Korrelationskoefficienten D = Cov(X,Y) = +0,3653 σσ x En anden og mere besværlig måde ville være at danne sandsnlighedsfordelingen for W og gennemføre beregningerne på grundlag af denne. Side 6af 6