Sandsynlighedsregning

Mogens Bladt www2.imm.dtu.dk/courses/02405 28. September, 2007

Stokastiske variable Betragt 3 kast med en mønt. Så er udfaldsrummet Ω = {(p, p, p), (p, p, k), (p, k, p), (p, k, k), (k, p, p), (k, p, k), (k, k, p), (k, k, k)}. Vi vil gerne definere en størrelse, der angiver antallet af krone i de 3 kast. Lad X være denne størrelse. Så skal X = 0 hvis udfaldet er (p, p, p) X = 1 hvis udfaldet er (p, p, k), (p, k, p), (k, p, p) X = 2 hvis udfaldet er (p, k, k), (k, p, k), (k, k, p) X = 3 hvis udfaldet er (k, k, k)

Stokastiske variable

Stokastiske variable X er med andre ord en afbildning fra Ω ind i mængden E = {0, 1, 2, 3}. Lad os betragte hændelsen A = {ω Ω X (ω) = 2}. Det er en hændelse fordi A Ω. Åbenbart er A = {(p, k, k), (k, p, k), (k, k, p)}. Vi vil nu definere følgende notation IP(A) = IP({ω Ω X (ω) = 2}) = IP(X = 2). Generelt er {ω Ω X (ω) = e} = X 1 (e) urbilledet af e.

Stokastiske variable En stokastisk variabel X er en afbildning (funktion) fra udfaldsrummet ind i en mængde E, X : Ω E. IP(X = e) angiver sandsynligheden for hændelsen {ω Ω X (ω) = e}. Vi vil kort skrive {ω Ω X (ω) = e} = {X = e} og droppe paranterserne { } når vi tager sandsynligheder af disse hændelser, i.e. IP(X = e) = IP({X = e}) = IP({ω Ω X (ω) = e}). Ligeledes vil vi bruge følgende notation {X x} = {ω X (ω) x} {X > x} = {ω X (ω) > x} {X B} = {ω X (ω) B} = X 1 (B)

Stokastiske variable Hvis X er en stokastisk variabel med værdier i E, så gælder, at p i = IP(X = e i ), e i E er sandsynligheder så at IP(X = e i ) = IP( i i {ω X (ω) = e i }) = IP(Ω) = 1. D.v.s. p i definerer en fordeling, og denne kaldes for fordelingen af den stokastiske variable X. Generelt har vi, at IP(X B) = x B IP(X = x).

Stokastiske variable Betragt en stokastisk variabel med værdier i E 1. Lad g være en funktion fra E 1 til E 2. Er Y = g(x ) en stokastisk variabel? Hvad er dens fordeling? Ja, idet Y = X g : Ω E 2. Fordelingen er så IP(Y = y) = IP(g(X ) = y) = IP({ω Ω g(x (ω)) = y}). Hvis g er 1-1 så er og hvis ikke så er IP(Y = y) = IP(X = g 1 (y)) IP(Y = y) = x:g(x)=y IP(X = x).

Stokastiske variable

Stokastiske variable Lad X være udfaldet af et terningekast, i.e.x = i hvis udfaldet er i, i = 1, 2, 3, 4, 5, 6. Betragt Y = X 2. Så er IP(Y 9) = IP(X 2 9) = IP( 3 X 3) = IP(X = 1 eller X = 2 eller X = 3) = 1 2.

Simultane fordelinger Hvis X og Y er stokastiske variable, så kan vi betragte sættet (eller vektoren) (X, Y ). Dette er igen en stokastisk variabel der afbilder Ω over i produktmængen af billederne af X og Y. Fordelingen af (X, Y ) er givet ved sandsynlighederne P(x, y) = IP((X, Y ) = (x, y)) = IP(X = x, Y = y). (X, Y ) er to dimensional, og fordelingen kaldes for den simultane (eng: joint) fordeling af X og Y. Fordelingerne til X og Y hver for sig, IP(X = x) og IP(Y = y), kaldes for marginalfordelingerne. Ud fra simultanfordelinger kan man finde marginalfordelinger: IP(X = x) = IP({X = x} Ω) = IP({X = x} y {Y = y}) = IP( y {X = x, Y = y}) = y IP(X = x, Y = y) = u P(x, y).

Simultane fordelinger Generelt set, hvis Y = (X 1, X 2,..., X n ) og X i erne er stokastiske variable der tager et tælleligt antal værdier, så definerer vi den simultane tæthed ved P(x 1,..., x n ) = IP(X 1 = x 1, X 2 = x 2,..., X n, x n ). Specielt er P i (x) = IP(X i = x) den marginale tæthed for X i. Ved den simultane fordelingsfunktion F forstås F (x 1, x 2,..., x n ) = IP(X 1 x 1, X 2 x 2,..., X n x n ). Specielt er den marginale fordelingsfunktion for X i givet ved F i (x) = IP(X i x). Såvel tætheder som fordelingsfunktioner karateriserer fordelinger: to stokastiske variable har den sammer fordeling hvis og kun hvis de har den samme tæthedsfunktion (eller fordelingsfunktion).

Simultane fordelinger Lad Y = (X 1, X 2 ) have en fordelingsfunktion F. Definer Z = min(x 1, X 2 ). Lad F Z være fordelingsfunktionen for Z. Så er 1 F Z (z) = IP(Z > z) = IP(min(X 1, X 2 ) > z) = IP(X 1 > z, X 2 > z) = P(z 1, z 2 ). z 1 >z,z 2 >z Tilsvarende er fordelingen af maximum, Z = max(x 1, X 2 ), F Z, givet ved F Z (z) = IP(Z z) = IP(max(X 1, X 2 ) z) = IP(X 1 z, X 2 z) = P(z 1, z 2 ).. z 1 z,z 2 z

Betingede fordelinger Ligesom for betingede hændelser definerer vi betingede fordelinger for en stokastisk variabel X givet hændelsen A ved IP({X B} {Y = y}) IP(X B A) =. IP(Y = y) Specielt er A = {Y = y} for en stokastisk variabel Y interessant: IP({X B} {Y = y}) IP(X B Y = y) =. IP(Y = y) Specielt har vi den betingede tæthed og betingede fordelingsfunktion givet ved IP(X = x Y = y) og IP(X x Y = y). Der gælder pr. definition P(x, y) = IP(X = x, Y = y) = IP(X = x Y = y)ip(y = y).

Uafhængige stokastiske variable X 1,..., X n er uafhængige stokastiske variable hvis {X 1 A 1 }, {X 2 A 2 },..., {X n A n } er uafhængige for alle A 1, A 2,..., A n. Specielt er X og Y uafhængige hvis IP(X = x, Y = y) = IP(X = x)ip(y = y) for all x, y. Hvis X og Y er uafhængige så er IP(X = x Y = y) = IP(X = x).

Multinomialfordelingen Multinomialfordelingen generaliserer binomialfordelingen. Antag, at der i et experiment er m forskellige mulige udfald og at sandsynligheden for udfald i {1, 2,..., m} er p i. Eksempel: Ja, Nej, Ved ikke i en spørgeskemaundersøgelse. (her er m = 3.) Betragt nu n uafængige forsøg og lad N i være antal af udfald af type i. Så er IP(N 1 = n 1,..., N m = n m ) = med n = n 1 +... + n m. n! n 1!n 2! n m! pn 1 1 pn 2 2 pnm m,

Terning Vi kaster 12 terninger. Hvad er sandsynligheden for at få netop 2 af hver værdi? Her er m = 6 mulige resultater af et forsøg, n = 12 forsøg, p i = 1 6. N i = antal terninger der viser i øjne, i = 1, 2, 3, 4, 5, 6, n i = 2 for alle i. D.v.s. den sandsynlighed vi søger er IP(N 1 = 2, N 2 = 2,..., N 6 = 2) = 12! [ (2!) 6 ( 1 ] 6 6 )2 = 0.0034

Middelværdier Middelværdien af en stokastisk variabel X er definieret ved IE(X ) = x xp(x = x). Betragt alder af de studerende i dette kursus. Hvis der er N studerende, lad a i være alderen af studerende nummer i. Gennemsnitsalderen m er givet ved m = 1 N N i=1 a i = a 1 + a 2 +... + a N. N Lad X være den stokastike variable der angiver alderen på en tilfældigt udvalgt studerende. Antag at de studerende har aldre i 1, i 2,..., i k og at der er N j studerende med alderen i j.

Middelværdier Så er m = i 1N 1 + i 2 N 2 +... + i k N k N N 1 = i 1 N +... + i N k k N. Men N i N er netop sandsynligheden for at udtrække en studerende med alder i, så dermed har vi vist, at IE(X ) = m. Mere generelt kan vi regne middelværdien af g(x ) ud ved IE(g(X )) = x Lad 1 A være funktionen 1 A : Ω {0, 1}, 1 A (ω) = Så er 1 A en stokastisk variabel og g(x)p(x = x). { 1 ω A 0 ω / A. IE(1 A ) = 0 IP(1 A = 0) + 1 IP(1 A = 1) = IP(1 A = 1) = IP(A).

Regneregler for Middelværdier IE(a) = a, a konstant. IE(aX + by ) = aie(x ) + bie(y ). Specielt, n n IE( X i ) = IE(X i ). i=1 Bernoulli fordelingen. Hvis X = 1 med ss. p og X = 0 med ss. 1 p så har X middelværdi i=1 IE(X ) = 1 p + 0 (1 p) = p. Lad Y b(n, p). Så er Y fordelingen af antallet af successer (med ss. p) i n experimenter. D.v.s. n Y = hvor X i er (uafhængige Bernoulli fordelte stokastiske variable. Deraf følger, at IE(Y ) = np. i=1 X i

Fair pris I et spil (mere generelt forsikring, finansiering etc.) er en fair pris/indskud/præmie den som giver en forventet netto gevinst på 0. Eksempel: I et kast med en terning er følgende spil fair. Vi spiller på, at der bliver slået 6. Indsats: 1 kr. Udbetaling: 6 kr. hvis der bliver slået 6, ellers 0. Spillet er rimeligt/fair idet den forventede netto gevinst er 0. Lad X være udfaldet af terningekastet. Lad B være gevinsten, i.e. { 6 X = 6 B = = 6 1{X = 6}. 0 X 6 Så er IE(B) = IE(6 1{X = 6}) = 6 IP(X = 6) = 6 1 6 = 1. Nettogevinsten N = B indsats opfylder så IE(N) = 0.

Fair pris Vi kan bruge fair spil konceptet til at regne ventider ud med. Lad V være ventetiden på er 6 er, dvs. antal kast indtil der bliver slået 6 første gang. Vi bruger nu foregående fair spil til at udregne IE(V ). Vi kaster med terningen. Før kast nr. i kommer ind spiller (nr. i) ind og satser på 6 med 1 kr. Hvis han vinder få han 6 kroner igen, ellers intet. Dette er et fair spil. Vi betragter nu det samlede spil bestående af alle delspil indtil 6 eren bliver slået. De er en samling af uafhængige fair spil og dermed er det samlede spil også fair. Lad B være den samlede brutto gevinst vundet af alle spillerne. Spillerne samlede indstats er V kr. og da spillet er fair så er IE(B V ) = 0. Men B = 6 idet alle taber pånær sidste spiller som vinder 6 kr. Dvs. IE(6 V ) = 0 eller IE(V ) = 6.

Fair pris Denne metode kan bruges i langt mere komplicerede situationer. Vi kaster med en terning og venter på første gang vi slå 5 og 6 i to på hinanden følgende slag, f.eks. 2, 3, 6, 4, 3, 5, 4, 2, 3, 4,..., 4, 3, 4, 5, 6. Hvad er den forventede ventetid V 56 på at dette sker? Vi lader nu et antal spillere komme ind og satse 1 kr. på 5. Hvis dette indtræffer udbetales 6 kr., eller 0. Hvis spillet forsætter, satser spilleren 6 kr. 6 og få 36 kr. igen hvis det indtræffer, ellers 0. Dette er fair for alle spillerne. I det totale spil bliver der satset V 56 kr. og den samlede gevinst er 36 kr. (den næstsidste spiller vinder 36. kr., alle andre taber alt). Derfor er IE(V 56 ) = 36.

Fair pris Betragt nu samme spil, men med V 66 der ønskes beregnet. Der spilles nu på første kast er 6, og hvis spillet forsætter, andet kast er 6. Indsatsen er igen 1 kr. fra hver spiller og gevinsterne de samme (6 og 36 hhv.). Der satses ialt V 66 kr. fra alle spillerne. Der er netop to spillere som vinder noget: næstsidste 36 kr. og sidste 6 kr., ialt 42 kr. Alle andre taber alt. Dvs. IE(V 66 ) = 42.