Mogens Bladt www2.imm.dtu.dk/courses/02405 14. September, 2007
Betinget sandsynlighed ud fra proportioner Vi husker på definitionen IP(A B) = IP(A B). IP(B) Betragt en befolkning bestående af N personer. N F er farveblinde og N K er kvinder. Lad F være hændelsen, at en tilfældigt udvalgt person er farveblind. Lad K være hændelsen, at en tilfældigt udvalgt person er kvinde. Så er IP(F ) = N F N og IP(K) = N K N.
Betinget sandsynlighed ud fra proportioner Betragt nu udelukkende den kvindelige del af befolkning. Hvis M K er delmængden af kvinder og M F er delmængden af farveblinde, så er M K M F delmængden af farveblinde kvinder. Det er klart, at N K = #M K og N F = #M F. Definer N F K = #M F M K. Sandsynligheden for at en tilfældigt valgt kvinde er farveblind er N F K = N F K /N IP(F K) = = IP(F K). N K N K /N IP(K)
Betinget sandsynlighed ud fra proportioner Betragt familier med nøjagtigt to børn. Vores udfaldsrum er Ω = {dd, dp, pd, pp}, d=dreng, p=pige. Vi antager, at hvert udfald har sandsynlighed 1/4. Lad B være hændelsen at der er en dreng i familien og A at familien har har to drenge. Hvad er sandsynligheden for at familen har to drenge givet at der er en dreng i familien? Vi skal udregne IP(A B). Nu er A B = {dd} og B = {dp, pd, dd}. Derfor er IP(A B) = IP(A B) IP(B) = 1/4 1/4+1/4+1/4 = 1 3.
Betinget sandsynlighed ud fra proportioner Betragt nu en tilfældigt udvalgt dreng der kommer fra en familie med to børn. Her er udfaldsrummet mængden af drengebørn. Lad B være hændelsen, at drengen kommer fra en familie med to børn og A hændelsen for at det andet barn er en dreng. IP(A) = 1 2 og uafhængig af B. Derfor er IP(A B) = IP(A B) IP(B) = IP(A)IP(B) IP(B) = IP(A) = 1 2. Morale: man skal have fuldstændigt styr på formuleringen af problemet.
Bayes formel Det er klart, at Derfor er IP(B A)IP(A) = IP(A B) = IP(A B)IP(B). IP(B A) = IP(A B)IP(B). IP(A) Specielt hvis B 1 B 2... B n = Ω er en inddeling af Ω (disjunkte) så er følger af loven om total sandsynlighed og dermed IP(A) = IP(A B 1 )IP(B 1 ) +... + IP(A B n )IP(B n ) IP(B i A) = IP(A B i )IP(B i ) IP(A B 1 )IP(B 1 ) +... + IP(A B n )IP(B n ).
En anvendelse af Bayes formel En blodtest for en bestemt sygdom kan enten være positiv eller negativ. 95% med sygdommen testes positive. 2% uden sygdommen testes positive. 1% af befolkningen har sygdommen. Lad A være hændelsen, at der testes positivt og lad B være hændelsen at man har sygdommen. IP(A B) = 0.95, IP(A B c ) = 0.02, IP(B) = 0.01. B, B c er en inddeling af Ω. Derfor er IP(B A) = = IP(A B)IP(B) IP(A B)IP(B) + IP(A B c )IP(B c ) 0.95 0.01 0.95 0.01 + 0.02 0.99 32%.
Lidt om kombinatorik Vi har n elementer a 1,..., a n hvorfra der udtages r < n elementer (a j1,..., a jr ). A er hændelsen, at alle de udtagne elementer er forskellige. Så er n(n 1)(n 2)...(n r + 1) IP(A) = n r = (n) r n r. n bolde placeres tilfældigt i n urner. Sandsynligheden for at alle urner vil indeholde en bold er (n) n n n = n! n n. Denne størrelse er forholdsvis lille: hvis n = 7 så er sandsynligheden 0.015 = 1.5%. Hvis der i en by sker 7 uheld i løbet af en uge så er sandsynligheden for at der skete en hver dag kun ca. 1.5%. Tilfældige hændelser klumper mere sammen end man umiddelbart kunne tro.
Lidt om kombinatorik En elevator med 7 passagerer stopper ved 10 etager. Hvad er sandsynligheden p for at der højst stiger en passager ud på hver etage? Løsning: p = (10) 7 10 9 8 7... 4 10 7 = 10 7 = 6.048%. Fødselsdagsproblemet: Hvad er sandsynligheden p r for at r tilfældige personer alle har forskellige fødselsdage? De r personers fødselsdage udgør en tilfældig stikprøve at r datoer af årets 365 datoer. Sandsynligheden for alle datoer er forskellige er p r = (365) r 365 r. Hvor mange personer skal der være i et venteværelse for at sandsynligheden for at mindst to har samme fødselsdag overstiger 50%?
Lidt om kombinatorik Sandsynligheden for at mindst to har samme fødselsdag er 1 p r (sandsynligheden for komplementærhændelsen). r sandsynlighed 5 2.7 % 10 11.7 % 15 25.3 % 20 41.1 % 21 44.4 % 22 47.6 % 23 50.7 % 25 56.8 % I dette kursus med ca. 130 indskrevne er sandsynligheden for at mindst to har samme fødselsdag: 99.999999999624032317%.
Multiplikationsregelen for hændelser Betragt n hændelser A 1, A 2,..., A n. Så er IP(A 1 A 2... A n ) = IP(A 1 )IP(A 2 A 1 )IP(A 3 A 1 A 2 ) IP(A n A 1 A 2... A n 1 ). Tilbage til fødselsdagsproblemet: Lad A n være hændelsen, at alle n fødselsdage er forskellige. Så er A r A r 1... A 2. D.v.s. A k = A 2 A 3... A k. IP(A 2 ) = 365 364 365 365 = 364 365. IP(A j+1 A 2... A j ) = IP(A j+1 A j ) = 365 j 365 = 1 j 365. Så er IP(A r ) = IP(A 2... A r ) = ( 1 1 ) ( 1 2 ) ( 1 r ). 365 354 365
Uafhængighed Vi har defineret to hændelser A og B som værende uafhængige hvis IP(A B) = IP(A)IP(B). Dette er for ikke trivielle hændelser med IP(A) > 0 og IP(B) > 0 ækvivalent med IP(A B) = IP(A) og IP(B A) = IP(B). Første definition er den bedste da den også virker når IP(A) = 0 eller IP(B) = 0. Eksempel: Vi trækker et kort fra et spil kort. Lad A være hændelsen, at kortet vi trækker er et es. Lad B være hændelsen, at kortet vi trækker er en spar.
Uafhængighed Er A og B uafhængige? Sandsynligheden for at trække et es er 4 52 = 1 13. Sandsynligheden for at trække en spar er 13 52 = 1 4. D.v.s. IP(A) = 1 13 og IP(B) = 1 4. A B er hændelsen at vi trækker spar es. Sandsynligheden for dette er 1 52 = IP(A B). Så er IP(A B) = IP(A)IP(B) og dermed er A og B usafhængige.
Uafhængighed Betragt familier med 3 børn. Udfaldsrummet er så Ω = {ddd, ddp, dpd, pdd, dpp, pdp, ppd, ppp}. Vi antager, at sandsynligheden at hvert udfald i Ω er 1 8. Lad A være hændelsen, at der er højst een pige i familien. Lad B være hændelsen, familien har børn af begge køn. A består af {ddd, ddp, dpd, pdd}, så IP(A) = 4 8 = 1 2. B består af {ddp, dpd, pdd, dpp, pdp, ppd}, så IP(B) = 6 8 = 3 4. A B består af {ddp, dpd, pdd}, så IP(A B) = 3 8. Idet IP(A B) = 3 8 = 1 2 3 4 = IP(A)IP(B), så er A og B uafhængige.
Uafhængighed Betragt familier med 2 børn. Udfaldsrummet er så Ω = {dd, dp, pd, pp}. Vi antager, at sandsynligheden at hvert udfald i Ω er 1 4. Lad A være hændelsen, at der er højst een pige i familien. Lad B være hændelsen, familien har børn af begge køn. A består af {dd, dp, pd}, så IP(A) = 3 4. B består af {dp, pd}, så IP(B) = 2 4 = 1 2. A B består af {dp, pd}, så IP(A B) = 1 2. Idet IP(A B) = 1 2 1 2 3 4 = IP(A)IP(B), så er A og B ikke uafhængige.
Uafhængighed Betragt familier med 4 børn. Udfaldsrummet er så Ω = {dddd, dddp, ddpd, ddpp, dpdd, dpdp, dppd, dppp, pddd, pddp, pdpd, pdpp, ppdd, ppdp, pppd, pppp}. Vi antager, at sandsynligheden at hvert udfald i Ω er 1 16. Lad A være hændelsen, at der er højst een pige i familien. Lad B være hændelsen, familien har børn af begge køn. A består af {dddd, dddp, ddpd, dpdd, pddd}, så IP(A) = 5 16. B består af Ω\{dddd, pppp}, så IP(B) = 14 16 = 7 8. A B består af {dddp, ddpd, dpdd, pddd}, så IP(A B) = 4 16 = 1 4. Idet IP(A B) = 1 4 7 8 5 16 = IP(A)IP(B), så er A og B ikke uafhængige.
Uafhængighed Hvis A og B er uafhængige, så burde A og B c også være det. Er dette korrekt? Da B B c = Ø så er også (A B) (A B c ) = Ø. Envidere er (A B) (A B c ) = A (B B c ) = A Ω = A. Så følger, at IP(A) = IP(A B) + IP(A B c ). D.v.s. IP(A B c ) = IP(A) IP(A B). A,B uafhængige medfører så, at IP(A B) = IP(A)IP(B) og dermed IP(A B c ) = IP(A) IP(A)IP(B) = IP(A)(1 IP(B)) = IP(A)IP(B c )., d.v.s. A og B c er uafhængige. Tilsvarende følger også, at A c og B er uafhængige og at A c, B c er uafhængige.
Uafhængighed Kast to terninger. Lad A=første terning slår ulige, B=anden terning slår ulige og C=summen er ulige (hvilket vil sige at een slår lige og den anden ulige). Udfaldsrummet er {(1, 1), (1, 2),..., (6, 5), (6, 6)} (36 muligheder) og vi antager, at alle udfald er lige sandsynlige og dermed 1 36. A og B er tydeligt uafhængige med sandsynligheden 1 2 hver. Hvis A og B indtræffer, så kan C ikke indtræffe. Hvis A og B c indtræffer, så indtræffer C også. A, B og C er parvis uafhængige (overvej!) På den anden side set er IP(A B C) = 0 IP(A)IP(B)IP(C). Det sidste må kræves for at opnå tre uafhængige hændelser.
Definition af uafhængighed n hændelser A 1,...,A n er uafhængige hvis der gælder følgende: IP(A i A j ) = IP(A i )IP(A j ) IP(A i A j A k ) = IP(A i )IP(A j )IP(A k )...... IP(A 1 A 2... A n ) = IP(A 1 )IP(A 2 ) IP(A n ) hvor 1 i < j < k <... n.