Dagens program Afsnit 2.4-2.5 Bayes sætning Uafhængige stokastiske variable - Simultane fordelinger - Marginale fordelinger - Betingede fordelinger Uafhængige hændelser - Indikatorvariable Afledte stokastiske variable Eksempler 1
Bayes sætning For to hændelser E og F gælder der: P (E F ) = P (E) P (F E) =P (F ) P (E F ) P (F ) = P (F E)+P F E C = P (E) P (F E)+P E C P F E C Bayes sætning: P (E F )= P (E) P (F E) P (F ) = P (E) P (F E) P (E) P (F E)+P (E C ) P (F E C ) 2
Eksempel 1: Test for en sjælden sygdom Når man tester for en sygdom f.eks. AIDS, sker der fejl. Dvs. der er personer, der bliver testet positive, selvom de ikke har sygdommen og der er personer, der bliver testet negative, selvom de har sygdommen. I en population på 100 millioner er der 500.000, der er HIV positive. I 1% af tilfældene vil en person, der er HIV positiv, blive testet negativ. I 5% af tilfældene vil en person, der ikke er HIV positiv, blive testet positiv. Hvad betyder dette for personer, der bliver testet positive? Mere præcist, hvor mange procent af dem, der testes HIV positive har rent faktisk sygdommen? 3
E 1 : Personen er HIV positiv E 2 : Personen er ikke HIV positiv T 1 : Testen er positiv T 2 : Testen er negativ Vi er interesserede i at udregne: P (E 1 T 1 ) Vi ved at P (E 1 ) = 0.005 P (T 2 E 1 ) = 0.01 P (T 1 E 2 ) = 0.05 4
Dette giver så at P (E 1 T 1 ) = P (T 1 E 1 ) P (E 1 )=(1 P (T 2 E 1 )) P (E 1 )=0.99 0.005 = 0.00495 P (E 2 T 1 ) = P (T 1 E 2 ) P (E 2 )=0.05 (1 0.005) = 0.04975 Da giver Bayes sætning: P (E 1 T 1 ) = = P (T 1 E 1 ) P (E 1 ) P (T 1 E 1 ) P (E 1 )+P (T 1 E 2 ) P (E 2 ) 0.00495 0.00495 + 0.04975 0.0905 Dvs.givetatpersonenertestetpositiv,erderkunca.9%sandsynlighedfor,atpersonen er HIV positiv. 5
Uafhængige stokastiske variable X og Y uafhængige: - Der er ingen sammenhæng mellem værdierne af X og Y - Y indeholder ikke information om X Vi ønsker en præcis formulering af dette 6
Eksempel 2.5a i bogen: Motion og rygning I en klasse med 88 elever klassificeres alle efter motionsvaner og rygning. En elev udvælges tilfældigt. Stokastiske variable: X :1(ryger idag), 2 (har været ryger), 3 (aldrig røget) Y : R (løber mindst 7.5 km pr uge), R C (alle andre) Fordelingen af (X, Y ): Y \X 1 2 3 R 2/88 4/88 16/88 1/4 R C 6/88 12/88 48/88 3/4 1/11 2/11 8/11 1 Hvad angiver de marginale fordelinger af X og Y? 7
Givet at eleven løber, hvad er da fordelingen af rygerstatus? f (X =1 Y = R) = f (X =2 Y = R) = f (X =3 Y = R) = f (X =1,Y = R) f Y (R) f (X =2,Y = R) f Y (R) f (X =3,Y = R) f Y (R) = 2/88 22/88 = 2 22 = 1 11 = 4/88 22/88 = 4 22 = 2 11 = 16/88 22/88 = 16 22 = 8 11 Det at eleven løber, giver ikke nogen information om rygerstatus. Fordelingen af rygerstatus den samme uanset om eleven løber eller ej. Dvs. rygerstatus og motionsvaner er uafhængige. 8
To stokastiske variable X og Y med simultan sandsynlighedsfunktion f (x, y) Den marginale sandsynlighedsfunktion for X : f X (x) = P y f (x, y) Den marginale sandsynlighedsfunktion for Y : f Y (y) = P x f (x, y) Den betingde fordeling af X givet Y = y : f (x y) = f (x, y) f Y (y) Hvis der gælder: f (x y) =f X (x) for alle x og y Da har vi: f (x, y) =f (x y) f Y (y) =f X (x) f Y (y) Definition: De stokastiske variable X og Y er uafhængige, hvis og kun hvis der for ethvert par (x, y) gælder: f (x, y) =f X (x) f Y (y) 9
Eksempel 2: Afkast af 2 aktiver (fra sidst) Stokastiske variable: X A : Afkast af aktiv A (i kr) X B : Afkast af aktiv B (i kr) Tabel1:Fordelingenaf(X A,X B ): X A \X B 400 500 600 700 450 0.22 0.22 0.01 0.01 0.46 500 0.01 0.01 0.01 0.01 0.04 550 0.01 0.01 0.01 0.01 0.04 600 0.01 0.01 0.22 0.22 0.46 0.25 0.25 0.25 0.25 1 10
Den marginale fordeling af X A : x A 450 500 550 600 f XA (x A ) 0.46 0.04 0.04 0.46 Den betingede fordeling af X A givet X B = x B : x A 450 500 550 600 X B =400 0.88 0.04 0.04 0.04 X B =500 0.88 0.04 0.04 0.04 X B =600 0.04 0.04 0.04 0.88 X B =700 0.04 0.04 0.4 0.88 De betingede fordelinger af X A givet X B = x B : -Afhængerafx B - Er forskellige fra den marginale fordeling af X A Altså er X A og X B ikke uafhængige. 11
GivetatdemarginalefordelingerafX A og X B er som angivet i Tabel 1, hvordan skulle den simultane fordeling af X A og X B da se ud, for at X A og X B er uafhængige? X A \X B 400 500 600 700 450 0.115 0.115 0.115 0.115 0.46 500 0.01 0.01 0.01 0.01 0.04 550 0.01 0.01 0.01 0.01 0.04 600 0.115 0.115 0.115 0.115 0.46 0.25 0.25 0.25 0.25 1 12
X og Y er uafhængige, hvis og kun hvis der gælder f (x, y) = f X (x) f Y (y) f (x, y) f (x y) = f Y (y) = f X (x) f Y (y) = f X (x) f Y (y) Uafhængighed mellem X og Y : Y indeholder ikke information om X Den simultane sandsynlighedsfkt. er produktet af de marginale sandsynlighedsfkt. Den betingede fordeling af X givet Y = y er den samme for alle y Den betingede fordeling af X givet Y = y er lig den marginale fordeling af X for alle y 13
Uafhængige hændelser Kvantitative Metoder 1 - Efterår 2006 Hændelse E med sandsynlighed p = P (E) Indikatorvariabel X E defineret som: ½ 1 hvis E indtræffer X E = 0 ellers Den tilhørende sandsynlighedsfunktion f (x) =p x (1 p) 1 x Resultat: Hændelserne E og F er uafhængige, hvis og kun hvis de tilhørende indikatorvariable er uafhængige 14
Fordelingen af (X E,X F ) ved uafhængighed: X F \X E 1 0 1 P (E) P (F ) P (E) P (F C ) P (E) 0 P (E C ) P (F ) P (E C ) P (F C ) P (E C ) P (F ) P (F C ) 1 Dvs. hændelserne er uafhængige hvis og kun hvis: P (E F )=P (X E =1,X F =1)=f (1, 1) = f XE (1) f XF (1) = P (E) P (F ) Pas på dette gælder ikke, hvis der er mere end to hændelser. 15
Eksempel 3: Vi deltager i 2 spil. To stokastiske variable X 1 og X 2 er defineret på følgende måde: X i = ½ 1 spil nr i vindes 0 spil nr i tabes for i =1, 2 Fordelingen af (X 1,X 2 ): X 1 \X 2 1 0 1 1/8 1/8 1/4 0 3/8 3/8 3/4 1/2 1/2 1 Sandsynligheden for at vinde i det første spil er 1/4 og i det andet spil 1/2. Hændelserne "vinde 1. spil" og "vinde 2. spil" er uafhængige. 16
Afledte stokastiske variable Eksempel 4: Et spil hvor sandsynligheden for at vinde er 2/3. Spillet spilles 3 gange uafhængigt af hinanden. Vi er interesserede i fordelingen af antal gange spillet vindes. X i = ½ 1 spil nr i vindes 0 spil nr i tabes for i =1, 2, 3 p = P (X i =1)=2/3 17
Alle tre spil vindes: P (X 1 =1,X 2 =1,X 3 =1) = P (X 1 =1)P (X 2 =1)P (X 3 =1) = p p p =(2/3) 3 =8/27 De 2 første spil vindes og det sidste tabes: P (X 1 =1,X 2 =1,X 3 =0) = P (X 1 =1)P (X 2 =1)P (X 3 =0) = p p (1 p) =(2/3) 2 1/3 =4/27 Det første spil vindes og de 2 sidste tabes: P (X 1 =1,X 2 =0,X 3 =0) = P (X 1 =1)P (X 2 =0)P (X 3 =0) = p (1 p) (1 p) =2/3 (1/3) 2 =2/27 Alle tre spil tabes: P (X 1 =0,X 2 =0,X 3 =0) = P (X 1 =0)P (X 2 =0)P (X 3 =0) = (1 p) (1 p) (1 p) =(1/3) 3 =1/27 18
Definerer en ny stokastisk variabel: Y = X 1 + X 2 + X 3 : Antal vundne spil Fordelingen af Y : y 0 1 2 3 f Y (y) 1/27 6/27 12/27 8/27 19
Eksempel 2, fortsat: Hvad er sandsynligheden for, at afkastene af aktiv A og aktiv B i gennemsnit er større end 500? Fordelingen af Y = X A + X B : y 850 900 950 1000 1050 1100 1150 1200 1250 1300 f Y (y) 0.22 0.01 0.23 0.02 0.02 0.02 0.02 0.23 0.01 0.22 Vi har så at: P ((X A + X B ) /2 500) = P (X A + X B 1000) = P (Y 1000) = f Y (1000) + f Y (1050) + f Y (1100) + f Y (1150) + f Y (1200) + f Y (1250) + f Y (1300) = 0.54 20
Opsummering Bayes sætning Sammenhænge mellem stokastiske variable: - Simultane fordelinger - Marginale sandsynligheder - Uafhængighed (ingen sammenhæng) - Betingede fordelinger Uafhængige hændelser - Indikator variable Konstruktion af sandsynlighedsfordelinger ved uafhængighed Afledte stokastiske variable: - Antal gange et spil vindes i gentagne spil - Summen af to stokastiske variable 21
Næste gang Mandag gennemgåes: Afsnit 3.1-3.3 Middelværdi Varians Bemærk: - Afsnit 2.6 er ikke pensum Husk: - At komme i gang med SAS 22