Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 28 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner Stokastiske variable: udfald identificeres med reelle tal Fordeling P(X = x) xp(x = x) = Simultan(joint) fordeling P(X = x,y = y) x,yp(x = x,y = y) = Marginal fordeling P X (X = x) = yp(x = x,y = y) Betinget fordeling P(Y = y X = x) = P(X=x,Y=y) P X (X=x) Uafhængighed P(Y = y,x = x) = P X (X = x)p Y (Y = y) Multinomialfordelingen Middelværdi E(X) = x P(X = x) Forventningsværdi mere generelt E(g(X)) = g(x) P(X = x) Linearitet E(aX +by +c) = ae(x)+be(y)+c Stokastiske variable kap.3 Beskriver eksperimenter, hvor udfaldet kan karakteriseres ved et eller flere tal Gør det muligt at definere gennemsnit og andre beregninger Gør notation og formulering mere smidig 245 forelæsning 3 3 Eksempel på anvendelse For binomialfordelingen indførte vi hændelserne S i for i succeser Hændelsen H i højst i successer blev skrevet som i j= S j Så P(H i ) = P ( i j=s j ) = i j= P(S j) Hvorfor? Vi kunne ønske mere kompakt notation, færre symboler Den stokastiske variabel X betegner antallet af succeser Hvordan vil vi skrive hændelsen S 5 ved hjælp af X? Hvordan vil vi skrive hændelsen H 5 ved hjælp af X? En stokastisk variabel er et tal, der beskriver udfaldet af vores eksperiment. 245 forelæsning 3 4
Fordele ved stokastiske variable Mange problemer formuleres mere enkelt Giver os mulighed for at danne nye stokastiske variable ved funktioner Knytter en forbindelse mellem udfaldsrummet og de reelle tal Vi lader den stokastiske variabel X betegne antallet af krone i tre kast med en retfærdig mønt, og definerer en ny stokastisk variabel Y = X. Spørgsmål Angiv sandsynligheden for P(Y = ). 8 2 4 3 3 8 4 2 5 5 8 245 forelæsning 3 5 6 Ved ikke 245 forelæsning 3 6 Københavnske boliger 989 (antal) Antal beboere: 2 3 4 5 6 værelse 366 23554 238 26 69 9 8 2 værelser 4874 7358 2667 3826 955 248 45 3 værelser 248 393 2923 878 3735 925 565 4 værelser 343 23 4374 6487 438 64 585 5 værelser 436 2877 4376 2487 977 538 264 6 værelser 442 553 2748 775 543 65 52 Relative andele Antal beboere 2 3 4 5 6 værelse,,85,7,,,, 2 værelser,7,264,96,4,3,, 3 værelser,9,2,4,32,3,3,2 4 værelser,5,44,52,23,6,4,2 5 værelser,2,,6,9,7,2, 6 værelser,2,6,,6,6,2,2 En bolig er således her karakteriseret ved to egenskaber størrelse og antal beboere 245 forelæsning 3 7 245 forelæsning 3 8
Histogram over bolighyppigheder.3.2. 2 3 4 5 6 245 forelæsning 3 9 2 3 4 5 6 7 Flerdimensionale stokastiske variable Vi indfører nu symbolet X til at betegne antallet af værelser i en tilfældigt valgt bolig og Y til at betegne antallet af beboere i denne bolig. En bolig er således karakteriseret ved parret (X,Y) - en todimensional stokastisk variabel. Vi har P(X = x) = P X (x) til at beskrive antallet af værelser i en bolig Og P(Y = y) = P Y (y) til at beskrive antallet af beboere i en bolig. Som en ny ting får vi brug for P(x,y) = P(X = x,y = y) til at beskrive de samlede egenskaber ved en bolig. Den simultane fordeling 245 forelæsning 3 Brug af den simultane fordeling Hvad er sandsynligheden for, at en tilfældigt valgt bolig har højst to værelser og højst 3 beboere? 2 x= y= 3 P(x,y) =,+...,4 =,4978 Hvad er sandsynligheden for, at en tilfældigt valgt bolig vil have flere værelser end beboere? 6 x P(x,y) =,+,7+,264+,9+ +,2 =,76 x= y= Hvis vi kun interesserer os for antal beboere Antal beboere 2 3 4 5 6 værelse,,85,7,,,, 2 værelser,7,264,96,4,3,, 3 værelser,9,2,4,32,3,3,2 4 værelser,5,44,52,23,6,4,2 5 værelser,2,,6,9,7,2, 6 værelser,2,6,,6,6,2,2 Boliger i alt,45,52,284,85,45,2,7 Dvs. kun Y 245 forelæsning 3 245 forelæsning 3 2
Hvis vi kun interesserer os for størrelsen altså Y I så fald interesserer vi os for X P(Y = y) = x P(X = x,y = y) = x P(x,y) P(X = x) = y P(X = x,y = y) = y P(x,y).6.4.4.3.2.2. 2 3 4 5 6 Den marginale fordeling af Y (P Y (y)) 245 forelæsning 3 3 2 3 4 5 6 Den marginale fordeling af X (P X (x)) 245 forelæsning 3 4 Antallet af beboere i en 3 værelses bolig Hvis vi ved, at en bolig har 3 værelser, betyder det så noget for fordelingen af antal beboere? Fra rækken med 3 værelses boliger i tabellerne har vi: Beboere: 2 3 4 5 6 Alle Antal: 248 393 2923 878 3735 925 565 7663 Andel:,9,2,4,32,3,3,2,275 Andel af 3 værelses,3,47,379,5,49,2,7, Hvordan udtrykker vi dette symbolsk/matematisk? Betinget sandsynlighed/fordeling, P(Y = y X = x) = Den betingede fordeling. Konkret får vi som i tabellen P(Y = y X = 3) = P(Y = y,x = x) P(X = x) P(Y = y,x = 3) P(X = 3) = P(3,y),275 245 forelæsning 3 5 245 forelæsning 3 6
Beboere betinget af størrelse Uafhængige stokastiske variable.9.8.7.6.9.8.7.6.9.8.7.6 Vi har set, hvordan den betingede fordeling fremkommer ved hjælp af betingede sandsynligheder..5.4.3.2. 2 3 4 5 6.5.4.3.2. 2 3 4 5 6.5.4.3.2. 2 3 4 5 6 Nogle gange ved vi intuitivt (antagelse), at en størrelse (stokastisk variabel) ikke vekselvirker med en anden stokastisk variabel..9.9.9 Terningeeksempler.8.7.6.5.4.8.7.6.5.4.8.7.6.5.4 Hvad er en naturlig definition på uafhængige stokastiske variable?.3.2.3.2.3.2 Er X og Y uafhængige i boligeksemplet?... 2 3 4 5 6 2 3 4 5 6 2 3 4 5 6 245 forelæsning 3 7 245 forelæsning 3 8 Definition på uafhængige stokastiske variable X og Y er uafhængige hvis for alle x,y P(x,y) = P X (x)p Y (y) Giv et eksempel på uafhængige X og Y (gode kandidater) Opgave 3.2 Lad X og Y være resultatet (talværdi) fra to trækninger fra en æske med 4 sedler, med numrene,2,3 og 4. Angiv den marginale fordeling og simultane fordeling for X og Y. For Stikprøvetagning med tilbagelægning Stikprøvetagning uden tilbagelægning Beregn P(X Y) Er X og Y uafhængige? 245 forelæsning 3 9 245 forelæsning 3 2
Med tilbagelægning får vi X\Y 2 3 4 6 2 6 3 6 4 6 6 6 6 6 6 6 6 6 6 6 6 6 P(X = i) = P(Y = i) = 4 = P X(i) = P Y (i) P(X Y) = x y P(x,y) = = y= x= y P(x,y) = y 6 = 6 = 5 8 y= 245 forelæsning 3 2 x= y=x P(x,y) Uden tilbagelægning får vi X\Y 2 3 4 2 2 2 2 2 3 2 4 2 P(X = i) = 4 = P X(i) 2 2 2 2 2 2 P(Y = i) = P ( x,i) = 4 = P Y(i) x= 245 forelæsning 3 22 Uden tilbagelægning fortsat P(X Y) = x y P(x,y) = = y P(x,y) = y= x= x= y=x P(x,y) (y ) 2 = 6 2 = 2 y= Funktioner af stokastiske variable Fra boligeksemplet: Z : antal beboere pr. værelse Z = Y X Z 2 : antal værelser pr. beboer Z 2 = X Y = Z (uproblematisk?) Kunne vi have indset dette direkte? 245 forelæsning 3 23 245 forelæsning 3 24
Fordeling af værelser på antal boliger.4.3.2. 2 3 4 5 6 værelser: 2 3 4 5 6 andel:,4,396,275,45,46,33 245 forelæsning 3 25 Enkel karakteristik af fordeling Spørgsmål 2 Hvilket af følgende tal ville du vælge til at karakterisere fordelingen af antal værelser i en bolig? 2 2 3 3 3.5 4,4+2,396+3,275+4,45+5,46+6,33 = 2,729 5 Noget andet 6 Ved ikke 245 forelæsning 3 26 Middelværdi(forventning) p.62(63) Fordelingens tyngdepunkt E(X) = xp(x = x) alle x Gennemsnit af stort antal udfald, eksperimenter Beregningsmæssig bekvem Spørgsmål 3 Hvad er middelværdien/forventningsværdien ved kast med en terning? Alle værdier {,2,3,4,5,6} 2 3 3 3.5 4 4 5 4.5 6 Ved ikke 245 forelæsning 3 27 245 forelæsning 3 28
Bemærk Middelværdien af X, E(X) behøver ikke at være en mulig værdi for X Skatteindtægt fra bolig Skatteindtægten fra en bolig afhænger af antallet af værelser kr. 2.5 pr. værelse. Plus et fast beløb - kr. 7.5 Hvad er den forventede skatteindtægt fra en bolig? 245 forelæsning 3 29 245 forelæsning 3 3 Lineære funktioner af stokastiske variable E(aX +b) = ae(x)+b i Eksemplet får vi: Z : skatteindtægt fra bolig E(Z) = E(2.5 X +7.5) = 2.5 E(X)+7.5 = 4322,5 Forventning af en funktion af en stokastisk variabel p.75 Lidt mere generelt får vi for en vilkårlig funktion g(x): E(g(X)) = g(x)p(x = x) alle x Af særlig interesse har vi g(x) = x k, så E(X k ) = x k P(X = x) alle x det k te moment af X 245 forelæsning 3 3 245 forelæsning 3 32
Antag, at E(X 2 ) = 3, E(Y 2 ) = 4, E(XY) = 2. Spørgsmål 4 E[(X +Y) 2 ] findes til 7 2 9 3 4 3 5 5 6 Ved ikke Forventning af en funktion af flere stokastiske variable p.76 Generelt har vi: E(g(X,Y)) = g(x,y)p(x = x,y = y) alle (x,y) Additionsregel E(X +Y) = E(X)+E(Y) (altid) p.67. Multiplikationsregel, hvis X og Y er uafhængige p.77 E(XY) = E(X)E(Y) 245 forelæsning 3 33 245 forelæsning 3 34 Relative andele af boliger Antal beboere 2 3 4 5 6 værelse,,85,7,,,, 2 værelser,7,264,96,4,3,, 3 værelser,9,2,4,32,3,3,2 4 værelser,5,44,52,23,6,4,2 5 værelser,2,,6,9,7,2, 6 værelser,2,6,,6,6,2,2 Hvordan ville I beregne den forventede værdi af antallet af beboere pr. værelse? Sammensætning/funktioner af stokastiske variable Først definerer vi X som antal værelser i en bolig, dernæst Y som antallet af beboere. Vi danner en ny variabel Z = Y X E(Z) = E(Y/X) = som antal beboere pr. værelse 6 6 x= y= y x P(x,y) 245 forelæsning 3 35 245 forelæsning 3 36
Nye begreber i afsnit 3., 3.2 Stokastisk variabel Fordeling/marginal fordeling Flerdimensional stokastisk variabel Simultan (eng.: joint) fordeling Betinget fordeling Uafhængige stokastiske variable Middelværdi/Forventning 245 forelæsning 3 37 Afsnit 3. og 3.2 Stokastiske variable: udfald identificeres med relle tal Fordeling P(X = x) xp(x = x) = Simultan(joint) fordeling P(X = x,y = y) x,yp(x = x,y = y) = Marginal fordeling P X (X = x) = yp(x = x,y = y) Betinget fordeling P(Y = y X = x) = P(X=x,Y=y) P X (X=x) Uafhængighed P(Y = y,x = x) = P X (X = x)p Y (Y = y) Multinomialfordelingen Middelværdi E(X) = x P(X = x) Forventningsværdi mere generelt E(g(X)) = g(x) P(X = x) Linearitet E(aX +by +c) = ae(x)+be(y)+c