Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 28 Kgs. Lyngby Danmark Email: bfni@imm.dtu.dk Dagens nye emner afsnit 6.3 (og 6.4 Betingede kontinuerte fordelinger f(y X = x = f(x,y f X (x Integralformel for gennemsnit af betingede sandsynligheder P(A = P(A X = xf X (xdx Betinget forventning E(Y = E(E(Y X Kovarians Cov(X,Y = E[(X E(X(Y E(Y] = E(XY E(XE(Y, Korellation Corr(X,Y = Cov(X,Y Varians ( af sum af variable N Var = n k=1 Var(X k+2 1 j<k n Cov(X j,x k k=1 X k Bilinearitet ( af kovariansen n Cov i=1 a ix i, m j=1 b jy j = n m i=1 j=1 a ib j Cov(X i,y j Betingede fordelinger i det kontinuerte tilfælde Første skud kunne være at se på de betingede sandsynligheder: P(Y y X = x... men de er ikke veldefinerede fordi den hændelse vi betinger med, X = x, har sandsynlighed. I stedet betinger vi på X dx, og lader intervallet dx gå mod punktet x. Grænsen er veldefineret når (X,Y har simultan tæthed f XY (x,y og den marginale tæthed af X er forskellig for i x: P(Y dy X dx = f XY(x,ydxdy f X (xdx +o(dy = f XY(x,ydy +o(dy f X (x Kontinuerte betingede fordelinger Maskineriet kører som i det diskrete tilfælde; erstat summer med integraler. F.eks. multiplikationsreglen: f XY (x,y = f X (xf Y (y X = x Betinget forventningsværdi af en funktion: E(g(Y X = x = g(yf Y (y X = xdy Ubetingede forventningsværdier: E(g(Y = E(g(Y X = xf X (xdx Det geometriske billede på s. 412 er meget nyttigt! 11. forelæsning 4
Antag at (X,Y er ligefordelt over området {(x,y R R : < y < x < 1}. Spørgsmål 1 Den betingede tæthed af X givet Y f(x Y = y findes til 1 f(x Y = y = 2, < y < x < 1 2 f(x Y = y = 1, < x < 1 3 f(x Y = y = x y, < y < x < 1 4 f(x Y = y = 2x 1 y 2, < y < x < 1 5 f(x Y = y = 1 1 y, < y < x < 1 Eksempel på betinget fordeling For givet X = x er Y exponential(x, hvor X exponential(1 Vi finder den marginale tæthed af Y ved = f Y (y = f(x,ydx = xe xy 1 e x dx = 1 y +1 f Y (y X = xf X (xdx x(y +1e (y+1x dx Integralet er middelværdien af en eksponentialfordelt variabel 1 med middelværdi. Vi finder y+1 f Y (y = 1 (1+y 2 11. forelæsning 5 11. forelæsning 6 Integralformel for gennemsnit af betingede sandsynligheder P(A = P(A X = xf X (xdx Betragt (Π,Y hvor Π er ligefordelt (,1 og P(Y = y Π = p = ( n y p y (1 p n y Hvad er P(Y = y? P(Y = y = 1 ( n p y (1 p n y 1 dp y = 1 1 (n+1! n+1 y!(n y! py (1 p n y dp 11. forelæsning 7 Man har den stokastiske variabel X med tæthed f X (x = λ 2 xe λx samt den betingede fordeling af Y givet X = x, der er Poisson(x. Spm: Hvad er fordelingen af Y? Svar: P(Y = y = = x y = λ2 y! P(Y = y X = xf X (xdx = λ2 (y +1! (λ+1 y+2 y! = y En negativ binomialfordeling y! e x λ 2 xe λx dx = λ2 x y+1 e (λ+1x dx y! (λ+1 ((λ+1xy+1 e (λ+1x (y +1! dx (y +1! (λ+1 y+2 ( 2 ( y λ 1 λ+1 λ+1 forelæsning 11 8
Den kontinuerte stokastiske variabel Y 1 har tætheden f Y (y = 6y(1 y, yderligere har man at den betingede fordeling af X givet Y = y er binomial(3,y. Spørgsmål 2 I X værdimængde finder man P(X = x til 1 1 4 2 1 2 (x+1(4 x 3 x 1 4 ( 3 1 x 8 5 ( 3 x y x (1 y 3 x 11. forelæsning 9 Betinget forventning E(Y X = x = 11. forelæsning 1 y yf(y X = xdy Regneregler for betinget forventning er uændret fra det diskrete tilfælde Man har stadig fortolkningen af E(Y X som en stokastisk variabel, og E(Y = E(E(Y X Betinget forventning Man har den ligefordelte ([;1] kontinuerte stokastiske variabel X, og den stokastiske variabel Y, der givet X = x, følger en normal(x 3 x,x fordeling. Spm: Hvad er middelværdien E(Y af Y? Svar: Vi har E(Y X = x = x 3 x så E(Y X = X 3 X E(Y = E(E(Y X = E(X 3 X = 1 4 1 2 = 1 4 11. forelæsning 11 Antag at (X,Y er ligefordelt over området {(x,y R R : < y < x < 1}. Spørgsmål 3 Den betingede forventning af X givet Y E(X Y = y findes til 1 1 2 2 1+2 y 1+ y 3 1 2(1 y 4 1+ y 2 5 1+ y 1 y 11. forelæsning 12
Kontinuerte og diskrete variable Man har den stokastiske variabel X med tæthed f X (x = λ 2 xe λx samt den betingede fordeling af Y givet X = x, der er Poisson(x. Spm: Hvad er E(Y? Svar: Vi kan benytte resultatet fra før, at Y følger en negativ binomialfordeling. Eller: E(Y X = X, så E(Y = E(E(Y X = E(X = 2 λ Ved det sidste lighedstegn har vi udnyttet, at X følger en gamma(2, λ fordeling. Som kontrol kan vi beregne middelværdien i den negative binomialfordeling λ+1 E(Y = 2q p = 2 1 λ λ+1 = 2 λ forelæsning 11 13 Nøgletal for fordelinger Vi har middelværdi og varians som nøgletal for marginale fordelinger f X (x og f Y (y. Mål for fordelingens placering og variation, med varierende informationsindhold. Kovarians, korrelation er et tilsvarende første mål for en eventuel sammenhæng/afhængighed af to variable. 11. forelæsning 14 Kovarians/korellation Cov(X,Y = E[(X E(X(Y E(Y] = E(XY E(XE(Y hvor (for kontinuerte variable E(XY = Generel regel for varians af sum x y x yf(x,ydydx Var(X +Y = Var(X+Var(Y+2Cov(X,Y Corr(X,Y = Cov(X,Y Relative andele Antal beboere 1 2 3 4 5 6 1 værelse.11.85.7.1... 2 værelser.17.264.96.14.3.1.1 3 værelser.9.112.14.32.13.3.2 4 værelser.5.44.52.23.16.4.2 5 værelser.2.1.16.9.7.2.1 6 værelser.2.6.1.6.6.2.2 En slags mål for afhængigheden mellem X og Y 11. forelæsning 15 11. forelæsning 16
E(XY = 1 1.85+1 2.7+ +6 6.2 = 4.9711 For korrelationskoefficienten finder vi Corr(X,Y = E(XY E(XE(Y =.4257 Positiv/negativ afhængighed For to hændelser A og B har vi defineret uafhægighed, hvis P(A B = P(A B c = P(A, der er ensbetydende med P(A B = P(AP(B. Når dette ikke er tilfældet, kan vi have P(A B > P(AP(B positiv afhængighed, eller P(A B < P(AP(B negativ afhængighed. Sammenhæng med correlationskoefficienten for indikatorvariablene I A og I B. 11. forelæsning 17 11. forelæsning 18 Man har de to hændelser A og B, således at P(A =.3 P(B =.4 og P(A B =.5. Spørgsmål 4 Hændelserne A og B er 1 Positivt afhængige 2 Uafhængige 3 Negativt afhængige 4 A afhænger af B, medens B er uafhængig af A 5 A og B er gensidigt udelukkende. Bilinearitet af kovariansen ( N Var X k = k=1 ( n m Cov a i X i, b j Y j = n Var(X k +2 Cov(X j,x k k=1 1 j<k n i=1 j=1 i=1 j=1 n m a i b j Cov(X i,y j Bemærk iøvrigt: Cov(X,X = Var(X Kovariansen kan ses som en generalisering af variansen 11. forelæsning 19 11. forelæsning 2
Man har de to hændelser A og B, således at P(A =.3 P(B =.4 og P(A B =.5. Lad nu X = I A og Y = I B, hvor I C er indikatorfunktionen for hændelsen C. Spørgsmål 5 Kovariansen Cov(X,Y mellem X og Y findes til 1.16 2 3.4 4.8 5.16 11. forelæsning 21 Afsnit 6.3 og 6.4 Betingede kontinuerte fordelinger f(y X = x = f(x,y f X (x Integralformel for gennemsnit af betingede sandsynligheder P(A = P(A X = xf X (xdx Betinget forventning E(Y = E(E(Y X Kovarians/korellation Cov(X,Y = E[(X E(X(Y E(Y] = E(XY E(XE(Y Corr(X,Y = Cov(X,Y (X,Y uafhængige Corr(X,Y = Varians ( af sum af variable N Var = n k=1 Var(X k+2 1 j<k n Cov(X j,x k k=1 X k Bilinearitet ( af kovariansen n Cov i=1 a ix i, m j=1 b jy j = n m i=1 j=1 a ib j Cov(X i,y j