Sandsynlighedsregning

Mogens Bladt www2.imm.dtu.dk/courses/02405 21. September, 2007

Lidt om binomialkoefficienter n størrelsen af en mængde/population. Vi ønsker at udtage en sub population af størrelse r. To sub populationer er forskellige hvis en af populationerne indeholder et element forskellig fra elementerne i den anden. På hvor mange måder kan udtage en sub population af størrelse r? En sub population på størrelse r kan arrangeres på r! = r(r 1)(r 2) 2 1 måder. Vi kan udtage r elementer af de n på (n) r = n(n 1) (n r + 1) måder. Hvis x er antallet af måder vi kan udtage en sub population af størrelse r på, så er x r! = (n) r. D.v.s x = ( n r ) = (n) r r! = n! r!(n r)!.

Lidt om binomialkoefficienter ( n r ) = ( n n r ). At udvælge r elementer kan gøres på lige så mange måder som at fravælge n r. ( ) ( ) ( ) n n n + 1 + =. r 1 r r Udvælg et element, i, fra populationen af størrelse n + 1. Hvis vi udvælger r elementer af n + 1 så er i enten med eller ikke. Hvis den er med skal vi blot vælge r 1 andre; hvis den ikke er med skal vi vælge r af de n tilbageværende. ( ) ( ) ( ) n n n + +... + = 2 0 1 n n Vi kan del populationen n i to dele på det antal måder som er angivet på h.s. højresiden er at vi til hvert element beslutter om dette skal være i den ene eller den anden mængde.

Lidt om binomialkoefficienter Binomialkoefficienter forekommer naturligt på følgende måde: n ( ) (a + b) n n = a i b n i. i i=0 (a + b) 2 = a 2 + 2ab + b 2. (a + b) 3 = a 3 + 3a 2 b + 3ab 2 + b 3 Hvis nu a og b = 1 a er sandsynligheder, så står der, at D.v.s. med p i = opfylder, at ( n i 1 = n i=0 p i 0, i ( n i ) a i b n i. ) p i (1 p) n i har vi en følge der p i = 1 og p i 1

Fordelinger Hvis p i [0, 1] og i p i = 1 så kaldes {p i } en fordeling. Hvis p 0 = p, p 1 = 1 p kaldes fordelingen en Bernoulli fordeling. ( ) n Hvis p i = p i i (1 p) n i, i = 0, 1,..., n kaldes fordelingen en Binomial fordeling. Vi skriver også p i = b(i; n, p) for at specificere n, p. Hvis p i = p i 1 (1 p), i = 0, 1, 2,... kaldes fordelingen for en geometrisk fordeling. Hvis p i = λi i! e λ, i = 0, 1,... kaldes fordelingen for en Poisson fordeling.

Binomialfordelingen Hvad er sandsynligheden for at slå 2 plat i 3 kast med en terning? Udfaldsrummet er Ω = {(a, b, c) a {p, k}, b {p, k}, c {p, k}}. D.v.s. der er 2 2 2 = 8 muligheder. Disse er ω 1 = (p, p, p) ω 2 = (p, p, k) ω 3 = (p, k, p) ω 4 = (p, k, k) ω 5 = (k, p, p) ω 6 = (k, p, k) ω 7 = (k, k, p) ω 8 = (k, k, k)

Binomialfordelingen Der er 3 af disse ω er der har 2 plat. D.v.s. Sandsynligheden er 3/8. Dette kunne vi også have regnet ud på følgende måde: p =sandsynligheden ( ) for plat (succes). Vi kan udtage 2 platter 3 i 3 kast på = 3! 2 (3 2)!2! = 3 måder. Dvs. sandsynligheden for 2 plat er lig med p 2 = b(2; 3, 1 2 ) = ( 3 2 ) ( ) 1 2 ( 1 1 ) 3 2 = 3 1 2 2 4 1 2 = 3 8.

Binomialfordelingen r bolde fyldes på en tilfældig måde i n kasser. Hvad er sandsynligheden p k for at k bolde findes i en speciel kasse (den første f.eks.)? Sandsynligheden for at en bold havner i den specielle kasse er 1/n (succes), sandsynligheden for at den havner udenfor er 1 1/n (fiasko). Derfor er p k = b(k; r, 1/n), så p k = ( r k ) ( ) 1 k ( 1 1 ) r k. n n

Hypergeometrisk fordeling Antag, at en kasse med n = n 1 + n 2 bold indeholder n 1 røde og n 2 sorte bolde. r elementer udtages tilfældigt. Lad q k = hp(k; r, n1, n2) være sandsynligheden for, at stikprøven indeholder præcis k røde elementer. Så er q k = ( n1 k ) ( ) n2 r k ( ). n r

Hjortene Antallet af hjorte er n = n 1 + n 2. De røde bolde er nu de mærkede dyr, n 1 = 100. 170 dyr blev skudt, dette er stikprøven på størrelse r = 170. Heraf var de k = 25 dyr mærkede. Vi ønsker at estimere n (eller n 2 ) som er den eneste ubekendte.

Hjortene Sandsynligheden for at stikpøven indeholder 25 mærkede dyr er ( ) ( 100 n 100 ) q 25 = 25 170 25 ( ) n. 170 Vi estimerer nu n ved at finde den værdi som maximerer q 25 (maximum likelihood estimation). I hjorte eksemplet er n = 680.

DeMoivre Laplace grænseværdisætning. Lad A α,β være hændelsen, at antal successer i et binomial experiment ligger mellem α og β, hvor α < β. Hvis α og β er heltallige har vi, at IP(A α,β ) = b(α; n, p)+b(α+1; n, p)+...+b(β 1; n, p)+b(β; n, p). Lad Φ(x) være følgende funktion Så gælder, at Φ(x) = x 1 2π e t2 2 dt.. IP(A α,β ) Φ( β np + 1 2 ) Φ( α np 1 2 ). np(1 p) np(1 p) Tallene 1 2 i ovenstående formler kaldes kontinuitetskorrektioner.

DeMoivre Laplace grænseværdisætning. Grænseværdisætningen siger løst sagt, at en binomialfordeling kan approximeres med en normal fordeling der har samme middelværdi og varians som binomialfordelingen. Hvad er sandsynligheden for at slå plat mellem 190 og 210 gange i 400 kast med en mønt? Den præcise sandsynlighed er 210 i=190 b(i; 400, 1 2 ) =.7062918818. Med normalapproximationen fås 1 210 400 Φ 2 + 1 1 2 190 400 Φ 400 1 2 1 2 400 1 2 1 2 2 1 2. =.7062818872.

Vedrørende normalfordelingen f (x) = 1 2π e x2 /2 kaldes for tætheden af standard normal fordelingen. Dette er en situation med udfaldsrum Ω = (, ). Hvis A Ω så er IP(A) = Specielt, hvis A = [a, b], så er IP(A) = A b a f (x)dx. f (x)dx. Standard normal fordelingen er symmetrisk omkring 0. Bemærk, at f (x)dx = 1.

Vedrørende normalfordelingen Foretager vi et variabel skift y = x + µ (eller x = y µ) så er 1 2π e (y µ)2 /2 dy = 1. 1 2π e (y µ)2 /2 er symmetrisk omkring µ. Fortager vi endnu et variabel skift, x = y µ σ, så er f (y; µ, σ) = 1 2πσ e (y µ)2 /(2σ 2 ) stadig symmetrisk omkring µ, og f (y; µ, σ) = 1. f (x; µ, σ) kaldes for tætheden for normalfordelingen med middelværdi µ og standardafvigelse σ, og det skrives N(µ, σ 2 ).

Vedrørende normalfordelingen Ved symmetri, Φ( x) = = x x = 1 1 2π e s2 /2 ds 1 2π e s2 /2 ds x = 1 Φ(x) Definér, Φ(a, b) = Φ(b) Φ(a). 1 2π e s2 /2 ds Så er Φ(a, b) sandsynligheden for hændelsen (a, b) (intervallet).

Vedrørende normalfordelingen så er Φ( x, x) = Φ(x) Φ( x) = Φ(x) (1 Φ(x)) = 2Φ(x) 1 Den centrale grænseværdisætning siger løst sagt, at gennemsnittet af et stort antal uafhængige målinger er ca. normalfordelt. Dette har betydning i forhold til konfidensintervaller.

Vedrørende normalfordelingen Lad os betragte 400 kast med mønt 210 landede på krone. Er mønten fair? Hvor meget kan antal krone fluktuere omkring sin middelværdi på 200? Find c således, at IP(antal krone ligger mellem 200 c og 200 + c) = 0.95. Vi finder numerisk, at c = 19, 1 19. D.v.s. med 95 % sandsynlighed ligger antal krone i et område på 200 ± 19 ved 400 kast med en ægte mønt. Da 210, vores resultat, ligger i dette interval er der ingen grund til at betivle ægtheden af vores mønt.