Sandsynlighedsregning

Relaterede dokumenter
Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Kvantitative Metoder 1 - Forår 2007

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kapitel 4 Sandsynlighed og statistiske modeller

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår 2007

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Produkt og marked - matematiske og statistiske metoder

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Elementær sandsynlighedsregning

Tema. Dagens tema: Indfør centrale statistiske begreber.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

INSTITUT FOR MATEMATISKE FAG c

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Løsninger til kapitel 6

Sandsynlighedsregning

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger


Kvantitative Metoder 1 - Efterår Dagens program

Note om Monte Carlo metoden

Sandsynlighedsregning

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Uge 10 Teoretisk Statistik 1. marts 2004

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

02402 Vejledende løsninger til hjemmeopgaver og øvelser i kapitel 4

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kapitel 4 Sandsynlighed og statistiske modeller

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Nanostatistik: Opgaver

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Sandsynlighed og Statistik

Diskrete fordelinger. Fire vigtige diskrete fordelinger: 1. Uniform fordeling (diskret) 2. Binomial fordeling. 3. Hyper-geometrisk fordeling

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Normalfordelingen og Stikprøvefordelinger

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

CIVILINGENIØREKSAMEN Side 1 af 18 sider. Skriftlig prøve, den: PQ. juli 200Z Kursus nr : (navn) (underskrift) (bord nr)

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Konfidensintervaller og Hypotesetest

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Transkript:

Mogens Bladt www2.imm.dtu.dk/courses/02405 21. September, 2007

Lidt om binomialkoefficienter n størrelsen af en mængde/population. Vi ønsker at udtage en sub population af størrelse r. To sub populationer er forskellige hvis en af populationerne indeholder et element forskellig fra elementerne i den anden. På hvor mange måder kan udtage en sub population af størrelse r? En sub population på størrelse r kan arrangeres på r! = r(r 1)(r 2) 2 1 måder. Vi kan udtage r elementer af de n på (n) r = n(n 1) (n r + 1) måder. Hvis x er antallet af måder vi kan udtage en sub population af størrelse r på, så er x r! = (n) r. D.v.s x = ( n r ) = (n) r r! = n! r!(n r)!.

Lidt om binomialkoefficienter ( n r ) = ( n n r ). At udvælge r elementer kan gøres på lige så mange måder som at fravælge n r. ( ) ( ) ( ) n n n + 1 + =. r 1 r r Udvælg et element, i, fra populationen af størrelse n + 1. Hvis vi udvælger r elementer af n + 1 så er i enten med eller ikke. Hvis den er med skal vi blot vælge r 1 andre; hvis den ikke er med skal vi vælge r af de n tilbageværende. ( ) ( ) ( ) n n n + +... + = 2 0 1 n n Vi kan del populationen n i to dele på det antal måder som er angivet på h.s. højresiden er at vi til hvert element beslutter om dette skal være i den ene eller den anden mængde.

Lidt om binomialkoefficienter Binomialkoefficienter forekommer naturligt på følgende måde: n ( ) (a + b) n n = a i b n i. i i=0 (a + b) 2 = a 2 + 2ab + b 2. (a + b) 3 = a 3 + 3a 2 b + 3ab 2 + b 3 Hvis nu a og b = 1 a er sandsynligheder, så står der, at D.v.s. med p i = opfylder, at ( n i 1 = n i=0 p i 0, i ( n i ) a i b n i. ) p i (1 p) n i har vi en følge der p i = 1 og p i 1

Fordelinger Hvis p i [0, 1] og i p i = 1 så kaldes {p i } en fordeling. Hvis p 0 = p, p 1 = 1 p kaldes fordelingen en Bernoulli fordeling. ( ) n Hvis p i = p i i (1 p) n i, i = 0, 1,..., n kaldes fordelingen en Binomial fordeling. Vi skriver også p i = b(i; n, p) for at specificere n, p. Hvis p i = p i 1 (1 p), i = 0, 1, 2,... kaldes fordelingen for en geometrisk fordeling. Hvis p i = λi i! e λ, i = 0, 1,... kaldes fordelingen for en Poisson fordeling.

Binomialfordelingen Hvad er sandsynligheden for at slå 2 plat i 3 kast med en terning? Udfaldsrummet er Ω = {(a, b, c) a {p, k}, b {p, k}, c {p, k}}. D.v.s. der er 2 2 2 = 8 muligheder. Disse er ω 1 = (p, p, p) ω 2 = (p, p, k) ω 3 = (p, k, p) ω 4 = (p, k, k) ω 5 = (k, p, p) ω 6 = (k, p, k) ω 7 = (k, k, p) ω 8 = (k, k, k)

Binomialfordelingen Der er 3 af disse ω er der har 2 plat. D.v.s. Sandsynligheden er 3/8. Dette kunne vi også have regnet ud på følgende måde: p =sandsynligheden ( ) for plat (succes). Vi kan udtage 2 platter 3 i 3 kast på = 3! 2 (3 2)!2! = 3 måder. Dvs. sandsynligheden for 2 plat er lig med p 2 = b(2; 3, 1 2 ) = ( 3 2 ) ( ) 1 2 ( 1 1 ) 3 2 = 3 1 2 2 4 1 2 = 3 8.

Binomialfordelingen r bolde fyldes på en tilfældig måde i n kasser. Hvad er sandsynligheden p k for at k bolde findes i en speciel kasse (den første f.eks.)? Sandsynligheden for at en bold havner i den specielle kasse er 1/n (succes), sandsynligheden for at den havner udenfor er 1 1/n (fiasko). Derfor er p k = b(k; r, 1/n), så p k = ( r k ) ( ) 1 k ( 1 1 ) r k. n n

Hypergeometrisk fordeling Antag, at en kasse med n = n 1 + n 2 bold indeholder n 1 røde og n 2 sorte bolde. r elementer udtages tilfældigt. Lad q k = hp(k; r, n1, n2) være sandsynligheden for, at stikprøven indeholder præcis k røde elementer. Så er q k = ( n1 k ) ( ) n2 r k ( ). n r

Hjortene Antallet af hjorte er n = n 1 + n 2. De røde bolde er nu de mærkede dyr, n 1 = 100. 170 dyr blev skudt, dette er stikprøven på størrelse r = 170. Heraf var de k = 25 dyr mærkede. Vi ønsker at estimere n (eller n 2 ) som er den eneste ubekendte.

Hjortene Sandsynligheden for at stikpøven indeholder 25 mærkede dyr er ( ) ( 100 n 100 ) q 25 = 25 170 25 ( ) n. 170 Vi estimerer nu n ved at finde den værdi som maximerer q 25 (maximum likelihood estimation). I hjorte eksemplet er n = 680.

DeMoivre Laplace grænseværdisætning. Lad A α,β være hændelsen, at antal successer i et binomial experiment ligger mellem α og β, hvor α < β. Hvis α og β er heltallige har vi, at IP(A α,β ) = b(α; n, p)+b(α+1; n, p)+...+b(β 1; n, p)+b(β; n, p). Lad Φ(x) være følgende funktion Så gælder, at Φ(x) = x 1 2π e t2 2 dt.. IP(A α,β ) Φ( β np + 1 2 ) Φ( α np 1 2 ). np(1 p) np(1 p) Tallene 1 2 i ovenstående formler kaldes kontinuitetskorrektioner.

DeMoivre Laplace grænseværdisætning. Grænseværdisætningen siger løst sagt, at en binomialfordeling kan approximeres med en normal fordeling der har samme middelværdi og varians som binomialfordelingen. Hvad er sandsynligheden for at slå plat mellem 190 og 210 gange i 400 kast med en mønt? Den præcise sandsynlighed er 210 i=190 b(i; 400, 1 2 ) =.7062918818. Med normalapproximationen fås 1 210 400 Φ 2 + 1 1 2 190 400 Φ 400 1 2 1 2 400 1 2 1 2 2 1 2. =.7062818872.

Vedrørende normalfordelingen f (x) = 1 2π e x2 /2 kaldes for tætheden af standard normal fordelingen. Dette er en situation med udfaldsrum Ω = (, ). Hvis A Ω så er IP(A) = Specielt, hvis A = [a, b], så er IP(A) = A b a f (x)dx. f (x)dx. Standard normal fordelingen er symmetrisk omkring 0. Bemærk, at f (x)dx = 1.

Vedrørende normalfordelingen Foretager vi et variabel skift y = x + µ (eller x = y µ) så er 1 2π e (y µ)2 /2 dy = 1. 1 2π e (y µ)2 /2 er symmetrisk omkring µ. Fortager vi endnu et variabel skift, x = y µ σ, så er f (y; µ, σ) = 1 2πσ e (y µ)2 /(2σ 2 ) stadig symmetrisk omkring µ, og f (y; µ, σ) = 1. f (x; µ, σ) kaldes for tætheden for normalfordelingen med middelværdi µ og standardafvigelse σ, og det skrives N(µ, σ 2 ).

Vedrørende normalfordelingen Ved symmetri, Φ( x) = = x x = 1 1 2π e s2 /2 ds 1 2π e s2 /2 ds x = 1 Φ(x) Definér, Φ(a, b) = Φ(b) Φ(a). 1 2π e s2 /2 ds Så er Φ(a, b) sandsynligheden for hændelsen (a, b) (intervallet).

Vedrørende normalfordelingen så er Φ( x, x) = Φ(x) Φ( x) = Φ(x) (1 Φ(x)) = 2Φ(x) 1 Den centrale grænseværdisætning siger løst sagt, at gennemsnittet af et stort antal uafhængige målinger er ca. normalfordelt. Dette har betydning i forhold til konfidensintervaller.

Vedrørende normalfordelingen Lad os betragte 400 kast med mønt 210 landede på krone. Er mønten fair? Hvor meget kan antal krone fluktuere omkring sin middelværdi på 200? Find c således, at IP(antal krone ligger mellem 200 c og 200 + c) = 0.95. Vi finder numerisk, at c = 19, 1 19. D.v.s. med 95 % sandsynlighed ligger antal krone i et område på 200 ± 19 ved 400 kast med en ægte mønt. Da 210, vores resultat, ligger i dette interval er der ingen grund til at betivle ægtheden af vores mønt.