Dagens program Kapitel 4: Diskrete fordelinger Hypergeometrisk fordeling, Afsnit 4.3 Multinomial fordeling, Afsnit 4.8 Geometrisk fordeling og Negativ binomialfordeling (Inverse Sampling), Afsnit 4.4 Approksimation af binomialsandsynligheder, Afsnit 4.5 Poission fordeling og Poission proces, Afsnit 4.6 1
Hypergeometrisk fordeling Eksempel 3: Meningsmåling Blandt de stemmeberettigede i Danmark stemmer andelen p 1 på Venstre (V) eller Konservative (C). Tilfældig stikprøve på 100 personer med tilbagelægning. "Hvilket parti ville du stemme på, hvis der var Folketingsvalg i morgen?" X : Antal personer i stikprøven, der stemmer på V eller C X Bin(100,p 1 ) E (X) = 100 p 1 Var (X) =100 p 1 (1 p 1 ) Hvis p 1 =0.366 : E (X) =36.6 og Var (X) =23.2044 Hvad sker der, hvis vi udtager uden tilbagelægning? 2
Population bestående af N elementer. Udtagning af tilfældig stikprøve bestående af n elementer. Antal "succes" i populationen: M Andel "succes" i populationen: p = M/N Med tilbagelægning: X 1,..., ½X n uafhængige stokastiske variabler hvor X i Ber(p), dvs. 1 hvis succes X i = 0 hvis fiasko Antalsuccesistikprøven:X = X 1 +... + X n Bin(n, p) E (X) =np Var (X) =np (1 p) Uden tilbagelægning: Hvad er fordelingen af antallet af succes i stikprøven? 3
Eksempel 4.1b i bogen: Beholder med 20 bolde hvoraf 8 er røde, og 12 er hvide. Jeg vælger tilfældigt 5 bolde (uden tilbagelægning). Hvad er fordelingen af røde bolde i stikprøven? X : Antalrødeboldeistikprøven Vi har at: P (X =0) = P (X =2) = P (X =4) = 12 5 0.0511 P (X =1)= 8 0 20 5 8 2 20 5 8 4 12 3 0.3973 P (X =3) = 12 1 20 0.0542 P (X =5)= 5 8 1 20 5 8 3 20 5 8 5 12 4 0.2554 12 2 0.2384 12 0 20 0.0036 5 4
Fordelingen af X : 0 1 2 3 4 5 Med tilbagelægning 0.0778 0.2592 0.3456 0.2304 0.0768 0.0102 Uden tilbagelægning 0.0511 0.2554 0.3973 0.2384 0.0542 0.0036 Med tilbagelægning: E (X) =5 2/5 =2 Var (X) =5 2/5 3/5 =1.2 Uden tilbagelægning: E (X) =2 Var (X) =E (X 2 ) E (X) 2 4.9474 2 2 =0.9474 5
Resultat: Fordelingen af antal af succes X i stikprøveudtagning uden tilbagelægning er givet ved M N M x n x f (x) = N for x =0, 1,..., n n Vi siger at X er hypergeometrisk fordelt og skriver X HypGeo(N,M,n) Der gælder at: E (X) =n M N Var (X) =n M N µ 1 M N n N N 1 Bemærk: Variansen er mindre i forhold til udvælgelse med tilbagelægning Der er ikke stor forskel på med/uden tilbagelægning, når populationen N er stor i forhold til stikprøven n 6
Hvorfor bliver variansen mindre? Udtager 1 bold af gangen. Stokastiske variabler X 1,..., X 5 der beskriver dette: X i = ½ 1 hvis rød bold 0 ellers Med tilbagelægning: P (X 4 =1 X 1 =1,X 2 =1,X 3 =1) = P (X 4 =1)=8/20 = 2/5 =0.4 P (X 4 =1 X 1 =0,X 2 =0,X 3 =0) = P (X 4 =1)=0.4 Uden tilbagelægning: P (X 4 =1 X 1 =1,X 2 =1,X 3 =1) = 5 17 0.294 P (X 4 =1 X 1 =0,X 2 =0,X 3 =0) = 8 17 0.471 Hvis udfaldet af de første 3 trækninger tilfældigvis har været "ekstreme", påvirkes udfaldet af den 4 trækning af dette, hvis vi ikke lægger boldene tilbage. 7
Fordelingen af den første bold, der bliver udtaget: P (X 1 =1)=8/20 = 2/5 Fordelingen af den anden bold, der bliver udtaget: P (X 2 =1) = P (X 2 =1,X 1 =1)+P (X 2 =1,X 1 =0) = P (X 2 =1 X 1 =1)P (X 1 =1)+P (X 2 =1 X 1 =0)P (X 1 =0) = 7 19 8 20 + 8 19 12 20 = 8(7+12) 19 20 = 8 19 19 20 = 8 20 X 1 og X 2 er identisk fordelte, men ikke uafhængige. Hvis vi ved, hvad farven på den første bold er, giver dette information om farven på den anden bold. 8
Multinomial-fordeling Kvantitative Metoder 1 - Forår 2007 Binomialfordeling: Opdeling af n elementer i 2 katogorier ("succes"og "fiasko") Multinomialfordeling: Generalisering af binomialfordeling: Opdeling i k kategorier Eksempel 4: Meningsmåling Blandt de stemmeberettigede i Danmark stemmer andelen p 1 på Venstre (V) eller Konservative (C) og andelen p 2 på Dansk Folkeparti (O). Tilfældig stikprøve på 100 personer med tilbagelægning. "Hvilket parti ville du stemme på, hvis der var Folketingsvalg i morgen?" Y 1 : Antal personer i stikprøven, der stemmer på V eller C Y 2 : Antal personer i stikprøven, der stemmer på O Y 3 : Antal personer i stikprøven, der ikke stemmer på V, C eller O 9
Hvad er sandsynligheden for at få 40, der stemmer på Venstre eller Konservative, og 20 der stemmer på Dansk Folkeparti: µ 100 P (Y 1 =40,Y 2 =20,Y 3 =40) = p 40 1 p 20 2 (1 p 1 p 2 ) 40 40, 20, 40 Hvis p 1 =0.366 og p 2 =0.136 : = 100! 40!20!40! p40 1 p 20 2 (1 p 1 p 2 ) 40 P (Y 1 =40,Y 2 =20,Y 3 =40)= 100! 40!20!40! 0.36640 0.136 20 0.498 40 0.00072 10
De marginale fordelinger: Y 1 Bin(100,p 1 ) Y 2 Bin(100,p 2 ) Y 3 Bin(100, 1 p 1 p 2 ) Hvad er sandsynligheden for at få 40, der stemmer på Venstre eller Konservative: µ 100 P (Y 1 =40)= p 40 1 (1 p 1 ) 60 40 Hvis p 1 =0.366 : P (Y 1 =40)= µ 100 0.366 40 0.634 60 0.0635 40 Se den seneste meningsmåling fra Gallup her: http://www.dr.dk/nyheder/politik/barometer.htm 11
Geometrisk fordeling Kvantitative Metoder 1 - Forår 2007 Ventetid til første "succes" i uafhængige gentagelser af et Bernoulli eksperiment Eksempel: Ventetid til første "krone" i kast med mønt X : Antal gentagelser af forsøget indtil "succes" første gang For p = P (succes) er fordelingen af X er givet ved f (x p) =P (X = x) =(1 p) x 1 p for x =1, 2,... X er geometrisk fordelt med sandsynlighedsparameter p og dette skrives X Geo(p) Der gælder: E (X) = 1 p Var (X) = 1 p p 2 12
Eksempel 2: Terningekast En terning kastes, indtil jeg får en femmer eller sekser. p = P ( femmer eller sekser )=2/6 =1/3 X : Antal terningekast Udfaldet af det i te kast: X i = ½ 1 hvis femmer eller sekser 0 ellers X i erne uafhængige og P (X i =1)=p =1/3 13
Hvad er sandsynligheden for, at jeg skal kaste 1 gang: P (X =1)=P (X 1 =1)=1/3 0.3333 Hvad er sandsynligheden for, at jeg skal kaste 2 gange: P (X =2) = P (X 1 =0,X 2 =1)=P (X 1 =0)P (X 2 =1) = (1 p) p =(2/3) (1/3) 0.2222 Hvad er sandsynligheden for, at jeg skal kaste 3 gange: P (X =3) = P (X 1 =0,X 2 =0,X 3 =1)=P (X 1 =0)P (X 2 =0)P (X 2 =1) = (1 p) 2 p =(2/3) 2 (1/3) 0.1481 Middelværdien af X : E (X) =1/p =3 Variansen af X :Var(X) =(1 p) /p 2 =2/3 3 2 =6 14
Figur 1: Geometrisk fordeling med sandsynlighedsparameter 1/3 15
Negativ binomialfordeling Y : Antal gentagelser for at få "succes" r gange For p = P (succes) er fordelingen af Y givet ved µ y 1 f (y p) = p r (1 p) y r for y = r, r +1,r+2,... r 1 Fordelingen af Y kaldes en negativ binomialfordeling med sandsynlighedsparameter p og antalsparameter r, og dette skrives Y NegBin(r, p) Der gælder: E (X) = r p Var (X) = r (1 p) p 2 16
Eksempel 2: Terningekast, (fortsat) En terning kastes, indtil jeg har fået en femmer eller sekser 2 gange. p = P ( femmer eller sekser )=2/6 =1/3 Y : Antal terningekast Udfaldet af det i te kast: Y i = ½ 1 hvis femmer eller sekser 0 ellers 17
Hvad er sandsynligheden for, at jeg skal kaste 2 gange: P (Y =2)=P (Y 1 =1,Y 2 =1)=(1/3) 2 0.1111 Hvad er sandsynligheden for, at jeg skal kaste 3 gange: P (Y =3) = P (Y 1 =0,Y 2 =1,Y 3 =1)+P (Y 1 =1,Y 2 =0,Y 3 =1) = 2 (2/3) (1/3) 2 0.1481 Hvad er sandsynligheden for, at jeg skal kaste 4 gange: P (Y =4) = P (Y 1 =0,Y 2 =0,Y 3 =1,Y 4 =1)+P (Y 1 =0,Y 2 =1,Y 3 =0,Y 4 =1) +P (Y 1 =1,Y 2 =0,Y 3 =0,Y 4 =1) = 3 (2/3) 2 (1/3) 2 0.1481 Middelværdien af Y : E (Y )=r 1/p =2 3=6 Variansen af Y :Var(Y )=r (1 p) /p 2 =2 6=12 18
Figur 2: Negativ binomialfordeling med antalsparameter 2 og sandsynlighedsparameter 1/3 19
Resultat: Addition Y 1 Geo(p) og Y 2 Geo(p) og Y 1 og Y 2 uafhængige, da vil Y 1 + Y 2 NegBin(2,p) Antal "succes" i n uafhængige gentagelser: Binomialfordeling Antal gentagelser indtil r "succes": Negativ binomialfordeling Udvælgelse af tilfældig stikprøve af given størrelse og udførsel af "forsøg" (Engelsk: sampling) Binomialfordeling eller hypergeometrisk fordeling Udførsel af "forsøg" på tilfældigt udvalgte indtil fastlagt antal "succes" (Engelsk: inverse sampling) Negativ binomialfordeling 20
Approksimation af binomial-sandsynligheder X er binomialfordelt med antalsparameter n og sandsynlighedsparameter p. Vi har at E (X) =np og Var (X) =np (1 p). Der gælder X k dvs. X E (X) k E (X) X E (X) p Var (X) k E (X) p Var (X) dvs. dvs. X np p np (1 p) k np p np (1 p) 21
Resultat: DeMoivre X Bin(n, p) hvor np (1 p) > 5. Da gælder følgende approksimation: Ã! k +0.5 np P (X k) Φ p np (1 p) hvor funktionen Φ ( ) er fordelingsfunktionen for en normalfordeling, se tabellen side 652-53 i bogen. 22
Eksempel 4.5b i bogen: Y Bin(8, 0.5) dvs. E (X) =np =4 og Var (X) =np (1 p) =2 Y k og vi sætter Z = k +0.5 np p = k +0.5 4 np (1 p) 2 Binomial-ssh. Z Approksimation Y 0 0.0039-2.4749 0.0067 Y 1 0.0351-1.7678 0.0386 Y 2 0.1445-1.0607 0.1444 Y 3 0.3632-0.3536 0.3618 Y 4 0.6466 0.3536 0.6382 23
Figur 3: Grafen for funktionen Φ (z) 24 Figur 4:
Poissonfordeling Hvis X Bin(n, p) og n er "stor"og p er "lille", da gælder P (X = x) = ³ n x p x (1 p) n x (np)x x! exp ( np) Sandsynlighedsfunktionen for X er givet ved f (x m) = mx exp ( m) for x =0, 1, 2,... x! X er Poissonfordelt med parameter m. Detteskrives somx Poiss(m) E (X) =m Var (X) = m 25
Figur 5: Sandsynlighedsfunktionen for X Bin(1000, 0.01) dvs. det forventede antal succes er 10 26
Figur 6: Sandsynlighedsfunktionen for X Bin(2000, 0.005) dvs. det forventede antal succes er 10 27
Poissonproces Eksempel 4.6a: Ankomst af kunder til en butik Tidsenhed: timer λ : Det forventede antal ankomster pr. time (intensiteten) Y t : Antalankomsteriintervalaflængdet (målt i timer) Y 1 : Antalankomsterpr.time Y 5 : Antal ankomster på 5 timer Y 0.25 : Antal ankomster hvert kvarter Y t følger en Poisson-process, dvs. Y t Poisson(λt) Det forventede antal ankomster i et tidsinterval af længde t er λt 28
Egenskaber ved en Poissonproces: Antallet af ankomster pr time afhænger ikke af selve tidspunktet Antallet af ankomster i et tidsrum er uafhængigt af antallet af ankomster i alle andre tidsrum Ankomsterne i et givet tidsrum er cirka proportionalt med længden af tidsrummet Sandsynligheden for flere ankomster på næsten samme tid er lille 29
Eksempel 4.6a: Ankomst af kunder Ankomst af kunder til en butik følger en Poissonproces med 5 kunder pr time: Antallet af ankomster per time: X Poiss(5) Sandsynlighedsfordelingen og kumulerede sandsynligheder: x 0 1 2 3 4 5 6 7 8 9 P (X = x) 0.0067 0.0337 0.0842 0.1404 0.1755 0.1755 0.1462 0.1044 0.0653 0.0363 P (X x) 0.0067 0.0404 0.1247 0.2650 0.4405 0.6160 0.7622 0.8666 0.9319 0.9682 Forventede antal kunder pr time: E (X) =5 Spredningen: p Var (X) = 5 2.24 30
Figur 7: Sandsynlighedsfunktion i Poissonfordeling med parameter 5 31
Resultat: Addition X 1 er Poissonfordelt med parameter m 1 og X 2 er Poissonfordelt med parameter m 2, og X 1 og X 2 er uafhængige. Da er X 1 + X 2 Poissonfordelt med parameter (m 1 + m 2 ). Eksempel 4.6c i bogen: Ankomst af type 1 kunder pr. time: X 1 Poiss(3) Ankomst af type 2 kunder pr. time: X 2 Poiss(5) Ankomst af type 1 og 2 kunder: X 1 + X 2 Poiss(8) 32
Opsummering Beskrivelse af stikprøveudvægelse i population med interesse for bestemt karakteriska: - Med tilbagelægning: Binomialfordeling (ingen hukommelse) - Uden Tilbagelægning: Hypergeometrisk fordeling (hukommelse) Multinomialfordeling: - Generalisering af binomialfordeling - Opdeling i mere end 2 katogorier - Eksempel: Meningsmåling Geometrisk fordeling og negativ binomialfordeling: Tæller gentagelser (ventetid) når antal "succes" er fastlagt 33
Approksimering af binomialsandsynligheder (normalfordeling) Poisson fordeling: - Antal gange en sjælden hændelse indtræffer i et stort antal gentagelser Poissonproces: - Eksempel: Kundeankomst 34
Næste gang Mandag gennemgåes: Det vi mangler af kapitel 4... Afsnit 5.1-5.5: Kontinuerte fordelinger Husk: - Afsnit 4.9 er ikke pensum Bytning af timer: Onsdag d. 21/3 16-18 (HO1) forelæser Peter Birch i Makro 1 Torsdag d. 22/3 10-12 (HO6) forelæser jeg i Kvantitative Metoder 1. 35