Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte fordelinger, Afsnit 5.1-5.2: - Fordelingsfunktion - Tæthedsfunktion - Eksempel: Ligefordeling 1
Approksimation af binomial-sandsynligheder X er binomialfordelt med antalsparameter n og sandsynlighedsparameter p. Vi har at E (X) =np og Var (X) =np (1 p). Der gælder X k dvs. X E (X) k E (X) X E (X) p Var (X) k E (X) p Var (X) dvs. dvs. X np p np (1 p) k np p np (1 p) 2
Resultat: DeMoivre X Bin(n, p) hvor np (1 p) > 5. Da gælder følgende approksimation: Ã! k +0.5 np P (X k) Φ p np (1 p) hvor funktionen Φ ( ) er fordelingsfunktionen for en normalfordeling, se tabellen side 652-53 i bogen. 3
Eksempel 4.5b i bogen: Y Bin(8, 0.5) dvs. E (X) =np =4 og Var (X) =np (1 p) =2 Y k og vi sætter z = k +0.5 np p np (1 p) = k +0.5 4 2 Binomial-sshed z Approksimation Y 0 0.0039-2.4749 0.0067 Y 1 0.0351-1.7678 0.0386 Y 2 0.1445-1.0607 0.1444 Y 3 0.3632-0.3536 0.3618 Y 4 0.6466 0.3536 0.6382 4
Figur 1: Grafen for funktionen Φ (z) 5 Figur 2:
Multinomial-fordeling Kvantitative Metoder 1 - Efterår 2006 Binomialfordeling: Opdeling af n elementer i 2 katogorier ("succes"og "fiasko") Multinomialfordeling: Generalisering af binomialfordeling: Opdeling i k kategorier Eksempel 1: Meningsmåling Blandt de stemmeberettigede i DK stemmer andelen p 1 på Venstre (V) eller Konservative (C) og andelen p 2 på Dansk Folkeparti (O). Tilfældig stikprøve på 100 personer med tilbagelægning. "Hvilket parti ville du stemme på, hvis der var Folketingsvalg i morgen?" Y 1 : Antal personer i stikprøven, der stemmer på V eller C Y 2 : Antal personer i stikprøven, der stemmer på O Y 3 : Antal personer i stikprøven, der ikke stemmer på V, C eller O 6
Hvad er sandsynligheden for at få 40, der stemmer på Venstre eller Konservative, og 20 der stemmer på Dansk Folkeparti: µ 100 P (Y 1 =40,Y 2 =20,Y 3 =40) = p 40 1 p 20 2 (1 p 1 p 2 ) 40 40, 20, 40 Hvis p 1 =0.366 og p 2 =0.136 : = 100! 40!20!40! p40 1 p 20 2 (1 p 1 p 2 ) 40 P (Y 1 =40,Y 2 =20,Y 3 =40)= 100! 40!20!40! 0.36640 0.136 20 0.498 40 0.00072 7
De marginale fordelinger: Y 1 Bin(100,p 1 ) Y 2 Bin(100,p 2 ) Y 3 Bin(100, 1 p 1 p 2 ) Hvad er sandsynligheden for at få 40, der stemmer på Venstre eller Konservative: µ 100 P (Y 1 =40)= p 40 1 (1 p 1 ) 60 40 Hvis p 1 =0.366 : P (Y 1 = 40) = µ 100 0.366 40 0.634 60 0.0635 40 Se den seneste meningsmåling fra Gallup her: http://www.dr.dk/nyheder/politik/barometer.htm 8
Geometrisk fordeling Kvantitative Metoder 1 - Efterår 2006 Ventetid til første "succes" i uafhængige gentagelser af et Bernoulli eksperiment Eksempel:Ventetidtilførste"krone"ikastmedmønt X : Antal gentagelser af forsøget indtil "succes" første gang For p = P (succes) er fordelingen af X er givet ved f (x p) =P (X = x) =(1 p) x 1 p for x =1, 2,... X er geometrisk fordelt med sandsynlighedsparameter p og dette skrives X Geo(p) Der gælder: E (X) = 1 p Var (X) = 1 p p 2 9
Eksempel 2: Terningekast En terning kastes, indtil jeg får en femmer eller sekser. p = P ( femmer eller sekser )=2/6 =1/3 X : Antal terningekast Udfaldet af det i te kast: X i = ½ 1 hvisfemmerellersekser 0 ellers X i erne uafhængige og P (X i =1)=p =1/3 10
Hvad er sandsynligheden for, at jeg skal kaste 1 gang: P (X =1)=P (X 1 =1)=1/3 0.3333 Hvad er sandsynligheden for, at jeg skal kaste 2 gange: P (X =2) = P (X 1 =0,X 2 =1)=P (X 1 =0)P (X 2 =1) = (1 p) p =(2/3) (1/3) 0.2222 Hvad er sandsynligheden for, at jeg skal kaste 3 gange: P (X =3) = P (X 1 =0,X 2 =0,X 3 =1)=P (X 1 =0)P (X 2 =0)P (X 2 =1) = (1 p) 2 p =(2/3) 2 (1/3) 0.1481 Middelværdien af X : E (X) =1/p =3 Variansen af X :Var(X) =(1 p) /p 2 =2/3 3 2 =6 11
Figur 3: Geometrisk fordeling med sandsynlighedsparameter 1/3 12
Negativ binomialfordeling Y : Antal gentagelser for at få "succes" r gange For p = P (succes) er fordelingen af Y er givet ved µ y 1 f (y p) = p r (1 p) y r for y = r, r +1,r+2,... r 1 Fordelingen af Y kaldes en negativ binomialfordeling med sandsynlighedsparameter p og antalsparameter r, og dette skrives Y NegBin(r, p) Der gælder: E (X) = r p Var (X) = r (1 p) p 2 13
Eksempel 2: Terningekast, (fortsat) En terning kastes, indtil jeg har fået en femmer eller sekser 2 gange. p = P ( femmer eller sekser )=2/6 =1/3 Y : Antal terningekast Udfaldet af det i te kast: Y i = ½ 1 hvis femmer eller sekser 0 ellers 14
Hvad er sandsynligheden for, at jeg skal kaste 2 gange: P (Y =2)=P (Y 1 =1,Y 2 =1)=(1/3) 2 0.1111 Hvad er sandsynligheden for, at jeg skal kaste 3 gange: P (Y =3) = P (Y 1 =0,Y 2 =1,Y 3 =1)+P (Y 1 =1,Y 2 =0,Y 3 =1) = 2 (2/3) (1/3) 2 0.1481 Hvad er sandsynligheden for, at jeg skal kaste 4 gange: P (Y =3) = P (Y 1 =0,Y 2 =0,Y 3 =1,Y 4 =1)+P (Y 1 =0,Y 2 =1,Y 3 =0,Y 4 =1) +P (Y 1 =1,Y 2 =0,Y 3 =0,Y 4 =1) = 3 (2/3) 2 (1/3) 2 0.1481 Middelværdien af Y : E (Y )=r 1/p =2 3=6 Variansen af Y :Var(Y )=r (1 p) /p 2 =2 6=12 15
Figur 4: Negativ binomialfordeling med antalsparameter 2 og sandsynlighedsparameter 1/3 16
Resultat: Addition Y 1 Geo(p) og Y 2 Geo(p) og Y 1 og Y 2 uafhængige, da vil Y 1 + Y 2 NegBin(2,p) Antal "succes" i n uafhængige gentagelser: Binomialfordeling Antal gentagelser indtil r "succes": Negativ binomialfordeling Udvælgelse af tilfældig stikprøve af given størrelse og udførsel af "forsøg" (Engelsk: sampling) Binomialfordeling eller hypergeometrisk fordeling Udførsel af "forsøg" på tilfældigt udvalgte indtil fastlagt antal "succes" (Engelsk: inverse sampling) Negativ binomialford. 17
Poissonfordeling Hvis X Bin(n, p) og n er "stor"og p er "lille", da gælder P (X = x) = ³ n x p x (1 p) n x (np)x x! exp ( np) Sandsynlighedsfunktionen for X er givet ved f (x m) = mx exp ( m) for x =0, 1, 2,... x! X er Poissonfordelt med parameter m og dette skrives som X Poiss(m) E (X) =m Var (X) = m 18
Figur 5: Sandsynlighedsfunktionen for X Bin(1000, 0.01) dvs. det forventede antal succes er 10 19
Figur 6: Sandsynlighedsfunktionen for X Bin(2000, 0.005) dvs. det forventede antal succes er 10 20
Poissonproces Eksempel 4.6a: Ankomst af kunder til en butik Tidsenhed: timer λ : Det forventede antal ankomster pr. time (intensiteten) Y t : Antal ankomster i interval af længde t (målt i timer) Y 1 : Antal ankomster pr. time Y 5 : Antal ankomster på 5 timer Y 0.25 : Antal anksomter hvert kvarter Y t følger en Poisson-process, dvs. Y t Poisson(λt) Det forventede antal anksomter i et tidsinterval af længde t er λt 21
Egenskaber ved en Poissonproces: Antallet af ankomster pr time afhænger ikke af selve tidspunktet Antallet af ankomster i et tidsrum er uafhængigt af antallet af ankomster i alle andre tidsrum Ankomsterne i et givet tidsrum er cirka proportionalt med tidsrummet Sandsynligheden for flere ankomster på næsten samme tid er lille 22
Eksempel 4.6a: Ankomst af kunder Ankomst af kunder til en butik følger en Poissonproces med 5 kunder pr time: Antallet af ankomster per time: X Poiss(5) Sandsynlighedsfordelingen og kumulerede sandsynligheder: x 0 1 2 3 4 5 6 7 8 9 P (X = x) 0.0067 0.0337 0.0842 0.1404 0.1755 0.1755 0.1462 0.1044 0.0653 0.0363 P (X x) 0.0067 0.0404 0.1247 0.2650 0.4405 0.6160 0.7622 0.8666 0.9319 0.9682 Forventede antal kunder pr time: E (X) =5 Spredningen: p Var (X) = 5 2.24 23
Figur 7: Sandsynlighedsfunktion i Poissonfordeling med parameter 5 24
Resultat: Addition X 1 er Poissonfordelt med parameter m 1 og X 2 er Poissonfordelt med parameter m 2, og X 1 og X 2 er uafhængige. Da er X 1 + X 2 Poissonfordelt med parameter (m 1 + m 2 ). Eksempel 4.6c i bogen: Ankomst af type 1 kunder pr. time: X 1 Poiss(3) Ankomst af type 2 kunder pr. time: X 2 Poiss(5) Ankomst af type 1 og 2 kunder: X 1 + X 2 Poiss(8) 25
Kontinuerte stokastiske variable X kontinuert stokastisk variabel, der kan antage alle reelle talværdier Eksempler: Indkomster for individer Omsætning i virksomheder Udgift til forbrugsvarer i husholdninger 26
Fordelingsfunktionen Interesseret i hændelserne: (X x) for x R (a <X b) for a, b R og a<b Kvantitative Metoder 1 - Efterår 2006 Definition: Fordelingsfunktionen for den stokastiske variabel X er defineret som F (x) = P (X x) for x R Engelsk: cumulative distribution function, forkortes til cdf Sandsynligheden for intervallet ]a, b] er givet ved: P (a <X b) =P (X b) P (X a) =F (b) F (a) 27
Ligefordeling (rektangulær fordeling) Engelsk: Uniform distribution Eksempel 5a i bogen: Venter på en bus Der kommer en bus hvert 10. minut. Jeg ankommer til stoppestedet uden at vide, hvornår bussen kommer. Hvor sandsynligt er det, at jeg skal vente mere end 5 minutter? Stokastisk variabel X, der angiver tidspunktet for bussens ankomst 28
Diskrete tilfælde: Vi kan kun måle med halve minutters nøjagtighed, dvs X kan antage 20 forskellige værdier. Vi måler X iminutter. Alle værdier af X er lige sandsynlige, dvs. P (X = x) =1/20 = 0.05 for alle x =0.5, 1, 1.5,...,10 29
Kontinuerte tilfælde: Vi kan måle med uendelig stor nøjagtighed, dvs X kanantageallereelleværdier. X =1.5: Bussenkommerefter1min.og30sek. X =2.9: Bussenkommerefter2min.og54sek P (X x) =0for x<0 P (X x) =1for x>10 Sandsynligheden for, at bussen kommer indenfor 30 sekunder, er den samme på alle tidspunkter: P (x <X x +0.5) = 1/20 = x +0.5 x 10 30
Sandsynligheden for, at bussen kommer indenfor et minut, er 2 gange sandsynligheden for at den kommer indenfor 1/2 minut: P (x <X x +1)=2P (x <X<x+0.5) = 1/10 = x +1 x 10 Sandsynligheden for, at bussen kommer i intervallet mellem 1.42 og 3.61: 3.61 1.42 P (1.42 <X 3.61) = 10 Sandsynligheden for at bussen kommer i intervallet ]a, b] er givet ved P (a <X b) = b a 10 Fordelingsfunktionen for X er givet ved 0 for x<0 F (x) = x/10 for 0 x 10 1 for x>10 31
Figur 8: Fordelingsfunktionen for en ligefordeling på intervallet [0,10] samt for en diskret fordeling, hvor alle værdier 0.5, 1, 1.5,...,10 er lige sandsynlige 32
X er ligefordelt på intervallet [a, b] Fordelingsfunktionen for X : F (x) = 0 for x<a x/ (b a) for a x b 1 for x>b Der gælder: P (x 1 <X x 2 )=F (x 2 ) F (x 1 )= x 2 x 1 10 33
Egenskaber ved fordelingsfunktionen: (i) F (x) 0 for x,f (x) 1 for x (ii) F (a) F (b) for a<b (iii) Fordelingsfunktionen er kontinuert fra højre Hvis X er en kontinuert stokastisk variabel, er fordelingsfunktionen kontinuert 34
Tæthedsfunktionen Kvantitative Metoder 1 - Efterår 2006 X kontinuert stokastisk variabel med fordelingsfunktion F (x) Hvad er sandsynligheden for at X ligger i et lille interval omkring værdien x : P (x <X x + x) =F (x + x) F (x) = F (x) Forholdet mellem sandsynlighedsmasse og intervallængde når intervallængden går mod nul: F (x) F 0 (x) =f (x) for x 0 x f (x) kaldes tætheden for x 35
Diskrete tilfælde: Sandsynlighedsfunktionen f (x) angiver sandsynligheden for at X er lig med x Kontinuerte tilfælde: Sandsynligheden for at X liggerietintervalomkringx er xf (x) Tætheden f (x) angiver koncentrationen af sandsynlighed omkring værdien x 36
X er ligefordelt på intervallet [a, b] Fordelingsfunktionen for X : F (x) = 0 for x<a x/ (b a) for a x b 1 for x>b Tætheden for X : f (x) = 0 for x<a 1/ (b a) for a x b 0 for x>b 37
Der gælder: Dermed også: F (x) = Z x F 0 (u) du = Z x f (u) du P (a <X<b)=F (b) F (a) = Z b f (u) du Z a f (u) du = Z b a f (x) dx Egenskaber ved en tæthedsfunktion f: f (x) 0 for alle x R f (x) =1 Tæthedsfunktionen definerer en fordelingsfunktion: F (x) = R x f (u) du 38
Figur 9: Sammenhæng mellem tæthedsfunktionen f(x) og fordelingsfunktionens værdi for x =1 39
Figur 10: Fordelingsfunktionen F (x) Figur 11: 40
Figur 12: Tæthedsfunktionen f(x) for en stokastisk variabel X og illustration af P ( 1.5 <X 1) 41
Figur 13: Fordelingsfunktionen F (x) for en stokastisk variabel X og illustration af P ( 1.5 <X 1) 42
Opsummering Multinomialfordeling: - Generalisering af binomialfordeling - Opdeling i mere end 2 katogorier - Eksempel: Meningsmåling Binomial: Tæller antal "succes"i fastlagt antal gentagelser Geometrisk fordeling og negativ binomialfordeling: Tæller gentagelser (ventetid) når antal "succes" er fastlagt Poisson fordeling: - Antal gange en sjælden hændelse indtræffer i et stort antal gentagelser Poissonproces: - Eksempel: Kundeankomst Kontinuerte fordelinger: - Fordelingsfunktion 43
- Tæthedsfunktion - Sandsynligheder af intervaller Ligefordeling: - Kontinuert version af "alle udfald lige sandsynlige" 44
Næste gang Torsdag gennemgåes: Afsnit 5.3-5.8 Kontinuerte fordelinger Husk: - At lave opgaver og SAS-øvelser - Der er stedprøve fredag den 27. oktober 45