Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable 2.1 Sandsynlighedsbegrebet............................... 1 2.1.1 Udfaldsrum.................................. 1 2.1.2 Hændelser................................... 2 2.1.3 Sandsynlighedsmål.............................. 3 2.2 Regneregler for sandsynligheder........................... 3 2.2.1 Bernoulliforsøg................................ 4 2.2.2 Uafhængighed................................ 5 2.2.3 Betingede sandsynligheder.......................... 5 2.2.4 Bayes formel................................. 6 2.3 Stokastiske variable.................................. 8 2.3.1 Eksempler på stokastiske variable...................... 8 2.4 Diskrete sandsynlighedsmodeller.......................... 9 2.4.1 Middelværdi, varians og spredning..................... 11 2.4.2 Uafhængighed af stokastiske variable.................... 12 2.4.3 Nøglestørrelser for gennemsnit....................... 13 2.5 Kendte diskrete fordelinger............................. 14 2.5.1 Den uniforme fordeling............................ 14 2.5.2 Binomialfordelingen............................. 15 2.5.3 Poissonfordelingen.............................. 18 2.1 Sandsynlighedsbegrebet Statistik er som en bikini: den viser noget interessant og skjuler noget væsentligt. Peter von Zahn Tilfældigt fænomen: Et forsøg hvor udfaldet ikke er reproducerbart. F.eks. antallet af biler parkeret på campus i dag kl. 14.45. F.eks. udfaldet af et forsøg, hvor målingen er behæftet med usikkerhed.

2.1 Sandsynlighedsbegrebet 2 2.1.1 Udfaldsrum Udfald: resultatet af et forsøg. Udfaldsrum: Mængden af alle de mulige udfald af forsøget. Hændelse: En delmængde af udfaldsrummet. Tilfældigt fænomen Udfaldsrum S Udfald a Hændelse A, f.eks. 1 terningkast {1,2,3,4,5,6} 6 {6}, {lige udfald} Fødselsdag {1,2,...,365} 35 {1,...,31} Antal uåbnede nødder {0,1,2,...,n} 3 {1,...,10} Højde af person i cm R + 179.5 [175,185] Temperatur i dag i C [ 273.15, ] 23.12 (20,25] [30,31.5) n = samlet antal pistacienødder 2.1.2 Hændelser Lad udfaldet af forsøget være a S. Vi siger at hændelsen A er hændt (eller sker) hvis a A. S kaldes den sikre hændelse, fordi den altid sker. (den tomme mængde) kaldes også den umulige hændelse, fordi den aldrig sker. Komplementærhændelsen til en hændelse A er A c = S A Bemærk: Enten sker A, eller også sker A c. Eksempel 2.1 Antal uåbnede pistacienødder i pose med 50 stk. S = {0,1,...,50} A = {0,1,...,10} A C = {11,...,50} = {} Lad H være mængden af alle hændelser i S. Lad A og B være givne hændelser. Foreningsmængden A B er også en hændelse.

2.1 Sandsynlighedsbegrebet 3 Fællesmængde: A B er også en hændelse. A og B kaldes disjunkte hændelser hvis A B = Eksempel 2.1 (fortsat) Antal uåbnede pistacienødder i pose med 50 stk. S = {0,1,...,50} A = {1,2,3}, B = {3,7} A B = {1,2,3,7} A B = {3} Disjunkte hændelser: B = {3, 7} og C = {1, 2} 2.1.3 Sandsynlighedsmål Et sandsynlighedsmål: er en funktion P : H [0, 1] som opfylder 1. P(S) = 1. 2. Additionsreglen: Hvis A og B er disjunkte hændelser gælder P (A B) = P (A) + P (B). P (A) kaldes for sandsynligheden for hændelsen A. Dette kaldes også for en syndsynlighedsmodel, dvs. en matematisk model for sandsynligheder. Eksempel 2.1 (fortsat) Antal uåbnede pistacienødder i pose med 50 stk. F.eks. A = {højst 5 uåbnede}, P (A) = 0.80 B = {mellem 6 og 10 uåbnede}, P (B) = 0.15 P (højst 10 uåbnede) = P (A B) = P (A) + P (B) = 0.95.

2.2 Regneregler for sandsynligheder 4 2.2 Regneregler for sandsynligheder Additionsregler: For A 1,...,A k indbyrdes disjunkte hændelser gælder: P (A 1 A k ) = P (A 1 ) + + P (A k ) For A og B vilkårlige hændelser gælder: P (A B) = P (A) + P (B) P (A B) Kan generaliseres til flere hændelser. 2.2.1 Bernoulliforsøg Det simplest mulige tilfældige fænomen Antag at der er to disjunkte hændelser A og B så S = A B. A = succes, B = fiasko. F.eks. møntkast, rigtig/forkert, syg/rask, mand/kvinde, virker/virker ikke. Lad p [0,1] være sådan at Empirisk definition af sandsynlighed P(A) = p P(B) = 1 p Gentag et Bernoulliforsøg gang efter gang efter gang. Typisk resultat: B,A,B,B,A,A,B,A,B,B,B,... Lad N n (A) være hyppigheden af A for de første n forsøg. Så er N n (A) /n den empiriske sandsynlighed for A. For en korrekt sandsynlighedsmodel skal der gælde: P (A) = lim n N n (A). n Dvs. P (A) er grænseværdien for den empiriske sandsynlighed for A ved uendeligt mange forsøg. Dette er idealet for en sandsynligedsmodel, men hvor langt er vi fra praksis?

2.2 Regneregler for sandsynligheder 5 Tænk blot på, at mønten slides op, længe før vi når... Eksempel 2.1 (fortsat) Antal uåbnede pistacienødder i pose med 50 stk. F.eks. A = {højst 5 uåbnede nødder i pose} Undersøg n = 100 poser Tæl N 100 = antal af poser med højst 5 uåbnede = 80 Så er P (A) 80 100 = 0.80. Jo højere n, jo bedre approksimation af P (A). 2.2.2 Uafhængighed A og B kaldes uafhængige hændelser hvis P (A B) = P (A)P (B) Kan generaliseres til flere hændelser. Eksempel 2.2 Kast med terning, S = {1, 2, 3, 4, 5, 6} A = {1,2,3}, B = {2,4} P (A) = 1/2, P (B) = 1/3 P (A B) = P ({2}) = 1/6 Da P (A B) = P (A)P (B) er A og B uafhængige. Eksempel 2.1 (fortsat) Antal uåbnede pistacienødder i pose med 50 stk. F.eks. To tilfældigt valgte poser: A = {højst 5 uåbnede i Pose 1}, P (A) = 0.80 B = {højst 5 uåbnede i Pose 2}, P (B) = 0.80 P (højst 5 uåbnede i både Pose 1 og 2) = 0.8 2 = 0.64

2.2 Regneregler for sandsynligheder 6 2.2.3 Betingede sandsynligheder Idé: at tage delvis information om en hændelse i betragtning. Eksempel 2.3: Højde A = {person højere end 170cm}, P (A) = 0.60 K = {kvinde} Udtryk ved hjælp af en betinget sandsynlighed: A K = {person højere end 170cm} givet {det er en kvinde}, antag f.eks. at P (A K) = 0.45 A M = {person højere end 170cm} givet {det er en mand}, antag f.eks. at P (A M) = 0.80 Betinget sandsynlighed af A givet B: P (A B) = P (A B), P (B) hvis P (B) > 0 (kan defineres vilkårligt hvis P(B) = 0). Bemærk, at P (A B) = P (A B)P (B). Eksempel 2.2 (fortsat) Kast med terning, S = {1, 2, 3, 4, 5, 6} A = {1,2,3}, P (A) = 1/2; B = {2,4}, P (B) = 1/3; A B = {2} (dvs. uændret i forhold til P(A)). C = {2,4,6}, P (C) = 1/2; A C = {2} (dvs. ændret i forhold til P(A)). P (A B) P (A B) = P (B) = 1/6 1/3 = 1/2 P (A C) P (A C) = P (C) = 1/6 1/2 = 1/3 Den betingede sandsynlighed afhænger af hvad der betinges med. P( B) er igen et sandsynlighedsmål.

2.2 Regneregler for sandsynligheder 7 2.2.4 Bayes formel Opdel hele udfaldsrummet S i disjunkte hændelser B 1,B 2,...,B k. Specielt er S = B 1 B 2 B k Lad A være en hændelse. Loven om total sandsynlighed: P (A) = Bayes formel: k P (A B i ) P (B i ). i=1 P (B j A) = P (A B j) P (B j ) P (A) = P (A B j )P (B j ) k i=1 P (A B i)p (B i ). Eksempel 2.4: Test for defekt i computer chip. Test kan være positiv eller negativ (dvs. testen er ikke perfekt). Chip kan være defekt eller ikke defekt. Lad A = {test er positiv}, B 1 = {chip er defekt}, B 2 = {chip er ikke defekt}. Ud fra tidligere undersøgelse kendes prevalensen af defekten, dvs. 1% defekte. Testens kvalitet er bestemt ved: antal defekte P(B 1 ) = samlet antal = 0.01 P(B 2 ) = 1 P(B 1 ) = 0.99 Sensitivitet Specificitet P(A B 1 ) = 0.8 P(A c B 2 ) = 0.9, dvs. P(A B 2 ) = 1 P(A c B 2 ) = 1 0.9 = 0.1.

2.3 Stokastiske variable 8 Nu bruges Bayes formel Dårlig test. P (A B 1 )P (B 1 ) P (B 1 A) = P (A B 1 )P (B 1 ) + P (A B 2 )P (B 2 ) 0.8 0.01 = 0.8 0.01 + 0.1 0.99 = 0.075 P (B 2 A) = 1 P (B 1 A) = 0.925 Kan bedst forbedres ved at forøge specificiteten. Tilsvarende fås P (B 2 A c ) = P (A c B 2 ) P (B 2 ) P (A c B 1 )P (B 1 ) + P (A c B 2 )P (B 2 ) = 0.9 0.99 0.2 0.01 + 0.9 0.99 = 0.9978 P (B 1 A c ) = 1 P (B 2 A c ) = 0.0022 Kan kun forbedres lidt ved at forøge sensitiviteten. 2.3 Stokastiske variable Variable, hvis værdi er tilfældig. Engelsk: random variable. Ofte bruges betegnelser som X,Y og Z for stokastiske variable. De faktiske udfald af Y i n forsøg betegnes normalt y 1,...,y n. 2.3.1 Eksempler på stokastiske variable Eksempel 2.6 Nedfaldne æbler Dag: 1 2 3 30 Antal: 2 4 1 2 Lad X = Dagligt antal nedfaldne æbler Eksempel på diskret stokastisk variabel. Eksempel 2.7 Hunds søvn per døgn (timer) Lad X = Søvnmængde per dag Dag: 1 2 3 7 Søvn: 17.5 14.25 16.5 15.75

2.4 Diskrete sandsynlighedsmodeller 9 Eksempel på kontinuert stokastisk variabel. Definition af stokastisk variabel: En reel funktion på udfaldsrummet S: X : S R. Altså en funktion som forbinder hvert udfald af et tilfældigt fænomen med en talværdi. Lad udfaldet af forsøget være a S. Så kaldes X(a) den realiserede værdi af X. De to vigtigste typer af stokastiske variable: X kaldes diskret, hvis den kun kan antage endeligt eller tælleligt mange værdier. X kaldes kontinuert, hvis den kan variere kontinuert. Bliver defineret nærmer i Modul 3. Fordelingen for en stokastisk variabel: En hændelse I i R defineres som en mængde som kan dannes ud fra intervaller ved endelige eller tællelige mængdeoperationer. Vi antager at X 1 (I) S er en hændelse med sandsynlighed P [ X 1 (I) ]. Forsimplet notation: Vi skriver normalt P(X I) i stedet for P [ X 1 (I) ]. Fordelingen for X er sandsynlighedsmålet på R defineret ved afbildningen fra mængden af hændelser i R ind i [0,1]. I P(X I) Bemærk at ethvert sandsynlighedsmål på R svarer til en stokastisk variabel (vælg f.eks. X til at være identitetsafbildningen på R). 2.4 Diskrete sandsynlighedsmodeller Eksempel 2.5 Stråling af alfapartikler I et eksperiment i 1910 optalte Rutherford og Geiger antallet af alfapartikler, der blev udsendt fra en radioaktiv kilde i 2612 tidsintervaller (på hver 7 sekunder). Partikler: 0 1 2 3 4 5 6 7 8 9 10 11 12 Frekvens: 57 203 383 525 532 408 273 139 45 27 10 4 2

2.4 Diskrete sandsynlighedsmodeller 10 Bemærk: Partikelantallet varierer tilfældigt mellem 0 og 12 i de forskellig tidsintervaller. Det kan ikke siges med sikkerhed, hvor mange partikler, der vil blive udsendt i de næste 7 sek. Hvor meget kan vi sige om den frekvens hvormed de forskellige antal forekommer? Figur 2.1: Stråling af alfapartikler, søjlediagram. Figur 2.2: Stråling af alfapartikler, tæthedsdiagram. Fordelingen for en diskret stokastisk variabel Y angives nemmest ved en liste af de mulige værdier for Y og de tilhørende sandsynligheder: Værdi for Y : y 0 y 1 y 2 Sandsynlighed: P (Y = y 0 ) P (Y = y 1 ) P (Y = y 2 )

2.4 Diskrete sandsynlighedsmodeller 11 Kaldes også fordelingens sandsynlighedsfunktion eller dens tæthedsfunktion. Formelt er det funktionen f :R [0,1] bestemt ved f(y) = P(Y = y). f er 0 uden for mængden af de mulige værdier for Y. Eksempel 2.6 (fortsat) Nedfaldne æbler Fordeling af Y = Daglig antal nedfaldne æbler, f.eks. Y : 0 1 2 3 4 5 6 7 Sandsynlighed: 0.13 0.25 0.23 0.21 0.12 0.04 0.01 0.01 Kan udregne sandsynligheder for alle hændelser for Y, f.eks. P (Y 2) = 1 (0.13 + 0.25) = 0.62 P (Y = 0) = 0.13 P (Y < 5) = 0.13 + 0.25 + 0.23 + 0.21 + 0.12 = 0.94 Bemærk: En sandsynlighedsmodel beskriver det som sker generelt. F.eks. sandsynlighedsmodellen for Y = Dagligt antal nedfaldne æbler henviser til et generelt træ. Tæller vi nedfaldsæbler for et bestemt træ, fås data som f.eks. y 1,...,y n. 2.4.1 Middelværdi, varians og spredning Nøglestørrelser for populationer. Middelværdi: Stikprøve: gennemsnit af observationer (empirisk middelværdi) ȳ = 1 n n n y i = y i 1 n. i=1 i=1 Population: vægtet gennemsnit af demulige værdier µ Y = E(Y ) = y yp (Y = y), (forudsat y y P (Y = y) < ).

2.4 Diskrete sandsynlighedsmodeller 12 Varians: Stikprøve: (empirisk varians) Population: s 2 = 1 n 1 σ 2 Y = Var(Y ) = y (forudsat y y2 P (Y = y) < ). Spredning (standardafvigelse): n (y i ȳ) 2. i=1 (y µ y ) 2 P (Y = y), Stikprøve: s = 1 n (y i ȳ) 2. n 1 i=1 Population: (forudsat y y2 P (Y = y) < ). σ Y = (y µ y ) 2 P (Y = y), Eksempel 2.6 (fortsat) Nedfaldne æbler Fordeling af Y = Daglig antal nedfaldne æbler, simplificeret: y Y : 0 1 2 3 4 5 6 7 Sandsynligheder: 0.13 0.25 0.23 0.21 0.12 0.04 0.01 0.01 Middelværdi Varians µ y = 0 0.13 + 1 0.25 + + 7 0.01 = 2.15 σ Y = (0 2.15) 2 0.13 + (1 2.15) 2 0.25 + + (7 2.15) 2 0.01 = 2.2075 Spredning σ Y = 2.2075 = 1.4848 Simple regneregler for lineære transformationer Hvis X = ay + b gælder E(X) = ae(y ) + b Var(X) = a 2 Var(Y ) σ X = a σ Y

2.4 Diskrete sandsynlighedsmodeller 13 2.4.2 Uafhængighed af stokastiske variable GENERELT: Y 1,Y 2,...,Y n stokastiske variable er uafhængige, hvis {Y 1 y 1 }, {Y 2 y 2 },..., {Y n y n } er uafhængige hændelser for alle mulige værdier af y 1,y 2,...,y n R. ÆKVIVALENT MED: for alle y 1,y 2,...,y n R, er P ({Y 1 y 1 } {Y 2 y 2 }... {Y n y n }) = P(Y 1 y 1 )P (Y 2 y 2 ) P (Y n y n ). DISKRET: Hvis Y 1,Y 2,...,Y n er diskrete stokastiske variable, er definitionen af uafhængighed ækvivalent med: {Y 1 = y 1 }, {Y 2 = y 2 },..., {Y n = y n } er uafhængige hændelser for alle mulige værdier af y 1,y 2,...,y n. ÆKVIVALENT MED: for alle værdier af y 1,y 2,...,y n er P ({Y 1 = y 1 } {Y 2 = y 2 }... {Y n = y n }) = P(Y 1 = y 1 )P (Y 2 = y 2 ) P (Y n = y n ). Summer af stokastiske variable X = Y 1 + Y 2 + + Y n E(X) = E(Y 1 ) + E(Y 2 ) + + E(Y n ), uanset om Y -erne er uafhængige eller ej Var(X) = Var(Y 1 ) + Var(Y 2 ) + + Var(Y n ), hvis Y -erne er uafhængige Var(X) = n σ 2, hvis Y -erne har ens varians σ 2 og er uafhængige Eksempel 2.8 Køn af ufødt barn Bernoulli forsøg: X = { 0 dreng 1 pige Eksempel på brug af sum: n i=1 angiver antallet af piger i en stikprøve på n. X i

2.5 Kendte diskrete fordelinger 14 2.4.3 Nøglestørrelser for gennemsnit GENERELT: Y 1,Y 2,...,Y n uafhængige stokastiske variable med ens Gennemsnit: Ȳ = 1 n n i=1 Y i Middelværdi: µ Varians: σ 2 Middelværdi af Ȳ : E ( Ȳ ) = µ Varians af Ȳ : Var(Ȳ ) = σ2 /n Spredning af Ȳ : σ Ȳ = σ/ n 2.5 Kendte diskrete fordelinger 2.5.1 Den uniforme fordeling Fra nu af betyder fordelt som Y Uniform(a 1,a 2,...,a n ) Y kan antage de n værdier a 1,a 2,...,a n Samme sandsynlighed for alle udfald: { 1/n hvis y {a1,a P (Y = y) = 2,...,a n } 0 ellers. F.eks. defekt pære i lyskæde, udfald af terningkast eller roulette.

2.5 Kendte diskrete fordelinger 15 Figur 2.3: Uniform(1,...,6)-fordeling. Figur 2.4: Uniform(1,...,10)-fordeling. Eksempel 2.9 Defekt lyskæde En pære er sprunget i en lyskæde med 30 lys. Y betegner den sprungne pæres plads i kæden. Y Uniform{1,2,...,30}. Pærerne undersøges fra en ende af. Udregn Sandsynligheden for at det er en af de første 10 pærer. P (Y {1,2,...,10}) = 10 30 = 1 3 2.5.2 Binomialfordelingen Y b(n,p) Y = Antal successer ud af n Bernoulli forsøg er binomialfordelt hvis: 1. De n forsøg er uafhængige 2. Alle Bernoulli forsøg har sandsynlighed p for succes Eksempler: antal år med hvid jul siden 1980, antal beståede i klasse med 20,

2.5 Kendte diskrete fordelinger 16 antal uåbnede pistacienødder i pose med n stk. (under hvilke betingelser?) Tæthedsfunktion (sandsynlighedsfunktion): { ( n ) P (Y = y) = y p y (1 p) n y hvis y {0,1,...,n} 0 ellers. Husk at ( ) n = y n! y!(n y)! Figur 2.5: Simulation: b(25,0.95) fordelte data. Figur 2.6: Simulation: b(15,0.50) fordelte data.

2.5 Kendte diskrete fordelinger 17 Figur 2.7: Simulation: b(6,0.20) fordelte data. Eksempel 2.10 Antal farveblinde mænd i en test Ialt 120 mænd i testen. Sandsynlighed for rød-grøn farveblindhed for mænd er p = 0.08. Y betegner antallet af rød-grøn farveblinde mænd i testen. Udregn Y b(120,0.08). Sandsynligheden for at ingen er farveblinde: ( ) 120 P(Y = 0) = 0.08 0 (1 0.08) 120 = 0.000045 0 Sandsynligheden for at højst 2 er farveblinde: ( ) ( ) 120 120 P(Y 2) = 0.08 0 (1 0.08) 120 + 0.08 1 (1 0.08) 119 0 1 ( ) 120 + 0.08 2 (1 0.08) 118 2 = 0.002953 Sandsynligheden for at mindst 3 er farveblinde: P(Y 3) = 1 P(Y 2) = 1 0.002953 = 0.9970 Bemærkninger til binomialfordeling Y b(n, p):

2.5 Kendte diskrete fordelinger 18 Y kan antage værdierne 0,1,...,n. Middelværdi: E(Y ) = np Varians: Var(Y ) = np (1 p) Spredning: σ Y = np (1 p) 2.5.3 Poissonfordelingen Y Poisson(λ) Bruges som model for antal sjældne hændelser af en bestemt type Antal hændelser af en bestemt slags er Poissonfordelt hvis: 1. Hændelsen er sjælden 2. Populationen af udsatte er stor 3. Hændelserne er indbyrdes uafhængige 4. To hændelser kan ikke ske nøjagtig samtidigt Eksempler: antal flyulykker per år antal parcelhusindbrud per år antal kunder i forretning per dag antal jordskælv per år antal vulkanudbrud per år antal mål i fodboldkamp Tæthedsfunktion (sandsynlighedsfunktion): P (Y = y) = { λ y y! e λ hvis y N 0 0 ellers. Parameteren λ angiver gennemsnitsantallet af hændelser i perioden

2.5 Kendte diskrete fordelinger 19 Figur 2.8: Sandsynlighedsfunktion for stokastisk variabel, Poissonfordelt.

2.5 Kendte diskrete fordelinger 20 Figur 2.9: Simulation: Poisson(2) fordelte data. Figur 2.10: Simulation: Poisson(5) fordelte data.

2.5 Kendte diskrete fordelinger 21 Figur 2.11: Simulation: Poisson(0.50) fordelte data. Eksempel 2.11 Antal trafikuheld på vejstrækning per år I gennemsnit 2 ulykker per år. Y betegner antallet af faktiske uheld per år. Udregn Sandsynligheden for netop 1 ulykke: Sandsynligheden for mindst 1 ulykke: Y Poisson(2). P (Y = 1) = 21 1 e 2 = 0.2706 P (Y 1) = 1 P (Y = 0) = 1 20 1 e 2 = 0.8647

2.5 Kendte diskrete fordelinger 22 Bemærkninger til PoissonfordelingenPoisson(λ): Y kan antage værdierne 0,1,2,.... Middelværdi: E(Y ) = λ Varians: Var(Y ) = λ Spredning: σ Y = λ Aproksimation til binomialfordeling: Lad Y b(n,p) Hvis n stor og p lille, så er Y Poisson(np). Altså approximeres med den Poissonfordeling som har samme middelværdi som b(n, p).