Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 3: Sandsynlighedsregning 3.1 Sandsynligheder................................... 1 3.2 Tilfældig udtrækning fra en mængde........................ 2 3.3 Empiriske sandsynligheder.............................. 3 3.4 Regneregler for sandsynligheder.......................... 4 3.5 Kombinationer og permutationer.......................... 6 3.1 Sandsynligheder Udfaldsrum (sample space) S mængden af alle mulige udfald. Udfald (outcome) s et element i S Hændelse (event) A en delmængde af S. Sandsynligheden (probability) for hændelsen A betegnes P(A). Vi skriver også P(s). En sandsynlighedsfunktion P skal opfylde følgende: 1. 0 P(A) 1 for alle hændelser A 2. P(S) 1 3. Additionsregel: Hvis A og B er disjunkte (intet overlap) gælder: P(A B) P(A) + P(B) Eksempel: Lad A og a være to allele gener Udfaldsrum for genotypen: Tre forskellige udfald S {AA, Aa, aa} s 1 AA, s 2 Aa, s 3 aa
3.2 Tilfældig udtrækning fra en mængde 2 Under Hardy-Weinberg ligevægt gælder P(AA) p 2 P(Aa) 2p(1 p) P(aa) (1 p) 2 hvor p er hyppigheden af A i populationen. Hændelsen at individet har genet a er B {Aa, aa} og P(B) 2p(1 p) + (1 p) 2 3.2 Tilfældig udtrækning fra en mængde Lad S være en endelig mængde med N elementer N #S hvor #S betyder antal elementer i S. Tilfældig udtrækning fra S betyder P(s) 1 N for alle s i S, dvs. alle udfald har samme sandsynlighed. Sandsynligheden for hændelsen A er så P(A) #A N Eksempel: For kast med almindelig terning er S {1,2,3,4,5,6} så N 6 og P(s) 1 6 for s 1,...,6 For A {1, 3, 5} ( antal øjne er ulige ) fås For B {3,6} ( tal deleligt med 3 ) fås P(A) #A 6 3 6 1 2 P(B) #B 6 2 6 1 3
3.3 Empiriske sandsynligheder 3 Bemærk: Udtrækkes flere elementer fra S bør man for lille N skelne mellem Udtrækning med tilbagelægning Udtrækning uden tilbagelægning Lad S være et område med samlet areal hvor S betyder arealet for S. (Bemærk at #S nu er uendelig.) T S Tilfældig udtrækning af et element fra S betyder nu: for enhver hændelse A er P(A) A T Eksempel: Vælges et tilfældigt punkt på danmarkskortet er T Danmarks areal. Tag nu A Fyn, så er sandsynligheden for at det tilfældigt valgte punkt falder på Fyn P(A) A T 3.3 Empiriske sandsynligheder Se på en udtømmende og éntydig klassificering: Fyns areal Danmarks areal S A 1 A 2 A k Antag at den j-te klasse A j er fundet n j gange i en stikprøve på n, så Den empiriske sandsynlighed defineres ved n n 1 + n 2 + + n k for den j-te klasse. P(A j ) n j n Zar Eksempel 5.7: En tilfældig stikprøve (med tilbagelægning) af hvirveldyr af størrelse n 852 fra en skov fordelte sig sådan: Klasse Antal Hyppighed amfibier 53 0.06 skilpadder 41 0.05 slanger 204 0.24 fugle 418 0.49 pattedyr 136 0.16 total 852 1.00
3.4 Regneregler for sandsynligheder 4 Spørgsmål: Hvordan udvælger man et tilfældigt dyr? Skræmmer observatøren dyrene væk? Er der observeret på alle tider af døgnet? Er der observeret på alle årstider? 3.4 Regneregler for sandsynligheder Generel additionsregel (A og B vilkårlige): P(A B) P(A) + P(B) P(A B) Hvis A c er komplementærhændelsen til A: P(A c ) 1 P(A) A og B kaldes uafhængige hvis P(A B) P(A)P(B) Den betingede sandsynlighed af A givet B er P(A B) P(A B) P(B) Generel multiplikationsregel: P(A B) P(A B)P(B) Bayes formel P(B A) P(A B)P(B) P(A B)P(B) + P(A B c )P(B c ) Eksempel (kast med terning): For A {1,3,5} er P(A) 1/2 For B {3,6} er P(B) 1/3 Da P(A B) P(3) 1/6 fås P(A B) P(A) + P(B) P(A B) 1 2 + 1 3 1 6 2 3
3.4 Regneregler for sandsynligheder 5 Komplementærhændelse: A og B er uafhængige, idet P(B c ) 1 1/3 2/3 Når A og B er uafhængige: P(A B) 1 6 P(A)P(B) 1 2 1 3 1 6 P(A B) P(A B) P(B) P(A)P(B) P(B) P(A) Lad C {1,2,3,5} så er hverken A, C eller B, C uafhængige. F.eks. er P(A C) 1 2 P(A)P(C) 1 2 2 3 1 3 Den betingede sandsynlighed af A givet C er Eksempel på Bayes formel: Screening for recessivt gen a. AA rask; Aa rask bærer; aa syg Lad B {Aa, aa} ( bærer af a ) og Pos screeningen er positiv. P(A C) P(A C) P(C) 1/2 2/3 3 4 Find P(B Pos) ss for bærer, givet at testen er positiv, hvis vi antager: 1. P(B) 0.0199 (frekvensen af bærere) 2. Testen viser 0.1% falske positive og 1% falske negative. Vi ønsker at bruge Bayes formel: P(B Pos) P(Pos B)P(B) P(Pos B)P(B) + P(Pos B c )P(B c )
3.5 Kombinationer og permutationer 6 Vi kender følgende P(B) 0.0199 og dermed P(B c ) 0.9801 P(Pos B) 1 P(Neg B) 0.99 P(Pos B c ) 0.001 Resultat: P(B Pos) Men: med 1% falske positive fås P(B Pos) 0.6678 0.99 0.0199 0.99 0.0199 + 0.001 0.9801 0.9526 3.5 Kombinationer og permutationer Optælling af kombinationer: Hvis A har a muligheder B har b muligheder A kan kombineres frit med B, så er det samlede antal muligheder a b F.eks. A {Sort, Hvid, Broget} B {Han, Hun} Giver 6 mulige kombinationer af pels og køn. Tilsvarende med kombination af 3 eller flere ting. Eksempel: Et DNA triplet består af 3 nukleotider. Hver nukleotide har 4 muligheder: Adenine Cytosine Guanine Thymine Hvor mange mulige tripletter er der? Svar: Der er 4 4 4 64 muligheder, nemlig
3.5 Kombinationer og permutationer 7 (A,A,A) (A,A,C) (A,A,G) (A,A,T) (A,C,A) (A,C,C) (A,C,G) (A,C,T) (A,G,A) (A,G,C) (A,G,G) (A,G,T) (A,T,A) (A,T,C) (A,T,G) (A,T,T) (C,A,A) (C,A,C) (C,A,G) (C,A,T) (C,C,A) (C,C,C) (C,C,G) (C,C,T) (C,G,A) (C,G,C) (C,G,G) (C,G,T) (C,T,A) (C,T,C) (C,T,G) (C,T,T) (G,A,A) (G,A,C) (G,A,G) (G,A,T) (G,C,A) (G,C,C) (G,C,G) (G,C,T) (G,G,A) (G,G,C) (G,G,G) (G,G,T) (G,T,A) (G,T,C) (G,T,G) (G,T,T) (T,A,A) (T,A,C) (T,A,G) (T,A,T) (T,C,A) (T,C,C) (T,C,G) (T,C,T) (T,G,A) (T,G,C) (T,G,G) (T,G,T) (T,T,A) (T,T,C) (T,T,G) (T,T,T) Lad der være givet n objekter a 1,a 2,...,a n Hvis objekterne opstilles i en bestemt rækkefølge kaldes det en permutation. F.eks. for n 5 a 3 a 2 a 5 a 1 a 4 Hvor mange permutationer af n objekter findes der? Svar: Antal forskellige permutationer er: (kaldet n P n af Zar) Argument: Der er n muligheder på 1. plads; n 1 muligheder på 2. plads; 2 muligheder på næstsidste plads; 1 mulighed på sidste plads. Resultatet fås ved at gange sammen. n! n (n 1) (n 2) 2 1 Eksemple: Hopperne Rikke, Lotte, Anne, Else og Vera skal sættes i 5 forskellige båse. Det kan gøres på 5! 5 4 3 2 1 120 måder
3.5 Kombinationer og permutationer 8 Cirkulære permutationer: Hvis de 5 hopper stiller sig omkring et cirkulært drikkekar er de mulige rækkefølger: 4! 4 3 2 1 24 rækkefølger Generelt kan n objekter ordnes på (n 1)! måder langs randen af en cirkel. Hvis k pladser skal besættes med k ud af n objekter er der muligheder (kaldet n P k af Zar). n (n 1) (n 2) (n k + 1) F.eks., hvis 2 af hopperne skal sættes i 2 trailere er der forskellige muligheder. 5 4 20 n! (n k)! Hvis de k objekter skal ordnes langs randen af en cirkel kan det ske på måder. np k n! k (n k)! Lad der være givet n objekter a 1,a 2,...,a n, og lad os udvælge k af disse objekter. Hvis rækkefølgen er ligegyldig taler vi om en kombination. Antallet af kombinationer (k udvælges fra n muligheder): ( ) n n! k k! (n k)! (kaldet n C k af Zar). Eksempel: Man kan vælge 2 hopper ud af de 5 på ( ) 5 5! 2 2! 3! 120 2 6 10 forskellige måder.
3.5 Kombinationer og permutationer 9 Argument: En permutation kan fås ved at vælge k objekter ud ( ( n k) måder) og ordne dem i rækkefølge (k! måder), altså på måder. n! (n k)! ( ) n k! k Bemærk at og ( ) n k ( ) n k n! k! (n k)! ( ) n n k n (n 1) (n 2) (n k + 1) k! n (n 1) (n 2) (k + 1) (n k)! Eksempel (DNA triplet): Hvor mange triplets findes der med netop 3 forskellige nukleotider? Svar: Antallet af kombinationer af 3 nukleotider valgt blandt 4 er ( ) 4 4 3 2 3 3 2 1 4 Hvor mange triplets findes der med netop 2 forskellige nukleotider? Svar: Antallet af kombinationer af 2 nukleotider valgt blandt 4 er ( ) 4 4 3 2 2 1 6 Lad der være givet n objekter a 1,a 2,...,a n, og lad os dele dem i k klasser af størrelser n 1, n 2,...,n k (altså n 1 + n 2 + + n k n). Antallet af forskellige opdelinger er da n! n 1! n 2! n k! Eksempel: På hvor mange måder kan man dele en klasse på 11 ind i 3 hold af størrelse 2, 4 og 5? Svar: måder! 11! 2! 4! 5! 6930