I dag Binomialfordelingen Sandynlighedregning og tatitik Helle Sørenen Binomialfordelingen! Sandynlighedregning: definition og andynlighedfunktion Sandynlighedregning v. tatitik Statitik: tatitik model likelihoodfunktion og makimum likelihood etimation fordeling af etimator nogle meget konkrete ekempler SaSt (Uge 2, tirdag) Binomialfordelingen 1 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 2 / 21 Ekempel: cornflakemagning Binomialfordelingen Ekperiment: 20 tilfældige peroner bliver bedt om at mage på to typer cornflake (D og K) og udpege den de yne mager bedt. Hvor mange foretrækker produkt K? Andel i befolkningen der foretrækker produkt K betegne p. Hvordan kan vi bekrive dette i termer af andynlighedregning? Lad X 1,...,X n være uafhængige og identik fordelte tokatike variable med værdier i {0,1}, med for et p [0,1]. P(X i = 1) = p, Definer deuden S = X 1 +... + X n. P(X i = 0) = 1 p Fordelingen af S kalde binomialfordelingen med antalparameter n og andynlighedparameter p. Hvad er de mulige værdier for S? Hvad er andynlighedfunktionen, dv. hvad er P(S = )? SaSt (Uge 2, tirdag) Binomialfordelingen 3 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 4 / 21
Binomialandynligheder mm. Binomialfordelinger Vi får: P(S = ) = ( ) n p (1 p) n, {0,...,n} Har allerede fundet middelværdi og varian i binomialfordelingen: Middelværdi: E(S) = np Varian: Var(S) = np(1 p) Ekempler: Hvi S bin(20,0.5), hvad er å P(S = 7), E(S) og Var(S)? Hvad ker der hvi p ændre? Hvad ker der hvi n ændre? bin(20, 0.5) 0 5 10 15 20 0.20 bin(20, 0.8) 0 5 10 15 20 SaSt (Uge 2, tirdag) Binomialfordelingen 5 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 6 / 21 Binomialfordelinger Binomialformlen bin(20, 0.8) 0 5 10 15 20 0.00 0.04 0.08 0.12 bin(50, 0.8) 0 10 20 30 40 50 Sandynlighederne ummerer til 1: n =0 ( n Mere generelt gælder binomialformlen: (x + y) n = n k=0 ) p (1 p) n = 1 ( n k ) x k y n k, Hvad iger bimomialformlen for n = 2 og n = 3? x,y R Bevie enten ved induktion efter n eller ved kombinatorike argumenter SaSt (Uge 2, tirdag) Binomialfordelingen 7 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 8 / 21
Sandynlighedregning og tatitik Lidt om noterne Antag at X bin(n,p). Sandynlighedregning: Hvi vi kender p å bekriver ( ) n f p (x) = P(X = x) = p x (1 p) n x x andynlighederne for de forkellige udfald af X. Statitik: Vi har en obervation x af X men vi kender ikke p. Vi kal ige noget om p udfra obervationen x. Hvad er mon vore bedte gæt på p, baeret på obervationen x? Dette kal formaliere: tatitik model, likelihoodfunktion, etimat/etimator. Hvilke egenkaber har etimatoren ˆp? Fordeling, middelværdi, varian? En introduktion til Statitik af Suanne Ditleven og Helle Sørenen. Er tatitik vært? Statitik er anderlede, det er ikke bare matematik Faktik er matematikken i bogen ret enkel givet at andynlighedregningen er på plad. Det være(?) ligger narere i at fortå begreberne og hvad de kal gøre godt for. Huk dette når I læer! Vi har helt bevidt krevet meget tekt rundt om ætningerne. Praktike ting vedr. noterne: Der mangler tadig et kapitel om lineær regreion Opgaver kommer ved iden af (på Abalon og evt. ved forelæninger) Vi vil meget gerne have feedback, incl. trykfejl SaSt (Uge 2, tirdag) Binomialfordelingen 9 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 10 / 21 Statitik model Likelihoodfunktion og makimum likelihood etimat Data, x: antal gange en given hændele er indtruffet i n uafhængige gentageler af et forøg. Statitik model: Bekrivele af den uikkerhed der er forbundet med dataindamlingen. Bekrivele af de mulige fordelinger x kan komme fra. To marginalt forkellige bekriveler: x realiation af tokatik variabel X, der er bin(n,p)-fordelt, hvor p Θ er en ukendt parameter. Udfaldrum E = {0,1,...,n} amt familien/mængden P = {bin(n,p) p Θ} af fordelinger på E. Huk: x er oberveret (kendt tal), men p er ukendt. Parameterområde, Θ: mulige værdier for p. Ofte [0, 1], men ommetider en ægte delmængde. Før: hvi p er kendt å angiver f p (x) = P(X = x) andynligheden for at obervere x. Funktion af x for kendt p. Nu: Opfat funktionen om funktion af p for kendt x: ( ) n L x (p) = f p (x) = p x (1 p) n x x Funktionen L x : Θ [0,1] kalde for likelihoodfunktionen. Tror mere på værdier af p der gør obervationen x meget andynlig end på værdier af p der gør obervationen knapt å andynlig. Find værdi af p der gør vore obervation met andynlig: L x (ˆp) L x (p), p Θ ˆp: makimum likelihood etimatet (makimalieringetimatet, MLE) for p. SaSt (Uge 2, tirdag) Binomialfordelingen 11 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 12 / 21
MLE Hvordan er likelihoodfunktionen ud? Ønker altå at finde ˆp å For n = 20 og x = 7: L 7 logl 7 L x (ˆp) L x (p), p Θ Sætning 1.2: Hvi parameterområdet er [0, 1] å er ML etimatet entydigt betemt og givet ved ˆp = x/n. Bevi: Binomialkoefficienten uden betydning for max-problemet Tilfældene x = 0 og x = n Tilfældene x = 1,2,...,n 1 L(p) p log L(p) 50 40 30 20 10 0 p SaSt (Uge 2, tirdag) Binomialfordelingen 13 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 14 / 21 Etimat og etimator Fordeling af ML etimatoren Etimatet er et tal, beregnet udfra obervationen x: ˆp = ˆp(x) = x/n Etimatet er en realiation af etimatoren, om er en tokatik variabel: ˆp = ˆp(X ) = X /n Skriver ommetider ˆp for både etimat og etimator... Vigtig pointe: Etimatoren ˆp = ˆp(X ) er en tokatik variabel og har derfor en fordeling, en middelværdi og en varian. Fordeling af ˆp = X /n: Hvad er de mulige værdier for ˆp? Hvad er andynlighedfunktionen for ˆp? Alternativ formulering: hvad er fordelingen af nˆp? Hvad er middelværdien, E(ˆp)? Central etimator. Hvad er varianen, Var(ˆp)? Hvad ker der når n voker? Huk at andynligheden p tadig er ukendt. Vi taler derfor ogå om den etimerede fordeling af ˆp (eller nˆp). SaSt (Uge 2, tirdag) Binomialfordelingen 15 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 16 / 21
Fordeling af ML etimatoren Fordeling af ML etimatoren Sand: bin(20, 0.5) Sand: bin(20, 0.8) Sand: bin(20, 0.8) Sand: bin(50, 0.8) 0.20 0.20 0.00 0.04 0.08 0.12 SaSt (Uge 2, tirdag) Binomialfordelingen 17 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 18 / 21 Ekempel: cornflake Ekempel: Pepi og Coca-cola Ønker at vide hvor tor en andel p af befolkningen der foretrækker cornflake type K fremfor type D. Ekperiment: 20 tilfældige peroner bliver bedt om at mage på de to typer og udpege den de yne mager bedt. Så har vi: 12 foretrækker produkt K Obervation x = 12. Stat. model: X bin(20,p) hvor p [0,1] er ukendt. Etimat ˆp = 12/20 = 0.6. Etimator ˆp = X /20 opfylder at 20ˆp bin(20, p). Vil underøge om en given peron kan mage forkel på Pepi og Coca-cola. Peronen får erveret to gla med Pepi hhv. Coca-cola og kal udpege det med Pepi. Gentager forøget 20 gange, og oberverer antallet gange peronen vælger det rigtige gla. Antag at vi får obervationen x = 15. Under hvilke omtændigheder kan binomialfordelingen bruge til at bekrive ekperimentet? Antag det betingelerne er opfyldt... Stat. model: X bin(20, p). Hvad er det naturlige parameterområde? Etimat? Hvi p = 1/2, å er P(ˆp 0.75) = 0.02. Hvad iger det om peronen evne til at mage forkel? Antag i tedet at x = 8. Hvad er etimatet å? SaSt (Uge 2, tirdag) Binomialfordelingen 19 / 21 SaSt (Uge 2, tirdag) Binomialfordelingen 20 / 21
Reumé Konkret: Definition og andynlighedfunktion for binomialfordelingen Statitik model baeret på binomialfordelingen Makimum likelihood etimation i binomialfordelingen, herunder likelihoodfuktionen og fordeling af etimator Begyndende fornemmele for Fredag:... hvad en tatitik model er... hvad det vil ige at etimere en parameter... at en etimator er en tokatik variabel, med en fordeling der er intereant at tudere Konfideninterval i binomialfordelingmodellen Modeller med endeligt udfaldrum, lidt mere generelt Lidt intro til R SaSt (Uge 2, tirdag) Binomialfordelingen 21 / 21