IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Relaterede dokumenter
antal gange krone sker i første n kast = n

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

TEKST NR TEKSTER fra IMFUFA

Motivation. En tegning

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

9. Binomialfordelingen

Elementær Matematik. Polynomier

Estimation ved momentmetoden. Estimation af middelværdiparameter

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

STATISTIKNOTER Simple normalfordelingsmodeller

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Generelle lineære modeller

Maja Tarp AARHUS UNIVERSITET

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Asymptotisk optimalitet af MLE

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Renteformlen. Erik Vestergaard

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Tankegangskompetence. Kapitel 9 Algebraiske strukturer i skolen 353

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Sandsynlighedsregning

Introduktion til Statistik

Projekt 1.3 Brydningsloven

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Projekt 9.10 St. Petersborg paradokset

Vejledende besvarelser til opgaver i kapitel 15

Den flerdimensionale normalfordeling

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Kvantitative metoder 2

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN

og Fermats lille sætning

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

x-klasserne Gammel Hellerup Gymnasium

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

Vejledende opgavebesvarelser

Stikprøvefordelinger og konfidensintervaller

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Modul 14: Goodness-of-fit test og krydstabelanalyse

Noter om Kombinatorik 2, Kirsten Rosenkilde, februar

Lys og gitterligningen

Bjørn Grøn. Analysens grundlag

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Program. Middelværdi af Y = t(x ) Transformationssætningen

Løsninger til kapitel 7

Matematisk Modellering 1 Hjælpeark

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Claus Munk. kap. 1-3

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Morten Frydenberg version dato:

Noter om polynomier, Kirsten Rosenkilde, Marts Polynomier

Hovedpointer fra SaSt

Diskrete og kontinuerte stokastiske variable

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

DATV: Introduktion til optimering og operationsanalyse, Følsomhed af Knapsack Problemet

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

GENEREL INTRODUKTION.

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Talfølger og -rækker

Analyse 1, Prøve maj 2009

Sandsynlighedsregning i biologi

Teoretisk Statistik, 9. februar Beskrivende statistik

FUNKTIONER del 1 Funktionsbegrebet Lineære funktioner Eksponentialfunktioner Logaritmefunktioner Rentesregning Indekstal

RESEARCH PAPER. Nr. 2, En model for lagerstørrelsen som determinant for købs- og brugsadfærden for et kortvarigt forbrugsgode.

Estimation og test i normalfordelingen

Introduktion til uligheder

STATISTIK x-klasserne Gammel Hellerup Gymnasium

Introduktion til uligheder

Forslag til besvarelser af opgaver m.m. i ε-bogen, Matematik for lærerstuderende

Sammenligning af to grupper

Branchevejledning. ulykker indenfor. lager. området. Branchearbejdsmiljørådet for transport og engros

De reelle tal. Morten Grud Rasmussen 5. november Se Sætning 3.6 og 3.7 for forskellige formuleringer af egenskaben og dens negation.

StudyGuide til Matematik B.

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Projekt 9.8 Betingede sandsynligheder og paradokser i sandsynlighedsregningen

Konfidens intervaller

Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN

- et værktøj til fejlrettende QR-koder. Projekt 0.3 Galois-legemerne. Indhold. Hvad er matematik? A, i-bog

Undersøgelse af numeriske modeller

Transkript:

TEKST NR 435 2004 Basisstatistik 2. udgave Jørge Larse August 2006 TEKSTER fra IMFUFA INSTITUT ROSKILDE UNIVERSITETSCENTER FOR STUDIET AF MATEMATIK OG FYSIK SAMT DERES FUNKTIONER I UNDERVISNING, FORSKNING OG ANVENDELSER

IMFUFA Roskilde Uiversitetsceter Postboks 260 DK-4000 Roskilde Jørge Larse: BASISSTATISTIK, 2. udgave t +45 46 74 22 63 f +45 46 74 30 20 m imfufa@ruc.dk w imfufa.ruc.dk IMFUFA tekst r. 435 2004 237 sider iss 0106-6242 Erstatter IMFUFA tekst r. 304 1995 Dee bog er udarbejdet til brug som udervisigsmateriale til et idledede kursus i statistik og statistiske modeller. Boge beskæftiger sig med simple eksempler på statistiske modeller. Statistiske modeller er e særlig type matematiske modeller som bruges for at beskrive talmaterialer som er behæftet med e eller ade form for tilfældig variatio. Der præseteres e del af de simple og klassiske modeller for bladt adet biomialfordelte, poissofordelte og ormalfordelte observatioer, me der er også eksempler på mere komplicerede modeller så som logistisk regressio og multiplikative poissomodeller. I alle tilfælde er der illustrative geemregede eksempler. Når ma beskæftiger sig med statistik og statistiske metoder, har ma brug for hesigtsmæssige rege- og tegeredskaber. I ærværede fremstillig er idføjet små afsit der viser hvorda ma ka rege og tege med brug af programmet R (se http: //www.r-project.org/). August 2006: rettet ogle fejl og foretaget adskillige typografiske justeriger.

Idhold Idledig 7 1 Biomialfordelige 9 1.1 Et eksempel og e statistisk model....................... 9 1.2 Biomialkoefficieter.............................. 12 1.3 Egeskaber ved biomialfordelige..................... 15 1.4 Reg og teg................................... 17 1.5 Opgaver...................................... 19 2 De simple biomialfordeligsmodel 23 2.1 Estimatio af parametere p.......................... 23 2.2 E simpel statistisk hypotese.......................... 27 2.3 Kvotietteststørrelse.............................. 28 2.4 Reg og teg................................... 33 2.5 Opgaver...................................... 33 3 Sammeligig af biomialfordeliger 37 3.1 Modelle..................................... 39 3.2 Hypoteseprøvig................................ 40 3.3 Det eksakte test i e 2 2-tabel........................ 43 3.4 Reg og teg................................... 49 3.5 Opgaver...................................... 50 4 Normalfordelige 53 4.1 Udledig af ormalfordelige........................ 54 4.2 Egeskaber ved ormalfordelige...................... 57 4.3 Reg og teg................................... 58 4.4 Opgaver...................................... 59 5 Estikprøveproblemet i ormalfordelige 61 5.1 Estimatio af µ og σ 2.............................. 62 3

4 Idhold 5.2 Test af hypotese om middelværdie...................... 66 5.3 Histogrammer og fraktildiagrammer..................... 68 5.4 Reg og teg................................... 71 5.5 Opgaver...................................... 72 6 Tostikprøveproblemer i ormalfordelige 75 6.1 Tostikprøveproblemet med uparrede observatioer............. 76 6.2 Tostikprøveproblemet med parrede observatioer............. 84 6.3 Reg og teg................................... 86 6.4 Opgaver...................................... 86 7 Esidet variasaalyse 89 7.1 Estimatio af parametree........................... 91 7.2 Hypotese om es grupper........................... 93 7.3 Bartletts test for variashomogeitet..................... 97 7.4 Reg og teg................................... 98 7.5 Opgaver...................................... 100 8 Simpel lieær regressiosaalyse 103 8.1 Præsetatio af modelle............................ 105 8.2 Estimatio af parametree........................... 108 8.3 Parameterestimateres middelfejl....................... 112 8.4 E ade formulerig af modelle...................... 113 8.5 Modelkotrol................................... 116 8.6 Test af hypoteser om lijes parametre.................... 120 8.7 Reg og teg................................... 122 8.8 Opgaver...................................... 124 9 Multipel lieær regressiosaalyse 131 9.1 Estimatio af parametree........................... 132 9.2 Modelkotrol................................... 133 9.3 Udvælgelse af baggrudsvariable....................... 134 9.4 Reg og teg................................... 137 9.5 Opgaver...................................... 139 10 Logistisk regressio 141 10.1 Grudmodelle................................. 141 10.2 E dosis-respos model............................. 142 10.3 Estimatio.................................... 144 10.4 Modelkotrol................................... 147

5 10.5 Hypoteser om parametree........................... 149 10.6 Reg og teg................................... 152 10.7 Opgaver...................................... 154 11 Poissofordelige 155 11.1 Udledig..................................... 155 11.2 Defiitio og egeskaber............................ 159 11.3 Afrudig..................................... 160 11.4 Opgaver...................................... 161 12 E- og flerstikprøveproblemer i poissofordelige 163 12.1 Estikprøveproblemet.............................. 163 12.2 Sammeligig af to poissofordeliger................... 165 12.3 Et sværere eksempel............................... 170 12.4 Reg og teg................................... 174 12.5 Opgaver...................................... 176 13 Multiplikative poissomodeller 179 13.1 Præsetatio af eksemplet: Lugekræft i Fredericia............. 179 13.2 Modelopstillig................................. 180 13.3 De multiplikative model............................ 182 13.4 Es byer?..................................... 184 13.5 E ade mulighed............................... 186 13.6 Sammeligig af de to fremgagsmåder.................. 189 13.7 Om teststørrelser................................. 190 13.8 Reg og teg................................... 190 14 Multiomialfordelige 193 14.1 De grudlæggede multiomialfordeligsmodel............. 193 14.2 Sammeligig af multiomialfordeliger.................. 198 14.3 Reg og teg................................... 204 14.4 Opgaver...................................... 204 15 Tosidede kotigestabeller 207 15.1 Grudmodelle................................. 207 15.2 Uafhægighedshypotese............................ 208 15.3 Jævførig med adre tilsvarede modeller................. 212 15.4 Reg og teg................................... 213 15.5 Opgaver...................................... 214

6 Idhold 16 Et større eksempel: Torsk i Østersøe 215 16.1 Præsetatio af eksemplet........................... 215 16.2 Hardy-Weiberg ligevægt............................ 216 16.3 Hypotese om Hardy-Weiberg ligevægt................... 217 16.4 E samlet model................................. 219 16.5 Reg og teg................................... 220 Referecer 223 Kort om statistikprogrammet R 225 Tabeller 227 Stikord 235

Idledig Dee bog beskæftiger sig med simple eksempler på statistiske modeller. Statistiske modeller er e særlig type matematiske modeller som bruges for at beskrive talmaterialer som er behæftet med e eller ade form for tilfældig variatio. De statistiske modellers force er at de ka bruges til at skille det systematiske fra det tilfældige. Der melder sig forskellige slags spørgsmål i forbidelse med statistiske modeller: hvorda ser modellere ud, og hvad er det for ogle matematiske igredieser der idgår? hvorda fider ma på e model der ka bruges i e give situatio? hvad stiller ma så op med modelle i forhold til de kokrete tal? hvad er det for typer af spørgsmål ma ka stille til e statistisk model, og hvad er det for typer af svar ma får? Disse spørgsmål diskuteres idgåede. Der præseteres ogle af de simple og klassiske modeller for bladt adet biomialfordelte, poissofordelte og ormalfordelte observatioer, me der er også eksempler på mere komplicerede modeller så som logistisk regressio og multiplikative poissomodeller. I alle tilfælde er der illustrative geemregede eksempler. Fremstillige er baseret på likelihood-metode hvis grudlæggede idéer præseteres omhyggeligt; derimod må vi af tekiske grude give afkald på de matematiske beviser for metodes fortræffeligheder. Allerede e hastig geembladre af boge vil måske give aledig til bekymrede spørgsmål om hvorfor der er så meget matematik, og om det u også virkelig er ødvedigt med alle de formler. Der er flere forskellige svar herpå: 1. Et dårligt, me dog ikke uvæsetligt svar er at boge skal bruges som kursusmateriale på et kursus med status af matematikholdigt kursus. 2. Statistiske modeller er e uderafdelig af matematiske modeller, og det ka derfor ikke udre at modellere og metodere formuleres i matematiksprog. For bare at forstå e give statistisk model og des relatio til de virkelige problemstillig er det ødvedigt med e vis matematik-vathed, og hvis ma skal kue arbejde med og tilpasse modelle og forholde sig kritisk til des fuktio som model, 7

8 Idledig fordres edu flere matematikkompetecer. Hvis ma derfor føler sig alvorligt skræmt af de mage formlers tilstedeværelse, skulle ma måske søge professioel hjælp, ete til at få løst sie statistiske problemer eller til at få et bedre forhold til matematik. 3. Ét er at få at vide at ma ud fra formel A ka deducere formel B, oget adet er at have set hvorda det foregår, oget tredje er selv at have reget det igeem, og oget fjerde er selv at have udledt e deduktio af B fra A. De første mulighed ka ikke være eerådede i oget udervisigsforløb i matematik eller et matematikbaseret fag, og af praktiske og tidsmæssige grude ka ma ikke basere et helt udervisigsforløb på de fjerde mulighed. Mulighed to bør altid idgå i et udervisigsforløb, og ærværede bog ideholder derfor e del geemregede matematiske udlediger. 4. Faget statistik har i ogle sammehæge et lidt blakket ry (»ma ka vise alt med statistik, også det modsatte«), og bladt adet af de grud er det vigtigt i e itroduktio til faget også at klargøre hvor der er tale om idiskutable matematiske deduktioer, og hvor der er grud til at være på vagt, eller sagt på e ade måde: at tydeliggøre fagets bladig af vedtage grudpricipper, eksakt videskab og ikke spor eksakt hådværk. Matematik idgår på uudværlig vis i alle tre dele. Når ma beskæftiger sig med statistik og statistiske metoder, har ma brug for hesigtsmæssige rege- og tegeredskaber. Mage af de grudlæggede modeller ka ude vaskeligheder aalyseres med e almidelig lommereger som regeredskab og med blyat og teret papir til tegiger, me så sart modellere bliver lidt mere idviklede, er det e fordel at beytte e computer med et statistikprogram. I ærværede fremstillig er idføjet små afsit med overskrifte»reg og teg«der viser hvorda ma ka rege og tege med programmet R. R er et freeware program, se http://www.r-project.org/ Vi giver ikke e lærebogsagtig præsetatio af R. De bedste måde at lære R på er formetlig ved e kombiatio af at se hvorda adre har gjort og selv at prøve sig frem, og udervejs bør ma beytte o-lie hjælpe (som er relativt god). Det er dog ok yttigt med e ultrakort itroduktio, så e såda gives på side 225.

1 Biomialfordelige Biomialfordeligsmodeller ka komme på tale i situatioer af følgede art: Ma har et bestemt elemetarforsøg der ka resultere i et af to mulige udfald som vi kalder 1 og 0 (eller Gustig og Ikke-gustig, eller Succes og Fiasko). Det er bestemt af tilfældigheder om elemetarforsøget giver det ee eller det adet udfald. Ma udfører getagelser af elemetarforsøget, hvor er et på forhåd fastlagt tal. Derefter ma tæller op hvor mage af de getagelser der giver udfaldet 1. Resultatet bliver et atal y der i sages atur er et heltal mellem 0 og. De forskellige mulige værdier af y vil idtræffe med visse sadsyligheder der afhæger af tilfældighedsmekaismes ærmere idretig. Det samlede forsøg, altså det som består af de elemetarforsøg og som resulterer i atallet y, kaldes et biomialforsøg. 1.1 Et eksempel og e statistisk model Her er et eksempel som vi vil bruge flere gage (eksemplet er hetet fra [16]): I e udersøgelse af isekters reaktio på isektgifte pyrethrum har ma udsat ogle rismelsbiller, Tribolium castaeum, for forskellige mægder gift og derpå set hvor mage der var døde efter 13 dages forløb. Bladt adet blev 144 ha-biller udsat for e giftpåvirkig på 0.20 mg/cm 2 ; af disse døde de 43 i løbet af de fastsatte periode. Her ka vi sige at et elemetarforsøg består i at udsætte é ha-bille for giftpåvirkige 0.20 mg/cm 2 og så se om de er død eller ej efter 13 dage (dvs.»død«1»gustigt udfald«). Vi vil opstille e matematisk model for de beskreve situatio. Vi deler ræsoemetet op i e række pukter: 1. For hvert elemetarforsøg idfører vi e såkaldt idikatorvariabel X der agiver om forsøget giver et 0 eller et 1. Idikatorvariable hørede til elemetarforsøg r. j er X j : 1 hvis bille r. j dør X j = 0 hvis bille r. j ikke dør 9

10 Biomialfordelige 2. Det samlede atal døde biller ka da skrives som Y = X 1 +X 2 + +X. I eksemplet keder vi ikke de ekelte X j -er, me ku Y; Y har værdie y = 43. 3. Idikatorvariablee X 1, X 2,..., X er stokastiske variable. E stokastisk variabel er kort fortalt et symbol der repræseterer det tilfældige udfald af et bestemt tilfældighedseksperimet. Om X j -ere atages det at a) de har alle de samme sadsylighed p for at atage værdie 1, det vil sige P(X j = 1) = p for ethvert j, b) de er stokastisk uafhægige, det vil sige for vilkårlige x 1, x 2,..., x gælder P(X 1 = x 1, X 2 = x 2,... X = x ) = P(X 1 = x 1 ) P(X 2 = x 2 )... P(X = x ). Da X j ku ka atage værdiere 0 og 1, og da summe af sadsylighedere er 1, er P(X j = 0) = 1 p for ethvert j. 4. Vi ka skrive sadsylighedsfuktioe for X j som p hvis x = 1 f (x) = P(X j = x) = 1 p hvis x = 0 eller kortere som f (x) = P(X j = x) = p x (1 p) 1 x, x = 0, 1. [Sadsylighedsfuktioe for e stokastisk variabel X er de fuktio der til hvert tal x kytter sadsylighede for at X atager værdie x.] 5. De simultae sadsylighedsfuktio for de stokastiske variable X 1, X 2,..., X er e fuktio f (x 1, x 2,..., x ) der agiver sadsylighede for at der samtidigt gælder at X 1 = x 1 og X 2 = x 2 og... og X = x. Da X j -ere er stokastisk uafhægige, er de simultae sadsylighedsfuktio for X j -ere produktet af de ekelte sadsylighedsfuktioer: f (x 1, x 2,..., x ) = P(X 1 = x 1 ) P(X 2 = x 2 )... P(X = x ) = p x 1 (1 p) 1 x 1 p x 2 (1 p) 1 x 2... p x (1 p) 1 x = p x 1+x 2 + +x (1 p) (x 1+x 2 + +x ) år (x 1, x 2,..., x ) er et talsæt beståede af 0-er og 1-er. Hvis der i talsættet (x 1, x 2,..., x ) er etop y 1-er og ( y) 0-er, så er f (x 1, x 2,..., x ) = p y (1 p) y. 6. Da vi u keder de simultae sadsylighedsfuktio for X j -ere, ka vi bestemme sadsylighedsfuktioe for Y = X 1 + X 2 + + X. Sadsylighede for at Y er lig med y, ka fides ved at summere sadsylighedere for alle de sæt af elemetarforsøg som består af præcis y 1-udfald og ( y) 0-udfald: P(Y = y) = f (x 1, x 2,..., x ) x 1 +x 2 + +x =y

1.1 Et eksempel og e statistisk model 11 Tabel 1.1 Her ses 15 eksempler på udfald af 01-variable X 1, X 2,..., X 12, frembragt af e tilfældighedsmekaisme med p = 1 3, samt de tilsvarede værdier af Y = X 1 + X 2 + + X 12. Tallee i y-søjle er således 15 observatioer fra e biomialfordelig med = 12 og p = 1 3. x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 x 11 x 12 y 1 0 1 0 0 0 0 1 0 0 1 1 5 0 0 1 0 1 0 0 0 1 0 1 1 5 0 1 0 1 0 0 0 0 1 1 0 1 5 0 0 0 1 0 1 0 1 0 0 1 0 4 1 0 0 0 0 1 0 0 1 0 0 0 3 0 1 0 0 0 1 0 0 0 0 0 0 2 0 0 0 1 0 0 0 0 0 0 1 1 3 0 0 1 0 0 1 1 1 1 0 0 1 6 0 0 0 1 0 0 0 0 0 1 0 0 2 0 0 0 1 0 0 1 1 0 0 0 0 3 0 1 0 1 0 0 0 0 1 0 0 0 3 1 1 0 0 1 0 0 1 1 0 0 1 6 0 0 0 1 1 0 0 1 1 0 0 0 4 0 1 0 0 1 0 0 0 0 0 0 0 2 0 1 0 0 0 1 0 0 1 1 1 1 6 hvor meige er at der summeres over alle talsæt (x 1, x 2,..., x ) der består af 0-er og 1-er og hvor x 1 + x 2 + + x = y (dvs. hvor der er etop y 1-er og ( y) 0-er). Vi fadt frem til at ethvert af disse talsæt har sadsylighed p y (1 p) y, så derfor bliver P(Y = y) = A p y (1 p) y hvor A er atal forskellige talsæt (x 1, x 2,..., x ) med y 1-er og ( y) 0-er. 7. Atallet A af forskellige talsæt (x 1, x 2,..., x ) beståede af y 1-er og ( y) 0-er afhæger af værdiere af og y; ma plejer at betege det med symbolet ( y ) (udtales» over y«). Størrelse ( ) y kaldes e biomialkoefficiet. 8. Alt i alt er vi dermed ået frem til at sadsylighedsfuktioe for Y er P(Y = y) = ( y ) py (1 p) y, y = 0, 1, 2,...,. Dee sadsylighedsfordelig hedder biomialfordelige med sadsylighedsparameter p og atalsparameter, og ma siger at Y er biomialfordelt med parametre og p. Atalsparametere er et kedt heltal, og sadsylighedsparametere p, som typisk er ukedt, er et tal mellem 0 og 1. Stokastiske variable der som X j -ere ku ka atage værdiere 0 og 1, kaldes udertide for 01-variable. Der gælder altså at hvis Y er e sum af et bestemt atal uafhægige idetisk fordelte 01-variable, så er Y biomialfordelt.

12 Biomialfordelige De statistiske model for bille-forsøget ka u kort formuleres således: Observatioe y = 43 er e observeret værdi af e stokastisk variabel Y som er biomialfordelt med atalsparameter = 144 og ukedt sadsylighedsparameter p [0, 1]. Før vi ka give os i kast med statistisk aalyse af biomialfordelte observatioer, er det ødvedigt at lære forskelligt om biomialfordelige og om biomialkoefficieter. 1.2 Biomialkoefficieter Defiitio 1.1: Biomialkoefficiet Biomialkoefficiete ( ) k er et symbol der beteger atallet af forskellige måder hvorpå ma ka placere to symboler 1 og 0 på pladser således at symbolet 1 kommer på k af pladsere og symbolet 0 kommer på de resterede ( k) pladser. Deraf følger at der er ( k ) forskellige talsæt (x 1, x 2,..., x ) beståede af etop k 1-er og ( k) 0-er. Ud fra defiitioe ka ma i pricippet bestemme talværdier af ehver biomialkoefficiet ved simpel optællig, eksempelvis er ( 4 ) 3 lig med 4, fordi der er de fire placeriger (1, 1, 1, 0), (1, 1, 0, 1), (1, 0, 1, 1) og (0, 1, 1, 1) af tre 1-er og et 0 på de fire pladser. I praksis er optælligsmetode dog ikke særlig hesigtsmæssig (prøv f.eks. at bestemme ( 37 ) 15 ved optælligsmetode); over de æste par sider udledes ogle formler der ka gøre beregigsarbejdet lidt mere overkommeligt. I defiitioe af ( ) k skal ma placere k 1-er og ( k) 0-er. Hvis ma i e såda placerig kalder 1-ere for 0 og 0-ere for 1, så får vi i stedet e placerig af ( k) 1-er og k 0-er. Heraf følger at ( k ) = ( ) for k = 0, 1, 2,..., og = 0, 1, 2,... (1.1) k Hvis k er 0 eller 1 eller eller ( 1), er det let at udrege ( ); k af defiitioe og formel (1.1) får ma ( 0 ) = 1 og dermed ( ) = 1, for = 0, 1, 2,... ( ) = 1 og dermed ( ) =, 1 for = 1, 2, 3,... De forskellige placeriger af k 1-er og ( k) 0-er ka opdeles i to grupper:

1.2 Biomialkoefficieter 13 1. Placeriger der har et 1 på sidstepladse. På de første ( 1) pladser er der da etop (k 1) 1-er, og de ka placeres på ( 1 ) k 1 forskellige måder. Dee gruppe består derfor af ( 1 ) k 1 forskellige placeriger. 2. Placeriger der har et 0 på sidstepladse. På de første ( 1) pladser er der da etop k 1-er, og de ka placeres på ( 1 ) k forskellige måder. Dee gruppe består derfor af ( 1 ) k forskellige placeriger. Det samlede atal er lig summe af de to; dermed er vist at Eksempel ( k ) = ( 1 k ) + ( 1 ) for k = 1, 2, 3,..., og = 1, 2, 3,... (1.2) k 1 Som illustratio bestemmes talværdie af ( 5 2 ). Ifølge formel (1.2) er ( 5 2 ) = (4 2 ) + (4 1 ), så hvis vi keder talværdiere af (4 2 ) og (4 1 ), ka vi løse opgave. Der gælder at ( 4 1 ) = 4 (fordi geerelt er ( 1 ) = ). For at udrege ( 4 2 ) beytter vi formel (1.2) e gag til: (4 2 ) = (3 2 ) + (3 1 ). Der gælder at ( 3 1 ) = 3. Der gælder også at ( 3 2 ) = 3 (fordi ( 1 ) = ). Dermed er ( 4 2 ) = 3 + 3 = 6. Dermed er ( 5 2 ) = (4 2 ) + (4 ) 1 = 6 + 4 = 10 hvad ma jo også ka se ved simpel optællig. Pascals trekat Formel (1.2) er ikke særlig veleget år ma øsker at berege e ekelt biomialkoefficiet, me de er overordetlig praktisk hvis ma øsker at berege alle biomialkoefficieter op til e eller ade øvre græse for. Vi keder på forhåd biomialkoefficietere med = 0 og = 1 (de er ( 0 0 ) = 1 og ( 1 0 ) = (1 ) 1 = 1). Ved hjælp af formel (1.2) ka vi berege alle koefficieter med = 2, derefter alle med = 3, derefter alle med = 4, osv. Ma plejer at stille resultatere op i et skema der kaldes Pascals trekat, se figur 1.1. Heraf ses at f.eks. er ( 7 ) 2 lig 21. Hvert tal i Pascals trekat fremkommer ifølge formel (1.2) som summe af de to ærmeste tal i række lige oveover, f.eks. er 21 = 6 + 15. Pascals trekat er opkaldt efter de fraske videskabsmad og tæker Blaise Pascal (1623-62). Flere formler Ved brug af Pascals trekat vil det være muligt at bestemme talværdier af ehver biomialkoefficiet; ma skulle dog udføre e hel del additioer og have et temmelig stort ark papir for at udrege f.eks. ( 37 ). 15 Heldigvis fides der også e ade og midre pladskrævede metode hvor ma så til gegæld skal lave ogle multiplikatioer og divisioer. Som forberedelse til dee metode skal vi bruge edu e formel for biomialkoefficieter.

14 Biomialfordelige biomialkoefficietere ( k ) 0 1 1 1 1 2 1 2 1 3 1 3 3 1 4 1 4 6 4 1 5 1 5 10 10 5 1 6 1 6 15 20 15 6 1 7 1 7 21 35 35 21 7 1 Figur 1.1 Pascals trekat. Atag ige at vi skal fordele k 1-er og ( k) 0-er på pladser, me u er et af 1-ere mærket. Vi ka bestemme atallet af syligt forskellige placeriger på to måder: 1. Bestem først hvilke pladser der skal have et 0: Det ka gøres på ( k ) = ( k ) måder. Nu er der k pladser reserveret til 1-er, og der er derfor k forskellige måder at placere det mærkede 1 på. I alt er der derfor k ( ) k syligt forskellige placeriger. 2. Bestem først hvilke pladser der skal have et umærket 1. Det ka gøres på ( k 1 ) måder. Derefter ka det mærkede 1 placeres på e af de resterede ( k + 1) pladser. I alt er der derfor ( k + 1) ( ) k 1 syligt forskellige placeriger. Da de to atal er es, er k ( ) k = ( k + 1) ( ), k 1 og ved at flytte rudt på faktorere fås ( k ) = k + 1 k ( ) for k = 1, 2,..., og = 1, 2,... (1.3) k 1 Dee formel fortæller hvorda ma fider ( ) k hvis ma keder ( k 1 ). Ved getage avedelser af formel (1.3) fås i øvrigt dvs. ( ( k + 1) ) = k k ( k + 1) = k ( k + 1) = k = ( k ) = 1 = ( k + 1) k ( k 1 ) ( k + 2) ( k 1 k 2 ) ( k + 2) k 1 ( k + 2) k 1 ( k + 3) k 2... ( 1) ( 2) ( k + 1)... 2 3 k ( 2) 3 for ( k 3 ) ( 1) 2 1, k = 1, 2,..., = 1, 2,... (1.4)

1.3 Egeskaber ved biomialfordelige 15 (Hvis k er 0, er højreside»det tomme produkt«som er 1.) Hvis ma på højreside af (1.4) gager med 1 2 3... ( k 1) ( k) i tæller og æver, får ma ( k ) =! k! ( k)! for k = 1, 2,..., = 1, 2,... (Når m er et positivt heltal, så er m! = 1 2 3 (m 1) m; edvidere er 0! = 1.) Ved hjælp af formel (1.4) og papir og blyat og lommereger fider ma let at ) = 9 364 199 760. ( 37 15 Biomialformle Hvorfor hedder det»biomialkoefficiet«? Et bi-omium er e to-leddet størrelse som f.eks. a + b. E velkedt formel fortæller hvad kvadratet på e toleddet størrelse er: (a + b) 2 = a 2 + 2ab + b 2. Dee formel ka geeraliseres til at hadle om de -te potes af e toleddet størrelse. Hvis ma i (a + b) = (a + b)(a + b)... (a + b) faktorer gager paretesere ud, får ma 2 led der hver især er et produkt af faktorer, e fra hvert af de biomier. Af disse 2 led er der etop ( ) k der består af k a-er og ( k) b-er. Derfor er (a + b) = ( 0 )a0 b + ( 1 )a1 b 1 + ( 2 )a2 b 2 +... + ( )a b 0 = k=0 ( k )ak b k. Dee formel hedder biomialformle, fordi de hadler om -te potese af et biomium. De koefficieter der idgår i biomialformle, kaldes aturligt ok biomialkoefficieter. (1.5) 1.3 Egeskaber ved biomialfordelige Defiitio 1.2: Biomialfordelig Biomialfordelige med sadsylighedsparameter p og atalsparameter er de diskrete sadsylighedsfordelig givet ved sadsylighedsfuktioe f (y) = ( y ) py (1 p) y, y = 0, 1, 2,...,. Her er p et (som oftest ukedt) tal mellem 0 og 1, og er et positivt heltal.

16 Biomialfordelige Middelværdi og varias Når ma har at gøre med e sadsylighedsfordelig, ka ma udrege visse talstørrelser der beskriver forskellige træk ved fordelige. Ma udreger ofte fordeliges middelværdi (= de forvetede værdi =»tygdepuktet«i fordelige). Hvis Y er e stokastisk variabel der har e fordelig med sadsylighedsfuktio f, så er middelværdie pr. defiitio tallet E Y = y f (y) hvor der summeres over alle de mulige y-værdier. For biomialfordeliges vedkommede er middelværdie altså tallet E Y = y ( y=0 y ) py (1 p) y. Dee sum ser ikke så rar ud, me heldigvis ka vi fide middelværdie på e ade og smartere måde. Som omtalt på side 11 ka e biomialfordelt stokastisk variabel Y fremkomme som e sum af uafhægige idetisk fordelte 01-variable, så lad os sige at Y = X 1 + X 2 + + X hvor X 1, X 2,..., X er uafhægige 01-variable med P(X j = 1) = p for alle j. Ifølge regeregler for middelværdi er middelværdie af e sum lig summe af middelværdiere: E Y = E X 1 + E X 2 + + E X = E X 1, så problemet er u reduceret til at bestemme E X 1, og det er overkommeligt ud fra defiitioe af middelværdi: E X 1 = 0 P(X 1 = 0) + 1 P(X 1 = 1) = 0 (1 p) + 1 p = p. Vi har dermed fudet at E Y = p. Deræst ser vi på variase. Variase af e stokastisk variabel Y med sadsylighedsfuktio f er pr. defiitio Var Y = E((Y E Y) 2 ) = (y E Y) 2 f (y) hvor der summeres over de mulige y-værdier. For at fide variase af vores biomialfordelte stokastiske variabel Y = X 1 +X 2 + +X ka vi beytte et smart trick: Det er e egeskab ved varias at variase af e sum af uafhægige størrelser er lig summe af variasere af de ekelte led. Derfor er Var Y = Var X 1 + Var X 2 + + Var X = Var X 1, og vi behøver u blot fide variase af X 1 ; da X 1 ku atager værdiere 0 og 1, bliver udregigere simple: Var X 1 = E((X 1 E X 1 ) 2 ) = E((X 1 p) 2 )

1.4 Reg og teg 17 Vi har hermed fudet at Var Y = p(1 p). = (0 p) 2 P(X 1 = 0) + (1 p) 2 P(X 1 = 1) = p 2 (1 p) + (1 p) 2 p = p(1 p). Sammefattede gælder at hvis de stokastiske variabel Y er biomialfordelt med parametre og p, så er E Y = p og Var Y = p(1 p). E fordeligs stadardafvigelse er pr. defiitio kvadratrode af variase, dvs. for biomialfordeliges vedkommede p(1 p). Udregig af biomialsadsyligheder Hvis ma øsker at udrege biomialsadsylighedere f (y) = ( y ) py (1 p) y for y = 0, 1, 2,...,, er det som regel ikke hesigtsmæssigt bare ude videre at idsætte i formle. Ma ka med fordel beytte e rekursiosformel. Ved simple omskriviger fider ma at f (y) f (y 1) = y + 1 y p, y = 1, 2,...,, 1 p således at f (y) let ka bereges ud fra f (y 1). Metode bliver dermed f (0) = (1 p), f (y) = f (y 1) y + 1 y p, y = 1, 2,...,. 1 p Eksempel 1.1 Som eksempel vil vi berege og tege sadsylighedsfuktioe for biomialfordelige med = 18 og p = 1 6. (Dee fordelig kue f.eks. beskrive atallet af seksere ved 18 kast med e almidelig terig.) Fordelige har i øvrigt middelværdi 18 1 6 = 3 og varias 18 1 6 5 6 = 2.5 (svarede til stadardafvigelse 1.58). Ved at bruge de beskreve metode udreges fordeliges sadsylighedsfuktio f og ma får tabelle i figur 1.2. 1.4 Reg og teg Her omtales hvorda ma ka foretage de forskellige beregiger med R-programmet. Biomialkoefficieter Biomialkoefficieter udreges med fuktioe choose, f.eks. giver choose(5,2) værdie af ( 5 2 ).

18 Biomialfordelige y f (y) = ( 18 y )( 1 6 )y ( 5 6 )18 y 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0.038 0.135 0.230 0.245 0.184 0.103 0.045 0.015 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 1.000 ssh 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 10 12 14 16 18 Figur 1.2 Tabel hhv. pidediagram over sadsylighedsfuktioe for biomialfordelige med = 18 og p = 1 6. y Biomialsadsyligheder Biomialsadsyligheder udreges med fuktioe dbiom. Eksempelvis ka sadsylighedere i biomialfordelige med = 18 og p = 1 6 udreges såda: <- 18 # får værdie 18 y <- 0: # y bliver vektore (0, 1, 2,..., 18) ssh <- dbiom(y, size=, prob=1/6) # udreg ( y )( 1 6 )y (1 1 6 ) y ssh # udskriv resultatet roud(ssh, digits=3) # udskriv resultatet afrudet til 3 decimaler: Pidediagrammet i figur 1.2 ka derefter fremstilles såda: barplot(ssh, space=1.5, ames.arg=y, las=1, xlab="y", ylab="ssh") Tabel 1.1 Ma ka fremstille e tabel som tabel 1.1 på følgede måde, hvor kaldet af rbiom leverer 180 tilfældige tal fra e biomialfordelig med = 1 og p = 1 3, fuktioe matrix putter tallee id i e matrix med det øskede atal rækker, fuktioe rowsums udreger rækkesummer, og fuktioe cbid sætter matricer samme lags søjler (c = colums):

1.5 Opgaver 19 t <- matrix(rbiom(180, size=1, prob=1/3), row=15) cbid(t, rowsums(t)) 1.5 Opgaver Opgave 1.1 Tabel 1.1 (side 11) er fremstillet på de måde at ma har sat et computerprogram til at frembrige udfald af 01-variable X 1, X 2,..., X såda at sadsylighede for værdie 1 hver gag er et givet tal p (som er 1 3 ). 1. Udreg sadsylighede for at få det talsæt x 1, x 2,..., x der står i række ummer 5. 2. Udreg sadsylighede for at få det talsæt x 1, x 2,..., x der står i række ummer 7. 3. Opskriv sadsylighedsfuktioe for X 1, X 2,..., X. 4. Opskriv sadsylighedsfuktioe for Y = Opgave 1.2 På side 11 åede vi frem til e tilstrækkelig betigelse for at e stokastisk variabel Y er biomialfordelt. Overvej med dee betigelse i mete om ma ka beytte biomialfordeligsmodeller i edeståede kort skitserede situatioer (agiv i givet fald hvad elemetarforsøgee og hvad parametree og p er): X j. 1. Atal toere ved fem kast med e almidelig terig. 2. Atal toere ved et kast med fem almidelige teriger. 3. Atal gage ma skal kaste e almidelig terig for at få e toer. 4. Atal bør i e skoleklasse som bruger briller. 5. Atal yregistrerede aids-tilfælde i Damark i maj år 2006. 6. Atal yregistrerede aids-tilfælde i Damark i maj år 2010. 7. Atal passagerer i e ht-bus som ved forrige valg stemte på Dask Folkeparti. 8. Atal trykfejl i e bog. Opgave 1.3 Udreg biomialkoefficiete ( 12 ), dels ved hjælp af Pascals trekat, dels ved hjælp af formel 5 (1.4) (og ude at bruge lommeregere). Opgave 1.4 I tabel 1.1 er vist udfald y 1, y 2,..., y 15 af e stokastisk variabel Y som er biomialfordelt med atalsparameter 12 og sadsylighedsparameter 1 3. 1. Udreg e tabel over fordelige af Y (altså e tabel over sadsylighedsfuktioe for biomialfordelige med atalsparameter 12 og sadsylighedsparameter 1 3 ). Sammelig med de empiriske fordelig af y 1, y 2,..., y 15 (altså de relative hyppigheder hvormed udfaldee 0, 1, 2,..., 12 faktisk er forekommet).

20 Biomialfordelige 2. Teg et pidediagram over fordelige af Y (altså e tegig i stil med figur 1.2). Teg desude et pidediagram over de empiriske fordelig. Liger de to fordeliger hiade? 3. Hvor mage gage ud af 15 getagelser skulle ma forvete at få observatioe Y = 5? Hvor mage gage har ma faktisk fået observatioe 5? 4. Udreg middelværdie af Y. Udreg variase og stadardafvigelse af Y. Opgave 1.5 (Fru Hase spiller bako) Fru Hase går til bako-spil de fem af uges dage. Hu ka derfor opleve at der er 0, 1, 2, 3, 4 eller 5 dage i løbet af uge hvor hu går hjem med e gevist, me det er tilfældigt hvad det faktiske atal»gevistdage«bliver. Ma ka derfor for e give uge idføre e stokastisk variabel Y som skal stå for»atal gevistdage i de pågældede uge«. Ma vil gere vide oget om fordelige af Y, især oget om E Y, det forvetede atal gevistdage på e uge. Atag at der hver dag er sadsylighede p for at hu vider. 1. Formulér e passede statistisk model for atallet Y af gevistdage. 2. Hvad er det forvetede atal gevistdage E Y? Teg grafe for E Y som fuktio af p. 3. For at få et idtryk af hvor meget Y ka variere fra uge til uge, vil ma også gere vide oget om Var Y. Hvad er variase af Y? Teg grafe for Var Y som fuktio af p; hvorår er variase størst, og hvor stor er de da? 4. Bakospilarragøre vil idrette det såda at hvis ma spiller hver af uges fem»arbejdsdage«, så skal ma kue forvete etop é gevistdag. a) Hvad skal ha da vælge p til at være? b) Teg de tilsvarede fordelig af Y. c) Hvor stor er variase i fordelige? 5. Fru Hase vil spille i 10 uger. Hvor mage uger må hu forvete at hu ikke får e eeste gevistdag? Opgave 1.6 (Eksempel på simpel forsøgsplalægig) Ved e meigsmålig vil ma spørge persoer om de er for eller mod et bestemt eme; derefter vil ma udrege atallet Y af svarpersoer der er for. 1. Formulér e passede statistisk model for dee situatio (dvs. agiv e sadsylighedsfuktio for Y). 2. Beyt modelle til at fide stadardafvigelse af Y (for at få e idé om størrelse af de tilfældige variatio). Hvad er stadardafvigelse af de relative hyppighed Y/? 3. Hvorda afhæger stadardafvigelse af de idgåede parametre? Hvor stor skal være for at stadardafvigelse af de relative hyppighed er 0.02 (eller midre)? Opgave 1.7 (Hypergeometriske sadsyligheder) Kombiatorik er lære om at tælle. Mage kombiatoriske problemer formuleres på de måde at ma taler om forskelligtfarvede kugler der lægges ed i og tages op af kasser (eller urer) efter bestemte regler. Atag at ma har e kasse med R røde og H hvide kugler.

1.5 Opgaver 21 1. Vis med udgagspukt i defiitio 1.1 at der er ( R ) forskellige måder hvorpå ma ka r udtage r røde kugler ude tilbagelægig. 2. Ma vil udtage kugler i alt fra kasse, stadig ude tilbagelægig. Fid atallet af forskellige måder det ka gøres på således at ma får etop r røde og ( r) hvide kugler. Svaret er ( R ) ( H ). Det er uderforstået at r et et heltal der opfylder visse betigelser: r r a) 0 r : atal udtage røde kugler må ligge mellem 0 og det totale atal udtage kugler (). b) r R: ma ka ikke udtage flere røde kugler ed der er. c) r H: ma ka ikke udtage flere hvide kugler ed der er. 3. Vis at ( R r ) ( H r ) = (R+H ). alle r 4. Hvis ma roder godt rudt i kasse ide ma udtager de kugler, ka ma sige at ma får udvalgt e tilfældig delmægde beståede af kugler således at ehver af de ( R+H ) forskellige delmægder har samme sadsylighed for at blive udvalgt. Vis at sadsylighede for at e tilfældig delmægde ideholder etop r røde og ( r) hvide kugler, er (R r ) ( H r ) ( R+H ). (Dette er et eksempel på e hypergeometrisk sadsylighed.)

22

2 De simple biomialfordeligsmodel I forrige kapitel opstillede vi e statistisk model i de simple biomialfordeligssituatio. I modelle optræder to størrelser og p der tilsamme specificerer biomialfordelige. Størrelse er et kedt tal, me p er ukedt: værdie af fastsættes ved plalægige af forsøget, hvorimod p beskriver e egeskab ved de tilfældighedsmekaisme der frembriger observatioere; i ogle situatioer vil ma sige at p beskriver e egeskab ved ature eller virkelighede. E størrelse som p er e parameter i modelle. Ma siger ofte de sade værdi af parametere p år ma meer de værdi som p»i virkelighede«har (i modsætig til e værdi som ma selv foreslår). I dette kapitel skal vi se hvorda ma ka få oget at vide om de sade værdi af p. 2.1 Estimatio af parametere p Ved hjælp af de statistiske model er det muligt at hete iformatio om de sade parameterværdi ud af observatioere: på grudlag af model plus observartioer udreger ma et skø eller et estimat over værdie af p, og selve processe hedder estimatio. I eksemplet med rismelsbillere i kapitel 1 var = 144 og det observerede atal gustige udfald var y = 43. Da p skal fortolkes som sadsylighede for at få et gustigt udfald, og da ma har observeret 43 gustige ud af 144, er det ærliggede at foreslå at estimere p som de relative hyppighed y/ = 43/144 = 0.30. I det følgede vil vi præsetere e geerel estimatiosmetode der ka bruges i»ehver«situatio, og vi vil eftervise at de geerelle metode fører frem til at sadsylighedsparametere p faktisk skal estimeres som y/. Likelihoodmetode Det er i ekelte simple tilfælde ret klart hvorda ma»selvfølgelig«skal aalysere si statistiske model, idet der er e»umiddelbart idlysede«fremgagsmåde osv. I de fleste tilfælde er det kap så klart. Vi vil itroducere et sæt overordede pricipper for hvorda ma bør aalysere e statistisk model. Disse pricipper gælder (med visse tilføjelser) for»ehver«model. Idførelse af pricippere betyder ikke at ma slipper for overvejelser over hvad ma»selvfølgelig«skal gøre, og hvad der er»umiddelbart idlysede«, me at ma i stedet for at skulle gøre overvejelsere ige og ige i hvert ekelt tilfælde, så at sige 23

24 De simple biomialfordeligsmodel 0.25 0.20 ssh 0.15 0.10 0.05 0.00 0 1 2 3 4 5 6 7 y Figur 2.1 E»typisk«sadsylighedsfuktio y f (y; p). overstår dem alle på e gag ved at hæve dem fra ekelttilfældee op til et overordet iveau hvor de udæves til geerelle pricipper. Et pricip er i dee sammehæg e orm, e retigslije, som ikke bliver logisk-deduktivt bevist, me som retfærdiggøres dels geem geerelle betragtiger og overvejelser, dels ved at de leverer foruftige resultater i kokrete situatioer. Vi vil i al stilfærdighed præsetere et sådat sæt pricipper og vise hvorda de udmøtes i e geerel metode til estimatio af ukedte parametre i statistiske modeller. I dette kapitel skal vi se på hvorda de geerelle metode ser ud i eksemplet»de simple biomialfordeligsmodel«, og som geemgåede eksempel på»de simple biomialfordeligsmodel«bruger vi rismelsbille-eksemplet. (Der er altså flere iveauer af eksempler: Rismelsbille-eksemplet er et eksempel på e simpel biomialfordeligsmodel, og de simple biomialfordeligsmodel er et eksempel på e statistisk model.) De statistiske model i rismelsbille-eksemplet siger at y = 43 opfattes som e observatio af e stokastisk variabel Y som er biomialfordelt med atalsparameter = 144 og ukedt sadsylighedsparameter p [0, 1]. Sadsylighedsfuktioe for Y er f (y) = ( y ) py (1 p) y, y = 0, 1, 2,...,. For at fremhæve at udtrykket afhæger af både y og p, skriver vi f (y; p) i stedet for f (y): f (y; p) = ( y ) py (1 p) y, y = 0, 1, 2,..., ; 0 p 1. Fuktioe f er u e fuktio af to variable, e observatiosvariabel y og e parametervariabel p. Fuktioe kaldes modelfuktioe for de statistiske model fordi de specificerer modelle fuldstædigt: for ehver kombiatio af e mulig observatio y

2.1 Estimatio af parametere p 25 ssh 0.30 0.25 0.20 0.15 0.10 0.05 0.00 log(ssh) 2 4 6 8 10 12 14 0.0 0.2 0.4 0.6 0.8 1.0 p 0.0 0.2 0.4 0.6 0.8 1.0 p Figur 2.2 Til vestre: e»typisk«likelihoodfuktio p L(p; y) = f (y; p). Til højre: de tilsvarede log-likelihoodfuktio. og e mulig parameterværdi p agiver de sadsylighede for at observere etop det y hvis etop det p er de rigtige parameterværdi. Modelfuktioe er flere fuktioer i é: Hvis vi i modelfuktioe fikserer p og opfatter fuktioe som e fuktio af y alee, så har vi sadsylighedsfuktioe svarede til parameterværdie p. E»typisk«sadsylighedsfuktio er vist i figur 2.1. Hvis vi i modelfuktioe fikserer y og opfatter fuktioe som e fuktio af p alee, så har vi likelihoodfuktioe svarede til observatioe y. Likelihoodfuktioe beteges ofte L( ) eller L( ; y): L(p) = L(p; y) = ( y ) py (1 p) y, 0 p 1. Figur 2.2 viser e»typisk«likelihoodfuktio. I vort eksempel er modelfuktioe f (y; p) = ( 144 y ) p43 (1 p) 101, y = 0, 1, 2,..., 144; 0 p 1, og likelihoodfuktioe svarede til observatioe y = 43 er L(p) = L(p; 43) = ( 144 43 ) p43 (1 p) 101, 0 p 1. Likelihoodfuktiosværdie L(p; y) er sadsylighede for at observere det y ma faktisk har observeret, forudsat at de ukedte parameter har værdie p. Likelihoodfuktioe ka derfor avedes til at sammelige forskellige parameterværdiers eve til

26 De simple biomialfordeligsmodel at beskrive de faktiske observatio y. For hvis f.eks. L(p 1 ; y) < L(p 2 ; y), så er chace for at observere etop dette y større år p er lig p 2, ed år p er lig p 1, og det må betyde at p 2 giver e bedre beskrivelse af data ed p 1 gør. De parameterværdi som giver de bedste beskrivelse efter disse retigslijer, er da de værdi som maksimaliserer likelihoodfuktioe, og de kaldes maksimaliserigsestimatet (eller maximum likelihood estimatet) for p og beteges p (»p hat«). Tallet p er altså bestemt ved at L( p; y) L(p; y) for alle p. Bemærk at p er e fuktio af y. Af bekvemmelighedsgrude opererer ma tit med log-likelihoodfuktioe, dvs. fuktioe l L(p), og ma bestemmer p som maksimumspuktet for l L (resultatet bliver jo det samme). I vort eksempel er log-likelihoodfuktioe l L(p) = l ( 144 ) + 43 l p + 101 l(1 p). 43 Imidlertid vil talværdiere let gøre ræsoemetere ugeemskuelige, så vi veder tilbage til de geerelle biomialfordeligsmodel hvor log-likelihoodfuktioe er l L(p) = l ( ) + y l p + ( y) l(1 p). y Hvad er p i dee model? Svaret herpå får vi ved at løse de matematikopgave der hedder:»bestem maksimumspukt(er) for fuktioe p l L(p) år p [0, 1]«, så det gør vi. Fra matematikke ved vi at kadidater til maksimumspukter er dels itervaledepuktere p = 0 og p = 1, dels de statioære pukter, dvs. de pukter hvor d dp l L(p) = 0. For 0 < p < 1 er d dp l L(p) = y p y 1 p = y p p (1 p). Det er hesigtsmæssigt at dele op i tre tilfælde: 0 < y < : Så er puktet p = y/ det eeste statioære pukt for l L, og da l L(0) og l L(1) begge er, er p = y/ et etydigt maksimumspukt. y = : Så er l L(p) = l p, hvilket er e voksede fuktio af p. De atager derfor si største værdi år p er størst mulig, dvs. år p = 1. y = 0: Så er l L(p) = l(1 p), hvilket er e aftagede fuktio af p. De atager derfor si største værdi år p er midst mulig, dvs. år p = 0. I alle tre tilfælde er der således et etydigt maksimumspukt der ka udreges som y/. Vi er hermed ået frem til at i biomialmodelle med modelfuktio f (y; p) = ( y ) py (1 p) y, y = 0, 1, 2,..., ; 0 p 1,

2.2 E simpel statistisk hypotese 27 er maksimaliserigsestimatet p for p givet som p = y/. At p skal estimeres ved de relative hyppighed y/ ka æppe overraske oge, det er æste hvad ma ka sige sig selv. Det iteressate er at det altså også er det svar ma år frem til ved at beytte de geerelle fremgagsmåde som er opstil modelfuktioe, da derudfra likelihoodfuktioe, bestem p som maksimumspuktet for likelihoodfuktioe. Det er vigtigt at have i mete at der tækes at eksistere e sad parameterværdi som er et bestemt, ukedt tal. Vi ka pricipielt aldrig erfare de sade parameterværdi, me ud fra foreliggede observatioer ka vi estimere de. Middelfejle på p Maksimaliserigsestimatet p = y/ er det bedste bud vi ka give på de ukedte p-værdi år vi har observeret atallet y ud af. De statistiske model fortæller at y er at opfatte som e observatio af e stokastisk variabel Y; det medfører at vi også må opfatte estimatet y/ som e observatio af e stokastisk variabel, emlig Y/; de stokastiske variabel p = p(y) = Y/ kaldes maksimaliserigsestimatore for p. Da Y er biomialfordelt med parametre og p, er middelværdie af Y lig p, og ifølge regereglere for middelværdi er så E p(y) = (E Y)/ = p, hvilket betyder at maksimaliserigsestimatore p for p i middel giver det rigtige svar p, me deraf følger ikke oget om det kokrete ekelttilfælde. E estimator hvis middelværdi er lig de parameter der skal estimeres, kaldes e cetral estimator (på egelsk: a ubiased estimator). For at få e idé om størrelse af maksimaliserigsestimatores tilfældige variatio omkrig si middelværdi p ka ma bestemme de såkaldte middelfejl på p, dvs. stadardafvigelse på p(y). Da Y er biomialfordelt med parametre og p, er Var Y = p(1 p), og ifølge regeregler for variaser er Var( p(y)) = Var(Y/) = (Var Y)/ 2 = p(1 p)/, så middelfejle på p(y) er p(1 p)/. I billeeksemplet er stadardafvigelse på p lig p(1 p)/144, og de estimerede stadardafvigelse er p(1 p)/ = 0.30 0.70/144 = 0.04. Sammefattede ka vi sige at biomialparametere p i billeeksemplet estimeres til p = 0.30 med e stadardafvigelse på 0.04. 2.2 E simpel statistisk hypotese Det er ikke altid at ma er tilfreds med blot at estimere de ukedte parameter i de statistiske model, udertide øsker ma også at opstille og teste statistiske hypoteser vedrørede de sade værdi af parametere.

28 De simple biomialfordeligsmodel Atag at det i rismelsbilleeksemplet er såda at ma har e referecegift hvorom ma véd at år ma doserer de med 0.20 mg/cm 2, så dør 23% af billere [ såda er det ikke; dee del af eksemplet er opdigtet til lejlighede!]. De gift der er afprøvet, er ligeledes doseret med 0.20 mg/cm 2, og der skete som ævt det at 43 ud af 144 biller døde. Spørgsmålet er om de afprøvede gift virker på samme måde som referecegifte. Hvad»på samme måde«ærmere skal betyde, ka ma sikkert diskutere læge og iderligt, me formuleret i de statistiske models sprog er det emt ok: det betyder at p = p 0, altså at sadsylighede for at e bille dør år de er blevet udsat for de afprøvede gift, er lig p 0, hvor p 0 er e kedt værdi (her 0.23). Påstade at p = p 0, er et eksempel på e såkaldt statistisk hypotese; statistiske hypoteser avgives ofte med symboler som H 0, H 1, osv., så her vil vi tale om hypotese H 0 p = p 0. Hvorda passer de statistiske hypotese og de foreliggede observatioer samme? Ma ka se at de estimerede værdi p = 144 43 ikke er lig med 0.23, me eksakt lighed ville også være mere ed ma kue forvete, taget i betragtig at modelle siger at tallet y = 43 er e observatio fra e sadsylighedsfordelig. Ma ka ku sige at hvis der ikke er stor afvigelse mellem p og p 0, så er der ikke klare teg på at de afprøvede gift virker aderledes ed referecegifte der er ikke oge sigifikat forskel, og hvis der er stor afvigelse mellem p og p 0, så er det teg på at de afprøvede gift ikke virker på samme måde som referecegifte der er e sigifikat forskel. Her er der to tig der behøver e ærmere præciserig: hvorda måler ma afvigelse mellem p og p 0, og hvorda afgør ma hvorår afvigelse er stor og hvorår ikke. I afsit 2.3 præseteres e geerel metode hvormed ma ka hådtere disse spørgsmål. Det faglige problem blev præseteret på de måde at ma øskede at vide om de afprøvede gift virkede på samme måde som referecegifte, og det førte til hypotese H 0 p = p 0. Me hvis ma i stedet havde stillet spørgsmålet om der var forskel på de to gifte, hvorda skulle ma så have grebet sage a? Svaret er: på øjagtig samme måde, altså stadig ved at udersøge H 0 p = p 0. Statistiske hypoteser er emlig altid forsimplede i de forstad at ma går fra det mere detaljerede til det midre detaljerede. I eksemplet begyder ma derfor med de mest detaljerede model, de hvor p ka være hvad som helst, og så opstiller ma som statistisk hypotese at modelle er midre detaljeret, emlig at p ku har lov til at have de ee værdi p 0. 2.3 Kvotietteststørrelse Det blev påstået at ma ved hjælp af likelihoodfuktioe ka sammelige forskellige parameterværdiers eve til at beskrive det faktisk observerede y: hvis L(p 1 ; y) < L(p 2 ; y), så giver parameterværdie p 2 e bedre beskrivelse ed parameterværdie p 1 gør, ide for rammere af de aktuelle statistiske model. I særdeleshed giver maksimaliserigsesti-

2.3 Kvotietteststørrelse 29 matet p = p(y) de bedst mulige beskrivelse af observatioe y. Parameterværdier der giver e værdi af likelihoodfuktioe som ligger tæt på de maksimale værdi L( p), må give e æste lige så god beskrivelse af observatioe y som p gør. Når vi derfor skal teste e statistisk hypotese H 0 p = p 0 om at de ukedte parameter p ka atages at have de kedte værdi p 0, så må det foregå ved at sammelige likelihoodfuktioes værdi i puktet p 0 med des maksimale værdi, altså ved at sammelige de to tal L(p 0 ) og L( p). Hvis L(p 0 ) er æste lige så stor som L( p), betyder det at p 0 beskriver observatioe y æste lige så godt som p gør, og det betyder ige at ma ka tillade sig at mee at p 0 er de sade værdi af p: ma accepterer eller godkeder hypotese H 0. Hvis derimod L(p 0 ) er væsetligt midre ed L( p), betyder det at p 0 giver e væsetligt dårligere beskrivelse af observatioe y ed p gør, og det er derfor ikke rimeligt at mee at p 0 skulle være de sade værdi af p: ma forkaster H 0. Når ma sammeliger L(p 0 ) og L( p), skal det gøres ved at dividere de midste med de største: ma daer kvotiete Resultatet bliver et tal mellem 0 og 1, og Q = Q(y) = L(p 0) L( p) = L(p 0; y) L( p; y). e Q-værdi ær 1 viser at p 0 er stort set lige så god som p: ma accepterer H 0, e Q-værdi lagt fra 1 viser at p 0 er væsetligt dårligere ed p: ma forkaster H 0. Ma kalder Q for kvotietteststørrelse for de statistiske hypotese H 0. I biomialfordeligsmodelle er L(p) = ( y ) py (1 p) y, så Q = Q(y) = py 0 (1 p 0) y p y (1 p) y = ( p y 0 y ) ( (1 p y 0) ) y (2.1) idet p = y/. I eksemplet er = 144, y = 43 og p 0 = 0.23, så de observerede værdi Q obs af Q er 43 101 144 0.23 144 0.77 Q obs = ( ) ( ) = 0.165. 43 101 Tallet Q obs = 0.165 i sig selv ka vi ikke stille oget op med det giver ige meig at spørge om 0.165 er ær 1 eller lagt fra 1 så læge vi ikke har e målestok eller et sammeligigsgrudlag. De statistiske model fortæller at vi skal betragte y som e observatio af e stokastisk variabel Y; dermed skal vi også betragte Q obs = Q(y) som e observatio af de stokastiske variabel Q(Y). Fordelige af Y beskriver hvilke y-værdier ma også kue have fået (i stedet for de faktisk observerede) og med hvilke sadsyligheder, og de tilsvarede fordelig af Q(Y) beskriver dermed hvilke

30 De simple biomialfordeligsmodel Q-værdier ma også kue have fået (i stedet for 0.165) og med hvilke sadsyligheder. Takket være de statistiske model ka vi altså sammeholde de faktiske værdi Q obs = 0.165 med alle de adre Q-værdier ma også kue have fået år p har værdie p 0. Hvis det er såda at der år p = p 0 er e pæ chace (f.eks. over 5%) for at få Q-værdier som ligger lægere væk fra 1 ed Q obs gør, dvs. for at få Q-værdier for hvilke Q Q obs, så vil ma sige at Q obs ikke ligger specielt lagt fra 1, og ma vil acceptere hypotese H 0 p = p 0. Hvis det derimod er såda at der år p = p 0 er meget lille chace (f.eks. uder 5%) for at få Q-værdier som ligger lægere fra 1 ed Q obs gør, dvs. for at få Q-værdier for hvilke Q Q obs, så vil ma fortolke det som at Q obs i sig selv ligger usædvaligt lagt fra 1, og ma vil forkaste hypotese H 0 p = p 0. Når ma skal teste hypotese H 0, skal ma derfor bestemme testsadsylighede ε = P 0 (Q Q obs ). Testsadsylighede er sadsylighede uder H 0 for at få e værre, dvs. midre, Q- værdi ed de faktisk observerede værdi Q obs. (Fodteget 0 på P-et agiver at sadsylighede skal udreges uder atagelse af at hypotese H 0 er rigtig.) 1. Hvis testsadsylighede ε er meget lille, så forkaster ma H 0 på grud af følgede ræsoemet: a) Vi har fået e Q obs -værdi der er så lagt fra 1 at der, forudsat at H 0 er rigtig, ku er de meget lille sadsylighed ε for at få e værre Q-værdi. b) I praksis plejer ma ikke at få særligt ekstreme observatioer, så der må være oget galt med forudsætigere for beregige af ε. c) Da vi ikke ka lave om på observatioere, må det være hypotese H 0 derer oget galt med. 2. Hvis testsadsylighede ε har e pæ størrelse, så ka ma ikke forkaste H 0. Ræsoemetet er dee gag således: a) Vi har fået e Q obs -værdi der ikke ligger specielt lagt fra 1, thi der er emlig, forudsat at H 0 er rigtig, e pæ chace ε for at få e værre Q-værdi. b) De faktiske værdi Q obs er derfor udmærket foreelig med hypotese H 0, og der er dermed ikke grudlag for at forkaste H 0. Hvis testsadsylighede ε er så lille at ma forkaster hypotese, så siger ma at teststørrelse Q obs er sigifikat, eller at der er sigifikas.