Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag d. 4. marts 2003. Rapporten afleveres senest ved forelæsningen tirsdag d. 25. marts. Rapporten afleveres til mig personligt. For sent indleverede besvarelser vil ikke blive rettet. Rapporten skal skrives ind i et tekstbehandlingsanlæg (eller på maskine). Håndskrevne besvarelser vil ikke blive accepteret. Opgaven kan besvares i grupper af 1-3 studerende. Grupperne må gerne samarbejde undervejs, men den endelige rapport skal være selvstændigt arbejde for hver gruppe. Software: I princippet er valget af software frit. Det anbefales dog at man bruger R. Rapportens indhold: Besvarelsen skal indeholde tekst, formler og grafer, men ikke program-kode. Inkluder gerne et afsnit om hvilket software du har benyttet, og hvilke erfaringer du har gjort med det. Ernst Hansen 1
Rotters levetid Talmaterialet i denne opgave stammer fra et eksperiment, der skulle belyse hvilken indflydelse begrænsninger i adgangen til føde har på rotters levetid. Eksperimentet er afrapporteret i artiklen Yu, B.P., Masoro, E. J., Murata, I., Bertrand, H.A., og Lynd, F.T. (1982): Lifespan study of SPF Fisher 344 male rats fed ad libitum or restricted diets: Longevity, growth, lean body mass and disease. Journal of Gerontology 37, 130-141. Teorien bag eksperimentet gik ud på at en begrænsning i adgangen til fødevarer vil nedsætte tempoet i rotternes livscyklus, og på den måde fører til at rotterne lever længere. Men modsat kan man selvfølgelig forestille sig, at en begrænsning fører til at rotterne generelt er svagere, og derfor lever kortere. I det eksperiment vi skal studere, indgik 106 rotter med begrænset adgang til fødevarer, og en kontrolgruppe på 89 rotter, der blev holdt under normale laboratoriemæssige forhold, herunder med ubegrænset adgang til fødevarer. Rotterne blev placeret i en af de to grupper ved en lodtrækningsprocedure når de var tre uger gamle. De blev fulgt til de døde - de længstlevende rotter i eksperimentet blev næsten fire år gamle. De teoretiske/statistiske temaer for projektet drejer sig om modelopstilling og modelkontrol, om at finde maksimaliseringsestimatorer ved hjælp af numeriske metoder, og om at beskrive usikkerheden forbundet med parameterestimater. Numerisk maksimering af likelihoodfunktionen For langt de fleste af de modeller, der lever uden for tekstbøgernes beskyttede verden, kan man måske nok opstille likelihoodfunktionen, men man er ude af stand til finde eksplicitte udtryk for maksimaliseringsestimatoren. I så fald er man henvist til at benytte numeriske teknikker til maksimaliseringen. Eller til minimeringen af den negative loglikelihoodfunktion, som man af tekniske grunde som regel foretrækker. 2
Der findes et væld af specialiserede numeriske teknikker, men oftest er den generelle Newton-Raphson algoritme den nemmeste at implementere - og den mest effektive. Den fungerer på følgende måde: Lad θ n være en approksimation til et stationært punkt θ for l x. Af Taylorudviklingen Dl x (θ) Dl x (θ n ) + D 2 l x (θ n )(θ θ n ) ser vi at hvis k k-matricen D 2 l x (θ n ) er invertibel, så er θ n+1 = θ n (D 2 l x (θ n )) 1 Dl x (θ n ) (1) formentlig en endnu bedre approksimation til θ. Vi taler om at opdatere initialgættet θ n ved hjælp af Newton-Raphson scoring. Hvis parametermængden er etdimensional, antager opdateringsformlen den simple form θ n+1 = θ n l x (θ n) l x(θ n ). Hvis θ n allerede er et stationært punkt for l x, så vil θ n+1 = θ n. Vi siger at de stationære punkter er fikspunkter for algoritmen. Og det er tydeligvis de eneste fikspunkter. De er endda attraktive fikspunkter, i den forstand at hvis man har en startværdi i nærheden af et stationært punkt θ, kræver det sædvanligvis kun et par iterationer at få lokaliseret θ med så stort nøjagtighed som man måtte ønske det. I denne sammenhæng må man så bede til at det fundne stationære punkt faktisk er det globale minimum for l x - det kan i princippet udmærket være et lokalt minimum, eller ligefrem et saddelpunkt eller et lokalt maksimum! Newton-Raphson algoritmen har to stærke sider. Dels er den forbavsende nem at implementere. Og dels er den rasende effektiv - hvis man vel at mærke er i stand til at starte den i nærheden af de stationære punkter. Hvis man ikke ved hvor mange stationære punkter der er, og hvis man ikke ved hvor de ligger henne, så er et ikke givet at Newton-Raphson algoritmen vil være til den store hjælp. En dårlig begyndelsesværdi vil således ofte få algoritmen til at divergere. Konfidensområder Hvis R : Θ X R er en reel kombinant, og hvis vi for hvert θ Θ vælger et z θ R så P θ (R(θ, X) < z θ ) = 0.95 for alle θ Θ, (2) 3
så vil området C(x) = {θ Θ R(θ, x) < z θ } være et såkaldt 95% konfidensområde. Altså en x-afhængig mængde af parametre med den egenskab at P θ (θ C(X)) = 0.95 for alle θ Θ. (3) Formuleret i ord er det et område, man vælger på baggrund af den gjorte observation, med den egenskab at i et stort antal gentagelser af eksperimentet, vil man i 95% af tilfældende fange den sande parameter ind. I praksis ved man naturligvis aldrig om man står med et af de ubehagelige tilfælde hvor den sande parameter er smuttet ud af området, men eftersom det sker så sjældent, kan man med en vis ret gå ud fra at det konkrete C(x) faktisk indeholder den sande parameter. Det er uhyre regnekrævende at finde de z θ er der løser (2). Og det kan i øvrigt også være vældig regnetungt bagefter at vende konstruktionen om for at finde konfidensområdet. Bemærk at konstruktionen simplificeres betragteligt hvis R er en pivot, for i så fald varierer z θ slet ikke med θ, og man kan nøjes med at finde et enkelt z θ. Vi vil benytte denne konstruktion ud fra kombinanten 2 log Q(θ, x) = 2l x (θ) 2l x (ˆθ), hvor ˆθ er maksimaliseringsestimatoren (der nota bene minimerer l x ). Vi betragter l x (θ) som et udtryk for konkordansen mellem observation x og parameter θ, så hvis 2 log Q(x, θ) er lille, betyder det at θ er i næsten lige så god konkordans med x som den bedste parameter ˆθ. Konfidensområdet på baggrund af 2 log Q samler så at sige de gode parametre, og repræsenterer derfor et udsagn om usikkerheden forbundet med maksimaliseringsestimation. For at denne konstruktion skal være nogen nytte til i praksis, er det vigtigt at der ofte gælder at 2 log Q(θ, X) approx χ 2 df=dim Θ for alle θ Θ. (4) Altså: 2 log Q er approksimativt pivot, og den (approksimative) fælles fordeling er oven i købet kendt. Dette er et af de centrale resultater fra den asymptotiske teori for statistiske modeller, og man kan i almindelighed slippe 4
godt fra at lade som om resultatet er eksakt, hvis modellen beskriver et eksperiment med et stort antal uafhængige gentagelser. Helt konkret fører denne ide til de approksimative konfidensområder C(x) = {θ Θ 2 log Q(θ, x) < z} (5) hvor z er 95% fraktilen i χ 2 -fordelingen med dim Θ frihedsgrader. Denne konstruktion opfylder muligvis ikke helt (3), men det vil som regel være tæt på. Data Datamaterialet er gjort tilgængeligt på http://www.math.ku.dk/ erhansen/stat1ts 03/rapport/rotter.dat Denne fil indeholder samtlige levetider for de rotter, der indgik i eksperimentet. Levetiden er angivet som antal dage efter baseline, hvor baseline er det tidspunkt, hvor der er blevet trukket lod om, hvilken gruppe den pågældende rotte skulle placeres i. Levetidsvariablen hedder tid i filen. For hver rotte er der angivet om den havde begrænset eller ubegrænset adgang til føde. Det sker i form af variablen gruppe, der kan antage de to værdier Diæt (begrænset adgang) og Alm. (ubegrænset adgang). 1. Indlæs data, og beskriv den empiriske fordeling af reaktionstiderne i hver af de to grupper (histogrammer, momenter, udvalgte fraktiler etc.) Kommenter ligheder og forskelle mellem grupperne. Opstilling af model I analysen vil vi i første omgang koncentrere os om kontrolpopulationen af rotter med ubegrænset adgang til fødevarer. Når levetiden for denne population er forstået, vil vi inddrage gruppen på diæt. 5
Lad variablene X 1,..., X n være levetiderne for rotterne i grundpopulationen. Vi antager at disse stokastiske variable er uafhængige og identisk fordelte. I første omgang antager vi at de er Weibull-fordelte med formparameter c = 5.5 - eneste ukendte parameter er således skalaparameteren β. I anden omgang vil vi betragte både form- og skalaparameter som ukendte, og vi vil se at det komplicerer analysen ganske betydeligt. Vi vil interessere os dels for estimation af de ukendte parametre, og dels for en beskrivelse af usikkerheden forbundet med estimaterne. Den etdimensionale model I første omgang antager vi altså: X 1,..., X n er uafhængige. Hvert X i er Weibull-fordelt med formparamter c = 5.5 og ukendt skalaparameter β (0, ). 2. Find middelværdien af X i i denne model, og kom herudfra med et initialt skøn over β. 3. Opskriv likelihoodfunktionen L X (β) og opskriv også l X (β) = log L X (β) Tegn grafen for de observerede funktioner L x (β) og l x (β). 4. Under hvilke omstændigheder kan likelihoodfunktionen maksimaliseres, og under hvilke omstændigheder er maksimum entydigt bestemt? Opskriv et eksplicit udtryk for maksimaliseringsestimatoren ˆβ. Udregn ˆβ for de konkrete data. 5. Vurder om det er rimeligt at observationerne stammer fra en Weibullfordeling med formparameter 5.5 og skalaparameter ˆβ. 6. Angiv den forventede information i(β) = E β (l X (β)). 6
7. Simuler et stort antal (f.eks. 10.000) datasæt af samme størrelse som grundpopulationen. Disse simulerede data skal være uafhængige, Weibullfordelte med formparameter 5.5 og skalaparameter ˆβ. Find for hvert af disse simulerede datasæt maksimaliseringsestimatoren for β. Sammenlign den empiriske fordeling af de simulerede estimatorer med normalfordelingen med middelværdi ˆβ og varians 1 i( ˆβ). 8. I denne simple model er vi så heldige at kunne finde maksimaliseringsestimatoren eksplicit. Men lad os for træningens skyld rigge en Newton-Raphson algoritme op, der kan finde en numerisk approksimation til ˆβ. Hvor mange iterationer k af algoritmen skal der til for at få en approksimation β k, der opfylder at β k ˆβ < 10 ˆβ 3, hvis algoritmens startpunkt β 0 er henholdsvis 700, 800, 900 og 1000? 9. Undersøg ved et simulationseksperiment hvor god den fundamentale approksimation (4) er for den aktuelle model. Det vil sige: vælg et sandt β, simuler en lang række datasæt med n elementer ud fra dette β, og udregn for hvert af disse datasæt 2 log Q(β, x). Sammenhold de simulerede 2 log Q- værdier med χ 2 -fordelingen med 1 frihedsgrad. Gentag gerne undersøgelsen for flere β er. 10. Find konfidensområdet (5) for de aktuelle data ved følgende numeriske procedure: for et stort antal β-værdier på (0, ) undersøges om betingelsen i (5) er opfyldt. Hvis ja farvelægges den pågældende β-værdi på en passende markant måde, hvis nej farvelægges den pågældende β-værdi ikke. Beskriv den farvelagte mængde. 11. Gentag analysen for gruppen af rotter på diæt. Detaljerne i analyserne skal ikke anføres i rapporten, men de to analyser skal sammenfattes i en tegning, hvorpå de to β-estimater er markeret, ligesom de to konfidensområder. Hvad kan man konkludere om de to gruppers levetiderpå baggrund af denne tegning? 7
Den todimensionale model Vi vender tilbage til studiet af grundpopulationen. Men nu antager vi at både form- og skalaparameter er ukendt: X 1,..., X n er uafhængige. Hvert X i er Weibullfordelt med ukendt formparamter c (0, ) og ukendt skalaparameter β (0, ). 12. Opskriv likelihoodfunktionen L X (c, β) og opskriv også l X (c, β) = log L X (c, β) Optegn i et relevant område af (c, β)-planen nogle niveaukurver for den observerede loglikelihoodfunktion. 13. Find scorefunktion og den observerede informationsmatrix. 14. I denne model kan man ikke eksplicit finde maksimaliseringsestimatoren, og man er derfor tvunget ud i numerisk optimering. Kør en Newton-Raphson algoritme, indtil den har stabiliseret sig (sørg for at vælge et fornuftigt startpunkt) og angiv den numerisk bestemte maksimaliseringsestimator (ĉ, ˆβ). 15. Find konfidensområdet (5) for de aktuelle data ved følgende numeriske procedure: for et stort antal punkter i (c, β)-planen undersøges om betingelsen i (5) er opfyldt. Hvis ja farvelægges det pågældende punkt på en passende markant måde, hvis nej farvelægges det pågældende punkt ikke. Forsøg at beskrive den farvelagte mængde. 16. Gentag analysen for gruppen af rotter på diæt. Detaljerne i analyserne skal ikke anføres i rapporten, men de to analyser skal sammenfattes i en tegning af en (c, β)-plan, hvorpå de to masimaliseringsestimater er markeret, ligesom de to konfidensområder. Hvad kan man konkludere om de to gruppers levetider på baggrund af denne tegning? 8