Statistik 1TS 2005 Obligatorisk opgave 1

9. marts 2005 Stat 1TS / EH Statistik 1TS 2005 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles onsdag d. 9. marts 2005. Rapporten skal afleveres til mig personligt. Afleveringsfristen er tirsdag d. 5. april kl. 12.00 (bemærk at det ikke er en forelæsningsdag). For sent indleverede besvarelser vil ikke blive rettet. Rapporten skal skrives ind i et tekstbehandlingsanlæg (eller på maskine). Håndskrevne besvarelser vil ikke blive accepteret. Opgaven kan besvares i grupper af 1-3 studerende. Grupperne må gerne samarbejde undervejs, men den endelige rapport skal være selvstændigt arbejde for hver gruppe. Software: I princippet er valget af software frit. Det anbefales dog at man bruger R. Rapportens indhold: Besvarelsen skal indeholde tekst, formler og grafer, men ikke program-kode. Ernst Hansen 1

Vurdering af grafiske størrelser Talmaterialet i denne opgave stammer fra et eksperiment, der blev gennemført i øvelsestimerne i kursets første uger. I eksperimentet fik hver forsøgsperson en række figurer at se, hvor en størrelse mellem 0 og 100 var repræsenteret grafisk, og de blev bedt om at vurdere den bagvedliggende størrelse. Hver figur blev vist på en computerskærm i præcis 5 sekunder, hvorefter forsøgspersonen blev bedt om at vurdere den. Der var intet tidspres i vurderingsfasen, det næste billede blev først vist når forsøgspersonen erklærede sig klar. Der var fire figurtyper, og hver forsøgsperson blev præsenteret for 15 figurer af hver type i tilfældig rækkefølge. Der deltog 32 forsøgspersoner i eksperimentet, og der er således 32 4 15 = 1920 enkeltmålinger. Målet med eksperimentet er at afsløre hvilken af de fire figurtyper, der bedst lader sig aflæse. Figur 1: De fire figurtyper i eksperimentet. Øverst til venstre et cirkeldiagram (som regel omtalt som lagkagediagram). Øverst til højre en af de mange tegningstyper, der går under navnet dotplot. Nederst til venstre et barplot, og nederst til højre et logplot. 2

De fire figurtyper benævnes henholdsvis cirkeldiagram, dotplot, barplot og logplot (det sidste har ikke noget at gøre med logaritmefunktionen men med det engelske ord for en træstamme). Eksempler er angivet i figur 1. Cirkeldiagrammet og barplottet er tæt beslægtede: for dem begge gælder at det samlede areal af det farvede og det hvide område er 100, og udfordringen er at gætte hvor stor del af det samlede areal, der er farvet. Et logplot er en éndimensional variant, hvor man ikke ser på områder, men på liniestykker: det farvede liniestykke og det ufarvede liniestykker har en samlet længde på 100, og udfordringen er at gætte længden af det farvede liniestykke. Et dotplot to spejlvendte logplots tegnet oven over hinanden: det ene har en farvet prik, og udfordringen er at gætte hvor langt der er fra tegningens venstre side til den farvede prik, når afstanden fra venstre til højre side er 100. Denne afstand er lige så stor som afstanden fra tegningens højre side til den ufarvede prik. Der hersker næppe tvivl om at der er forskel på forsøgspersonernes evne til at gætte rigtigt, men denne forskel interesserer os ikke i denne opgave. Vi opfatter alle målingerne som resultatet af ét virtuelt individs gæt. De teoretiske/statistiske temaer for projektet drejer sig om modelopstilling og modelkontrol, om at finde maksimaliseringsestimatorer ved hjælp af numeriske metoder, og om at beskrive usikkerheden forbundet med parameterestimater. Numerisk maksimering af likelihoodfunktionen For langt de fleste af de modeller, der lever uden for tekstbøgernes beskyttede verden, kan man måske nok opstille likelihoodfunktionen, men man er ude af stand til finde eksplicitte udtryk for maksimaliseringsestimatoren. I så fald er man henvist til at benytte numeriske teknikker til maksimaliseringen. Eller til minimeringen af den loglikelihoodfunktion, som man af tekniske grunde som regel foretrækker. I lærebogen er der et længere afsnit om Newton-Raphson algoritmen, der i en vis forstand er den simpleste minimeringsteknik. Problemet med denne algoritme er først og fremmest den byrde der lægges på brugeren, der er nødt til selv at komme med de to første afledede af loglikelihoodfunktionen. Ofte 3

kan man bruge symbolsk eller automatisk differentation til at producere disse afledede, men det er alligevel besværligt. Derfor foretrækker man i mange tilfælde algoritmer, der i højere grad kan selv. I lærebogen er der en overfladisk beskrivelse af quasi-newton metoder og af simplex metoder. I lavdimensionale problemer virker disse metoder ofte forbløffende effektivt. I R er funktionen optim() et fælles dække for en lang række optimeringsalgoritmer. Den præcise algoritme vælges med argumentet methods. Default metoden er Nelder-Mead algoritmen, der er af simplex typen. Herudover kan det være relevant at forsøget sig med methods = BFGS, der giver en quasi-newton metode, og methods = CG, der giver en konjugeret gradient metode. Alle tre metoder kræver at man angiver en startværdi, og her må man forsøge sig lidt frem. Hvilken af metoderne der er bedst afhænger meget af det konkrete problem og af brugerens evne til at producere en god startværdi. Modelkontrol for polynomialfordelinger Lad (Y 1,..., Y N ) være en tabellering af n = N i=1 Y i objekter, der fordeles i N kasser. Det er naturligt at forestille sig at Y -vektoren er polynomialfordelt med længde n, og nogle gange har man også en ret god ide om den sandsynlighedsvektor π = (π 1,... π N ), der er involveret. For at checke om der er konkordans mellem den observerede Y -vektor og polynomialfordelingen med længde n og sandsynlighedsvektor π, vil man ofte se på Pearson-kombinanten K = N (Y i n π i ) 2 i=1 n π i (1) Denne størrelse måler afstanden mellem de observerede celletal Y i og de forventede celletal n π i, på en sådan måde at en forskel af en vis størrelse tæller mest i de celler, hvor det forventede celletal er lille - en forskel på 10 er mere dramatisk, hvis der kun forventes én observation i cellen, end hvis der forventes 1000. 4

En lille værdi af K betyder at Y -vektoren er i konkordans med polynomialmodellen med sandsynlighedsvektor π. En stor værdi af K betyder derimod at Y -vektoren er i diskordans med denne polynomialfordelingsmodel - den kan eventuelt være i fin konkordans med andre polynomialfordelinger, men ikke med den vi forsøger at holde den op imod. Disse fortolkninger er ret klare. Problemet er bare: hvordan skelner man en stor K-værdi fra en lille? Hvor går grænsen? Den bedste ide er at finde ud af hvilke K-værdier man typisk får hvis modellen vitterligt er rigtig. Altså at finde fordelingen af K under modellen. Så kan man afgrænse et konkordansområde, og undersøge om K-værdien for data ligger i dette område. Der findes næppe den model, hvor det er muligt at regne den eksakte fordeling af K ud. Men der er alligevel to strategier, der tillader os at udnytte konkordansideen. Den ene vej er at simulere fordelingen af K frem under modellen: man simulerer under modellen et større antal datasæt af samme størrelse som det virkelige datasæt, regner K-værdien ud for hver af dem, og bruger 95% fraktilen i den empiriske fordeling som skillelinie mllem stor og lille. Den anden vej er at forlade sig på det asymptotiske resultat at K approx χ 2 df=n 1 (2) hvis Y -vektoren virkelig stammer fra den påståede polynomialfordeling. Approksimationen bliver selvfølgelig bedre og bedre for n, men den er ofte ganske god også for relativt små værdier af n. På baggrund af dette approksimative resultat, bruger man 95%-fraktilen i χ 2 -fordelingen med N 1 frihedsgrader som grænse mellem stor eller lille. Om det asymptotiske resultat står til troende, afhænger i høj grad af om modellen forudsiger tyndt besatte celler. Det fremgår af (1) at en celle med en lille værdi af n π i kommer til at vægte meget i K, og derfor bliver det meget vigtigt hvad det observerede celletal er. Den asymptotiske situation opstår først når denne afhængighed af enkeltobservationer forsvinder. Som tommelfingerregel plejer man at sige at de forventede celletal alle bør være mindst 5 - men denne regel er nu overdrevet pessimistisk, den asymptotiske situation er indtrådt længe inden da. 5

Konfidensområder Hvis R : Θ X R er en reel kombinant, og hvis vi for hvert θ Θ vælger et z θ R så P θ (R(θ, X) < z θ ) = 0.95 for alle θ Θ, (3) så vil området C(x) = {θ Θ R(θ, x) < z θ } være et såkaldt 95% konfidensområde. Altså en x-afhængig mængde af parametre med den egenskab at P θ (θ C(X)) = 0.95 for alle θ Θ. (4) Formuleret i ord er det et område, man vælger på baggrund af den gjorte observation, med den egenskab at i et stort antal gentagelser af eksperimentet, vil man i 95% af tilfældende fange den sande parameter ind. I praksis ved man naturligvis aldrig om man står med et af de ubehagelige tilfælde hvor den sande parameter er smuttet ud af området, men eftersom det sker så sjældent, kan man med en vis ret gå ud fra at det konkrete C(x) faktisk indeholder den sande parameter. Det er uhyre regnekrævende at finde de z θ er der løser (3). Og det kan i øvrigt også være vældig regnetungt bagefter at vende konstruktionen om for at finde konfidensområdet. Bemærk at konstruktionen simplificeres betragteligt hvis R er en pivot, for i så fald varierer z θ slet ikke med θ, og man kan nøjes med at finde et enkelt z θ. Vi vil benytte denne konstruktion ud fra kombinanten 2 log Q(θ, x) = 2l x (θ) 2l x (ˆθ), hvor ˆθ er maksimaliseringsestimatoren (der jo minimerer l x ). Vi betragter l x (θ) som et udtryk for konkordansen mellem observation x og parameter θ, så hvis 2 log Q(x, θ) er lille, betyder det at θ er i næsten lige så god konkordans med x som den bedste parameter ˆθ. Konfidensområdet på baggrund af 2 log Q samler så at sige de gode parametre, og repræsenterer derfor et udsagn om usikkerheden forbundet med maksimaliseringsestimation. For at denne konstruktion skal være nogen nytte til i praksis, er det vigtigt at der ofte gælder at 2 log Q(θ, X) approx χ 2 df=dim Θ for alle θ Θ. (5) 6

Altså: 2 log Q er approksimativt pivot, og den (approksimative) fælles fordeling er oven i købet kendt. Dette er et af de centrale resultater fra den asymptotiske teori for statistiske modeller, og man kan i almindelighed slippe godt fra at lade som om resultatet er eksakt, hvis modellen beskriver et eksperiment med et stort antal uafhængige gentagelser. Helt konkret fører denne ide til de approksimative konfidensområder C(x) = {θ Θ 2 log Q(θ, x) < z} (6) hvor z er 95% fraktilen i χ 2 -fordelingen med dim Θ frihedsgrader. Denne konstruktion opfylder muligvis ikke helt (4), men det vil som regel være tæt på. Data Datamaterialet er gjort tilgængeligt på kursushjemmesiden http://www.math.ku.dk/ erhansen/stat1ts 05/ hvor det kan findes under menupunktet Rapportopgaver. Der ligger en fil der indeholder en linie for hver af de 1920 enkeltvurderinger. Kolonnerne svarer til variable: Person Dag Type RotateAngle Horizontal Vertical Target Estimate Forsøgsperson Forsøgsdag Figurtype Drejningsvinkel (cirkeldiagrammer) Højre eller venstre side (barplots, logplots) Øverst eller nederst (dotplots) Den størrelse, der skal gættes Forsøgspersonens gæt Variablen Dag antager tre værdier, og er registreret fordi der var en del larm den ene dag (onsdag), med håndværkere, der arbejdede med maskiner på facaden umiddelbart under forsøgslokalet. Man kunne meget vel forestille sig at larmen førte til at denne dags resultater blev systematisk dårligere end de andre dages. Men det er ikke et tema, der indgår i denne opgave. 7

Variablene RotateAngle, Horizontal og Vertical har at gøre med grafiske elementer i figurerne, der ikke er fastlagt af det overordnede design. Disse elementer er randomiserede, og forventes derfor ikke at have nogen indflydelse. For et cirkeldiagram fortæller RotateAngle hvor meget det farvede cirkeludsnit er roteret i forhold til et vilkårligt valgt nulpunkt (hvor udsnittet er afsat fra kl. 3 og videre i negativ omløbsretning. Denne vinkel regnes i grader, afsættes i negativ omløbsretning og er trukket fra en ligefordeling på (0, 360). For et barplot eller et logplot fortæller Horizontal om det er højre eller venstre side af figuren der er farvet. Og for et dotplot fortæller Vertical om det er den øverste eller nederste af linierne, der indeholdt den farvede prik. I denne opgave vil vi udelukkende interessere os for de to sidste variable, Target og Estimate, der begge er heltal i området 0, 1,..., 100. Man må antage at der under disse variable ligger kontinuerte variable, der er blevet diskretiseret. Opgave 1. Indlæs data. Optegn Estimate mod Target (denne jargon betyder at Estimate afsættes på 2.-aksen). Hvad kan du observere på denne figur? Visse værdier af Estimate er meget langt fra den tilsvarende værdi af Target, så langt at de næppe repræsenterer ægte gæt. Vi vælger at forholde os til problemet ved en grov og håndfast totrinsalgoritme: 1.) Hvis Estimate Target > 15 sætter vi Estimate = 100 Estimate 2.) Hvis der stadig gælder at Estimate Target > 15 sletter vi observationen. Opgave 2. Prøv at give en begrundelse for disse to trin. Der ønskes ikke et matematisk ræsonement, men en diskussion af fysiske forhold ved eksperimentet, der kunne berettige dem. I det følgende vil vi fokusere på forskellen med det, der gættes, og det der gættes på, det vil sige Respons = Estimate Target I de første mange delopgaver vil diskussionen handle om observationerne af typen Dotplot. Vi starter derfor med en eksplorativ undersøgelse af disse observationer. 8

Opgave 3. Find for observationerne af type Dotplot den empiriske middelværdi og varians af Respons-variablen, og tegn et histogram. Opgave 4. Vurder om dotplot-observationerne er symmetriske om 0 ved at optegne et QQ-plot af den empiriske fordeling mod den spejlede fordeling (altså af x mod -x, hvis x er observationerne). For at kunne vurdere hvordan asymmetri tager sig ud i en sådan tegning, så lav et par stykker med simulerede observationer fra f.eks. en Gammafordeling. Opgave 5. Vurder haletykkelsen i fordelingen af dotplot-observationerne ved at optegne et QQ-plot mod henholdsvis en normalfordeling og t- fordeling med formparameter 5. Diskuter. Model Vores Respons-variabel er kraftigt diskretiseret - den kan kun antage heltalsværdier mellem -15 og 15. Denne diskrete natur havde en kraftig indvirkning på i hvert fald QQ-plottene i opgave 5, og er er ikke noget man uden videre kan se bort fra. Modellering vil derfor naturligt foregå i en polynomialfordelingsramme. Selv om observationerne er blevet diskretiserede, er det naturligt at forestille sig at der bag de afgivne gæt er et uformuleret gæt på en kontinuert skala. Vi opstiller følgende model: Den observerede Resultat-variabel er en afrunding til nærmeste heltal af en uobserveret variabel Z, der er t-fordelt et ukendt antal frihedsgrader og en ukendt skalaparameter. Denne model fører til cellesandsynligheder af formen π i = P ( i 1 2 < Z < i + 1 ) i+ 1 2 = 2 i 1 2 f λ c (x) dx for i = 15,..., 15. Her er f λ c (x) tætheden for en t-fordeling med formparameter λ > 0 og skalaparameter c > 0. Både λ og c antages ukendte. Bemærk at R i sin parametrisering af t-fordelinger insisterer på at man bruger frihedsgrader, ikke formparameter, og at den ikke kender noget til skalaparametre i denne sammenhæng. 9

Estimation Opgave 6. Opskriv likelihoodfunktionen L X (λ, c) for dotplot-observationerne og opskriv også l X (λ, c) = log L X (λ, c) Optegn i et relevant område af (λ, c)-planen nogle niveaukurver for den observerede loglikelihoodfunktion. Opgave 7. I denne model kan man ikke eksplicit finde maksimaliseringsestimatoren, og man er derfor tvunget ud i numerisk optimering. Vælg en passende algoritme og minimer ) loglikelihoodfunktionen. Angiv maksimaliseringsestimatoren (ˆλ, ĉ. Angiv også den minimale værdi af loglikelihoodfunktionen. Opgave 8. Optegn et QQ-plot mod den estimerede t-fordeling. Modelkontrol Opgave 9. Udregn Pearson-størrelsen K for dotplot-observationerne i forhold til polynomialfordelingen med cellesandsynligheder svarende til en diskretiseret t-fordeling med de parametre, der blev estimeret i opgave 7. Opgave 10. Simuler 1000 datasæt (eller mere) ud fra modellen, af samme størrelse som det observerede datasæt. I simulationerne bruges som sande parametre de parametre, der blev estimeret i opgave 7. Udregn for hvert af disse datasæt Pearsonstørrelsen i forhold til de sande simulationssandsynligheder. Tegn et histogram af de simulerede Pearsonstørrelser, og tilføj den observerede Pearsonstørrelse fra opgave 9. Tyder denne tegning på observationen er i konkordans eller diskordans med modellen? Som det fremgår af (2) kan man i de fleste sammenhænge lade som Pearsonstørrelser er χ 2 -fordelte. I det aktuelle tilfælde passer denne approksimation desværre ikke særlig godt. Det skyldes at den t-fordeling vi holde data op imod, essentielt samler alle observationerne i området mellem -10 og 10. Ydercellerne bliver derfor tyndt besatte, og det ødelægger den asymptotiske teori. Opgave 11. Optegn et QQ-plot af de simulerede Pearsonstørrelse mod en χ 2 -fordeling med 30 frihedsgrader. Gentag simulationseksperimentet på en 10

sådan måde at hvert simuleret datasæt i stedet for 480 observationer indeholder 48 000 observationer. Tegn igen et QQ-plot af Pearsonstørrelserne for de simulerede datasæt mod en χ 2 -fordeling med 30 frihedsgrader. Det er temmelig usædvanligt med en situation hvor den almene viden der teoretisk kan begrundes i den asymptotiske teori, giver vildledende resultater, men det kan altså ske. Moralen er at man altid kan finde den rigtige fordeling ved simulation, som vi gjorde i opgave 10. Man kan måske godt blive nervøs for om metodikken med Pearsonstørrelser overhovedet er i stand til at fange at observationer ikke stemmer overens med en model. Opgave 12. Tag et par t-fordelinger efter eget valg, og undersøg om dotplot-observationerne kan tænkes at være diskretiserede observationer fra disse fordelinger, ved at bruge fremgangsmåden fra opgave 10. Konfidensområde Opgave 13. Find konfidensområdet (6) for de aktuelle data ved følgende numeriske procedure: for et stort antal punkter i (λ, c)-planen undersøges om betingelsen i (6) er opfyldt. Hvis ja farvelægges det pågældende punkt på en passende markant måde, hvis nej farvelægges det pågældende punkt ikke. Opgave 14. Undersøg ved et simulationseksperiment dækningsgraden af det konfidensområde, der konstrueres i opgave 13. Altså: simuler 1000 datasæt (eller mere) ud fra modellen, af samme størrelse som det observerede datasæt. I simulationerne bruges som sande parametre de parametre, der blev estimeret i opgave 7. Find i hvert af disse datasæt maksimaliseringsestimatoren, udregn kvotientteststørrelsen for den sande parameter, og undersøg om den sande parameter kommer med i konfidensområdet baseret på (6) eller om den ryger udenfor. Konklusion Hidtil har vi kun beskæftiget os med dotplot-observationerne. Som sidste tema vil vi prøve at sammenligne dotplot-observationerne med cirkeldiagram- 11

observationerne. I princippet burde vi gennemgå de fleste af de ovenstående opgaver igen med cirkeldiagram-observationerne, for at undersøge om disse observationer kan opfattes som stammende fra en diskretiseret t-fordeling. Du er velkommen til at gøre det, og skrive de interessante overvejelser ned som en sådan undersøgelse giver anledning til. Men her vil vi blot gå ud fra at en underliggende t-fordeling kan klare sagen. Opgave 15. Find maksimaliseringsestimatoren for (λ, c) for gruppen af cirkeldiagram-observationer. Find konfidensområdet som i opgave 13. Optegn konfidensområderne for de to grupper i samme (λ, c)-plan. Opgave 16. Konkluder: Er der forskel på hvor sikkert man kan aflæse de to typer grafiske repræsentationer? 12