NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive med blyant og benytte viskelæder, så længe skriften er læselig og udviskninger foretages grundigt. Overstregning trækker ikke ned og anbefales ved større ændringer. Sættet består af 3 opgaver, med ialt 14 delspørgsmål. Ved bedømmelsen indgår disse 14 delspørgsmål med samme vægt. Opgave 1 Man har målt fluorkoncentrationen i urin fra kvæg, der græssede på fluorforurende marker, og sammenlignet med den tilsvarende koncentration i urin fra kvæg, der græssede i et ikke-forurenet område. Målingerne fra 12 køer er anført i tabel 1. Forurenet 21.3 18.7 23.0 17.1 16.8 20.9 19.7 Ikke forurenet 14.2 18.3 17.2 18.4 20.0 Tabel 1: Fluorkoncentration i kvægs urin, opgjort i ppm (parts per million). Spørgsmål 1.1. Undersøg ved en ikke-parametrisk metode om der er forskel på de to kvægpopulationer med hensyn til fluorkoncentration i urin. Spørgsmål 1.2. Undersøg det samme spørgsmål under antagelse af at observationerne er normalfordelte. 1
Opgave 2 Lad X være en reel stokastisk variabel med tæthed f(x) = 2 x λ e x2 /λ for x > 0, (1) med hensyn til Lebesguemålet på den reelle akse. Her er λ > 0 en ukendt parameter. Spørgsmål 2.1. Find middelværdi og varians for X. Find også middelværdi og varians for X 2. Lad X 1,..., X n være uafhængige, identisk fordelte stokastiske variable, alle med tæthed (1). Vi ønsker at drage inferens om den ukendte parameter λ. Spørgsmål 2.2. Opskriv likelihoodfunktionen, og gør rede for at er sufficient for λ. n Xi 2 Spørgsmål 2.3. Find scorefunktionen og informationsfunktionen, og udregn den forventede information. Spørgsmål 2.4. Gør rede for at maksimaliseringsestimatoren ˆλ er entydigt bestemt, og angiv en formel for den. Gør rede for at ˆλ er asymptotisk normalfordelt, og find de asymptotiske parametre. i 1 2 3 4 5 6 7 8 9 10 X i 2.59 1.37 1.18 0.79 1.78 1.94 1.58 0.66 1.22 1.81 Tabel 2: Et prøvedatasæt med 10 observationer. Observationerne stammer fra en fordeling med tæthed (1). 2
Spørgsmål 2.5. Udregn ˆλ på data fra tabel 2. Angiv også et approksimativt 95% konfidensområde for λ, baseret på maksimaliseringsestimatorens asymptotiske fordeling. Opgave 3 Mozarellaost bruges som smelteost, og kan i opvarmet stand strækkes ganske langt. Strækevnen kan betragtes som et kvalitetskriterium for osten. Et mejeri har ønsket at undersøge hvordan strækevnen af deres mozarella varierer med temperaturen. Man konstruerede en slags strækbænk, og foretog et eksperiment, hvor man målte hvor langt en ost kunne strækkes, før ostemassen begyndte at briste. Resultatet blev opgjort i procent af længden af den ustrakte ost. Data fra eksperimentet er angivet i tabel 3. Temperatur Strækprocent Temperatur Strækprocent 60 125 70 177 60 146 70 203 70 185 80 247 70 174 80 230 70 184 80 255 70 198 80 250 70 164 80 228 70 183 Tabel 3: Strækprocent ved bristning for mozarellaost, sat i forhold til temperaturen (målt i C). Vi antager at responsvariablene X 1,..., X N, svarende til de N strækningsprocenter, er uafhængige, normalfordelte med samme varians σ 2, og at EX i = α + βt i for i = 1,..., N, hvor t i er temperaturen for den i te måling. Der kan benyttes følgende regnestørrelser: S t = 1080 SS t = 78400 SP tx = 215820 S x = 2949 SS x = 600843. 3
Spørgsmål 3.1. Tegn en skitse af sammenhængen mellem temperatur og strækningsprocent, og kontroller at vi har opstillet en rimelig model. Estimer parametrene i den lineære regression, og angiv fordelingen af estimatorerne. Spørgsmål 3.2. Konstruer et 95% konfidensinterval for hældningsparameteren β. Find et teoretisk udtryk for den forventede længde af dette konfidensinterval. Vink: det kan være nyttigt at erindre, at hvis Z er Γ-fordelt med formparameter λ og skalaparameter γ, så er EZ δ δ Γ(λ + δ) = γ Γ(λ) for δ > 0. Et karakteristisk træk ved de eksperimentelle resultater i tabel 3, er at der kun indgår ganske få temperaturværdier - disse værdier svarer til hvordan temperaturreguleringen på nogle varmeskabe har været indstillet. Man kunne derfor fristes til at afrapportere data på en aggregeret facon, som i tabel 4. Temperatur Antal obs. Gennemsnitlig strækprocent 60 2 135.5 70 8 183.5 80 5 242.0 Tabel 4: En aggregeret afrapportering af målingerne fra tabel 3. Målet for resten af denne opgave, er at undersøge hvilken forskel, det gør for analysen, om man har adgang til de originale målinger fra tabel 3, eller om man må nøjes med de aggregerede målinger fra tabel 4. De aggregerede målinger svarer til stokastiske variable Y j = 1 X i for j = 1, 2, 3, n j i:t i =s j hvor s j er temperaturen svarende til aggregering j, og hvor n j er antallet af observationer, der indgår i denne aggregering. For at være explicitte, kan vi sige at j = 1 svarer til 60 C, at j = 2 svarer til 70 C og at j = 3 svarer til 80 C. 4
Spørgsmål 3.3. Find den marginale fordeling af hver af variablene Y 1, Y 2 og Y 3. Gør rede for at den simultane fordeling af Y 1, Y 2 og Y 3 følger en lineær normal model, hvor den indgående grundpræcision er y 1, y 2 = y 1 T B y 2 for y 1, y 2 R 3, (2) med B = n 1 0 0 0 n 2 0 0 0 n 3. Spørgsmål 3.4. Opstil en formel for maksimaliseringsestimatoren for hældningen β på baggrund af Y -observationerne. I processen kan det være naturligt også at estimere α, men opgaven er besvaret, blot der er angivet en formel for β. Vink: Projektionsformlen nederst p. 358 i noterne kan være nyttig. Spørgsmål 3.5. Gør rede for at maksimaliseringsestimatoren for β på baggrund af Y -observationerne er identisk med maksimaliseringsestimatoren på baggrund af X-observationerne. Det er ikke nok at vise at de konkrete estimater er identiske, der spørges efter en formelmæssig identitet mellem estimatorerne. Det kan være nyttigt at overbevise sig om og udnytte at 3 n j s j = N t i, 3 n j Y j = N X i, 3 n j s j Y j = N t i X i. j=1 j=1 j=1 Man kan naturligvis også estimere σ 2 på baggrund af Y -observationerne. Vi skal undlade at gøre det, blot vil vi gøre opmærksom på at den centrale estimator σ2 for σ 2 på baggrund af Y -observationerne ikke bliver identisk med den centrale estimator σ 2 på baggrund af X-observationerne. Spørgsmål 3.6. Hvad er fordelingen af σ2? 5
Spørgsmål 3.7. Opstil et 95% konfidensinterval for β på baggrund af Y -observationerne, og find den forventede længde af dette interval. Sammenlign de forventede længder af konfidensintervallerne for β, baseret på henholdsvis X-observationerne og Y -observationerne. Vink: Har man ikke adgang til en tabel over Γ-funktionens værdier, kan man uden bevis benytte at Γ(λ + 1/2) Γ(λ) λ, når blot λ ikke er alt for tæt ved nul. 6