SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 11. juni Opgavesættet består af 4 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt. Du bedes tjekke, at opgavesættet består af 14 sider i alt. Eksamen varer 3 timer hvor alle sædvanlige hjælpemidler herunder bøger, noter samt lommeregner er tilladte. Der lægges vægt på, at de benyttede metoder fremgår af besvarelsen, og at svarene begrundes. Bemærk, at senere delspørgsmål i en opgave ofte kan besvares uden at alle tidligere spørgsmål er besvaret. Det er således tilladt at bruge oplysninger fra tidligere delspørgsmål selvom disse ikke er besvaret. Bemærk: når frihedsgraderne, der skal anvendes i en hypotesetest, ikke er i den relevante tabel i bogen, så brug den nærmeste lavere frihedsgrad i tabellen til at udføre testen.
Opgave 1 Man ønsker at undersøge kolesteroltallet for personer med type 2 diabetes. I en tilfældig valgt gruppe bestående af personer med type 2 diabetes fandt man, at ud af 180 diabetikere havde 63 normalt kolesteroltal. 1) Lad p være proportionen af type 2 diabetikere med normalt kolesteroltal. Find et estimat ˆp for p. 2) Beregn et approksimativt 95% konfidensinterval for proportionen p. Angiv hvilke antagelser, du har foretaget. 3) Betragt en ny tilfældig gruppe af 10 personer med type 2 diabetes. Lad Y være den stokastiske variabel, der angiver antallet af type 2 diabetikere med normalt kolesteroltal. Opgave 2 a) Gør rede for at Y kan beskrives ved en binomialfordeling Y b(10, p). b) Hvad er sandsynligheden for at højst 2 ud af de 10 type 2 diabetikere har normalt kolesteroltal. (Brug estimatet for p, som blev fundet i spørgsmål 1) i denne udregning). Når en jæger på en given dag er på jagt, kan ventetiden (i timer), til han ser det første stykke vildt, beskrives ved en stokastisk variabel Y, som er eksponentialfordelt med middelværdi 1.5. 1) Find sandsynligheden for at jægeren på en given dag venter mere end 1 time. 2) Jægeren er på jagt 250 dage på et år. Lad X = Y 1 + Y 2 + + Y 250 betegne den samlede ventetid for jægeren på et år. Antag at Y 1, Y 2,..., Y 250 er indbyrdes uafhængige og alle er eksponentialfordelte med middelværdi 1.5. Udregn approksimativt sandsynligheden for at jægeren højst venter 350 timer i alt i løbet af et år. 2
Opgave 3 Indenfor øbiogeografi (læren om udbredelsen af dyr, planter, svampe, osv. på øer) er det ofte observeret at antallet af forskellige arter afhænger af øens størrelse. Ved en undersøgelse af 42 øer i Mikronesien måler man øens areal samt optæller antallet af forskellige dyrearter på den pågældende ø. Output fra en statistisk analyse ses nedenfor. Det foreslås at analysere data med lineær regression, hvor responsvariablen er Y = antal arter på øen, og den forklarende variabel er x = arealet af øen. 1) Angiv den estimerede sammenhæng mellem antallet af arter og øens areal. Er betingelserne for at bruge lineær regression opfyldte? Uanset svaret på spørgsmål 1), vil vi nu bruge den lineære regressionsmodel. 2) Lav en test på niveau 5% om antallet af arter afhænger af øens areal. 3) Giv et estimat ŷ 0 for det forventede middelrespons, hvis øens areal er x 0 = 300, og find den estimerede standardfejl for ŷ 0. 4) Betragt igen en ø med areal x 0 = 300. Find et 95% prædiktionsinterval for antallet af arter på øen. 3
Areal Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 2 8 9. 6 4 2 9 Sum 12165.0000 Std. Dev 2 4. 7 2 0 7 CSS 25055.6400 Arter Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 1 5 6. 0 4 7 6 Sum 6554.0000 Std. Dev 4 1. 2 3 5 2 CSS 69713.9000 Arter = Areal Response D i s t r i b u t i o n : Normal Link Function : I d e n t i t y Parametric Regression Fit Model Error Curve Degree ( Polynomial ) DF Mean Square DF Mean Square 1 1 8 2 7 9. 6 6 0 0 40 1535.8560 Summary o f Fit Mean o f Response 1 5 6. 0 4 7 6 R Square 0.1186 Root MSE 3 9. 1 9 0 0 Adj R Sq 0.0965 Parameter Estimates Variable DF Estimate Std Error I n t e r c e p t 1 10.3088 71.9738 Areal 1 0. 5 7 4 4 0.2476 4
5
Opgave 4 En bestemt type fluer inficeres ofte med forskellige typer bakterier. I et forsøg har man haft fluerne til at vokse under 4 forskellige betingelser: infektion med bakterie 1, infektion med bakterie 2, infektion med bakterie 3 og ingen infektion (bakterie 4). Efter endt vækstperiode måles længden af fluen (i mm). Nedenfor ses summariske data for de 4 grupper: Level o f Span Bakterie N Mean Std Dev Bakterie 1 14 1 1. 9 3 1.17 Bakterie 2 13 9. 5 6 1.67 Bakterie 3 10 7. 6 9 1.67 Bakterie 4 13 1 0. 7 6 1.94 Der ønskes nu undersøgt, om der er forskel på hvordan de forskellige bakterietyper påvirker fluernes vækst. 1) Hvilken metode kan anvendes til at undersøge om fluernes vækst er forskellig, når de er inficeret med de 4 forskellige bakterier. Angiv nulhypotesen og alternativ hypotesen for en test for denne forskel. Nedenfor er givet dele af en tabel som viser resultatet for denne test. Source DF Sum o f Squares Mean Square F Value Pr > F Model 114.0963490 Error 2.6366711 C Total 235.3832203 2) Brug tabellen til at udføre den pågældende test på niveau α = 1%, og giv en statistisk tolkning af resultaterne. 3) Angiv forudsætningerne for den pågældende analysemetode. (Du skal ikke gøre rede for om forudsætningerne er opfyldte) 6
4) Giv en samlet tolkning af undersøgelsen vha. resultatet fra spørgsmål 2) og vha. nedenstående tabel. B onferroni ( Dunn) t Tests f o r Span NOTE: This t e s t c o n t r o l s the Type I experimentwise e r r o r rate, but i t g e n e r a l l y has a higher Type I I e r r o r r a t e than Tukey s f o r a l l p a i r w i s e comparisons. Alpha 0.05 Error Degrees o f Freedom 46 Error Mean Square 2.636671 C r i t i c a l Value o f t 2.75717 Comparisons s i g n i f i c a n t at the 0. 0 5 l e v e l are i n d i c a t e d by. Bakterie D i f f e r e n c e Simultaneous 95% Comparison Between Means Confidence Limits 4 2 1. 1 6 3 7 0.5607 2.8881 4 3 2. 3 6 7 4 0. 6 4 3 0 4. 0 9 1 8 4 1 4. 2 3 6 2 2. 3 8 2 5 6. 0 8 9 8 2 3 1. 2 0 3 6 0.5524 2.9597 2 1 3. 0 7 2 4 1. 1 8 9 3 4. 9 5 5 6 3 1 1. 8 6 8 8 0.0144 3.7519 7
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Written exam Science statistics- ST501 Thursday June 11 The exam consists of 4 exercises with 13 subquestions in total, where each subquestion is weighted equally. Please check that the exam set contains 14 pages in total. The exam will last 3 hours where ordinary resources such as books, notes and calculator are allowed. It is important that the used methods and properties appear in the answers of the questions. Note that later subquestions in an exercise can often be answered even though not all previous questions have been answered. Therefore it is allowed to use statements from the previous subquestion even though you have not answered it. Note: when the degrees of freedom required for a particular hypothesis test are not in the relevant table in the book, then use the most nearby lower degrees of freedom in the table to perfom the test.
Exercise 1 The amount of cholesterol in the blood of people with type 2 diabetes is going to be studied. In a randomly chosen group consisting of people with type 2 diabetes, one found that out of 180 diabetics, 63 had a normal amount of cholesterol. 1) Let p be the proportion of type 2 diabetics with a normal amount of cholesterol. Find an estimate ˆp of p. 2) Compute an approximate level 95% confidence interval for the proportion p. State the assumptions you have made. 3) Consider a new randomly chosen group of 10 people with type 2 diabetes. Let Y be the random variable that counts the number of type 2 diabetics with a normal amount of cholesterol. Exercise 2 a) Explain that Y can be described by the binomial distribution model Y b(10, p). b) What is the probability that at most 2 out of the 10 type 2 diabetics have a normal amount of cholesterol. (Use the estimate for p obtained in question 1) in this calculation). When a hunter on a given day is hunting, the waiting time (in hours), until he sees the first animal, can be described by a random variable Y that is exponentially distributed with mean 1.5. 1) Find the probability that the hunter on a given day is waiting for more than 1 hour. 2) The hunter is hunting 250 days in a year. Let X = Y 1 + Y 2 + + Y 250 denote the total waiting in a year for the hunter. Suppose that Y 1, Y 2,..., Y 250 are independent and exponentially distributed random variables all with mean 1.5. Calculate approximately the probability that the hunter in total is waiting at most 350 hours in a year. 9
Exercise 3 In biogeography of islands (learning about the propagation of animals, plants, fungi, etc. on islands) it is often observed that the number of different species depends on the size of the island. In an investigation of 42 islands in Micronesia the area of the island is measured and the number of different animal species on the island is counted. Output from a statistical analysis can be seen below. It is proposed to analyse the data with linear regression where the response variable Y = the number of species on the island, and the independent variable x = the area of the island. 1) Give the estimated relationship between the number of species and the area of the island. Are the conditions for using linear regression fulfilled? Regardless of the answer of question 1), we will now use the linear regression model. 2) Test at the 5% significance level, if the number of species is dependent on the area of the island. 3) Give an estimate ŷ 0 of the mean response if the area of the island is x 0 = 300, and find the estimated standard error of ŷ 0. 4) Consider again an island of area x 0 = 300. Find a 95% prediction interval for the number of species on the island. 10
Area Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 2 8 9. 6 4 2 9 Sum 12165.0000 Std. Dev 2 4. 7 2 0 7 CSS 25055.6400 S p e c i e s Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 1 5 6. 0 4 7 6 Sum 6554.0000 Std. Dev 4 1. 2 3 5 2 CSS 69713.9000 S p e c i e s = Area Response D i s t r i b u t i o n : Normal Link Function : I d e n t i t y Parametric Regression Fit Model Error Curve Degree ( Polynomial ) DF Mean Square DF Mean Square 1 1 8 2 7 9. 6 6 0 0 40 1535.8560 Summary o f Fit Mean o f Response 1 5 6. 0 4 7 6 R Square 0.1186 Root MSE 3 9. 1 9 0 0 Adj R Sq 0.0965 Parameter Estimates Variable DF Estimate Std Error I n t e r c e p t 1 10.3088 71.9738 Area 1 0. 5 7 4 4 0.2476 11
12
Exercise 4 A certain kind of flies is often infected with different kinds of bacteria. In an experiment flies have grown under 4 different conditions: infection with bacterium 1, infection with bacterium 2, infection with bacterium 3 and no infection (bacterium 4). At the end of growth the length of the fly is measured (in mm). Below the summarized data can be seen for the 4 groups: Level o f Span Bacterium N Mean Std Dev Bacterium 1 14 1 1. 9 3 1.17 Bacterium 2 13 9. 5 6 1.67 Bacterium 3 10 7. 6 9 1.67 Bacterium 4 13 1 0. 7 6 1.94 It is desired to investigate if there is any difference in growth of the flies when they are infected by different kinds of bacteria. 1) Which method can be used to test if the growth of the flies is different, when they are infected by the four different kinds of bacteria. State the null hypothesis and the alternative hypothesis for a test of this difference. A part of a table that gives the result of this test is seen below. Source DF Sum o f Squares Mean Square F Value Pr > F Model 114.0963490 Error 2.6366711 C Total 235.3832203 2) Use the table to make the test at level α = 1%, and give a statistical interpretation of the result. 3) State the assumptions in the method from above. (You do not have to explain whether the assumptions are fulfilled) 13
4) Give a global interpretation of the investigation using the result from question 2) and the following table. B onferroni ( Dunn) t Tests f o r Span NOTE: This t e s t c o n t r o l s the Type I experimentwise e r r o r rate, but i t g e n e r a l l y has a higher Type I I e r r o r r a t e than Tukey s f o r a l l p a i r w i s e comparisons. Alpha 0.05 Error Degrees o f Freedom 46 Error Mean Square 2.636671 C r i t i c a l Value o f t 2.75717 Comparisons s i g n i f i c a n t at the 0. 0 5 l e v e l are i n d i c a t e d by. B a c t e r i a D i f f e r e n c e Simultaneous 95% Comparison Between Means Confidence Limits 4 2 1. 1 6 3 7 0.5607 2.8881 4 3 2. 3 6 7 4 0. 6 4 3 0 4. 0 9 1 8 4 1 4. 2 3 6 2 2. 3 8 2 5 6. 0 8 9 8 2 3 1. 2 0 3 6 0.5524 2.9597 2 1 3. 0 7 2 4 1. 1 8 9 3 4. 9 5 5 6 3 1 1. 8 6 8 8 0.0144 3.7519 14