Skriftlig eksamen Science statistik- ST501



Relaterede dokumenter
Skriftlig eksamen Science statistik- ST501

Reeksamen i Statistik for Biokemikere 6. april 2009

Besvarelse af vitcap -opgaven

Skriftlig Eksamen Kombinatorik, Sandsynlighed og Randomiserede Algoritmer (DM528)

Skriftlig Eksamen Diskret matematik med anvendelser (DM72)

Eksamen i Statistik for Biokemikere, Blok januar 2009

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Basic statistics for experimental medical researchers

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Statistik for MPH: 7

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Skriftlig Eksamen Beregnelighed (DM517)

University of Copenhagen Faculty of Science Written Exam April Algebra 3

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

University of Copenhagen Faculty of Science Written Exam - 3. April Algebra 3

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Ikke-parametriske tests

Skriftlig Eksamen Beregnelighed (DM517)

Løsning til eksaminen d. 29. maj 2009

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Vina Nguyen HSSP July 13, 2008

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen i Statistik for biokemikere. Blok

KA 4.2 Kvantitative Forskningsmetoder Forår 2010

Det er muligt at chekce følgende opg. i CodeJudge: og

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Linear Programming ١ C H A P T E R 2

Bilag. Resume. Side 1 af 12

Analyseinstitut for Forskning

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

k normalfordelte observationsrækker (ensidet variansanalyse)

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Vores mange brugere på musskema.dk er rigtig gode til at komme med kvalificerede ønsker og behov.

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Logistisk Regression - fortsat

University of Copenhagen Faculty of Science Written Exam - 8. April Algebra 3

Engelsk. Niveau C. De Merkantile Erhvervsuddannelser September Casebaseret eksamen. og

Reexam questions in Statistics and Evidence-based medicine, august sem. Medis/Medicin, Modul 2.4.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

X M Y. What is mediation? Mediation analysis an introduction. Definition

Løsning til eksaminen d. 14. december 2009

Engelsk. Niveau D. De Merkantile Erhvervsuddannelser September Casebaseret eksamen. og

Løsning eksamen d. 15. december 2008

Reeksamen i Statistik for biokemikere. Blok

Oversigt. 1 Motiverende eksempel - energiforbrug. 2 Hypotesetest (Repetition) 3 Two-sample t-test og p-værdi. 4 Konfidensinterval for forskellen

The X Factor. Målgruppe. Læringsmål. Introduktion til læreren klasse & ungdomsuddannelser Engelskundervisningen

How consumers attributions of firm motives for engaging in CSR affects their willingness to pay

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Project Step 7. Behavioral modeling of a dual ported register set. 1/8/ L11 Project Step 5 Copyright Joanne DeGroat, ECE, OSU 1

Aarhus Universitet, Science and Technology, Computer Science. Exam. Wednesday 27 June 2018, 9:00-11:00

Privat-, statslig- eller regional institution m.v. Andet Added Bekaempelsesudfoerende: string No Label: Bekæmpelsesudførende

User Manual for LTC IGNOU

Lineær regression i SAS. Lineær regression i SAS p.1/20

Besvarelser til Lineær Algebra Reeksamen Februar 2017

Anvendt Statistik Lektion 7. Simpel Lineær Regression

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU

Trolling Master Bornholm 2012

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02402/02323 Introducerende Statistik. Forelæsning 6: Sammenligning af to grupper

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

IBM Network Station Manager. esuite 1.5 / NSM Integration. IBM Network Computer Division. tdc - 02/08/99 lotusnsm.prz Page 1

To the reader: Information regarding this document

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Forelæsning 11: Envejs variansanalyse, ANOVA

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Skriftlig Eksamen ST501: Science Statistik Torsdag den 4. januar 2007 kl

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Heuristics for Improving

Danish Language Course for International University Students Copenhagen, 12 July 1 August Application form

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Skriftlig Eksamen Automatteori og Beregnelighed (DM17)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Generelle lineære modeller

Bookingmuligheder for professionelle brugere i Dansehallerne

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Modul 6: Regression og kalibrering

CHAPTER 8: USING OBJECTS

Financial Literacy among 5-7 years old children

Besvarelse af juul2 -opgaven

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Multivariate Extremes and Dependence in Elliptical Distributions

Introduktion til Statistik. Forelæsning 10: Inferens for andele. Peder Bacher

Brug sømbrættet til at lave sjove figurer. Lav fx: Få de andre til at gætte, hvad du har lavet. Use the nail board to make funny shapes.

Trolling Master Bornholm 2015

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Aktivering af Survey funktionalitet

Trolling Master Bornholm 2013

Subject to terms and conditions. WEEK Type Price EUR WEEK Type Price EUR WEEK Type Price EUR WEEK Type Price EUR

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Multipel Lineær Regression

Danish Language Course for Foreign University Students Copenhagen, 13 July 2 August 2016 Advanced, medium and beginner s level.

Transkript:

SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 11. juni Opgavesættet består af 4 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt. Du bedes tjekke, at opgavesættet består af 14 sider i alt. Eksamen varer 3 timer hvor alle sædvanlige hjælpemidler herunder bøger, noter samt lommeregner er tilladte. Der lægges vægt på, at de benyttede metoder fremgår af besvarelsen, og at svarene begrundes. Bemærk, at senere delspørgsmål i en opgave ofte kan besvares uden at alle tidligere spørgsmål er besvaret. Det er således tilladt at bruge oplysninger fra tidligere delspørgsmål selvom disse ikke er besvaret. Bemærk: når frihedsgraderne, der skal anvendes i en hypotesetest, ikke er i den relevante tabel i bogen, så brug den nærmeste lavere frihedsgrad i tabellen til at udføre testen.

Opgave 1 Man ønsker at undersøge kolesteroltallet for personer med type 2 diabetes. I en tilfældig valgt gruppe bestående af personer med type 2 diabetes fandt man, at ud af 180 diabetikere havde 63 normalt kolesteroltal. 1) Lad p være proportionen af type 2 diabetikere med normalt kolesteroltal. Find et estimat ˆp for p. 2) Beregn et approksimativt 95% konfidensinterval for proportionen p. Angiv hvilke antagelser, du har foretaget. 3) Betragt en ny tilfældig gruppe af 10 personer med type 2 diabetes. Lad Y være den stokastiske variabel, der angiver antallet af type 2 diabetikere med normalt kolesteroltal. Opgave 2 a) Gør rede for at Y kan beskrives ved en binomialfordeling Y b(10, p). b) Hvad er sandsynligheden for at højst 2 ud af de 10 type 2 diabetikere har normalt kolesteroltal. (Brug estimatet for p, som blev fundet i spørgsmål 1) i denne udregning). Når en jæger på en given dag er på jagt, kan ventetiden (i timer), til han ser det første stykke vildt, beskrives ved en stokastisk variabel Y, som er eksponentialfordelt med middelværdi 1.5. 1) Find sandsynligheden for at jægeren på en given dag venter mere end 1 time. 2) Jægeren er på jagt 250 dage på et år. Lad X = Y 1 + Y 2 + + Y 250 betegne den samlede ventetid for jægeren på et år. Antag at Y 1, Y 2,..., Y 250 er indbyrdes uafhængige og alle er eksponentialfordelte med middelværdi 1.5. Udregn approksimativt sandsynligheden for at jægeren højst venter 350 timer i alt i løbet af et år. 2

Opgave 3 Indenfor øbiogeografi (læren om udbredelsen af dyr, planter, svampe, osv. på øer) er det ofte observeret at antallet af forskellige arter afhænger af øens størrelse. Ved en undersøgelse af 42 øer i Mikronesien måler man øens areal samt optæller antallet af forskellige dyrearter på den pågældende ø. Output fra en statistisk analyse ses nedenfor. Det foreslås at analysere data med lineær regression, hvor responsvariablen er Y = antal arter på øen, og den forklarende variabel er x = arealet af øen. 1) Angiv den estimerede sammenhæng mellem antallet af arter og øens areal. Er betingelserne for at bruge lineær regression opfyldte? Uanset svaret på spørgsmål 1), vil vi nu bruge den lineære regressionsmodel. 2) Lav en test på niveau 5% om antallet af arter afhænger af øens areal. 3) Giv et estimat ŷ 0 for det forventede middelrespons, hvis øens areal er x 0 = 300, og find den estimerede standardfejl for ŷ 0. 4) Betragt igen en ø med areal x 0 = 300. Find et 95% prædiktionsinterval for antallet af arter på øen. 3

Areal Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 2 8 9. 6 4 2 9 Sum 12165.0000 Std. Dev 2 4. 7 2 0 7 CSS 25055.6400 Arter Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 1 5 6. 0 4 7 6 Sum 6554.0000 Std. Dev 4 1. 2 3 5 2 CSS 69713.9000 Arter = Areal Response D i s t r i b u t i o n : Normal Link Function : I d e n t i t y Parametric Regression Fit Model Error Curve Degree ( Polynomial ) DF Mean Square DF Mean Square 1 1 8 2 7 9. 6 6 0 0 40 1535.8560 Summary o f Fit Mean o f Response 1 5 6. 0 4 7 6 R Square 0.1186 Root MSE 3 9. 1 9 0 0 Adj R Sq 0.0965 Parameter Estimates Variable DF Estimate Std Error I n t e r c e p t 1 10.3088 71.9738 Areal 1 0. 5 7 4 4 0.2476 4

5

Opgave 4 En bestemt type fluer inficeres ofte med forskellige typer bakterier. I et forsøg har man haft fluerne til at vokse under 4 forskellige betingelser: infektion med bakterie 1, infektion med bakterie 2, infektion med bakterie 3 og ingen infektion (bakterie 4). Efter endt vækstperiode måles længden af fluen (i mm). Nedenfor ses summariske data for de 4 grupper: Level o f Span Bakterie N Mean Std Dev Bakterie 1 14 1 1. 9 3 1.17 Bakterie 2 13 9. 5 6 1.67 Bakterie 3 10 7. 6 9 1.67 Bakterie 4 13 1 0. 7 6 1.94 Der ønskes nu undersøgt, om der er forskel på hvordan de forskellige bakterietyper påvirker fluernes vækst. 1) Hvilken metode kan anvendes til at undersøge om fluernes vækst er forskellig, når de er inficeret med de 4 forskellige bakterier. Angiv nulhypotesen og alternativ hypotesen for en test for denne forskel. Nedenfor er givet dele af en tabel som viser resultatet for denne test. Source DF Sum o f Squares Mean Square F Value Pr > F Model 114.0963490 Error 2.6366711 C Total 235.3832203 2) Brug tabellen til at udføre den pågældende test på niveau α = 1%, og giv en statistisk tolkning af resultaterne. 3) Angiv forudsætningerne for den pågældende analysemetode. (Du skal ikke gøre rede for om forudsætningerne er opfyldte) 6

4) Giv en samlet tolkning af undersøgelsen vha. resultatet fra spørgsmål 2) og vha. nedenstående tabel. B onferroni ( Dunn) t Tests f o r Span NOTE: This t e s t c o n t r o l s the Type I experimentwise e r r o r rate, but i t g e n e r a l l y has a higher Type I I e r r o r r a t e than Tukey s f o r a l l p a i r w i s e comparisons. Alpha 0.05 Error Degrees o f Freedom 46 Error Mean Square 2.636671 C r i t i c a l Value o f t 2.75717 Comparisons s i g n i f i c a n t at the 0. 0 5 l e v e l are i n d i c a t e d by. Bakterie D i f f e r e n c e Simultaneous 95% Comparison Between Means Confidence Limits 4 2 1. 1 6 3 7 0.5607 2.8881 4 3 2. 3 6 7 4 0. 6 4 3 0 4. 0 9 1 8 4 1 4. 2 3 6 2 2. 3 8 2 5 6. 0 8 9 8 2 3 1. 2 0 3 6 0.5524 2.9597 2 1 3. 0 7 2 4 1. 1 8 9 3 4. 9 5 5 6 3 1 1. 8 6 8 8 0.0144 3.7519 7

SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Written exam Science statistics- ST501 Thursday June 11 The exam consists of 4 exercises with 13 subquestions in total, where each subquestion is weighted equally. Please check that the exam set contains 14 pages in total. The exam will last 3 hours where ordinary resources such as books, notes and calculator are allowed. It is important that the used methods and properties appear in the answers of the questions. Note that later subquestions in an exercise can often be answered even though not all previous questions have been answered. Therefore it is allowed to use statements from the previous subquestion even though you have not answered it. Note: when the degrees of freedom required for a particular hypothesis test are not in the relevant table in the book, then use the most nearby lower degrees of freedom in the table to perfom the test.

Exercise 1 The amount of cholesterol in the blood of people with type 2 diabetes is going to be studied. In a randomly chosen group consisting of people with type 2 diabetes, one found that out of 180 diabetics, 63 had a normal amount of cholesterol. 1) Let p be the proportion of type 2 diabetics with a normal amount of cholesterol. Find an estimate ˆp of p. 2) Compute an approximate level 95% confidence interval for the proportion p. State the assumptions you have made. 3) Consider a new randomly chosen group of 10 people with type 2 diabetes. Let Y be the random variable that counts the number of type 2 diabetics with a normal amount of cholesterol. Exercise 2 a) Explain that Y can be described by the binomial distribution model Y b(10, p). b) What is the probability that at most 2 out of the 10 type 2 diabetics have a normal amount of cholesterol. (Use the estimate for p obtained in question 1) in this calculation). When a hunter on a given day is hunting, the waiting time (in hours), until he sees the first animal, can be described by a random variable Y that is exponentially distributed with mean 1.5. 1) Find the probability that the hunter on a given day is waiting for more than 1 hour. 2) The hunter is hunting 250 days in a year. Let X = Y 1 + Y 2 + + Y 250 denote the total waiting in a year for the hunter. Suppose that Y 1, Y 2,..., Y 250 are independent and exponentially distributed random variables all with mean 1.5. Calculate approximately the probability that the hunter in total is waiting at most 350 hours in a year. 9

Exercise 3 In biogeography of islands (learning about the propagation of animals, plants, fungi, etc. on islands) it is often observed that the number of different species depends on the size of the island. In an investigation of 42 islands in Micronesia the area of the island is measured and the number of different animal species on the island is counted. Output from a statistical analysis can be seen below. It is proposed to analyse the data with linear regression where the response variable Y = the number of species on the island, and the independent variable x = the area of the island. 1) Give the estimated relationship between the number of species and the area of the island. Are the conditions for using linear regression fulfilled? Regardless of the answer of question 1), we will now use the linear regression model. 2) Test at the 5% significance level, if the number of species is dependent on the area of the island. 3) Give an estimate ŷ 0 of the mean response if the area of the island is x 0 = 300, and find the estimated standard error of ŷ 0. 4) Consider again an island of area x 0 = 300. Find a 95% prediction interval for the number of species on the island. 10

Area Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 2 8 9. 6 4 2 9 Sum 12165.0000 Std. Dev 2 4. 7 2 0 7 CSS 25055.6400 S p e c i e s Moments N 4 2. 0 0 0 0 Sum Wgts 42.0000 Mean 1 5 6. 0 4 7 6 Sum 6554.0000 Std. Dev 4 1. 2 3 5 2 CSS 69713.9000 S p e c i e s = Area Response D i s t r i b u t i o n : Normal Link Function : I d e n t i t y Parametric Regression Fit Model Error Curve Degree ( Polynomial ) DF Mean Square DF Mean Square 1 1 8 2 7 9. 6 6 0 0 40 1535.8560 Summary o f Fit Mean o f Response 1 5 6. 0 4 7 6 R Square 0.1186 Root MSE 3 9. 1 9 0 0 Adj R Sq 0.0965 Parameter Estimates Variable DF Estimate Std Error I n t e r c e p t 1 10.3088 71.9738 Area 1 0. 5 7 4 4 0.2476 11

12

Exercise 4 A certain kind of flies is often infected with different kinds of bacteria. In an experiment flies have grown under 4 different conditions: infection with bacterium 1, infection with bacterium 2, infection with bacterium 3 and no infection (bacterium 4). At the end of growth the length of the fly is measured (in mm). Below the summarized data can be seen for the 4 groups: Level o f Span Bacterium N Mean Std Dev Bacterium 1 14 1 1. 9 3 1.17 Bacterium 2 13 9. 5 6 1.67 Bacterium 3 10 7. 6 9 1.67 Bacterium 4 13 1 0. 7 6 1.94 It is desired to investigate if there is any difference in growth of the flies when they are infected by different kinds of bacteria. 1) Which method can be used to test if the growth of the flies is different, when they are infected by the four different kinds of bacteria. State the null hypothesis and the alternative hypothesis for a test of this difference. A part of a table that gives the result of this test is seen below. Source DF Sum o f Squares Mean Square F Value Pr > F Model 114.0963490 Error 2.6366711 C Total 235.3832203 2) Use the table to make the test at level α = 1%, and give a statistical interpretation of the result. 3) State the assumptions in the method from above. (You do not have to explain whether the assumptions are fulfilled) 13

4) Give a global interpretation of the investigation using the result from question 2) and the following table. B onferroni ( Dunn) t Tests f o r Span NOTE: This t e s t c o n t r o l s the Type I experimentwise e r r o r rate, but i t g e n e r a l l y has a higher Type I I e r r o r r a t e than Tukey s f o r a l l p a i r w i s e comparisons. Alpha 0.05 Error Degrees o f Freedom 46 Error Mean Square 2.636671 C r i t i c a l Value o f t 2.75717 Comparisons s i g n i f i c a n t at the 0. 0 5 l e v e l are i n d i c a t e d by. B a c t e r i a D i f f e r e n c e Simultaneous 95% Comparison Between Means Confidence Limits 4 2 1. 1 6 3 7 0.5607 2.8881 4 3 2. 3 6 7 4 0. 6 4 3 0 4. 0 9 1 8 4 1 4. 2 3 6 2 2. 3 8 2 5 6. 0 8 9 8 2 3 1. 2 0 3 6 0.5524 2.9597 2 1 3. 0 7 2 4 1. 1 8 9 3 4. 9 5 5 6 3 1 1. 8 6 8 8 0.0144 3.7519 14