13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Relaterede dokumenter
13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Eksamen i Statistik for biokemikere. Blok

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Modul 12: Regression og korrelation

Module 4: Ensidig variansanalyse

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Forelæsning 11: Kapitel 11: Regressionsanalyse

Lineære normale modeller (4) udkast

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Nanostatistik: Lineær regression

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Reeksamen i Statistik for biokemikere. Blok

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

(studienummer) (underskrift) (bord nr)

Løsning eksamen d. 15. december 2008

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Modul 12: Exercises Sukkersygepatienters vægt

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Normalfordelingen og Stikprøvefordelinger

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Matematisk Modellering 1 Cheat Sheet

Perspektiver i Matematik-Økonomi: Linær regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Hver anden vil benytte øget åbningstid i dagtilbud

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Opgaver til kapitel 3

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Statistisk modellering og regressionsanalyse

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

1 Regressionsproblemet 2

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Besvarelse af stx_081_matb 1. Opgave 2. Opgave 1 2. Ib Michelsen, 2z Side B_081. Reducer + + = + + = Værdien af

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Løsning til eksamen d.27 Maj 2010

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Statistik i GeoGebra

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Logistisk regression

Opgavebesvarelse, brain weight

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Nanostatistik: Opgavebesvarelser

Module 3: Statistiske modeller

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Skriftlig eksamen Science statistik- ST501

Kapitel 12 Variansanalyse

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Bedste rette linje ved mindste kvadraters metode

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Den lineære normale model

Stastistik og Databehandling på en TI-83

Kapitel 12 Variansanalyse

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Kvantitative metoder 2

Deskriptiv statistik for hf-matc

Skriftlig Eksamen ST501: Science Statistik Torsdag den 4. januar 2007 kl

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Reeksamen i Statistik for Biokemikere 6. april 2009

Eksamen i Statistik og skalavalidering

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Deskriptiv statistik for matc i stx og hf

Transkript:

Modul 13: Exercises 13.1 Substrat.......................... 1 13.2 Polynomiel regression.................. 3 13.3 Biomasse.......................... 4 13.4 Kreatinin.......................... 7 13.5 Læsefærdighed...................... 11 13.6 Protein og højde..................... 13 13.1 Substrat En medstuderende viser dig følgende data med vækst af planter i 4 grupper, der er behandlet med et substrat ved forskellige koncen- 1

trationer. Du skal hjælpe ham med at lave statistik, da han ikke har taget noget statistikkursus. Han holder på, at han ikke har noget mål for de forskellige koncentrationer. A B C D 9 18 30 18 15 12 26 10 16 23 26 12 8 22 20 22 6 19 28 13 Først laver I en ANOVA-test, og dernæst multiple comparison, og du hjælper ham med at lave en fin figur med søjler, streger for afviglese og små bogstaver, der angiver, hvad I fandt ud af med multiple comparison. På dette tidspunkt begynder du at spekulere på hvad det er for nogle grupper han har, og du finder ud af, at han har tilført planterne et stof, der hele tiden er blevet halveret. Da I ikke kender den oprindelige koncentration, kalder I A for 1, B for 2, C for 4 og 2

D for 8. Lav trinvis regression op til tredie potens, og find den bedste model. 13.2 Polynomiel regression En opgave, hvor du skal finde den bedste polynomielle regression af log(konc) = log Y mod tiden X: tid 6 6 6 8 8 8 10 10 10 konc 0.029 0.032 0.027 0.079 0.072 0.088 0.181 0.165 0.201 tid 12 12 12 14 14 14 16 16 16 konc 0.425 0.384 0.472 1.130 1.020 1.249 2.812 2.465 3.099 I den næste opgave skal du gøre det samme med Y = skin response og X = konc. Der er tale om rotters response på forskellige koncentrationer af en vaccine. 3

konc 0.5 0.5 1 1 1.5 1.5 response 13.90 13.81 14.08 13.99 13.75 13.60 konc 2 2 2.5 2.5 3 3 response 13.32 13.39 13.45 13.53 13.59 13.64 13.3 Biomasse I den jordbundsøkologiske forskning er man bl.a. interesseret i at måle biomassen i de øverste muldlag. Et af de mål, man traditionelt benytter for denne biomasse er den levende vægt FW af de smådyr, som lever i de betragtede muldlag. I praktiske feltundersøgelser er der imidlertid forskellige vanskeligheder forbundet med rutinemæssig bestemmelse af FW. I stedet plejer man at tørre de dyr, som uddrives af de indsamlede jordprøver, og bestemme deres tørvægt DM for herudfra at beregne FW. Man har således brug for at kende relationen mellem F W og DM for mikrofaunaens forskellige arter. For at undersøge denne relation har man bestemt FW og DM 4

direkte for et antal individer fra to forskellige arter af springhaler (Collembola): Folsomia quadrioculata s.l. og Isotoma notabilis. Det er en udbredt tradition at beregne FW som en fast procent for hver art af den målte DM. Dette har god statistisk mening, hvis relationen mellem FW og DM er en lineær regression af log FW overfor log DM med hældning 1. a) Undersøg, for hver art, den lineære regression af y = log FW over for x = log DM. Giv estimater for modellens parametre α, β og σ. b) Test, for hver art, hypotesen β = 1. Giv et 95% konfidensinterval for β for hver art. c) Test hypotesen at parameteren σ er ens for de to arter. d) Antag nu at β = 1 for begge arter. Vis, at under denne forudsætning er, for hver art, fordelingen for variablen z = log FW log DM 5

en normalfordeling med middelværdi α og spredning σ. Udnyt dette resultat til at teste hypotesen at α er ens for de to arter. 6

Folsomia Isotoma quadrioculata notabilis s.l. log FW log DM log FW log DM 0.568 0.114 0.690 0.322 0.602 0.230 1.338 0.908 1.272 0.792 0.898 0.415 1.407 0.968 0.633 0.204 1.415 0.881 1.243 0.681 1.155 0.949 0.643 0.505 1.713 1.121 0.898 0.531 0.863 0.462 0.806 0.362 0.643 0.362 0.863 0.505 1.334 0.978 1.190 0.748 0.869 0.447 0.903 0.623 0.996 0.477 0.968 0.643 1.320 0.732 0.886 0.380 0.996 0.415 7

13.4 Kreatinin På en række personer er bestemt koncentrationen, x, af kreatinin i blodplasma udtrykt i mg%. Samtidig er for de samme personer bestemt koncentrationen, y, af kreatinin i cerebrospinalvæsken ligeledes i mg%. Da en optegning af observationerne viser, at regressionen ikke kan være retlinjet, er der forsøgt en transformation af observationerne, og det viser sig, at det kan antages, at regressionen mellem u = 100 log(x + 1.4) og v = 100 (1 + log y) er retlinjet. I tabellerne er værdierne af u og v anført for to grupper af personer, nemlig gruppe 1: patienter uden nyreinsufficiens og gruppe 2: patienter med kronisk nyreinsufficiens. a) Bestem regressionslinjen af v i forhold til u og spredningen af v omkring regressionslinjen for hver gruppe, idet beregningerne kontrolleres groft ved at indtegne observationerne og de beregnede regressionslinjer i samme koordinatsystem for begge grupper. 8

b) Undersøg om det kan antages, at ændringer i koncentrationen af kreatinin i blodplasma ikke medfører ændringer af koncentrationen af kreatinin i cerebrospinalvæske. c) Undersøg samme hypotese som omtalt i spørgsmål b) ved først at udregne korrelationskoefficienterne i de to grupper og derefter teste, om disse kan antages at være lig med 0. 9

Gruppe 1 Gruppe 2 u v u v u v 34 108 121 180 94 149 45 100 124 188 71 130 48 95 95 152 49 95 38 104 118 171 73 138 36 100 121 181 100 161 40 95 90 157 79 120 43 108 72 123 118 181 38 111 128 186 132 193 42 95 93 151 121 181 43 100 48 115 111 170 42 90 52 111 76 130 40 104 105 170 81 143 40 104 128 191 42 100 145 207 40 100 69 140 10

Som baggrund for målingerne i det foregående havde man en hypotese om, at koncentrationerne af kreatinin i blodplasma og i cerebrospinalvæske skulle være proportionale, dvs at x og y skulle være proportionale. At antage lineær regression mellem u og v er ensbetydende med ligningen v = α + βu, og dette sammenholdt med ligningerne mellem y og v og mellem x og u fører til ligningen 100(1 + log y) = α + β(100 log(x + 1.4)). log y = α 1 + β log(x + 1.4). 100 y = 10( α 100 1)(x + 1.4)β. Hvis x og y skal afhænge lineært af hinanden, må derfor β være lig 1. d) Undersøg, om det kan antages, at β = 1 i begge de to i foregående 11

opgave omtalte grupper. (Som indledningsvis sagt, tyder optegning af data på, at svaret bliver nej.) e) Undersøg, om det kan antages at hældningen af regressionslinjen kan antages at være den samme i de to grupper. 13.5 Læsefærdighed I en førsteklasse med 20 elever besluttede læreren at forsøge at sammenligne to metoder til at lære eleverne at læse. Klassen blev delt op i to grupper på hver 10 elever, og de to grupper blev undervist efter hver sin metode. Før forsøgets start fik klassen en intelligenspøve, hvis resultat betegnes med x, mens elevernes læsefærdighed blev undersøgt ved forsøgets slutning med en omfattende læseprøve, hvis resultat betegnes med y. Resultaterne ses i følgende tabel: 12

Metode 1 x 87 96 96 97 101 104 106 107 112 121 y 66 63 71 65 70 79 71 79 81 98 Metode 2 x 81 95 98 99 106 107 108 111 114 126 y 50 59 60 63 68 71 72 79 77 96 Ved besvarelsen kan følgende standardberegninger benyttes: n S SS SXY Metode 1 x 10 1027 824.1 799.9 y 10 743 974.1 Metode 2 x 10 1045 1330.5 1368.5 y 10 695 1482.5 a) Undersøg, for hver metode, en lineær regression af y overfor x. Giv skøn for modellens parametre (α, β, σ). b) Undersøg, for hver metode, om læseprøvens resultat afhænger af udfaldet af intelligenstestet. Giv et 95% sikkerhedsinterval for de to regressionskoefficienter (hældninger). 13

c) Undersøg, om variansen Var(y x) er ens for de to metoder. d) Undersøg, om de to regressionskoefficienter er ens. e) Giv en vurdering over hvorvidt de to metoder gav samme resultat eller ej. 13.6 Protein og højde Et hold antropologer og ernæringseksperter undersøgte indflydelsen af proteinindtag på forholdet mellem alder og højde hos børn på Ny Guinea. De to følgende tabeller viser værdier for højde i cm og alder i år for en hypotetisk population af børn på henholdsvis proteinrig og proteinfattig kost. Proteinrig kost Alder (X) 0.2 0.5 0.8 1.0 1.0 1.4 1.8 2.0 2.0 2.5 2.5 3.0 2.7 Højde (Y ) 54 54.3 63 66 69 73 82 83 80.3 91 93.2 94 94 14

Proteinfattig kost Alder (X) 0.4 0.7 1.0 1.0 1.5 2.0 2.0 2.4 2.8 3.0 1.3 1.8 0.2 3 Højde (Y ) 52 55 61 63.4 66 68.5 67.9 72 76 74 65 69 51 7 Oplysninger til sammenligning af lineære regressioner: n ˆβ0 ˆβ1 X Y s 2 X s 2 Y X r Proteinrig 13 50.324 16.009 1.646 76.677 0.808 5.841 0.937 Proteinfattig 14 51.225 3.686 1.650 65.557 0.873 4.598 0.969 a) Lav lineære regressioner af højde (Y ) på alder (X) for de to diæter. (Benyt et to-sidet alternativ i hvert tilfælde.) b) Test om populationens regressionskoefficient for børn med en proteinrig kost er væsentlig forskellig fra den for børn med proteinfattig kost. (Benyt to-sidet alternativ.) 15