Modul 13: Exercises 13.1 Substrat.......................... 1 13.2 Polynomiel regression.................. 3 13.3 Biomasse.......................... 4 13.4 Kreatinin.......................... 7 13.5 Læsefærdighed...................... 11 13.6 Protein og højde..................... 13 13.1 Substrat En medstuderende viser dig følgende data med vækst af planter i 4 grupper, der er behandlet med et substrat ved forskellige koncen- 1
trationer. Du skal hjælpe ham med at lave statistik, da han ikke har taget noget statistikkursus. Han holder på, at han ikke har noget mål for de forskellige koncentrationer. A B C D 9 18 30 18 15 12 26 10 16 23 26 12 8 22 20 22 6 19 28 13 Først laver I en ANOVA-test, og dernæst multiple comparison, og du hjælper ham med at lave en fin figur med søjler, streger for afviglese og små bogstaver, der angiver, hvad I fandt ud af med multiple comparison. På dette tidspunkt begynder du at spekulere på hvad det er for nogle grupper han har, og du finder ud af, at han har tilført planterne et stof, der hele tiden er blevet halveret. Da I ikke kender den oprindelige koncentration, kalder I A for 1, B for 2, C for 4 og 2
D for 8. Lav trinvis regression op til tredie potens, og find den bedste model. 13.2 Polynomiel regression En opgave, hvor du skal finde den bedste polynomielle regression af log(konc) = log Y mod tiden X: tid 6 6 6 8 8 8 10 10 10 konc 0.029 0.032 0.027 0.079 0.072 0.088 0.181 0.165 0.201 tid 12 12 12 14 14 14 16 16 16 konc 0.425 0.384 0.472 1.130 1.020 1.249 2.812 2.465 3.099 I den næste opgave skal du gøre det samme med Y = skin response og X = konc. Der er tale om rotters response på forskellige koncentrationer af en vaccine. 3
konc 0.5 0.5 1 1 1.5 1.5 response 13.90 13.81 14.08 13.99 13.75 13.60 konc 2 2 2.5 2.5 3 3 response 13.32 13.39 13.45 13.53 13.59 13.64 13.3 Biomasse I den jordbundsøkologiske forskning er man bl.a. interesseret i at måle biomassen i de øverste muldlag. Et af de mål, man traditionelt benytter for denne biomasse er den levende vægt FW af de smådyr, som lever i de betragtede muldlag. I praktiske feltundersøgelser er der imidlertid forskellige vanskeligheder forbundet med rutinemæssig bestemmelse af FW. I stedet plejer man at tørre de dyr, som uddrives af de indsamlede jordprøver, og bestemme deres tørvægt DM for herudfra at beregne FW. Man har således brug for at kende relationen mellem F W og DM for mikrofaunaens forskellige arter. For at undersøge denne relation har man bestemt FW og DM 4
direkte for et antal individer fra to forskellige arter af springhaler (Collembola): Folsomia quadrioculata s.l. og Isotoma notabilis. Det er en udbredt tradition at beregne FW som en fast procent for hver art af den målte DM. Dette har god statistisk mening, hvis relationen mellem FW og DM er en lineær regression af log FW overfor log DM med hældning 1. a) Undersøg, for hver art, den lineære regression af y = log FW over for x = log DM. Giv estimater for modellens parametre α, β og σ. b) Test, for hver art, hypotesen β = 1. Giv et 95% konfidensinterval for β for hver art. c) Test hypotesen at parameteren σ er ens for de to arter. d) Antag nu at β = 1 for begge arter. Vis, at under denne forudsætning er, for hver art, fordelingen for variablen z = log FW log DM 5
en normalfordeling med middelværdi α og spredning σ. Udnyt dette resultat til at teste hypotesen at α er ens for de to arter. 6
Folsomia Isotoma quadrioculata notabilis s.l. log FW log DM log FW log DM 0.568 0.114 0.690 0.322 0.602 0.230 1.338 0.908 1.272 0.792 0.898 0.415 1.407 0.968 0.633 0.204 1.415 0.881 1.243 0.681 1.155 0.949 0.643 0.505 1.713 1.121 0.898 0.531 0.863 0.462 0.806 0.362 0.643 0.362 0.863 0.505 1.334 0.978 1.190 0.748 0.869 0.447 0.903 0.623 0.996 0.477 0.968 0.643 1.320 0.732 0.886 0.380 0.996 0.415 7
13.4 Kreatinin På en række personer er bestemt koncentrationen, x, af kreatinin i blodplasma udtrykt i mg%. Samtidig er for de samme personer bestemt koncentrationen, y, af kreatinin i cerebrospinalvæsken ligeledes i mg%. Da en optegning af observationerne viser, at regressionen ikke kan være retlinjet, er der forsøgt en transformation af observationerne, og det viser sig, at det kan antages, at regressionen mellem u = 100 log(x + 1.4) og v = 100 (1 + log y) er retlinjet. I tabellerne er værdierne af u og v anført for to grupper af personer, nemlig gruppe 1: patienter uden nyreinsufficiens og gruppe 2: patienter med kronisk nyreinsufficiens. a) Bestem regressionslinjen af v i forhold til u og spredningen af v omkring regressionslinjen for hver gruppe, idet beregningerne kontrolleres groft ved at indtegne observationerne og de beregnede regressionslinjer i samme koordinatsystem for begge grupper. 8
b) Undersøg om det kan antages, at ændringer i koncentrationen af kreatinin i blodplasma ikke medfører ændringer af koncentrationen af kreatinin i cerebrospinalvæske. c) Undersøg samme hypotese som omtalt i spørgsmål b) ved først at udregne korrelationskoefficienterne i de to grupper og derefter teste, om disse kan antages at være lig med 0. 9
Gruppe 1 Gruppe 2 u v u v u v 34 108 121 180 94 149 45 100 124 188 71 130 48 95 95 152 49 95 38 104 118 171 73 138 36 100 121 181 100 161 40 95 90 157 79 120 43 108 72 123 118 181 38 111 128 186 132 193 42 95 93 151 121 181 43 100 48 115 111 170 42 90 52 111 76 130 40 104 105 170 81 143 40 104 128 191 42 100 145 207 40 100 69 140 10
Som baggrund for målingerne i det foregående havde man en hypotese om, at koncentrationerne af kreatinin i blodplasma og i cerebrospinalvæske skulle være proportionale, dvs at x og y skulle være proportionale. At antage lineær regression mellem u og v er ensbetydende med ligningen v = α + βu, og dette sammenholdt med ligningerne mellem y og v og mellem x og u fører til ligningen 100(1 + log y) = α + β(100 log(x + 1.4)). log y = α 1 + β log(x + 1.4). 100 y = 10( α 100 1)(x + 1.4)β. Hvis x og y skal afhænge lineært af hinanden, må derfor β være lig 1. d) Undersøg, om det kan antages, at β = 1 i begge de to i foregående 11
opgave omtalte grupper. (Som indledningsvis sagt, tyder optegning af data på, at svaret bliver nej.) e) Undersøg, om det kan antages at hældningen af regressionslinjen kan antages at være den samme i de to grupper. 13.5 Læsefærdighed I en førsteklasse med 20 elever besluttede læreren at forsøge at sammenligne to metoder til at lære eleverne at læse. Klassen blev delt op i to grupper på hver 10 elever, og de to grupper blev undervist efter hver sin metode. Før forsøgets start fik klassen en intelligenspøve, hvis resultat betegnes med x, mens elevernes læsefærdighed blev undersøgt ved forsøgets slutning med en omfattende læseprøve, hvis resultat betegnes med y. Resultaterne ses i følgende tabel: 12
Metode 1 x 87 96 96 97 101 104 106 107 112 121 y 66 63 71 65 70 79 71 79 81 98 Metode 2 x 81 95 98 99 106 107 108 111 114 126 y 50 59 60 63 68 71 72 79 77 96 Ved besvarelsen kan følgende standardberegninger benyttes: n S SS SXY Metode 1 x 10 1027 824.1 799.9 y 10 743 974.1 Metode 2 x 10 1045 1330.5 1368.5 y 10 695 1482.5 a) Undersøg, for hver metode, en lineær regression af y overfor x. Giv skøn for modellens parametre (α, β, σ). b) Undersøg, for hver metode, om læseprøvens resultat afhænger af udfaldet af intelligenstestet. Giv et 95% sikkerhedsinterval for de to regressionskoefficienter (hældninger). 13
c) Undersøg, om variansen Var(y x) er ens for de to metoder. d) Undersøg, om de to regressionskoefficienter er ens. e) Giv en vurdering over hvorvidt de to metoder gav samme resultat eller ej. 13.6 Protein og højde Et hold antropologer og ernæringseksperter undersøgte indflydelsen af proteinindtag på forholdet mellem alder og højde hos børn på Ny Guinea. De to følgende tabeller viser værdier for højde i cm og alder i år for en hypotetisk population af børn på henholdsvis proteinrig og proteinfattig kost. Proteinrig kost Alder (X) 0.2 0.5 0.8 1.0 1.0 1.4 1.8 2.0 2.0 2.5 2.5 3.0 2.7 Højde (Y ) 54 54.3 63 66 69 73 82 83 80.3 91 93.2 94 94 14
Proteinfattig kost Alder (X) 0.4 0.7 1.0 1.0 1.5 2.0 2.0 2.4 2.8 3.0 1.3 1.8 0.2 3 Højde (Y ) 52 55 61 63.4 66 68.5 67.9 72 76 74 65 69 51 7 Oplysninger til sammenligning af lineære regressioner: n ˆβ0 ˆβ1 X Y s 2 X s 2 Y X r Proteinrig 13 50.324 16.009 1.646 76.677 0.808 5.841 0.937 Proteinfattig 14 51.225 3.686 1.650 65.557 0.873 4.598 0.969 a) Lav lineære regressioner af højde (Y ) på alder (X) for de to diæter. (Benyt et to-sidet alternativ i hvert tilfælde.) b) Test om populationens regressionskoefficient for børn med en proteinrig kost er væsentlig forskellig fra den for børn med proteinfattig kost. (Benyt to-sidet alternativ.) 15