Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium 1). Dette kræver lidt forberedelse. Først skal vi beregne en transformeret variabel med Data/Transform (husk Edit/Mode/Edit først). Hvis man markerer søjlen (klik på navnet) først og så vælger (Y ) fra menuen kommer den til at hedde igf1_sqrt. Dernæst skal vi sætte et filter (Where clause) med Data/Filter/Subset Data, hvor vi klikker os frem til tanner EQ 1. Derefter vælger vi bare Statistics/Regression/Simple og angiver under Variables sex som BYvariabel. Where tanner EQ 1 --------------------------------------------- sex=1 --------------------------------------------- The REG Procedure : MODEL1 Analysis of Variance Mean Source DF Squares Square F Value Pr > F 1 190 1041.76482 162.60458 1041.76482 7.17160 145.26 <.0001 Corrected Total 191 2404.6940 Root MSE 2.67798 R-Square 0.4 Dependent Mean 1.5611 Adj R-Sq 0.40 Coeff Var 19.74750 Parameter Estimates Parameter Variable DF Estimate t Value Pr > t Intercept 1 8.5082 0.46198 18.41 <.0001 age 1 0.64564 0.0557 12.05 <.0001 --------------------------------------------- sex=2 --------------------------------------------- The REG Procedure : MODEL1 Analysis of Variance Mean Source DF Squares Square F Value Pr > F 1 10.556 10.556 21.79 <.0001 117 556.14202 4.755 Corrected Total 118 659.69566 Root MSE Dependent Mean 2.18022 14.8298 R-Square Adj R-Sq 0.1570 0.1498 Coeff Var 14.7077 Parameter Estimates Parameter Variable DF Estimate t Value Pr > t Intercept 1 10.70551 0.9047 11.8 <.0001 age 1 0.47612 0.10201 4.67 <.0001 Dvs. for drengene har vi regressionslinjen igf1 = 8.50 + 0.65 alder og for pigerne igf1 = 10.71 + 0.47 alder 1
Spørgsmål Undersøg om regressionslinjerne er ens for de to køn, og om der samlet set er en effekt af alder. Vi laver en samlet analyse (kovariansanalyse) med Statistics/ANOVA/Linear s ligesom i vitcap -opgaven. Where tanner EQ 1 Number of observations 515 NOTE: Due to missing values, only 11 observations can be used in this analysis. 07 1262.481601 1918.746605 420.827200 6.249989 67. <.0001 Corrected Total 10 181.228206 0.96854 17.80074 2.499998 14.0445 age 1 1210.00701 1210.00701 19.60 <.0001 sex 1 41.7867 41.7867 6.62 0.0106 age*sex 1 11.099228 11.099228 1.78 0.186 age 1 485.9917992 485.9917992 77.76 <.0001 sex 1 24.0018800 24.0018800.84 0.0509 age*sex 1 11.0992276 11.0992276 1.78 0.186 Parameter Estimate t Value Pr > t Intercept 10.70550527 B 1.0742720 10.2 <.0001 age 0.47611991 B 0.11696968 4.07 <.0001 sex 1-2.2016886 B 1.1249952-1.96 0.0509 age*sex 1 0.16952499 B 0.12721167 1. 0.186 age* Bemærk at vekselvirkningsleddet ikke er signifikant. Det vil sige, vi kan antage at linjerne er parallelle (har samme hældning). Hvis vi ser på Type I kvadrat summerne kan vi se at sex er signifikant hvis vi fjerner vekselvirkningsleddet. Spørgsmål 4 Gentag spørgsmål 2 og for postpubertale (alder > 25år). Her behøver vi sådan set bare at ændre filteret (til age GT 25) og køre samme analyser. Vi springer de separate analyser over og går direkte til kovariansanalysen. NOTE: Due to missing values, only 122 observations can be used in this analysis. 2
118 295.8000794 61.04418 98.6000265.059689 2.2 <.0001 Corrected Total 121 656.844212 0.4506 12.4052 1.749197 14.10242 age 1 292.944166 292.944166 95.74 <.0001 sex 1 2.7404911 2.7404911 0.90 0.459 age*sex 1 0.1154220 0.1154220 0.04 0.846 age 1 214.182457 214.182457 70.05 <.0001 sex 1 0.00425 0.00425 0.01 0.9174 age*sex 1 0.1154220 0.1154220 0.04 0.846 Parameter Estimate t Value Pr > t Intercept 18.61218479 B 0.876994 22.22 <.0001 age -0.09924047 B 0.0202587-4.90 <.0001 sex 1-0.11184551 B 1.07626806-0.10 0.9174 age*sex 1-0.0047155 B 0.02427869-0.19 0.846 age* Vekselvirkningsleddet var insignifikant, så vi fjerner det og får NOTE: Due to missing values, only 122 observations can be used in this analysis. 2 295.6846574 147.842287 48.71 <.0001 119 61.158768.049476 Corrected Total 121 656.844212 0.450160 12.527 1.742110 14.10242 age 1 292.944166 292.944166 96.52 <.0001 sex 1 2.7404911 2.7404911 0.90 0.49 age 1 257.9914012 257.9914012 85.01 <.0001 sex 1 2.7404911 2.7404911 0.90 0.49 Parameter Estimate t Value Pr > t Intercept 18.74299561 B 0.49601584 7.79 <.0001 age -0.1025272 0.01111981-9.22 <.0001 sex 1-0.1090792 B 0.2718485-0.95 0.49 Vi ser at sex ikke er signifikant, medens age er klart signifikant uanset om sex først fjernes
fra modellen (Type I SS) eller ej (Type III SS). Spørgsmål 5 Forklar hvorfor en lineær regression af igf1 overfor alder ville være misvisende, hvis man analyserede hele materialet på en gang. Læg mærke til fortegnet! igf1 stiger med alderen for de små og falder med alderen for de voksne. Hvis man blander dem sammen får man en næsten vandret regressionslinje, som selvfølgelig slet ikke beskriver data. I har vel husket at tegne!? (se næste side) Spørgsmål 6 Udvid analysen i spørgsmål 4 til en multipel regressionsanalyse, idet højde, vægt og BMI = vægt/højde 2 inddrages. Her skal man lige først ind i Data/Transform og udføre beregningen af bmi = weight/(height/100)**2 NOTE: Due to missing values, only 6 observations can be used in this analysis. 5 20.764128 4.1528257 0.91 0.4901 0 17.498018 4.582767 Corrected Total 5 158.262401 0.11201 15.00666 2.140859 14.26606 age 1 16.8605065 16.8605065.58 0.068 sex 1 0.00000008 0.00000008 0.00 0.9999 height 1 2.5466890 2.5466890 0.56 0.4618 weight 1 1.440276 1.440276 0.1 0.5789 bmi 1 0.886094 0.886094 0.08 0.770 age 1 16.078881 16.078881.50 0.0712 sex 1 1.751010 1.751010 0.8 0.5412 height 1 0.21285905 0.21285905 0.05 0.808 weight 1 0.50556028 0.50556028 0.11 0.7421 bmi 1 0.886094 0.886094 0.08 0.770 Parameter Estimate t Value Pr > t Intercept 1.41710988 B 72.628872 0.4 0.6684 age -0.0669517 0.0579197-1.87 0.0712 sex 1-0.9184848 B 1.47848712-0.62 0.5412 height -0.0946297 0.4910620-0.22 0.808 weight 0.19709090 0.5942815 0. 0.7421 bmi -0.4769516 1.6849214-0.29 0.770 4
Figur 1: Hele Juul-materialet. Det ses at der ikke er noget der bliver signifikant. Type I kvadratsummerne kan bruges til successiv modelreduktion. Men hov!: Alderen ser heller ikke ud til at være signifikant nu. Lige før var den klart signifikant! Hvordan gik det til? Sagen er at variansanalyseskemaet beregnes på de data der indgår i den fulde model, og der indgår kun 6 observationer i den mod 122 nå vi kun ser på alder og køn. Vægt og højde er kun registreret på et fåtal af personerne. Det er en effekt man skal være på vagt overfor, især når man har mange kovariater. 5