Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier 1
Regressionsanalyse med GLM I notatet Rregressionsanalyse med SAS er vist, hvordan man kan udføre en regressionsanalyse med PROC REG. Man kan også bruge PROC GLM til regressionanalyse. Syntaksen er næsten den samme som i PROC REG og udskrifterne ligner også hinanden meget. Nedenfor er vist, hvordan Program Note 13.1 - Simple Linear Regression (fra SAS Program Notes til Biostatistics: A Guide to Design, Analysis, and Discovery Chapter 13: Linear Regression) kan udføres med PROC GLM SAS-PROGRAM PROC GLM DATA=BP; MODEL SBP = HEIGHT/ SOLUTION; OUTPUT OUT=STATS PREDICTED=PRED /*Dette datasæt er identisk med det output- */ STUDENT=STUDENT /*datasæt der konstrueres med PROC REG*/ L95=LOW95PI U95=UP95PI L95M=LOW95CI U95M=UP95CI; UDSKRIFT The GLM Procedure Number of Observations Read 50 Number of Observations Used 50 Dependent Variable: SBP Sum of Source DF Squares Mean Square F Value Pr > F Model 1 2663.43287 2663.43287 12.64 0.0009 Error 48 10117.06713 210.77223 Corr.Tot. 49 12780.50000 R-Square Coeff Var Root MSE SBP Mean 0.208398 14.30345 14.51800 101.5000 Source DF Type I SS Mean Square F Value Pr > F HEIGHT 1 2663.432875 2663.432875 12.64 0.0009 Standard Parameter Estimate Error t Value Pr > t Intercept 61.13913236 11.53807743 5.30 <.0001 HEIGHT 0.76877843 0.21626538 3.55 0.0009 2
Sammenligning af regressionslinier. Data antages at ligge i et SAS-datasæt med de tre variable y, der er målingsvariablen og de to baggrundsvariable x, der er numerisk, og gruppe der er kategorisk. Modellen er at y afhænger lineært af x, men med parametre der kan variere mellem grupperne. /*Undersøgelse af linearitet*/ SYMBOL1 V=dot I=rl C=red; SYMBOL2 V=star I=rl C=blue; PROC GPLOT DATA=sammenlign; PLOT y*x=gruppe; QUIT; PROC GLM DATA=samenlign; /*Regressionsanalyse. Residualer til kontrol af varianshomogenitet*/ CLASS gruppe; MODEL y=x gruppe gruppe*x/ss1; OUTPUT OUT=ny1 STUDENT=student1; /*Her må plottesymboler resettes */ GOPTIONS RESET FTEXT=SWISS HTEXT=2; /*Residualplot*/ SYMBOL1 V=dot I=none C=red; SYMBOL2 V=star I=none C=blue; PROC GPLOT DATA=ny1; PLOT student1*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; QUIT; /*Regressionsanalyse med samme hældning men forskellig skæring med y-akse for de to linier. Estimation af parametre.*/ PROC GLM; CLASS gruppe; MODEL y=x gruppe /SS1 SOLUTION;; OUTPUT OUT=ny2 STUDENT=student2 L95M=l95m U95M=u95m; /*Tegning af residualplot*/ PROC GPLOT; PLOT student2*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; PROC SORT; BY gruppe; GOPTIONS RESET FTEXT=SWISS HTEXT=2; AXIS1 ORDER=0 TO 30 by 10; 3
AXIS2 ORDER=-10 TO 40 by 10; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL1 v=dot I=none c=red; SYMBOL2 v=none I=rl c=blue; SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT y*x=2 l95m*x=3 u95m*x=3/overlay HAXIS=AXIS1 VAXIS=AXIS2; BY gruppe; 4
UDSKRIFT: Tegning af regressionslinier for gruppe 1 og gruppe 2. 5
/*test for same hældning på regressionslinier*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe 2 1 2 Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 1856.301155 618.767052 49.43 <.0001 Error 32 400.551757 12.517242 Corr. Total 35 2256.852912 R-Square Coeff Var Root MSE y Mean 0.822518 19.92244 3.537972 17.75873 Source DF Type I SS Mean Square F Value Pr > F x 1 1670.702465 1670.702465 133.47 <.0001 gruppe 1 184.655151 184.655151 14.75 0.0005 x*gruppe 1 0.943540 0.943540 0.08 0.7854 [Udskriftskommentar I linien x*gruppe er angivet mean-square for hypotesen om, at de to linier har samme hældning.] 6
Studentiserede residualer for gruppe 1 og gruppe 2. Forskellige regressionslinier. 7
/*Analyse og parameterestimation. Model med samme hældning på regressionslinier.*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe 2 1 2 Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model 2 1855.357615 927.678808 76.25 <.0001 Error 33 401.495297 12.166524 Corr.Total 35 2256.852912 R-Square Coeff Var Root MSE y Mean 0.822099 19.64135 3.488054 17.75873 Source DF Type I SS Mean Square F Value Pr > F x 1 1670.702465 1670.702465 137.32 <.0001 gruppe 1 184.655151 184.655151 15.18 0.0005 [Udskriftskommentar I linien gruppe er angivet mean-square for hypotesen om, at de to linier har samme skæring med y-aksen. I linien x er angivet test for om den fælles hældning er 0.] Standard Parameter Estimate Error t Value Pr > t Intercept 9.340275654 B 2.11373330 4.42 0.0001 x 0.841225531 0.11002724 7.65 <.0001 gruppe 1-5.456811467 B 1.40068829-3.90 0.0005 gruppe 2 0.000000000 B... 8
Studentiserede residualer for gruppe 1 og gruppe 2. Beregnet under modellen om samme hældning på regressionslinier. 9
Regressionslinie med konfidensbånd for gruppe 1 10
Regressionslinie med konfidensbånd for gruppe 2 11