Regressionsanalyse i SAS

Transkript

1 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse med gentagelser Regressionslinie gennem (0,0) Sammenligning af regressionslinier Regressionsanalyse med flere uafhængige variable Kvadratisk regression 1

2 Eksempler på regressionsanalyse med SAS Dette notat indeholder SAS-programmer til ZAR eksempel 17.1, 17.2, 17.3, 17.4, og 17.8, samt konstruerede eksempler svarende til analyserne i ZAR afsnit 17.9 og kapitel 18. I praktiske anvendelser med middelstore eller store datasæt suppleres de viste analyser med histogrammer og qqplot for residualer (beregnet med PROC UNIVARIATE). Det kan evt. være fornuftigt at supplere med yderligere residualplot og andre tegninger afhængigt af problemets karakter. I programmet kan indsættes den generelle udskriftsdirigerende ordre GOPTIONS FTEXT=SWISS HTEXT=2; For at få Word-kompatibel udskrift kan ODS-ordre indsættes først og sidst i programmet. ODS RTF body='c:\myfiles\filename.rtf'; ODS RTF CLOSE Her kommer filen filename.rtf i biblioteket c;\myfiles. 2

3 Regression i GLM I nedenstående SAS-programmer antages det, at y er numerisk responsvariabel, x, og z er numeriske regressionsvariable, mens k er kategorisk variabel. SAS-programmerne antages at have formen: PROC GLM; CLASS k; MODEL (her indsættes fra tabel); Sammenhæng mellem regressionsligning og modelordre i GLM: Regressionsligning Modelordre i GLM E(Y i )=a+bx i MODEL y=x; E(Y i )=bx i MODEL y=x/noint E(Y ij )=a i +b i x ij MODEL y=k k*x; E(Y ij )=a i +bx ij MODEL y=k x; E(Y ij )=a+bx ij MODEL y=x; E(Y ij )= a i MODEL y=k E(Y i )=a+bx i +cz i MODEL y=x z 3

4 Sammenhæng mellem regressionsligning og modelordre i GLM: Regressionsligning Modelordre i GLM E(Y i )=a+bx i MODEL y=x; E(Y i )=bx i MODEL y=x/noint E(Y ij )=a i +b i x ij MODEL y=k k*x; E(Y ij )=a i +bx ij MODEL y=k x; E(Y ij )=a+bx ij MODEL y=x; E(Y ij )= a i MODEL y=k E(Y i )=a+bx i +cz i MODEL y=x z 4

5 Eksempel 17.1 i ZAR: Regressionsanalyse uden gentagelser PROGRAM: DATA zar17_1; INPUT alder CARDS; ; /*Tegning af vinge mod alder. Indlagt regressionslinie*/ SYMBOL1 v=dot c=red; SYMBOL2 v=none I=rl c=blue; PROC GPLOT; PLOT vinge*alder=1 vinge*alder=2/overlay; 5

6 /*Regressionsanalyse. Estimation af parametre. Konstruktion af datasæt med studentiserede residualer ("student"), værdier til 95% konfidensbånd for regressionslinie ("l95m" og "u95m"), samt predikterede værdier ("yhat").*/ PROC GLM DATA=zar17_1; MODEL vinge=alder/ss1 SOLUTION; OUTPUT OUT=ny STUDENT=student L95M=l95m U95M=u95m P=yhat; /*Tegning af residualplot*/ PROC GPLOT; PLOT student*alder=1/vref=0 VREF=1.96 VREF=-1.96; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT vinge*alder=2 l95m*alder=3 u95m*alder=3/overlay; QUIT; 6

7 UDSKRIFT: The GLM Procedure Dependent Variable: vinge Number of observations 13 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Cor.Total R-Square Coeff Var Root MSE vinge Mean Standard Parameter Estimate Error t Value Pr > t Intercept alder <

8 ZAR eks 17.1: Plot af vinge mod alder. Indlagt regressionslinie. 8

9 ZAR eks 17.1: Konfidensbånd for regressionslinie. 9

10 ZAR eks 17.1: Residualplot for regressionslinie. 10

11 Eksempel 17.8 i ZAR: Regressionsanalyse med gentagelser PROGRAM: DATA zar17_8; INPUT alder CARDS; ; /*Tegning af blodtryk mod alder. Indlagt regressionslinie*/ SYMBOL1 v=dot c=red; SYMBOL2 v=none I=rl c=blue; PROC GPLOT; PLOT blodtryk*alder=1 blodtryk*alder=2/overlay; /*Her her konstrueres alder som ny kategorisk variabel "gruppe"*/ DATA zar17_8; SET zar17_8; gruppe=alder; /*Bartletts test for varianshomogenitet*/ PROC GLM DATA=zar17_8; CLASS gruppe; MODEL blodtryk=gruppe/ss1; MEANS gruppe/hovtest=bartlett; OUTPUT OUT=ny1 STUDENT=student1; /*Residualplot til kontrol af varianshomogenitet*/ PROC GPLOT DATA=ny1; PLOT student1*alder/vref=0 VREF=1.96 VREF=-1.96; 11

12 /* Test for linearitet.*/ PROC GLM DATA=zar17_8; CLASS gruppe; MODEL blodtryk=alder gruppe/ss1; /* Estimation af parametre under slutmodel. Konstruktion af datasæt med studentiserede residualer ("student"), værdier til 95% konfidensbånd for regressionslinie ("l95m" og "u95m") og predikterede værdier ("yhat").*/ PROC GLM DATA=zar17_8; MODEL blodtryk=alder/ss1 SOLUTION; OUTPUT OUT=ny2 STUDENT=student2 L95M=l95m U95M=u95m P=yhat; /*Tegning af residualplot*/ PROC GPLOT; PLOT student2*alder=1/vref=0 VREF=1.96 VREF=-1.96; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT blodtryk*alder=2 l95m*alder=3 u95m*alder=3/overlay; 12

13 UDSKRIFT: /*Bartletts test for varianshomogenitet*/ Bartlett's Test for Homogeneity of blodtryk Variance Source DF Chi-Square Pr > ChiSq gruppe The GLM Procedure Level of blodtryk gruppe N Mean Std Dev

14 ZAR eks Blodtryk tegnet mod alder. Indlagt regressionslinie. 14

15 ZAR eks Studentiserede residualer under variansanalysemodel. 15

16 /* Test for linearitet.*/ Dependent Variable: blodtryk The GLM Procedure Number of observations 19 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Cor.Total R-Square Coeff Var Root MSE blodtryk Mean Source DF Type I SS Mean Square F Value Pr > F alder <.0001 gruppe

17 ZAR eks Studentiserede residualer under regressionsanalysemodel. 17

18 /* Estimation af parametre under slutmodel.*/ Dependent Variable: blodtryk The GLM Procedure Number of observations 19 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr. Total R-Square Coeff Var Root MSE blodtryk Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 alder B <

19 ZAR eks17.8 : Konfidensbånd for regressionslinie 19

20 Afsnit 17.9 i ZAR: Regressionslinie gennem (0,0). PROGRAM: /*Regression uden gentagelser gennem (0,0). 1 uafhængig variabel*/ /*Konstruerede data. Det antages at y=x+z, hvor x er regressionsvariabel og z er fejl med fordeling N(0,9).*/ /*Her konstrueres data*/ DATA zar17_9; DO x=1 TO 20 BY 1; y=x+3*rannor(345557); OUTPUT; END; /*Tegning af y mod x. Indlagt sædvanlig regressionslinie*/ SYMBOL1 v=dot c=red; SYMBOL2 v=none I=rl c=blue; PROC GPLOT; PLOT y*x=1 y*x=2/overlay; QUIT; 20

21 /*Regressionsanalyse. Konstruktion af datasæt med studentiserede residualer ("student"), værdier til 95% konfidensbånd for regressionslinie ("l95m" og "u95m"), samt predikterede værdier ("yhat").*/ PROC GLM DATA=zar17_9; MODEL y=x/ss1 NOINT; /*NOINT får regressionslinien gennem (0,0)*/ OUTPUT OUT=ny STUDENT=student L95M=l95m U95M=u95m P=yhat; /*Tegning af residualplot*/ PROC GPLOT; PLOT student*x=1/vref=0 VREF=1.96 VREF=-1.96; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT yhat*x=2 l95m*x=3 u95m*x=3/overlay; 21

22 ZAR afsnit 17.9: Regression. Hypotese: Linie gennem (0,0). 22

23 Dependent Variable: y The GLM Procedure Number of observations 20 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Uncorrected Total R-Square Coeff Var Root MSE y Mean NOTE: No intercept term is used: R-square is not corrected for the mean. Source DF Type I SS Mean Square F Value Pr > F x <.0001 Standard Parameter Estimate Error t Value Pr > t x <

24 Regressionslinie gennem (0,0) med indlagt regressionsbånd. 24

25 Kapitel 18 i ZAR: Sammenligning af regressionslinier. /*ZAR kapitel 18. Sammenligning af to regressionslinjer.*/ /*Data er konstruerede. De antages at ligge i 'zar18_1' med de tre variable 'y', 'x' og 'gruppe', hvor y=2+x+z i gruppe 1 og y=8+x+z i gruppe 2, hvor z er *fejl* med fordeling N(0,9)*/ GOPTIONS FTEXT=SWISS HTEXT=2; /*Her konstrueres data*/ DATA gruppe1; DO x=1 TO 20 BY 1; y=2+x+3*rannor(345557); gruppe=1; OUTPUT; END; DATA gruppe2; DO x=10 TO 25 BY 1; y=8+x+3*rannor(35777); gruppe=2; OUTPUT; END; DATA zar18_1; SET gruppe1 gruppe2; 25

26 /*Undersøgelse af linearitet*/ SYMBOL1 V=dot I=rl C=red; SYMBOL2 V=star I=rl C=blue; PROC GPLOT DATA=zar18_1; PLOT y*x=gruppe; QUIT; PROC GLM DATA=zar18_1; /*Regressionsanalyse. Residualer til kontrol af varianshomogenitet*/ CLASS gruppe; MODEL y=x gruppe gruppe*x/ss1; OUTPUT OUT=ny1 STUDENT=student1; /*Her må plottesymboler resettes */ GOPTIONS RESET FTEXT=SWISS HTEXT=2; /*Residualplot*/ SYMBOL1 V=dot I=none C=red; SYMBOL2 V=star I=none C=blue; PROC GPLOT DATA=ny1; PLOT student1*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; QUIT; /*Regressionsanalyse med samme hældning men forskellig skæring med y-akse for de to linier. Estimation af parametre.*/ PROC GLM; CLASS gruppe; MODEL y=x gruppe /SS1 SOLUTION;; OUTPUT OUT=ny2 STUDENT=student2 L95M=l95m U95M=u95m P=yhat; 26

27 /*Tegning af residualplot*/ PROC GPLOT; PLOT student2*x=gruppe/vref=0 VREF=1.96 VREF=-1.96; PROC SORT; BY gruppe; GOPTIONS RESET FTEXT=SWISS HTEXT=2; AXIS1 ORDER=0 TO 30 by 10; AXIS2 ORDER=-10 TO 40 by 10; /*Tegning af regressionslinie med 95% konfidensbånd*/ SYMBOL1 v=dot I=none c=red; SYMBOL2 v=none I=rl c=blue; SYMBOL3 v=none I=join c=green; PROC GPLOT; PLOT y*x=2 l95m*x=3 u95m*x=3/overlay HAXIS=AXIS1 VAXIS=AXIS2; BY gruppe; 27

28 UDSKRIFT: Tegning af regressionslinier for gruppe 1 og gruppe 2. 28

29 /*test for same hældning på regressionslinier*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr. Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 gruppe x*gruppe

30 Studentiserede residualer for gruppe 1 og gruppe 2. Forskellige regressionslinier. 30

31 /*Analyse og parameterestimation. Model med samme hældning på regressionslinier.*/ Dependent Variable: y The GLM Procedure Class Level Information Class Levels Values gruppe Number of observations 36 Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr.Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 gruppe Standard Parameter Estimate Error t Value Pr > t Intercept B x <.0001 gruppe B gruppe B... 31

32 Studentiserede residualer for gruppe 1 og gruppe 2. Samme hældning på regressionslinier. 32

33 Regressionslinie med konfidensbånd for gruppe 1 33

34 Regressionslinie med konfidensbånd for gruppe 2 34

35 Eksempel i ZAR: Regressionsanalyse med flere uafhængige variable /*Data er hentet fra Zar eksempel 20a. De fire første variable er betegnet med x1-x4 og den femte med y. Data antages at ligge i 'zar20'.*/ GOPTIONS FTEXT=SWISS HTEXT=2; PROGRAM 1: PROC CORR; /*korrelationskoefficienter jvf zar 20.1d*/ PROGRAM2: /*Regressionsanalyse med estimerede parametre, jvf Zar 20.1g. Konstruktion af datasæt med studentiserede residualer ("student1") og predikterede værdier ("yhat1"). */ PROC GLM; MODEL y=x1 x2 x3 x4/ss1 SOLUTION; OUTPUT OUT=ny1 STUDENT=student1 P=yhat1; /*residualer tegnet mod x4 (det kunne have været en af de andre baggrundsvariable)*/ SYMBOL1 V=dot C=red; PROC GPLOT DATA=ny1; PLOT student1*x4/vref=0 VREF=1.96 VREF=-1.96; /*modelkontrol*/ SYMBOL2 V=none I=rl C=blue; PROC GPLOT DATA=ny1; PLOT y*yhat1 y*y=2/overlay HAXIS=1 TO 5 BY 1 VAXIS=1 TO 5 BY 1; QUIT; /*modellen passer ikke ret godt på grund af de to mulige outliers */ PROGRAM3: /*Trinsvis elimination jvf zar 20.2*/ PROC GLM; MODEL y=x1 x2 x4/solution; run; PROC GLM; MODEL y=x1 x4/solution; run; /*Her tegnes nye residualplot og foretages ny grafisk modelkontrol*/ 35

36 UDSKRIFT 1: The CORR Procedure 5 Variables: x1 x2 x3 x4 y Simple Statistics Var N Mean Std Dev Sum Minimum Maximum x x x x y Pearson Correlation Coefficients, N = 33 Prob > r under H0: Rho=0 x1 x2 x3 x4 y x <.0001 x x x y < UDSKRIFT 2: The GLM Procedure (Model y=x1 x2 x3 x4) Dependent Variable: y Number of observations Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corr. Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 x x x

37 Source DF Type III SS Mean Square F Value Pr > F x <.0001 x x x Standard Parameter Estimate Error t Value Pr > t Intercept x <.0001 x x x Zar 20: Residualplot Zar 20: Modelkontrol 37

38 UDSKRIFT 3: The GLM Procedure (Model y=x1 x2 x3) Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 x x Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 x <.0001 x x The GLM Procedure (Model y=x1 x4) Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE y Mean Source DF Type I SS Mean Square F Value Pr > F x <.0001 x Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 x <.0001 x

39 Eksempel til afsnit 21 i ZAR: Kvadratisk regressionsanalyse /*Eksempel fra Draper og Smith: Regressionanalysis (side 162).*/ GOPTIONS FTEXT=SWISS HTEXT=2; /* Lay-out på figurer*/ DATA krystal; /*indlæsning af data*/ INPUT I8 CARDS; ; ODS RTF body='c:\mylib\kvadratiskregres.rtf'; SYMBOL1 v=dot I=rq; ; PROC GPLOT PLOT krystal*i8; PROC GLM DATA=krystal; MODEL krystal=i8 I8*I8/SS1 SOLUTION; OUTPUT OUT=res STUDENT=student; PROC PRINT; SYMBOL V=dot I=none; PROC GPLOT; PLOT student*i8; ODS RFT CLOSE; QUIT; /*tegning af krystal mod I8 med*/ /*kvadratisk regressionsfunktion.*/ /*kvadratisk regression*/ /*datasæt med residualer*/ /*udskrift af data og residualer*/ /*Residualplot*/ 39

40 UDSKRIFT The GLM Procedure Number of observations 19 Dependent Variable: krystal Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE krystal Mean Source DF Type I SS Mean Square F Value Pr > F I <.0001 I8*I <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 I <.0001 I8*I <.0001 Studentiserede residualer Obs I8 krystal student

41 Zar 21: Krystal tegnet mod I8 Zar 21: Studentiserede residualer tegnet mod I8 41