Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0
Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til hver X svarer en Y-værdi på linien Y i (hat) som angiver estimat af Y i for X i vertikal (langs y-aksen) afvigelse: Y i Y i residual
Vi søger den linie, der minimerer n Y i Y 2 i 1 n i 1 i 2 0! residual SS (SS res ) ~error SS SS res : den variabilitet for Y, der ikke forklares ved linien og dermed ved X
SS X i 1 Vi skal nu bruge n X i X 2 x 2 altså notation: x X i X og n SCP XY X i X Y i Y xy i 1 SCP: sum of cross-products xy BEMÆRK: n 1 betegnes kovarians, ofte cov(x,y)
Regressionskoefficient - b xy x 2 b ~ estimat for enhed: enhed Y enhed X b angiver ændring i Y for ændring på 1 for X hældning af linien
Skæring med Y-aksen a ~ estimat for linie entydigt bestemt ved og et talpar, f.eks. (0, Y 0 ) a Y 0, men vi mangler information istedet bruger vi a Y bx da X, Y kendes og må ligge på linien (kan vises teoretisk) a har samme enhed som Y
Med linien bestemt af Ŷ i a bx i er SS res mindst mulig dvs. "least squares" er fundet!
Formlen Ŷ i a bx i alternativt Ŷ i Y b X i X kan bruges til prædiktion af Y vha. X PAS PÅ med X-værdier uden for range [X min,x max ]!
Antagelser gælder i princippet KUN når man vil teste! 1) For hver X er Y NF (rettere ) 2) For hver X er var(y) ens (igen ) 3) For hver X ligger Y på samme rette linie (hvis opfylder 1) og 2), så gør Y også: linearitet) 4) Y udtaget tilfældigt og uafhængigt 5) X målt nøjagtigt (men IKKE nødvendigvis NF!) Afvigelser fra 1) - 3) kan ofte rettes ved transformationer
Test af regressionsparametre (Regression er faktisk når 0!) H 0 : 0 H A : 0 TO metoder
1) ANOVA SS total Y i Y 2, DF total n 1 SS regr Ŷ i Y 2, DF regr 1 SS regr SS total hvis linearitet SS res Y i Ŷ i 2, DF res n 2 SS total SS regr SS res : den variabilitet for Y, der ikke forklares ved linien og dermed ved X
F MS regr MS res 2 MS res s Y X, SE s Y X ensidet test med DF: 1, n-2 med 1 DF i tælleren peger dette mod t-fordelingen!
2) t-test (tosidet): H 0 : 0 H A : 0 GENEREL metode til test af parametre! t 0 SE b o s b da b og SE S b s b 2 s 2 Y X x 2 s b s Y X x 2
Konfidensinterval for parametre IGEN generelt (NF osv) CI parameterestimat t*se estimat CI for : b t 2, n 2 s b
Konfidensinterval for estimeret Y: ( konfidensbånd for hele linien) 1) m nye individer med X X i : SE s Ŷi m 2 s 1 Y X m 1 n X i X 2 x 2 hvor n er størrelsen af stikprøven, som regressionen er estimeret udfra GENEREL formel!
2) Populationens Y for givet X i : m 1/m 0 2 SE s Ŷi s Ŷi s 1 Y X n X i X 2 x 2 højre led i kantet parentes: for X i X : SE s Ŷi 2 s Y X n svarer til SE mindst mulig for X i 0, Y 0 a SE s a s Y X 2 1 n X2 x 2
3) Én ny måling, X i : m 1 1/m 1 SE s Ŷi 1 2 s Y X 1 1 n X i X 2 x 2 CI pop CI m CI 1
VIGTIGT residual-analyse residual E i Y i Y i plot E i mod X i eller Y i men IKKE mod Y i!!
Fortolkning Prædiktion lineær sammenhæng kausal sammenhæng! Kræver en faglig forståelse - som i øvrigt enhver sund H 0 Confounding
Replikation (ægte) k : antal X værdier n j 1 : antal observationer dvs.y værdier pr. X man skal IKKE benytte Y j for given X j til regression: information smides væk! Test for linearitet kan ikke (simpelt) udføres uden replikation for hver X j : vi har ingen variation på Y for givet X k N j 1 n j
N SS X X i X 2 x 2 i 1 SS X N 1 var X N SS Y Y i Y 2 y 2 i 1 SS Y N 1 var Y N SCP XY X i X Y i Y xy i 1 SCP XY N 1 cov X, Y
som tidligere: b xy x 2 og videre a Y bx SS regr xy 2 x 2, DF 1 SS res SS total SS regr y 2 SS regr
ANOVA-test, også som før Y ij Y Ŷ i Y Y ij Ŷ i ~ total regression residual med replikation kommer et within led til: (within X-værdierne) Y ij Y Y i Y Y ij Y i ~ total among within
SS among k ni Y ij 2 k n n i i Y ij 2 N j 1 DF among k 1 SS within SS total SS among DF within DF total DF among N 1 k 1 N k videre kan among opdeles: Y i Y Ŷ i Y Y i Ŷ i ~ among regression linearitetsafvigelse herefter linearitetsafvigelse: deviation
Samlet: Y ij Y Ŷ i Y Y i Ŷ i Y ij Y i ~ total regression deviation within-afvigelse SS dev SS among SS regr DF dev DF among DF regr k 2 i SS-termer: SS res SS total SS regr SS dev SS within SS among
To hypoteser 1) Linearitet (MS dev og MS within estimerer samme varians) H 01 : regression lineær H A1 : regression ikke lineær F MS dev MS within, DF k 1, N k 2) Som før H 02 : 0 H A2 : 0 TO muligheder!
A) Accept af H 01, altså linearitet F MS regr MS res, DF 1, N 2 hvor MS res er MS dev og MS within pooled B) Forkast af H 01, altså IKKE linearitet Her kan man ikke stole på prædikterede Y-værdier! Test af H 02 giver ikke mening! Forsøg eventuelt med transformationer!
Transformation af Y (X kan også transformeres, men dette har intet med antagelser om NF og homoskedasticitet af Y at gøre) OK hvis ikke NF og ikke homoskedasticitet men IKKE ok blot fordi man ikke har en ret linie! risiko for at transformeret Y ikke er NF eller homoskedastisk Prøv istedet med ikke-lineær, f.eks.polynomisk, regression - herom senere
The CORR Procedure 2 Variables: FEMUR1 ANATREG Simple Statistics Variable N Mean Std Dev Median Minimum Maximum FEMUR1 20 45.26250 3.15973 44.97500 39.60000 52.50000 ANATREG 20 163.45000 9.32300 165.25000 147.00000 184.00000 SSCP Matrix FEMUR1 ANATREG FEMUR1 41163.5725 148505.8751 ANATREG 148505.8751 535969.5000 CSSCP Matrix FEMUR1 ANATREG FEMUR1 189.694423 542.762561 ANATREG 542.762561 1651.450000 Covariance Matrix, DF = 19 FEMUR1 ANATREG FEMUR1 9.98391699 28.56645058 ANATREG 28.56645058 86.91842105 Pearson Correlation Coefficients, N = 20 Prob > r under H0: Rho=0 FEMUR1 ANATREG FEMUR1 1.00000 0.96973 <.0001 ANATREG 0.96973 1.00000 <.0001 Spearman Correlation Coefficients, N = 20 Prob > r under H0: Rho=0 FEMUR1 ANATREG FEMUR1 1.00000 0.95557 <.0001 ANATREG 0.95557 1.00000 <.0001
The REG Procedure Model: MODEL1 Dependent Variable: ANATREG anatomically reconstructed stature adjusted for age Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 1552.97764 1552.97764 283.87 <.0001 Error 18 98.47236 5.47069 Corrected Total 19 1651.45000 Root MSE 2.33895 R-Square 0.9404 Dependent Mean 163.45000 Adj R-Sq 0.9371 Coeff Var 1.43099 Parameter Estimates Parameter Standard Variable Label DF Estimate Error Intercept Intercept 1 33.94282 7.70434 FEMUR1 1 2.86125 0.16982 Variable Label DF t Value Pr > t Intercept Intercept 1 4.41 0.0003 FEMUR1 1 16.85 <.0001 Variable Label DF 95% Confidence Limits Intercept Intercept 1 17.75661 50.12902 FEMUR1 1 2.50446 3.21803
Obs FEMUR1 ANATREG _pred _resid _l95m _u95m 1 47.15 164.50 168.85-4.35 167.56 170.14 2 43.45 159.00 158.26 0.74 156.99 159.54 3 45.05 166.00 162.84 3.16 161.74 163.94 4 41.35 156.00 152.26 3.74 150.48 154.03 5 42.55 155.00 155.69-0.69 154.22 157.15 6 44.90 166.00 162.41 3.59 161.31 163.52 7 46.90 169.00 168.14 0.86 166.89 169.38 8 47.40 171.50 169.57 1.93 168.23 170.90 9 52.50 184.00 184.16-0.16 181.35 186.96 10 41.70 149.50 153.26-3.76 151.58 154.94 11 48.05 173.50 171.43 2.07 169.94 172.91 12 43.30 158.50 157.83 0.67 156.53 159.14 13 43.60 159.00 158.69 0.31 157.44 159.94 14 47.65 169.50 170.28-0.78 168.89 171.67 15 39.60 147.00 147.25-0.25 144.95 149.55 16 42.75 155.50 156.26-0.76 154.84 157.68 17 48.60 172.50 173.00-0.50 171.38 174.62 18 48.75 172.50 173.43-0.93 171.77 175.09 19 46.70 166.50 167.56-1.06 166.35 168.78 20 43.30 154.00 157.83-3.83 156.53 159.14
Prædiktion af middelværdi af Y for givet X
Prædiktion af individuel Y for givet X
The ANOVA Procedure Level of -----------anatreg----------- femur1 N Mean Std Dev 39.60 10 146.637753 2.22606261 41.35 10 155.747301 2.13519985 41.70 10 148.238991 2.69897593 42.55 10 156.085975 2.06092951 42.75 10 155.601315 2.74361979 43.30 10 156.186408 2.56961607 43.45 10 159.278256 1.86303009 43.60 10 157.626924 1.32399990 44.90 10 166.239719 3.26503851 45.05 10 165.668727 1.69447564 46.70 10 166.518040 2.05054323 46.90 10 168.956217 2.45830704 47.15 10 165.141408 2.77721733 47.40 10 171.309150 2.42955922 47.65 10 169.006636 1.61201713 48.05 10 174.600025 2.71090256 48.60 10 172.956186 2.73410237 48.75 10 171.877086 2.31770019 52.50 10 183.637294 2.18508850
The REG Procedure Model: MODEL1 Dependent Variable: anatreg Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 15339 15339 1489.58 <.0001 Error 188 1935.95420 10.29763 Corrected Total 189 17275 Root MSE 3.20899 R-Square 0.8879 Dependent Mean 163.75334 Adj R-Sq 0.8873 Coeff Var 1.95965 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 33.34856 3.38680 9.85 <.0001 femur1 1 2.87452 0.07448 38.60 <.0001
The ANOVA Procedure Class Levels Values Class Level Information femur1 19 39.60 41.35 41.70 42.55 42.75 43.30 43.45 43.60 44.90 45.05 46.70 46.90 47.15 47.40 47.65 48.05 48.60 48.75 52.50 Number of observations 190 Dependent Variable: anatreg Sum of Source DF Squares Mean Square F Value Pr > F Model 18 16326.85007 907.04723 163.56 <.0001 Error 171 948.28717 5.54554 Corrected Total 189 17275.13724 R-Square Coeff Var Root MSE anatreg Mean 0.945107 1.438076 2.354897 163.7533 Source DF Anova SS Mean Square F Value Pr > F femur1 18 16326.85007 907.04723 163.56 <.0001