Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ i svarer til uafhængig variabel i : partiel regressionskoefficient
Krav: m 2 individer! Minimere - igen Y j Y j 2 Overordnet: H 0 : i 0 for alle i H A : i 0 for mindst én i
ANOVA-metode SS-værdier som for m 1 DF total : N 1 DF regr : m 1 for simpel regr.) DF res : N m 1 N 2 F MS regr MS res
Determinationskoefficient: R 2 SS regr SS total 1 SS res SS total r 2 for m 1 R r Y i, Y i Justeret: R a 2 1 n 1 n m 1 1 R2
Test af hver enkelt i H 0 : i 0 H A : i 0 t-test: t b i s bi DF res
Dummy variable kategori-variable i regression! k kategorier: k 1 dummy-variable Eksempel: køn D mænd: 0 kvinder: 1 HUSK: altid kode 0/1
Tre kategorier to dummy-variable: D1 D2 A 0 0 B 1 0 C 0 1 D# angiver forskel i gennemsnit for gruppen, hvor D# 1 sammenlignet med gruppen, hvor alle D# 0 men KUN hvis kodet 0/1! Er der kun en kategorivariabel, omkodet til dummy-variable, er intercept gennemsnit for gruppen hvor alle D# 0
Polynomisk regression Model m Y i j 1 j X i j i m Y i a j 1 b j X i j X i j erne multipel regression BEMÆRK! i svarer til individ j svarer til grad af polynomium for uafhængig variabel krav: m n - 1 for at udregne linien m n - 2 for at teste
Start med m så stor som forventet H 0 : m 0 b m NS b m 1 (evt. b m signifikant b m 1 enten t-test eller F SS regr m SS regrm 1 MS resm DF :1,DF res m 1: én variabel (X m ) fjernet behold alle X j for j m!! prædiktion OK med stor m men tolkning ofte vanskelig for m 2
Datatransformation Antagelser i t-test, parametrisk ANOVA, og linear regression: 1) tilfældige uafhængige stikprøver 2) normalfordeling for afhængig variabel i hver gruppe/værdi af uafhængig variabel 3) varianshomogenitet 4) effekter additive ( 2 uafhængige variable) Transformation kan ofte afhjælpe afvigelser fra 2) og 3) (og evt 4))
Logaritme-transformation X log(x) eller X log(x 1) "log": oftest ln log-transformation giver "pæne" fordelinger når: rådata har en højreskæv fordeling ( symmetrisk) CV i er ~konstante: SD i X i ( varianshomogenitet) Pas på med estimater for og CI i oprindelig skala!! X NF X lognormal fordelt!!
Kvadratrodstransformation X X X X 1 2 X X 3 8 X X X 1 når s i 2 X i (~CV i *SD i konstant) Igen, pas på med estimering af og CI for data i oprindelig skala
Andre metoder A) SD X i 2 : X 1 X B) antal, som i A : X 1 X 1 C) SD i 1 X : X X2 D) venstreskæve rådata : X X 2
Mere generel metode: Box - Cox X X 1 for 0 X ln X for 0
The MEANS Procedure N SEX Obs Variable Mean Std Dev ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 335 FEV1 1.5383881 0.2906874 AGE 9.0064304 0.7274344 HEIGHT 124.0125374 6.4538547 1 301 FEV1 1.6572757 0.3076511 AGE 8.9583998 0.7105208 HEIGHT 124.0980071 5.9988385 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ The REG Procedure Model: MODEL1 Dependent Variable: FEV1 FEV1 (litres) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 15.68023 15.68023 230.24 <.0001 Error 634 43.17820 0.06810 Corrected Total 635 58.85842 Root MSE 0.26097 R-Square 0.2664 Dependent Mean 1.59465 Adj R-Sq 0.2652 Coeff Var 16.36519 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1-0.36792 0.12975-2.84 0.0047 AGE Age (years) 1 0.21846 0.01440 15.17 <.0001
The REG Procedure Model: MODEL1 Dependent Variable: FEV1 FEV1 (litres) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 25.63830 12.81915 244.27 <.0001 Error 633 33.22012 0.05248 Corrected Total 635 58.85842 Root MSE 0.22909 R-Square 0.4356 Dependent Mean 1.59465 Adj R-Sq 0.4338 Coeff Var 14.36588 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1-2.30872 0.18118-12.74 <.0001 AGE Age (years) 1 0.08972 0.01572 5.71 <.0001 HEIGHT Height (cm) 1 0.02497 0.00181 13.77 <.0001
The REG Procedure Model: MODEL1 Dependent Variable: FEV1 FEV1 (litres) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 27.96713 9.32238 190.73 <.0001 Error 632 30.89129 0.04888 Corrected Total 635 58.85842 Root MSE 0.22109 R-Square 0.4752 Dependent Mean 1.59465 Adj R-Sq 0.4727 Coeff Var 13.86414 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1-2.36022 0.17501-13.49 <.0001 AGE Age (years) 1 0.09460 0.01519 6.23 <.0001 HEIGHT Height (cm) 1 0.02457 0.00175 14.04 <.0001 SEX Sex of the child (0 F 1 M) 1 0.12133 0.01758 6.90 <.0001
Lab K_mg_L D1 D2 D3 1 10.20 0 0 0 1 10.40 0 0 0 1 10.00 0 0 0 2 10.60 1 0 0 2 10.80 1 0 0 2 10.90 1 0 0 3 10.30 0 1 0 3 10.40 0 1 0 3 10.70 0 1 0 4 10.50 0 0 1 4 10.70 0 0 1 4 10.40 0 0 1 N = 12 The REG Procedure Model: MODEL1 Dependent Variable: K_mg_L Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 0.48917 0.16306 5.02 0.0303 Error 8 0.26000 0.03250 Corrected Total 11 0.74917 Root MSE 0.18028 R-Square 0.6529 Dependent Mean 10.49167 Adj R-Sq 0.5228 Coeff Var 1.71829 Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 10.20000 0.10408 98.00 <.0001 D1 1 0.56667 0.14720 3.85 0.0049 D2 1 0.26667 0.14720 1.81 0.1076 D3 1 0.33333 0.14720 2.26 0.0533
The GLM Procedure Dependent Variable: ANATREG Number of observations 190 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 15638.08236 5212.69412 592.26 <.0001 Error 186 1637.05487 8.80137 Corrected Total 189 17275.13724 Source DF Type III SS Mean Square F Value Pr > F FEMUR1 1 2316.503663 2316.503663 263.20 <.0001 SEX01 1 4.698691 4.698691 0.53 0.4659 FEMUR1*SEX01 1 0.957145 0.957145 0.11 0.7419 Sum of Source DF Squares Mean Square F Value Pr > F Model 2 15637.12522 7818.56261 892.59 <.0001 Error 187 1638.01202 8.75942 Corrected Total 189 17275.13724 Source DF Type III SS Mean Square F Value Pr > F FEMUR1 1 4314.247192 4314.247192 492.53 <.0001 SEX01 1 297.942177 297.942177 34.01 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 57.16500513 5.14132560 11.12 <.0001 FEMUR1 2.39059607 0.10771878 22.19 <.0001 SEX01-3.93288562 0.67434643-5.83 <.0001