Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13

Multipel regression Data fra opgave 3 side 453: Oven width x 1 1.32 2.69 3.56 4.41 5.35 6.20 7.12 8.87 Temperature x 2 1.15 3.40 4.10 8.75 14.82 15.15 15.32 18.18 log cooking time Y 1.86 2.71 2.93 3.41 3.80 3.89 3.94 4.12 Multipel regressionsmodel: hvor ǫ N(0, σ 2 ). Y = α + β 1 x 1 + β 2 x 2 + ǫ 2/13

Plots af data 3/13

Estimation og residualer ˆα, ˆβ 1 og ˆβ 2 vælges så n i=1 e2 i minimeres (mindste kvadraters metode) hvor e i = y i ŷ i og ŷ i = ˆα + ˆβ 1 x 1 + ˆβ 2 x 2 Estimat af σ 2 s 2 = 1 n 3 n (y i ŷ i ) 2 Model check analogt med model check for lineær regression: histogram, qqplot, plot af residualer mod ŷ, x 1 og x 2. Eksempel: Via SPSS fås i=1 ˆα = 2.061, ˆβ 1 = 0.078, ˆβ 2 = 0.097 4/13

Kolinearitet Width 2 4 6 8 10 0 10 20 30 40 Temperature De to variable width og temperatur minder kraftigt om hinanden - dvs. de forklarer den samme variation i data. Derved er en overflødig. 5/13

Polynomiel model logtime 2.0 2.5 3.0 3.5 4.0 4.5 0 10 20 30 40 Temperature Ser ud til, at log time er kvadratisk/parabolsk funktion af temperatur - vi laver en model hvor log time er andengrads-polynomium som funktion af temperatur: Y = α + β 1 x 1 + β 2 x 2 + ǫ hvor x 1 er temperatur og x 2 = x 2 1 er temperatur kvadreret. 6/13

Kategoriske forklarende variable Tabel 12.7 side 477: ph x 6.5 6.9 7.8... 6.7 6.9... 6.5 7.0... polymer type 1 1 1... 2 2... 3 3... suspended solids y 292 329 352... 198 227... 167 225... Tal 1, 2 og 3 i polymer typen skal ikke tages for bogstaveligt: blot navne for typer af polymer (kunne ligesåvel være A, B, C). 7/13

Forskellig skæring suspended 200 250 300 350 400 1 2 3 6.5 7.0 7.5 8.0 8.5 9.0 ph Model: forskellig skæring afhængig af polymer type? poly2 = 1 hvis polymer type 2 og nul ellers poly3 = 1 hvis polymer type 3 og nul ellers Y = α + β 1 ph + β 2 poly2 + β 3 poly3 + ǫ β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3. 8/13

Forskellig hældning ph2 = ph poly2 = ph hvis polymer type 2 og nul ellers ph3 = ph poly3 = ph hvis polymer type 3 og nul ellers Y = α + β 1 ph + β 2 poly2 + β 3 poly3 + β 4 ph2 + β 5 ph3 + ǫ β 4 : forskel hældning polymer 1 og 2. β 5 forskel hældning polymer 1 og 3. 9/13

Model selektion Hvis man har observeret flere uafhængige variable har man en del forskellige modeller at vælge mellem: Skal alle eller kun nogle uafhængige variable med? Skal der bruges lineære funktion, anden ordens polynomier, eller mere avancerede funktioner? Model selektion går ud på at vælge mellem modeller, og er en balance mellem at finde nogle modeller som tildels er simple nok til at bruge, tildels er avancerede nok til at være realistiske. 10/13

Model selektion: R 2 og R 2 adj Determinationskoefficient (ligesom for simpel lineær regression): R 2 = 1 SSE SST = SSR SST R 2 fortæller hvor stor en del af variationen i data der forklares ud fra de valgte forklarende variable, men den vokser altid når flere uafhængige variable inkluderes - den kan altså ikke bruges til at vælge mellem mere eller mindre avancerede modeller. Istedet kan den justerede R 2 bruges: R 2 adj = 1 SSE/(n k 1) SST/(n 1) Dvs. hvis man skal sammenligne to modeller (fx. en ret linie eller en parabel) kan man regne Radj 2 for begge og vælge den model med den højeste værdi. 11/13

Middelkvadrater Middelkvadrat, regression: Middelkvadrat, fejl: (MSE kaldes også s 2 ) MSR = SSR k MSE = SSE n k 1 Teststørrelse for hypotesen H 0 : β 1 = = β k = 0: f = MSR MSE Store værdier kritiske for hypotesen. f (k, n k 1) 12/13

ANOVA-tabel Model SS df MS F Sig Regression SSR k MSR f p-værdi Residual SSE n-k-1 MSE Total SST n-1 En p-værdi over signifikans niveauet (eller tilsvarende en f-værdi under den kritiske værdi) betyder at ingen af ledene i modellen er signifikante. 13/13

Backward elimination og forward selection En mere systematisk tilgang er nødvendig hvis man skal vælge mellem en masse forskellige modeller (hvis man har mange uafhængige variable). To metoder: 1. Forward selection: man starter med en tom model (dvs uden nogle uafhængige variable) og prøver systematisk at inkludere variable, indtil den bedste model er fundet. 2. Backward elimination: man starter med at inkludere alle de uafhængige variable man har og giver sig til at systematisk at fjerne dem en af gangen indtil man har fundet den bedste model. Disse skal i arbejde med næste gang for jer selv, samt forsøge at danne jer et overblik over lineær regression. 14/13