Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR

Opbygning af statistisk model Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen Fx. test og prædiktion

Multipel Lineær Regression - Repetition Model: Y i = β + β x + β x + L+ β x 0 ε i.i.d i i N(0, σ ) i k ki + ε i x ji er den j te forklarende variabel for den i te observation. Estimerede model: y ˆ = b + b x + b x + L+ 0 b k x k i te residual: e i = y i yˆ i

Forudsætninger for MLR. Lineær sammenhæng mellem y og x j erne. x j erne opfattes som faste tal 3. ε i = fejlleddene, antages at være uafhængige 4. E(ε i ) = 0 5. Var(ε i ) = σ konstant 6. ε i antages at være normalfordelt homoskedastisk / varianshomogen 7. x,,x k må ikke være indbyrdes lineært afh.

Multipel lineær regression (Eksempel - i bogen) Eksempel: Y = Export Eksport til Singapore i millioner $ X = M Money supply X = Lend Udlånsrente X 3 = Price Prisindex X 4 = Exchange Vekselkurs ml. S pore $ og US $ Model: y i = 0 + βx i + βxi + β3x3i + β4x4i β + ε ε i.i.d i i N(0, σ )

F-test: Model Besværet Værd? Hypoteser H 0 : β = β = = β k = 0 H : Mindst et β j 0 (Vi kan lige så godt sige, at y erne alle har en og samme middelværdi) (Der er en lineær sammenhæng mellem y og mindst ét af x j erne) Teststørrelse: SSR k F = = SSR n k MSR MSE 0 Kritisk område F α/ (k,n-k-)

F-test: Eksempel F-testet af hypotesen H 0 :β = β = β 3 = β 4 =0 vs H : Mindst et β j 0 Testen har p-værdi < 0.0005!! Beslutning: Da p-værdi mindre end 0.05 afviser H 0. Fortolkning:Y har en lineær sammenhæng med mindst en af de forklarende variable X i, mao. kan modellen betale sig. ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 3,946 4 8,37 73,059,000 a 6,990 6,3 39,936 66

Determinationskoefficienten Som i simpel lineær regression er Som før 0 R. Hvis vi øger antallet af uafhængige variable (x erne) for en multipel regressionsanalyse, så vil R som regel vokse (og aldrig falde)! Hvis vi har n observationer og bruger en model med k=n-, så kan vi i nogle tilfælde opnå R =! Er det ikke fantastisk?! Næh SSR R = = SST SSE SST = Forklaret variation Totale variation

Justeret R Justeret R R = adj R = MSE MST = SSE (n - (k + )) SST (n -) = ( R ) n - n - (k + ) Justeret R tager i nogen grad højde for, problemerne med R når k er stor i forhold til n. Hvis adj R vokser når nyt x i medtages, så er det nok værd at medtage det x i.

Eksempel: R og Justeret R Model Summary b Model Adjusted Std. Error of Durbin- R R Square R Square the Estimate Watson,908 a,85,84,33577,583 R = 0.85, dvs. modellen forklarer 8.5% af variationen i Y erne. Justeret R = 0.84

Parameter-estimaterne Estimatoren B j svarende til b j er normalfordelt: Dvs. B j er et unbiased estimat af β j. s (b j ) betegner estimatet af variansen σ (b j ). s (b j ) beregnes af SPSS. Vi har B B j s( b ~ ) N j β j j ( β, σ ( b )) ~ t j ( n k ) j

Test for regressionsparametre Test for hypotesen H H 0 : : βi = 0 β 0 i (Ingen lineær sammenhæng mellem y og x i ) Teststørrelse: t = b s i ( b i ) -t α/ (n-k-) 0 Kritisk område t α/ (n-k-)

Eksempel: Test for regressionsparametre Coefficients a Model (Constant) M Lend Price Exchange Unstandardized Coefficients Standardized Coefficients 95% Confidence Interval for B B Std. Error Beta t Sig. Lower Bound Upper Bound -4,05,766 -,45,5-9,545,54,368,064,549 5,77,000,4,496,005,049,0,096,94 -,094,03,037,009,5 3,95,000,08,055,68,75,04,8,80 -,08,68 Det ser ud som om Lend og Exchange ikke har nogen betydning. Vi ser derfor på en simplere model: NB: Generelt ikke en god ide at fjerne alle ikke signif. par. Simplere model: y i = β x β x 0 i 3 3i β + + + ε i ε i i.i.d N(0, σ )

Eksempel: Simplere Model Bemærk: R uændret men adj R større! Bemærk: Er stadig besværet værd:

Eksempel: Simplere Model Bemærk: p-værdierne er blevet mindre for de tilbageværende parametre (selvom det ikke er så nemt at se). Før: Efter:

Grafisk modelkontrol Scatterplots Residualplots Histogrammer Normalfordelingsplot Outliers og Indflydelsesrige observationer

Modelkontrol: Residualplots e vs x i i e vs x i i3

Residualplot e vs ˆ i y i

Normalfordelingsplot Histogram og q-q plot for residualer

Outliers og Indflydelsesrige Observationer Outliers Indflydelsesrig Observation y Regressionslinie uden outlier.. y Punkt med stor værdi af x i.............. Regressionslinie med outlier.......... Regressionslinie når alle datapunkter er inkluderet Outlier x Ingen sammenhæng mellem x og y i denne klump x

Prædiktion Model: Estimeret model: Punktestimat for μ Y : i k x k x x Y ε β β β β + + + + + = L 0 ) (0, i.i.d σ ε N i b k x k x b b x b y + + + + = L 0 ˆ k k x x Y k x x x x x Y k β β β β μ + + + + = = L K K 0,, ),, E( k k x x Y x b x b b x b y k + + + + = = L K 0,, ˆ μ

Prædiktionsintervaller Et (-α)00% konfidensinterval for E(Y X=x) er yˆ ± t α ( n k ) s ( yˆ) Interval hvor vi er (-α)00% sikre på, at regressionslinjen ligger for et givet x. Et (-α)00% prædiktionsinterval for Y X=x er ( n k ) s ( yˆ MSE ˆ y ± tα ) + Interval hvor vi er (-α)00% sikre på, at en fremtidig observation af y ligger for en given værdi af x.

Export Estimerede regressionplan for Eksempel - Estimerede regressionplan for Eksempel - M Price Prædiktions intervaller tilgængelige i SPSS for x-værdier i data. Se under Save menuen.

Blandede forklarende variable Antagelser Y er en afhængig skala/kontinuert variabel X,,X k er k forklarende variable Hvis X,,X k alle er kategoriske variable, så anvender vi en (k-sidet) variansanalyse. Hvis X,,X k alle er skala variable, så anvender vi en Multipel lineær regression. Hva så hvis nogle X j er er kategoriske og andre skala?

Multipel lineær regression og kvalitative forklarende variable Y afhængig variabel X er skala forklarende variabel og X er dikotom forklarende variabel, dvs. kan tage to værdier. Eksempel Y = Vægt i kg R (kontinuert. afh. var.) X Højde = Højde i cm R (kont. forkl. var.) X Køn = Køn {Mand,Kvind} (kval. forkla. var.)

Omkodning at kvalitativ variabel Omkod X køn til binær variabel X Kvinde X kvinde = hvis X Køn = Kvinde X kvinde = 0 hvis X Køn = Mand Model Y = 0 Højde Højde Kvinde Kvinde β + β x + β x + ε Bemærk at modellen har form som MLR.

Fortolkning af model Når X Køn = Mand, så er x kvinde = 0: Y = β0 + β HøjdexHøjde + β Kvinde0 = β + β 0 Højde x Højde + ε + ε Når X Køn = Kvinde, så er x kvinde = 0: Y = β0 + β HøjdexHøjde + β Kvinde+ ε = β + β 0 Kvinde + β Højde Højde + ε To linjer med forskellig skæringspunter! β Kvinde angiver forskellen i skæringspunkt. x

To regressions-linjer med forskellige skæringer, men samme hældning Y Linje for X Kvinde = β 0 + β Kvinde Linje for X Kvinde =0 β 0 X

Omkodning i SPSS I det konkrete data er køn lagret i variablen kon som tager værdierne og. Da vi skal bruge variabel med værdierne 0 og skaber vi en ny variabel kon=kon-. I SPPS anvendes Transform Compute...

Model Regression Residual Total Sum of Squares df Mean Square F Sig. 045,9 0057,940 87,86,000 a 97054,8 578 5,7 49800,7 580 Model Adjusted Std. Error of R R Square R Square the Estimate,635 a,404,403 0,7344 Model (Constant) h jde kon Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. -43,47 5,3-8,3,000,68,09,473 3,47,000-6,0,56 -,6-0,78,000 Regressionslinje for mænd: Y =,47 + 0,68x 6, 0 + ε 43 Højde Regressionslinje for kvinder: Y 43,47 + 0,68x Højde 6,0 + ε = 49,439 + 0, 68x + ε = Højde

Vekselvirkning / Interaktion Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. Y, X Højde og X Kvinde som før. Introducer: X Højde,Kvinde = X Højde X Kvinde Model Y β + β x + β x + β x + = 0 Højde Højde Kvinde Kvinde Højde, Kvinde Højde, Kvinde ε ε ~ N(0, σ )

Fortolkning Når X Køn = Mand: E ( Y x ) = β + β x 0 Højde Højde Når X Køn = Kvinde: E ( Y x) = β + β = 0 Højde x Højde + β Kvinde + β Højde, Kvinde ( β ) ( ) 0 + β Kvinde + β Højde + β Højde, Kvinde x Højde x Højde β Højde,Kvinde beskriver forskellen i hældningen mellem de to regressionslinjer.

Nu Som Figur! Y Linie for X =0 Hældning = b Linie for X = b 0 Hældning = b +b 3 b 0 +b

SPSS I SPSS definerer vi en ny variabel højde*køn vha. compute funktionen. Teste hypotesen H 0 : β Højde,Køn = 0 Konklusion: Vi afviser H 0, dvs der er en veksel-virkning. Model (Constant) h jde køn højde*køn Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. -64,77 7,90-8,803,000,797,04,553 9,65,000 34,769 0,04,47 3,463,00 -,36,058 -,43-4,069,000

Mere Vekselvirkning Interaktion opnås generelt ved at indføre nye variable, der er produktet af eksisterende variable.

Mere end to kategorier Eksempel Y = Vægt i kg R (kontinuert. afh. var.) X Højde = Højde i cm R (kont. forkl. var.) X Løn = Løn {Lav,Mellem,Høj} (kval. forkla. var.) X Løn har tre kategorier X Løn omkodes til to binære variable

Omkodning at kvalitativ variabel X Løn omkodes til to binære variable X Mellem og X Høj : X Mellem = hvis X Løn = Mellem X Mellem = 0 hvis X Løn Mellem X Høj = hvis X Løn = Høj X Høj = 0 hvis X Løn Høj Som tabel X Løn X Mellem X Høj Lav 0 0 Mellem 0 Høj 0

Fortolkning af model Model: Y = 0 Højde Højde Mellem Mellem Høj Høj β + β x + β x + β x + ε Når X Løn = Lav : Når X Løn = Mellem : Når X Løn = Høj : Y = x 0 Højde Højde β + β + ε Y = x 0 Højde Højde Mellem β + β + β + ε Y = 0 Højde x Højde Høj β + β + β + ε Tre linjer med forskellig skæringspunter!

Fortolkning af model Fortolkning af model E ( Y x) = β 0 + β HøjdexHøjde + βmellemxmellem + β Høj xhøj Forskellen i gennemsnitsvægt for to personer med samme højde, men fra hhv. løngruppe Mellem og Lav. ( x ) ( ) Højde, xløn = Mellem E Y xhøjde, xløn = Lav ( β ) ( ) 0 + β HøjdexHøjde + βmellem β0 + β HøjdexHøjde = βmellem E Y = Vi siger at Lav kategorien er reference-kategori.

Y b 0 +b Høj b 0 +b Mellem b 0 X Højde

Dummy variable i SPSS I SPSS anvend Transform Recode Into Different Variable Under Name: angiv navn på dummy variabel. Eksempel: Vi vil kode dummy variabel svarende til Mellemindkomst, dvs. lonkat= Vi kalder den nye variabel lonkat 4 3

lon skal svare til Mellemindkomst dvs lonkat= lonkat= lonkat=0. I SPSS: Value =, New Value =0, Klik Add lonkat= lonkat= lonkat=3 lonkat=0 3

Dummyvariable Model (Constant) h jde lonkat lonkat a. Dependent Variable: vægt Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. -8,874 5,070-6,49,000,890,09,65 30,776,000 -,57,663 -,05 -,303,0 -,478,683 -,06 -,700,484

Generelle Lineære Modeller For at undgå at skulle kode en masse binære dummyvariable, kan man i SPSS bruge Analyze General Linear Model Univariate Kategoriske variable Kontinuerte variable

Eksamensopgave 3 I finder den tredje eksamens opgave her: www.math.aau.dk/~kkb/undervisning/ha08/ Opgaveformulering med udgangspunkt i FAUST datasættet: På baggrund af data bedes I besvare følgende spørgsmål:. Hvilke forhold påvirker de ansattes vitalitet? Opstil en statistisk model, der beskriver vitaliteten og analyser denne model.. Hvorledes indvirker lønform og uddannelse på vitaliteten? Også her skal jeres konklusioner underbygges af en statistisk model og en tilhørende analyse.