Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8 Multipel Lineær Regression 1

Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke præcist på regressionslinjen. Regressionsmodel: y i (x i,y i ) ε i α + βx y i = α + βx i + ε i Fejlleddet ε i angiver afvigelsen mellem punktet (x i,y i ) og linjen. Fejlledene er uafhængige og normalfordelte med middelværdi nul og standardafvigelse σ. x i x

Multipel Lineær Regression (MLR) Antag vi har y : afhængig variabel x 1 : første forklarende var. x : anden forklarende var. MLR model: Her: y i = α + β 1 x 1,i +β x,i +ε x 1,i er værdien af x 1 for i te person. Forventede værdi: E[y] = α + β 1 x 1 +β x Dvs. regressionsplanet angiver gennemsnittet for responsen y x,i x 1,i ε i y i α + β 1 x 1 +β x x x 1

Fortolkning af β i Antag vi har k forklarende variable: y i = α + β 1 x 1,i +β x,i + +β k x k,i +ε Fortolkningen af β j : Hvis x 1 øges med 1, så øges den forventede værdi af y med β 1, hvis x, x 3,, x k forbliver uændrede.

Prædiktion og Residual MLR model: y i = α + β 1 x 1,i +β x,i + +β k x k,i +ε i Prædiktionsligningen er ŷ i y ˆ = a + b x + b x + + b Dvs. er et estimat af E[y i ]. i 1 1 k x k Residual: e i = Dvs. residualet er et estimat af ε i. y i yˆ i

Mindste kvadraters metode Definer summen af de kvadrerede residualer SSE = ( y ˆ ) i i yi = e i i UK: Sum of Squared Errors SPSS: Sum of Squared Residuals Mindste kvadrater metode: Vi vælger a, b 1, b,, b k, så SSE er mindst mulig. Bemærk at SSE = ( y ( a + b x + b x + b x )) 1 1,, + i i i i k k, i

Eksempel: Kriminalitet i Florida Tre variable y : crime rate x1: education x: urbanization I første omgang: Kriminalitet og uddannelse

Eksempel: Kriminalitet i Florida (fortsat) En simpel lineær regression af crime rate (y) mod education (x): Prædiktionsligning yˆ = 51.8 + 1. 50 x Dvs. jo mere uddannelser, jo mere kriminalitet Effekten er statistisk signifikant.

Eksempel: Kriminalitet i Florida (fortsat) Teori: Jo mere urbaniseret, jo mere kriminalitet og jo flere med lang uddannelse. Multipel lineær regression af Crime rate (y) mod både Uddannelser (x 1 ) og Urbanisering (x ). Prædiktionsligning: yˆ = 56.8 0.54 x1 + 0. 673 x Bemærk at effekten af uddannelser nu er negativ og ikke længere er signifikant (P-værdi >> 5%). Crime rate Urbanization Education

Eksempel: Kriminalitet i Florida (fortsat) Prædiktionsligning: yˆ = 56.8 0.54 x1 + 0. 673 x Effekten af x 1 (uddannelse) er den samme for alle værdier af x (ubanisering). For hver ekstra procent-point uddannede falder crime rate med 0.54. y ˆ = 90.4 0.54 x ( x 1 = y ˆ = 83.7 0.54 x ( x 1 = Bemærk at effekten af x 1 (Uddannelse) ændrede sig markant, da vi tilføjede x (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x 1 og x. 50) 40)

Simpsons paradoks - igen Sammenhæng mellem crime rate og uddannelse Sort linje: SLR for alle data Blå linje: SLR kun for områder med høj grad af urbanisering. Grøn linje: SLR kun for områder med lav urbanisering. Bemærk hvor forskellig sammenhængen er i de to grupper.

Eksempel: Mentalt helbred Vi har tre variable: y : Mental impairment (funktionsnedsættelse), afhængig var. x 1 : Life events, første forklarende variabel. x : Socioøkonomisk status (SES), anden forklarende var. Multipel lineær regressionsmodel: y i = α + β 1 x 1,i +β x,i +ε i MLR antager en lineær sammenhæng mellem y og hvert x j. Vi starter med et scatter plot for hver par af variable.

Scatterplot Matrix Graphs Chart builder Scatter/Dot Scatterplot Matrix Ingen åbenlyse ikke-lineære sammenhænge. Ingen åbenbare sammenhænge i det hele taget Problem: Plot viser sammenhængen mellem y og fx. x 1, hvor vi ignorer værdien af x. Vi har set, at vi ikke kan ignorere effekten af x, når vi ser på sammenhængen mellem y og x.

Partielt plot Estimeret model (eksempel med tre forklarende variable) y a + b x + b x + b x + = 1 1 3 3 Estimeret del-model (uden x 1 ) ~ ~ y = a~ + b x + b x e~ 3 3 + Regression af x 1 mod x og x 3 (hvordan afhænger x 1 af x og x 3 ) x + * * * * 1 = a + b x + b3 x3 e Vi har to sæt residualer: (for y) og (for x 1 ). e ~ e Ide: plot mod. * e ~ e e *

Partielt plot (fortsat) SPSS: Analyze Regression Linear Plots Produce all partial plots. e ~ e a be ee ~ = ˆ + ˆ * + ˆ Regression af mod giver: b ˆ = b 1 Interessant: Dvs. at hældningen i det partielle plot er den samme som effekten i den fulde model! * Bonus: Check at residualerne varierer usystematisk og at variationen er den samme langs linjen.

SPSS output Simpel model kune en forklarende variabel Model med to forklarende variable:

Multipel korrelation Husk: Korrelation angiver hvor lineært afhængig to variable er. Multipel korrelation R for en lineær regression er korrelationen mellem de observerede og de prædikterede. Bemærk: Den multiple korrelation kan ikke være negativ. y ŷ

Multipel determinations koefficient Den totale variation i y erne: TSS = y ( ) i i y (Total Sum of Squares) Den uforklarede del af variationen i y erne: SSE = ( yi yˆ i ) = ei i Den forklarede del af variationen i y erne: TTS SSE Multipel determinnations koefficient R TSS SSE = TSS Fortolkning: Andelen af den totale variation, der er forklaret. i (Sum of Squared Errors)

Eksempel på R og R Lille model R = 0.139 y = α + β 1 x 1 +ε Dvs. 13.9% af variationen i mental impairment er forklaret af Life events. Stor model R = 0.339 y = α + β 1 x 1 +β x +ε Dvs. 33.9% af variationen i mental impairment er forklaret af Life events og SES. Bemærk at R er øget vi kan forklare mere med flere variable.

Egenskaber for R og R R er mellem 0 og 1 Jo højere R, jo bedre kan modellen prædiktere y. ^ R = 1 betyder at y = y og alle residualer er nul. R = 0 betyder at b 1 = b = = b k = 0. Når en variabel tilføjes modellen kan R ikke falde.

Hypotesetest for MLR: F-test MLR model: y = α + β 1 x 1 +β x + +β k x k +ε Er der mindst en af x j erne der har en lineær sammenhæng med y? Nul-hypotese: H 0 : β 1 = β = = β k = 0 Alternativ-hypotese: H a : Mindst et β j 0 Teststørrelse: F = R k ( 1 R ) ( n ( k + 1) ) y har ingen lineær sammenhæng med et eneste x j. y har en lineær sammenhæng med med mindst et af x j erne.

F-testet Hvis H 0 er sand, så følger F en F- fordeling. Som χ -fordelingen kan F- fordelingen kun tage positive værdier. Faconen på F-fordelingen er bestemt af to sæt frihedsgrader df 1 og df : P-værdi Obsereveret F df 1 = k = antal forklarende variable. df = n (k + 1) = n antal parametre i modellen

F-test: Eksempel Model for mentalt helbred: y = α + β 1 x 1 + β x + ε Fra SPSS har vi R = 0.339 Dvs. F-fordeling med hhv. og 47 frihedsgrader F = = R ( 1 R ) ( n ( k + 1) ) 0.339 k ( 1 0.339) ( 40 3) = 9.49 9.49 P-værdi P-værdien finder vi vha. SPSS (næste slide). Da P-værdien < 0.0005 afviser vi H 0, dvs. y har en lineær sammenhæng med mindst en af de to forklarende variable.

F-test i SPSS F-teststørrelsen kan omskrives: F = = R k ( 1 R ) ( n ( k + 1) ) ( 116.4 768.16) 768.16 ( 40 3) SSE = ( TSS SSE) k ( n ( k + 1) ) SSE = 9.495 P-værdi TSS

Hypotesetest af βj MLR model: y = α + β 1 x 1 +β x + +β k x k +ε Er der en lineær sammenhæng mellem y og x j? Nul-hypotese: H 0 : β j = 0 Alternativ-hypotese: H a : β j 0 Teststørrelse: t = b j se Udregnes af SPSS y har ingen lineær sammenhæng med x j. y har en lineær sammenhæng med x j. Hvis H 0 er sand, så følger t en t-fordeling med df = n-(k+1)

Hypotesetest af βj : Eksempel Model for mentalt helbred: y = α + β 1 x 1 + β x + ε Fra SPSS har vi b 1 = 0.103 og se = 0.03 t-fordeling med 37 frihedsgrader Dvs. t = 0.103/0.03 = 3.177 Da P-værdien < 0.05, kan vi afvise H 0 -hypotesen. Dvs. der er en lineær sammenhæng mellem y og x1. P-værdi 0.003-3.177 t = 3.177-3 - -1 0 1 3

Estimation af σ Generelt er vores MLR model y = α + β 1 x 1 +β x + +β k x k +ε Vi antaget at fejlledene er normalfordelte med standardafvigelse σ. Et estimat af σ er SSE s = n k +1 Eksempel: ( ) s = = 768.16 40 3 0.761 = 4.56

Vekselvirkning Der er vekselvirkning mellem to forklarende variable, x 1 og x, for y, hvis effekt af x 1 på y ændre sig når x ændre sig. Simpel vekselvirkningsmodel: y = α + β 1 x 1 + β x + β 3 x 1 x + ε Hvor kommer interaktionen ind i billedet? Omskriv modellen til y = (α + β x ) + (β 1 + β 3 x ) x 1 + ε Bemærk: Hældningen er β 1 + β 3 x, dvs. effekten af x 1 på y ændre sig, når x ændres.

Vekselvirkning: Eksempel Simpel vekselvirkningsmodel: y = α + β 1 x 1 + β x + β 3 x 1 x + ε Vha. Transform Compute variable skaber vi variablen x1x = x1*x Følgende test viser at interaktionen ikke er signifikant: Da vekselvirkningen ikke er signifikant, kan man vælge at fjerne den. Hvis vekselvirkningen er signifikant, beholder vi det. Desuden giver det ikke mening at teste de enkelte led (x 1 og x ).

Vekselvirkning: Eksempel (fortsat) Estimeret vekselvirkningsmodel: y = 6.037 + 0.156 x 1 0.060 x 0.01 x 1 x Fortolkning: Når vi øger x, så Reduceres skæringspunktet Reduceres hældningen. y ˆ = 6.037 + 0.156x ( x 1 = 0) y ˆ = 3.01 + 0.113x ( x 1 = 50) y ˆ = 19.987 + 0.069x ( x 1 = 100)