Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Anvendt Statstk Lekton 0 Regresson med både kvanttatve og kvaltatve forklarende varable Modelsøgnng Modelkontrol

Opsummerng I forbndelse med multpel lneær regresson så v på modeller på formen E[ y] = α... 4 4 hvor,,, k er kvanttatve varable, f højde, alder og areal. I forbndelse med varansanalyse så v på modeller på formen E[ y] = α z z z hvor z, z,, z k er (0/) dummy-varable, der omkoder en kvaltatv varabel med 4 kategorer. Bemærk: Begge modeller er på samme form! Lad os kombnere dem! k k

Lneær regressonsmodel Generel form y. er kvanttatv afhængg varabel (for te observaton) j er enten kvanttatv varabel eller dummy-varabel ε er fejlledet for te observaton. ε erne er uafhængge og normalfordelte med mddelværd nul og konstant varans. Mddelværden for y er k k y ε α =... 4 4 [ ] k k y E α =... 4 4

Eksempel: Indkomst vs Race og Udd. 80 personer har angvet: Plot: Race Sort, hspanc el. hvd Uddannelse Målt år Indkomst $000 / år. Smpel lneær regresson for hver race. Graphs Chart Bulder Scatter/Dot Grouped Scatter : Race under Set Color 4

Statstsk model Statstsk model: E[ y] = α z z y : Indkomst (afhængg var. /respons) : Uddannelse (kvanttatv forklarende var.) Race er omkodet vha. to dummy-varable, z og z Race z = z = Black 0 Hspanc 0 Whte 0 0 Bemærk: Kategoren Hvd er reference-gruppen. 5

Fortolknng For hvde har v z =0 og z =0 E[ y] = α 0 0 Hvd: α = α α Lgnngen for en ret lnje med Skærng α Hældnng Hvert ekstra års ekstra uddannelse øger gennemsntsndkomsten med. Nul års uddannelse gver en gennemsntsndtægt på α 6

Fortolknng Hvd: α For sorte har v z = og z =0 Hsp.: α E[ y] ( α ) = For hspanc har v z =0 og z = α Sort: α E y] = ( α ) [ Tre lnjer med samme hældnng = samme effekt af uddannelse. Fortolknng af på og : Forskel gennemsnts ndkomst for sorte forhold tl hvde ved samme antal års uddannelse. : Forskel ndkomst for hspancs forhold tl hvde. 7

Estmaton SPSS SPSS: Analyze General Lnear Model Unvarte Dependent Varable: Kvanttatv/kontnuerte afhængge varabel. Fed Factors: Kvaltatve/ kategorske forklarende varable. Covarate: Kvanttatve/ kontnuerte forklarende varable. Under Optons vælg Parameter Estmates 8

Modelspecfkaton SPSS Vores model har ngen vekselvrknng mellem uddannelse og race. Unde Model vælger v Custom. Vælg Type som Man effects. Marker de to forklarende varable og før dem over Model-kassen. 9

SPSS output a b b b Estmerede model: yˆ = a b b z = 5,66 4,4 b z 0.874z 4,94z Bemærk at der står 0 ud for [race=w], da hvd er referencegruppen. 0

Fortolknng Estmerede model: yˆ = 5,66 4,4 For hvde har v z =0 og z =0 yˆ = 5,66 4, 4 0.874z 4, 94z For sorte har v z = og z =0 yˆ = 6,547 4, 4 For hspanc har v z =0 og z = yˆ = 0,597 4, 4 Hvd: α Sort: (α ) Hsp.: (α )

Vekselvrknng Plot af data antyder, at effekten af uddannelse (hældnngen) afhænger af gruppen (race). Dvs. der er en vekselvrknng mellem race og uddannelse effekten på ndkomst. Som sædvanlgt opnår v en model med vekselvrknng ved at gange de to varable sammen: E[ y] = α z z z z Hovedeffekt af udd. Vekselvrknng Hovedeffekt af race

Fortolknng Model: For hvd har v z =0 og z =0: Dvs. ret lnje med skærng α hældnng Hvert års ekstra uddannelser øger gennemsntsndkomsten med. 4 ] [ z z z z y E α = y E α α = = 0 0 0 0 ] [ 4

Fortolknng Model: For hvde har v z =0 og z =0: For sorte har v z = og z =0: Dvs. ret lnje med skærng α hældnng Bemærk: Både skærng og hældnng afvger fra referencen. 4 4 ] [ z z z z y E α = y E = α ] [ ( ) ( ) y E = = 4 0 0 ] [ α α

Fortolknng For hvde har v z =0 og z =0: E[ y] For sorte har v z = og z =0: Afvgelser for sorte forhold tl referencen (hvde) skærng: hældnng: = α ( α ) ( ) E[ y] = Dvs. angver, hvordan effekten af uddannelser på ndkomst for den sorte gruppe afvger fra den hvde gruppe. 5

Modelspecfkaton SPSS V tlføjer vekselvrknngen: Som Type vælg Interacton. Marker de to forklarende varable og før dem over Model-kassen. 6

SPSS output a b b b b b 4 Estmerede model: yˆ = a b b z = 5,669 5,0 b z b z b 9,z 4 z 9,64z.4z,z 7

Fortolknng Estmerede model yˆ Hvd Hver ekstra års uddannelse øger ndkomsten med $50 Sort = 5,669 5,0 Effekten af uddannelse er reduceret med $4 tl $799 Hspanc yˆ = 5,669 5, 0 9,z 9,64z,4z, yˆ = 5,669 5,0 9,,4 = 6,6. 799 yˆ = 5,669 5,0 9,64, = 6,49 4, 089 Effekten af uddannelse er reduceret med $ tl $4089 z 8

Hypotesetest Som sædvanlgt tester v vha. et F-test. Et F-test sammenlgner to modeller: en komplet model og en reduceret model. Eksempel: H 0 : Ingen vekselvrknng H a : Vekselvrknng er med. Komplette model: Model med vekselvrknng Reducerede model: Model uden vekselvrknng F-testet skal afgøre om det er ok, at gå fra den komplette tl den reducerede model. 9

F-test: Intuton For begge modeller fnder v SSE og R : Komplette model: SSE c og Reducerede model: SSE r og R c Rr R c ( ) F-teststørrelse: F = ( SSEr SSEc ) df ( Rc Rr ) = SSE df ( R c c ) df df df = forskel antal er df = n ( antal er) Intuton: Hvs den reducerede model er næsten lge så god som den komplette, så har v R, dvs. F er llle. f R c Hvs der er en stor forskel, så har v R <<, dvs. F er stor. r R c 0

F-test: Eksempel Hypoteser: H 0 : Ingen vekselvrknng (race*educ) ( = 4 = 0) H a : Vekselvrknng F-teststørrelse: F = Omdøb: ( SSE SSE ) r SSE SS race*educ = SSE r SSE C (Forskel SSE) c c df df SSE = SSE c F-teststørrelse: F = SS SSE df df MSrace MSE race * educ * educ = Bemærk: Forholdet mellem to mean sequares.

F-test af vekselvrknng Model: Hypoteser: E[ y] = α z z z z H 0 : = 4 = 0 vs H a : Enten 0 eller 4 0 Teststørrelse SSrace * educ df MSrace * educ F = = SSE df MSE 69 46 = = 747 74 6 =.465 Konkluson: Da P-værd = 0.8 > 0.05 kan v kke afvse at vekselvrknngen er unødvendg. 4 P-værd F =.465

F-test af hovedeffekt af race Vekselvrknngen er borte. Model: Spørgsmål: Kan modellen smplfceres yderlgere? H 0 : = = 0 Ingen hovedeffekt af race H a : Enten 0 eller 0 Der er en hovedeffekt af race F = 70/9 =, P-værd = 0.05 Konkluson: Der er nogen, men kke stærke tegn på en effekt af race på ndkomst. E[ y] = α z z

F-test af hovedeffekt af uddannelse Vekselvrknngen er borte. Model: Spørgsmål: Kan modellen smplfceres yderlgere? H 0 : = 0 Ingen effekt af uddannelse H a : 0 Der er en effekt af uddannelse F = 45/9 = 5, P-værd 0 Konkluson: Der er stærke tegn på at uddannelse har en effekt på ndkomst. E[ y] = α z z 4

Modelsøgnng En statstske analyse nvolverer ofte et stort antal forklarende varable. For at få overblk over, hvlke forklarende varable, der har betydnng for den afhængge varabel udføres en modelsøgnng. I en modelsøgnng, søger man en model, der kun ndeholder de forklarende varable, der har en reel betydnng for den afhængge varabel. Der fndes et utal af måder at udføre modelsøgnng. De mest almndelge er

Modelsøgnng: Prøv alle mulgheder V udfører en regresson på alle tænkelge kombnatoner af forklarende varable. Har v k forklarende varable gver det k forskellge modeller. Ved k = 4 forklarende varable har v allerede 4 = 6 modeller. For k = 5 => 5 = 768 modeller. V udvælger vores model blandt de k modeller f. den med største R, mndste MSE eller et andet mål for model-kvaltet.

Modelsøgnng: Backward søgnng Start med en model, hvor alle forklarende varable af nteresse er nkluderet. Den mndst vgtge ryger ud For alle varable fortager v et F-test for den tlsvarende parameter. Den varabel med højst P-værd over f 0.0 fjernes fra modellen. Hvem er nu mndst vgtg? I den reducerede model foretages et (nyt) F-test for hver af de tlbageværende varable. Igen fjernes den varabel, der har højst P-værd over 0.0. Dette gentages ndtl alle tlbageværende varable er sgnfkante, dvs. deres F-test alle har en P-værd under 0.0.

Multpel lneær regresson Eksempel: Y = Eport Eksport tl Sngapore mlloner $ X = M Money supply X = Lend Udlånsrente X = Prce Prsnde X 4 = Echange Vekselkurs ml. S pore $ og US $ Model: y = 44 α ε ε..d N(0, σ )

Backward: Eksempel Den fulde model (start-model): Støreste p-værd over 0.0 Fjerner Lend. Reducerede model: Fjern Echange. Reduceret model (slut-model): Støreste p-værd over 0.0 Ingen p-værd over 0.0

Modelsøgnng SPSS I Lnear Regresson kan man menuen Method bl.a. vælge mellem Enter (Uden søgnng) Backward Independent(s) ndeholder varable, der skal ndgå model-søgnngen. Bemærk: Denne automatske modelsøgnng vrker kun med Lnear Regresson -funktonen. Dvs. for General Lnear Model skal man lave søgnngen manuelt.

Lneær Regressonsmodel V har set på en lang række modeller på formen Hvert er enten kvanttatv varabel dummy-varabel relateret tl en kvaltatv varabel Om fejlleddene ε antager v Uafhængge Normalfordelte Mddelværd 0 Konstant standardafvgelse σ. (homoskedastske fejlled) k k y ε α =... 4 4 [ ] k k y E α =... 4 4

Estmerede model Vha. mndste kvadraters metode får v ˆ a b b b b4 4 y =... b y = yˆ e Dvs. a er et estmat af α b er et estmat af b k er et estmat af κ Resdualet e er et estmat af fejlledet ε. Hvs moddel er korrekt, bør e erne opføre sg (ca.) som fejlleddene. k k

Fejlled: Antagelser ε er fejlledet for te observaton. ε erne er uafhængge normalfordelte med mddelværd nul og konstant varans (homoskedastske) Resdualerne bør (ca.) opfylde dsse antagelser. Gennemsnttet af resdualerne er pr. konstrukton nul, så det skal kke tjekkes. De andre antagelser tjekker v grafsk vha. plots.

Resdualplot Resdualer Resdualer 0 0 or y Homoskedastsk: Resdualerne ser ud tl at varere lge meget for alle eller ŷ. Desuden er resdualerne ufahængge af hnanden og. Resdualer Resdualer or y Heteroskedastsk: Varansen for resdualerne ændrer sg når ændrer sg. 0 0 Td Resdualerne udvser lneær trend med tden (ellern anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. or y Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Vrste e og ŷ ud af SPSS Vælg Save I Save vnduet vælges Unstandardzed både under Resduals (e erne) og ŷ Predcted Values ( erne). ŷ e 5

Resdual plot ŷ Scatterplot af e mod. Check af uafhængghed: Ser usystematsk ud. Check af konstant varans: Tendens tl stgende varans. 6

Resdualplot Hstogram af e Check af normalfordelngsantagelse: Ser ok ud. 7