Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Relaterede dokumenter
Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statikstik II 4. Lektion. Generelle Lineære Modeller

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Kvantitative metoder 2

Kvantitative metoder 2

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Økonometri 1 Efterår 2006 Ugeseddel 9

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Simpel Lineær Regression - repetition

Lineær regressionsanalyse8

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Morten Frydenberg Biostatistik version dato:

Multipel Lineær Regression

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Bilag 6: Økonometriske

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Kvantitative metoder 2

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Kvantitative metoder 2

Kvantitative metoder 2

Ugeseddel 8. Gruppearbejde:

Repetition. Forårets højdepunkter

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Økonometri 1 Efterår 2006 Ugeseddel 13

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Statistik Lektion 16 Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Beregning af strukturel arbejdsstyrke

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

To-sidet variansanalyse

TALTEORI Følger og den kinesiske restklassesætning.

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Binomialfordelingen. Erik Vestergaard

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Brugen af R^2 i gymnasiet

Undersøgelse af pris- og indkomstelasticiteter i forbrugssystemet - estimeret med AIDS

Fastlæggelse af strukturel arbejdsstyrke

DLU med CES-nytte. Resumé:

Binomialfordelingen: april 09 GJ

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Sandsynlighedsregning og statistik med binomialfordelingen

Husholdningsbudgetberegner

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Program. 1. Flersidet variansanalyse 1/11

Nøglebegreber: Objektivfunktion, vægtning af residualer, optimeringsalgoritmer, parameterusikkerhed og korrelation, vurdering af kalibreringsresultat.

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Løsninger til kapitel 12

Luftfartens vilkår i Skandinavien

Rettevejledning til Økonomisk Kandidateksamen 2005II, Økonometri 1

Morten Frydenberg Version: Thursday, 16 June 2011

Validering og test af stokastisk trafikmodel

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Morten Frydenberg Biostatistik version dato:

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Økonometri 1 Forår 2003 Ugeseddel 10: Prøveeksamen. Indtjening, konkurrencesituation og produktudvikling i danske virksomheder. Om opgavens formål:

Tabsberegninger i Elsam-sagen

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

Brugerhåndbog. Del IX. Formodel til beregning af udlandsskøn

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

porsche design mobile navigation ß9611

Økonomisk Kandidateksamen 2005II Økonometri 1. Lønpræmier

Lineær regression i SAS. Lineær regression i SAS p.1/20

TEORETISKE MÅL FOR EMNET:

Forberedelse til den obligatoriske selvvalgte opgave

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Kvantitative metoder 2

Forelæsning 11: Kapitel 11: Regressionsanalyse

Transkript:

Anvendt Statstk Lekton 0 Regresson med både kvanttatve og kvaltatve forklarende varable Modelsøgnng Modelkontrol

Opsummerng I forbndelse med multpel lneær regresson så v på modeller på formen E[ y] = α... 4 4 hvor,,, k er kvanttatve varable, f højde, alder og areal. I forbndelse med varansanalyse så v på modeller på formen E[ y] = α z z z hvor z, z,, z k er (0/) dummy-varable, der omkoder en kvaltatv varabel med 4 kategorer. Bemærk: Begge modeller er på samme form! Lad os kombnere dem! k k

Lneær regressonsmodel Generel form y. er kvanttatv afhængg varabel (for te observaton) j er enten kvanttatv varabel eller dummy-varabel ε er fejlledet for te observaton. ε erne er uafhængge og normalfordelte med mddelværd nul og konstant varans. Mddelværden for y er k k y ε α =... 4 4 [ ] k k y E α =... 4 4

Eksempel: Indkomst vs Race og Udd. 80 personer har angvet: Plot: Race Sort, hspanc el. hvd Uddannelse Målt år Indkomst $000 / år. Smpel lneær regresson for hver race. Graphs Chart Bulder Scatter/Dot Grouped Scatter : Race under Set Color 4

Statstsk model Statstsk model: E[ y] = α z z y : Indkomst (afhængg var. /respons) : Uddannelse (kvanttatv forklarende var.) Race er omkodet vha. to dummy-varable, z og z Race z = z = Black 0 Hspanc 0 Whte 0 0 Bemærk: Kategoren Hvd er reference-gruppen. 5

Fortolknng For hvde har v z =0 og z =0 E[ y] = α 0 0 Hvd: α = α α Lgnngen for en ret lnje med Skærng α Hældnng Hvert ekstra års ekstra uddannelse øger gennemsntsndkomsten med. Nul års uddannelse gver en gennemsntsndtægt på α 6

Fortolknng Hvd: α For sorte har v z = og z =0 Hsp.: α E[ y] ( α ) = For hspanc har v z =0 og z = α Sort: α E y] = ( α ) [ Tre lnjer med samme hældnng = samme effekt af uddannelse. Fortolknng af på og : Forskel gennemsnts ndkomst for sorte forhold tl hvde ved samme antal års uddannelse. : Forskel ndkomst for hspancs forhold tl hvde. 7

Estmaton SPSS SPSS: Analyze General Lnear Model Unvarte Dependent Varable: Kvanttatv/kontnuerte afhængge varabel. Fed Factors: Kvaltatve/ kategorske forklarende varable. Covarate: Kvanttatve/ kontnuerte forklarende varable. Under Optons vælg Parameter Estmates 8

Modelspecfkaton SPSS Vores model har ngen vekselvrknng mellem uddannelse og race. Unde Model vælger v Custom. Vælg Type som Man effects. Marker de to forklarende varable og før dem over Model-kassen. 9

SPSS output a b b b Estmerede model: yˆ = a b b z = 5,66 4,4 b z 0.874z 4,94z Bemærk at der står 0 ud for [race=w], da hvd er referencegruppen. 0

Fortolknng Estmerede model: yˆ = 5,66 4,4 For hvde har v z =0 og z =0 yˆ = 5,66 4, 4 0.874z 4, 94z For sorte har v z = og z =0 yˆ = 6,547 4, 4 For hspanc har v z =0 og z = yˆ = 0,597 4, 4 Hvd: α Sort: (α ) Hsp.: (α )

Vekselvrknng Plot af data antyder, at effekten af uddannelse (hældnngen) afhænger af gruppen (race). Dvs. der er en vekselvrknng mellem race og uddannelse effekten på ndkomst. Som sædvanlgt opnår v en model med vekselvrknng ved at gange de to varable sammen: E[ y] = α z z z z Hovedeffekt af udd. Vekselvrknng Hovedeffekt af race

Fortolknng Model: For hvd har v z =0 og z =0: Dvs. ret lnje med skærng α hældnng Hvert års ekstra uddannelser øger gennemsntsndkomsten med. 4 ] [ z z z z y E α = y E α α = = 0 0 0 0 ] [ 4

Fortolknng Model: For hvde har v z =0 og z =0: For sorte har v z = og z =0: Dvs. ret lnje med skærng α hældnng Bemærk: Både skærng og hældnng afvger fra referencen. 4 4 ] [ z z z z y E α = y E = α ] [ ( ) ( ) y E = = 4 0 0 ] [ α α

Fortolknng For hvde har v z =0 og z =0: E[ y] For sorte har v z = og z =0: Afvgelser for sorte forhold tl referencen (hvde) skærng: hældnng: = α ( α ) ( ) E[ y] = Dvs. angver, hvordan effekten af uddannelser på ndkomst for den sorte gruppe afvger fra den hvde gruppe. 5

Modelspecfkaton SPSS V tlføjer vekselvrknngen: Som Type vælg Interacton. Marker de to forklarende varable og før dem over Model-kassen. 6

SPSS output a b b b b b 4 Estmerede model: yˆ = a b b z = 5,669 5,0 b z b z b 9,z 4 z 9,64z.4z,z 7

Fortolknng Estmerede model yˆ Hvd Hver ekstra års uddannelse øger ndkomsten med $50 Sort = 5,669 5,0 Effekten af uddannelse er reduceret med $4 tl $799 Hspanc yˆ = 5,669 5, 0 9,z 9,64z,4z, yˆ = 5,669 5,0 9,,4 = 6,6. 799 yˆ = 5,669 5,0 9,64, = 6,49 4, 089 Effekten af uddannelse er reduceret med $ tl $4089 z 8

Hypotesetest Som sædvanlgt tester v vha. et F-test. Et F-test sammenlgner to modeller: en komplet model og en reduceret model. Eksempel: H 0 : Ingen vekselvrknng H a : Vekselvrknng er med. Komplette model: Model med vekselvrknng Reducerede model: Model uden vekselvrknng F-testet skal afgøre om det er ok, at gå fra den komplette tl den reducerede model. 9

F-test: Intuton For begge modeller fnder v SSE og R : Komplette model: SSE c og Reducerede model: SSE r og R c Rr R c ( ) F-teststørrelse: F = ( SSEr SSEc ) df ( Rc Rr ) = SSE df ( R c c ) df df df = forskel antal er df = n ( antal er) Intuton: Hvs den reducerede model er næsten lge så god som den komplette, så har v R, dvs. F er llle. f R c Hvs der er en stor forskel, så har v R <<, dvs. F er stor. r R c 0

F-test: Eksempel Hypoteser: H 0 : Ingen vekselvrknng (race*educ) ( = 4 = 0) H a : Vekselvrknng F-teststørrelse: F = Omdøb: ( SSE SSE ) r SSE SS race*educ = SSE r SSE C (Forskel SSE) c c df df SSE = SSE c F-teststørrelse: F = SS SSE df df MSrace MSE race * educ * educ = Bemærk: Forholdet mellem to mean sequares.

F-test af vekselvrknng Model: Hypoteser: E[ y] = α z z z z H 0 : = 4 = 0 vs H a : Enten 0 eller 4 0 Teststørrelse SSrace * educ df MSrace * educ F = = SSE df MSE 69 46 = = 747 74 6 =.465 Konkluson: Da P-værd = 0.8 > 0.05 kan v kke afvse at vekselvrknngen er unødvendg. 4 P-værd F =.465

F-test af hovedeffekt af race Vekselvrknngen er borte. Model: Spørgsmål: Kan modellen smplfceres yderlgere? H 0 : = = 0 Ingen hovedeffekt af race H a : Enten 0 eller 0 Der er en hovedeffekt af race F = 70/9 =, P-værd = 0.05 Konkluson: Der er nogen, men kke stærke tegn på en effekt af race på ndkomst. E[ y] = α z z

F-test af hovedeffekt af uddannelse Vekselvrknngen er borte. Model: Spørgsmål: Kan modellen smplfceres yderlgere? H 0 : = 0 Ingen effekt af uddannelse H a : 0 Der er en effekt af uddannelse F = 45/9 = 5, P-værd 0 Konkluson: Der er stærke tegn på at uddannelse har en effekt på ndkomst. E[ y] = α z z 4

Modelsøgnng En statstske analyse nvolverer ofte et stort antal forklarende varable. For at få overblk over, hvlke forklarende varable, der har betydnng for den afhængge varabel udføres en modelsøgnng. I en modelsøgnng, søger man en model, der kun ndeholder de forklarende varable, der har en reel betydnng for den afhængge varabel. Der fndes et utal af måder at udføre modelsøgnng. De mest almndelge er

Modelsøgnng: Prøv alle mulgheder V udfører en regresson på alle tænkelge kombnatoner af forklarende varable. Har v k forklarende varable gver det k forskellge modeller. Ved k = 4 forklarende varable har v allerede 4 = 6 modeller. For k = 5 => 5 = 768 modeller. V udvælger vores model blandt de k modeller f. den med største R, mndste MSE eller et andet mål for model-kvaltet.

Modelsøgnng: Backward søgnng Start med en model, hvor alle forklarende varable af nteresse er nkluderet. Den mndst vgtge ryger ud For alle varable fortager v et F-test for den tlsvarende parameter. Den varabel med højst P-værd over f 0.0 fjernes fra modellen. Hvem er nu mndst vgtg? I den reducerede model foretages et (nyt) F-test for hver af de tlbageværende varable. Igen fjernes den varabel, der har højst P-værd over 0.0. Dette gentages ndtl alle tlbageværende varable er sgnfkante, dvs. deres F-test alle har en P-værd under 0.0.

Multpel lneær regresson Eksempel: Y = Eport Eksport tl Sngapore mlloner $ X = M Money supply X = Lend Udlånsrente X = Prce Prsnde X 4 = Echange Vekselkurs ml. S pore $ og US $ Model: y = 44 α ε ε..d N(0, σ )

Backward: Eksempel Den fulde model (start-model): Støreste p-værd over 0.0 Fjerner Lend. Reducerede model: Fjern Echange. Reduceret model (slut-model): Støreste p-værd over 0.0 Ingen p-værd over 0.0

Modelsøgnng SPSS I Lnear Regresson kan man menuen Method bl.a. vælge mellem Enter (Uden søgnng) Backward Independent(s) ndeholder varable, der skal ndgå model-søgnngen. Bemærk: Denne automatske modelsøgnng vrker kun med Lnear Regresson -funktonen. Dvs. for General Lnear Model skal man lave søgnngen manuelt.

Lneær Regressonsmodel V har set på en lang række modeller på formen Hvert er enten kvanttatv varabel dummy-varabel relateret tl en kvaltatv varabel Om fejlleddene ε antager v Uafhængge Normalfordelte Mddelværd 0 Konstant standardafvgelse σ. (homoskedastske fejlled) k k y ε α =... 4 4 [ ] k k y E α =... 4 4

Estmerede model Vha. mndste kvadraters metode får v ˆ a b b b b4 4 y =... b y = yˆ e Dvs. a er et estmat af α b er et estmat af b k er et estmat af κ Resdualet e er et estmat af fejlledet ε. Hvs moddel er korrekt, bør e erne opføre sg (ca.) som fejlleddene. k k

Fejlled: Antagelser ε er fejlledet for te observaton. ε erne er uafhængge normalfordelte med mddelværd nul og konstant varans (homoskedastske) Resdualerne bør (ca.) opfylde dsse antagelser. Gennemsnttet af resdualerne er pr. konstrukton nul, så det skal kke tjekkes. De andre antagelser tjekker v grafsk vha. plots.

Resdualplot Resdualer Resdualer 0 0 or y Homoskedastsk: Resdualerne ser ud tl at varere lge meget for alle eller ŷ. Desuden er resdualerne ufahængge af hnanden og. Resdualer Resdualer or y Heteroskedastsk: Varansen for resdualerne ændrer sg når ændrer sg. 0 0 Td Resdualerne udvser lneær trend med tden (ellern anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. or y Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Vrste e og ŷ ud af SPSS Vælg Save I Save vnduet vælges Unstandardzed både under Resduals (e erne) og ŷ Predcted Values ( erne). ŷ e 5

Resdual plot ŷ Scatterplot af e mod. Check af uafhængghed: Ser usystematsk ud. Check af konstant varans: Tendens tl stgende varans. 6

Resdualplot Hstogram af e Check af normalfordelngsantagelse: Ser ok ud. 7