Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Relaterede dokumenter
Statikstik II 4. Lektion. Generelle Lineære Modeller

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Kvantitative metoder 2

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Morten Frydenberg Biostatistik version dato:

Statistik Lektion 4. Variansanalyse Modelkontrol

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Kvantitative metoder 2

Lineær regressionsanalyse8

Økonometri 1 Efterår 2006 Ugeseddel 9

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Simpel Lineær Regression - repetition

Repetition. Forårets højdepunkter

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Multipel Lineær Regression

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Kvantitative metoder 2

Statistik Lektion 16 Multipel Lineær Regression

Økonometri 1 Efterår 2006 Ugeseddel 13

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Bilag 6: Økonometriske

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Ugeseddel 8. Gruppearbejde:

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Kvantitative metoder 2

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Kvantitative metoder 2

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

DLU med CES-nytte. Resumé:

Binomialfordelingen: april 09 GJ

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Løsninger til kapitel 12

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

Brugen af R^2 i gymnasiet

TALTEORI Følger og den kinesiske restklassesætning.

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Modul 11: Simpel lineær regression

χ 2 -fordelte variable

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Rettevejledning til Økonomisk Kandidateksamen 2005II, Økonometri 1

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Inertimoment for arealer

Husholdningsbudgetberegner

Sandsynlighedsregning og statistik med binomialfordelingen

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kvantitative metoder 2

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Beregning af strukturel arbejdsstyrke

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Binomialfordelingen. Erik Vestergaard

Luftfartens vilkår i Skandinavien

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

To-sidet varians analyse

Simpel Lineær Regression: Model

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Morten Frydenberg Biostatistik version dato:

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

DANMARKS NATIONALBANK WORKING PAPERS

Transkript:

Statstk II Lekton 4 Generelle Lneære Modeller Smpel Lneær Regresson Multpel Lneær Regresson Flersdet Varansanalyse (ANOVA)

Logstsk regresson Y afhængg bnær varabel X 1,,X k forklarende varable, skala eller bnære Model: Sandsynlghed: + + + + k k k x x x X Y P X Y P X Y Logt 1 1 1 ) 1 ( 1 ) 1 ( ln ) 1 ( β α β β α L + + + k k x x e e X Y P 1 1 1 ) 1 ( β α β α

Generel Lneær Model Y afhængg skala varabel X 1,,X k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet X + k E( Y X ) α + β x + L+ β x α β x 1 1 Mere præcst: te observaton ud af n er gvet ved Y + β1x1, + L+ βk xk, α + ε x j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) IID k k 1

Smpel lneær regresson GLM med én skala forklarende varabel (k1) Modellen er y ε + β1x 2 d N(0, σ α + ε ) Y Y ε E[Y X] α + β 1 X { β 1 Modellen sger: E(Y X) α + β 1 X α 0 1 V(Y X) σ 2 Y X ~ N(α + β 1 X, σ 2 ) X X

Endnu en tegnng Y Y α + β1x Y x ~N(α + β 1 x,σ 2 )..d. normalfordelte fejlled x 1 x 2 x 3 x 4 x 5 X

Estmaton Model: y α + β 1 x + ε ε er..d. N(0,σ 2 ) α, β 1 og σ 2 er modellens parametre ukendte! Estmaton af β 0 og β 1 svarer tl at vælge den lnje, der passer bedst tl de observerede punkter. Estmerede regressons lnje yˆ a + b1 x a er estmat for α og b 1 er estmat for β 1. Y hat er estmat for E(Y X) Spørgsmål: Hvordan estmerer v α og β 1?

Resdual led e yˆ ( y ) er den lodrette afstanden fra den estmerede lne tl datapunktet (x,y ). Y Det observered e datapunkt Y ˆ a + b1 X Y Yˆ e Y Yˆ ( X, Y ) Y ˆ den forvendtede værd for Y Den estmerede regressonslnje gvet X X X

Mndste kvadraters metode V vl fnde a og b 1 så summen af de kvadrerede fejl blver mndst mulg. Dvs, v vl mnmere SSE er Sum of Squared Errors. Skrevet ud: SSE n 1 e 2 n n ˆ ( y a b x 1 1 2 2 e ( y y ) 1 1 n ) 2 Bemærk: Funkton af to varable (a og b 1 ).

Mnmerng SSE er en funkton af a og b 1. SSE a b 1 V vl fnde a og b 1 så SSE er mndst mulg.

Test af hældnng (β 1 ) Test for om hældnngen, β 1 er forskellg fra nul: H 0 : β 1 0 vs H1 : β1 0 Teststørrelse: t b1 SE( b 1 ) Numersk store værder af t er ufordelagtge for H 0. SE(b 1 ) er standardfejlen for estmatet b 1. Hvs H 0 er sand følger t en såkaldt t-fordelng med n-k- 1 frhedsgrader, hvor n er antal observatoner.

Test af hældnng (β 1 ) Vælg et sgnfkansnveau, typsk α0.05. Udregn teststørrelsen 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 t-fordelng med n-2 frhedsgrader 0. 0 t 0 Orange område p-værd Bestem p-værden (SPSS). Beslutnng: Hvs p-værden < α afvses H 0. t

Fortolknng/Eksempler på H 0 Er der en lneær sammenhæng mellem X og Y? H 0 : β 1 0 ngen lneær sammenhæng H 1 : β 1 0 lneær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usystematsk varaton Ikke-lneær sammenhæng Y Y Y X X X

Eksempel Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estmerede model: yˆ 5,486 0. 290x Både skærng (α) og hældnng (β 1 ) er sgnfkante!

SPSS Analyze General Lnear Models Unvarate Kategorske forklarende varable Skala forklarende varable

Forklaret og uforklaret afvgelse Lad y være gennemsnttet af alle y er y s afvgelse fra kan opdeles to. Y Yˆ Y Y y. ( x, y) y ˆ a + bx Uforklaret afvgelse Totale afvgelse Forklaret afvgelse X X X

Total og forklaret varaton - llustraton Y Y Den totale varaton ses når v kgger langs x-aksen X Den uforklarede varaton ses når v kgger langs regressonslnjen X

Den totale varaton Lad y være gennemsnttet af alle y er Den totale varaton for data er SST ( y Varatonen data omkrng datas mddelværd SST Sum of Squares Total n y 1 ) 2

Opsltnng af den totale varaton Den totale varaton kan opslttes: 2 ( ) n 2 ( ) n y y y yˆ + ( yˆ ) 2 n 1 1 1 y SSE n ( y ˆ ) 2 y er den uforklarede varaton. SSR n 1 ( y ) 2 er den forklarede varaton. ˆ 1 y SSR Sum of Squares Regresson

Total og forklaret varaton Opspltnng af varatonen Total Uforklaret + Forklaret n 2 n 2 n 1 1 1 ( y y) ( y yˆ ) + ( yˆ y) 2 SST SSE + SSR

Determnatons koeffcenten R 2 Determnatons Koeffcenten: Andelen af den totale varaton, der er forklaret. R 2 Forklaret varaton SSR SST SSE 1 Total varaton SST SST SSE SST Pr defnton: 0 R 2 1. Jo tættere R 2 er på 1, jo mere af varatonen data er forklaret af modellen. R 2 >0.8 er godt! R 2 meget tæt på 1 er dog mstænkelgt.

Eksempler på R 2 Y Y Y R 2 0 SST SSE X R 2 0.50 X SST SSE SSR R 2 0.90 S S E SST SSR X

Er modellen besværet værd? H 0 : β 1 β 2 β k 0 H 1 : Mndst et β 0 Der er ngen (lneær) sammenhæng mellem Y og de forklarende varable Der er (lneær) sammenhæng mellem Y og mndst én af de forklarende varable Teststørrelse: F SSR k MSR ~ F SSE MSE n ( n k 1) Mean Squared Error ( 1, 2) Store værder af F er ufordelagtge for H 0. Mean Squared Regresson

F-test detaljer Husk at R 2 SSR 1 SST SSE SST 2 Det medfører at SSR SST R og ( 2 SSE SST 1 R ) Hvlket gver F SSR SSE k R ( ) ( 2 n k 1 1 R ) ( n k 1) 2 k Dvs. jo mere modellen kan forklare, større F, og jo mndre tror v på H 0 -hypotesen om ngen sammenhæng.

Eksempel: R 2 og F-test SSR SSE SST MSR p-værd F MSE R 2 SSR SST 35,019 75,014 0,467 F 35,019 0,741 47,282

F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal p-værd 0.1 0.0 0 1 2 3 F 4 5 F

Eksempel - fortsat Y : Forbrug af gas, skala (gas) X Temp : Udetemperatur, skala (temp) X Isolerng : {Før, Efter}, kategorsk (nsulate) Omkod X Isolerng tl bnær varabel X Før X Før 1 hvs X Isolerng Før X Før 0 hvs X Isolerng Efter Model: Y 0 Temp Temp Før Før β + β x + β x + ε

Fortolknng af model Når X Isolerng Før Y α + β x + β 1+ ε α + β Temp Før Når X Isolerng Efter α + β Temp + β Temp Før Temp + ε Y α + β x + β 0 + ε Temp Temp x Temp Temp To lnjer med forskellg skærngspunkter! β Før angver forskellen skærngspunkt. x + ε Før

To regressonslnjer med forskellge skærnger, men samme hældnng Y Lnje for X Før 1 α + β Før Lnje for X Før 0 α X 1

Eksempel og SPSS SPSS: Som før, dog er Insulate tlføjet Fxed factor Som ventet er F-testet stadg sgnfkant. Som ventet er R 2 vokset med nye varable kan modellen aldrg forklare mndre end før. Bemærk at R 2 er meget større!

Eksempel og SPSS Estmater Estmeret model: yˆ 4,986 0,337x Temp + 1, 565x Før Prædkteret gas-forbrug for et hus før det solerng når temperatur er 7 o (x Temp 7 og X Før 1): 4,986 0,337 7 + 1,565 1 4,192

Vekselvrknng / Interakton V kan ntroducere en vekselvrknng mellem kvaltatve og kvanttatve varable. Y, X Temp og X Før er som før. Introducer: X Temp,Før X Temp X Før Model Y Temp Temp Før Før Temp, Før Temp, Før α + β x + β x + β x + ε ε ~ N(0, σ 2 )

Fortolknng Når X Isolerng Før: E Y x α + ( ) Når X Isolerng Efter: ( x) E Y β ( α + β ) ( ) Før + β Temp + β Temp, Før x Temp x x 0 α + βtemp Temp + β Før 0 + βtemp, Før α + β Temp Temp x x Temp Temp + β Temp, Før Temp 1 Temp β Temp,Før beskrver forskellen hældnngen mellem de to regressonslnjer. Før 1+ β x

SPSS Hoved-effekt: Ensom varabel Interaktonsled: Produkt af to eller flere varable I SPSS: Under Model angv hoved-effekter og nteraktonsled. Indsæt altd hoved-effekter først!

Scatterplot Estmater Estmeret model: yˆ 4,724 + 0.278x Temp + 2,130x Før 0,115x Temp, Før

Varansanalyse (ANOVA) En Generel Lneær Model, der kun har kategorske forklarende varable, kaldes en varansanalyse. På engelsk: Analyss of Varance (ANOVA) Eksempel: Y: Månedlge forbrug Shoppng: Hver 2. uge, Ugentlgt, Oftere Køn: Mand, Kvnde

Dummy-varable To kategorske varable: Omkodnng tl dummy varable. Referencekategorer: Kvnde og Ofte (SPSS vælger altd sdste kategor som reference) Køn X Mand Mand 1 Kvnde 0 Stl X H2U X Uge Hver 2. uge 1 0 Ugentlg 0 1 Ofte 0 0

Model Den generelle lneære model er: E(Y x) α + β Kvnde X Kvnde + β H2U X H2U + β Uge X Uge Fortolknng E(Y KønMand,Stl) - E(Y KønKvnde, Stl) (α + β Mand 1 + β H2U X H2A + β Uge X Uge ) (α + β Mand 0 + β H2A X H2A + β Uge X Uge ) β Kvnde Dvs. β Mand angver forskellen gennemsnts-forbruget for mænd forhold tl kvnder (uagtet deres shoppngstl).

Mere fortolknng β H2U angver forskellen gennemsnts-forbrug for folk der handler hver 2. uge forhold tl folk der handler ofte. β Uge angver forskellen gennemsnts-forbrug for folk der handler ugentlgt forhold tl folk der handler ofte.

Hypotesetest Hypoteser H 0 : β H2A β Uge 0 H 1 : β H2A 0 og/eller β Uge 0 Teststørrelse: F SSStl q MSStl ~ F( q, n SSE MSE k ( n k 1) SS Stl : Sum of Squares for Stl 1) Store værder af F er ufordelagtge for H 0. q : Antal parametre forbundet med Stl (2) Intuton: Jo mere af den totale varaton Stl forklarer, jo større er SS Stl og dermed F.

SPSS Analyze General Lnear Model Unvarte amtspend som dependent style og gender som fxed factor Bemærk at style kke er sgnfkant! Bemærk: R 2 0.118, dvs. kun 11,8% af den totale varaton er forklaret af modellen!

Estmerede model Den estmerede model: E(Y x) 374,133 + 61,183 X Mand 27,703 X H2U 4,271 X Uge Prædkton: Gennemsntsforbruget for en mand, der shopper ugentlgt er: E(Y Køn Mand, Shoppng Ugentlgt ) 374,133 + 61,183 1 27,703 0 4,271 1 431,045

Vekselvrknng Introducer vekselvrknng: Køn*Stl Nye dummy varable: X Køn,Stl X køn *X Stl. Bemærk: Dummy-varable X Køn,Stl 0 hvs referencekategor er ndblandet. Mand Kvnde (ref.kat.) Hver 2. uge X Mand,H2U Ugentlg X Mand,Uge Ofte (ref.kat.)

Model Den generelle lneære model er: E(Y x) α + β Mand X Mand + β H2U X H2U + β Uge X Uge + β Mand,H2U X Mand,H2U + β Mand,Uge X Mand,Uge

SPSS Bemærk: Hoved-effekter før nteraktoner!

SPSS R 2 er nu 0,138. Bemærk: Interaktonen Køn*Stl er sgnfkant, mens hovedeffekten Stl kke er! Normalt : Fjerne led med højest p-værd, dvs. mndst sgnfkante led. Herarkske prncp: V fjerner kke en hovedeffekt, hvs den ndgår en nterakton.

Estmerede model Estmerede model er: ŷ 405,727 + 2,048 X Mand 61,751 X H2U 44,006 X Uge + 67,042 X Mand,H2U + 77,196 X Mand,Uge