Statikstik II 4. Lektion. Generelle Lineære Modeller

Relaterede dokumenter
Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Kvantitative metoder 2

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Statistik Lektion 4. Variansanalyse Modelkontrol

Morten Frydenberg Biostatistik version dato:

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Kvantitative metoder 2

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Repetition. Forårets højdepunkter

Simpel Lineær Regression - repetition

Lineær regressionsanalyse8

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1 Efterår 2006 Ugeseddel 9

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Multipel Lineær Regression

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Statistik Lektion 16 Multipel Lineær Regression

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Ugeseddel 8. Gruppearbejde:

Kvantitative metoder 2

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Forelæsning 11: Kapitel 11: Regressionsanalyse

Økonometri 1 Efterår 2006 Ugeseddel 13

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Bilag 6: Økonometriske

Kvantitative metoder 2

Kvantitative metoder 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

DLU med CES-nytte. Resumé:

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

Modul 11: Simpel lineær regression

Løsninger til kapitel 12

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Rettevejledning til Økonomisk Kandidateksamen 2005II, Økonometri 1

Binomialfordelingen: april 09 GJ

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

TALTEORI Følger og den kinesiske restklassesætning.

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Brugen af R^2 i gymnasiet

χ 2 -fordelte variable

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Inertimoment for arealer

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Sandsynlighedsregning og statistik med binomialfordelingen

To-sidet varians analyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Husholdningsbudgetberegner

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kvantitative metoder 2

Simpel Lineær Regression: Model

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Beregning af strukturel arbejdsstyrke

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Luftfartens vilkår i Skandinavien

Binomialfordelingen. Erik Vestergaard

1 Regressionsproblemet 2

Transkript:

Statkstk II 4. Lekton Generelle Lneære Modeller

Generel Lneær Model Y afhængg skala varabel X 1,,X k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet X + k = E( Y X ) = α + β x + + β x = α β x 1 1 Mere præcst: te observaton ud af n er gvet ved Y = + β1x1, + + βk xk, α + ε x j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) IID k k 1

Smpel lneær regresson GLM med én skala forklarende varabel (k=1) Modellen er y ε = + β1x 2 d N(0, σ α + ε ) Y Y ε E[Y X] = α + β 1 X { β 1 Modellen sger: E(Y X) = α + β 1 X α 0 1 V(Y X) = σ 2 Y X ~ N(α + β 1 X, σ 2 ) X X

Endnu en tegnng Y Y = α + β x 1 Y x ~N(α + β 1 x,σ 2 )..d. normalfordelte fejlled x 1 x 2 x 3 x 4 x 5 X

Estmaton Model: y = α + β 1 x + ε ε er..d. N(0,σ 2 ) α, β 1 og σ 2 er modellens parametre ukendte! Estmaton af α og β 1 svarer tl at vælge den lnje, der passer bedst tl de observerede punkter. Estmerede regressons lnje yˆ = a + b1 x a er estmat for α og b 1 er estmat for β 1. Y hat er estmat for E(Y X) Spørgsmål: Hvordan estmerer v α og β 1?

Resdual led e = yˆ ( y ) er den lodrette afstanden fra den estmerede lne tl datapunktet (x,y ). Y Det observerede datapunkt Y ˆ = a + b1 X Y Yˆ e = Y Yˆ X, Y ) ( Y ˆ den forvendtede værd Den estmerede regressonslnje for Y gvet X X X

Mndste kvadraters metode V vl fnde a og b 1 så summen af de kvadrerede fejl blver mndst mulg. Dvs, v vl mnmere SSE er Sum of Squared Errors. Skrevet ud: SSE = n = 1 e 2 n n ˆ ( y a b1 x 2 2 e = ( y = = = y 1 1 ) = n 1 ) 2 Bemærk: Funkton af to varable (a og b 1 ).

Mnmerng SSE er en funkton af a og b 1. SSE a b 1 V vl fnde a og b 1 så SSE er mndst mulg.

Test af hældnng (β 1 ) Test for om hældnngen, β 1 er forskellg fra nul: H : β 1 = 0 vs H1 : β1 0 0 Teststørrelse: t = b1 SE( b 1 ) Numersk store værder af t er ufordelagtge for H 0. SE(b 1 ) er standardfejlen for estmatet b 1. Hvs H 0 er sand følger t en såkaldt t-fordelng med n-k- 1 frhedsgrader, hvor n er antal observatoner.

Test af hældnng (β 1 ) Vælg et sgnfkansnveau, typsk α=0.05. Udregn teststørrelsen 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 t-fordelng med n-2 frhedsgrader 0. 0 t 0 Orange område = p-værd Bestem p-værden (SPSS). Beslutnng: Hvs p-værden < α afvses H 0. t

Fortolknng/Eksempler på H 0 Er der en lneær sammenhæng mellem X og Y? H 0 : β 1 = 0 ngen lneær sammenhæng H 1 : β 1 0 lneær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usystematsk varaton Ikke-lneær sammenhæng Y Y Y X X X

SPSS Analyze General Lnear Models Unvarate Kategorske forklarende varable Skala forklarende varable

Eksempel Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estmerede model: yˆ = 5,486 0. 290x Både skærng (α) og hældnng (β 1 ) er sgnfkante!

Forklaret og uforklaret afvgelse Lad y y s afvgelse fra Y Yˆ Y Y være gennemsnttet af alle y er y kan opdeles to. Uforklaret afvgelse Totale afvgelse Forklaret afvgelse. ( x, y) y ˆ = a + bx X X X

Total og forklaret varaton - llustraton Y Y Den totale varaton ses når v kgger langs x-aksen X Den uforklarede varaton ses når v kgger langs regressonslnjen X

Den totale varaton Lad y være gennemsnttet af alle y er Den totale varaton for data er SST = = ( y Varatonen data omkrng datas mddelværd SST = Sum of Squares Total n y 1 ) 2

Opsltnng af den totale varaton Den totale varaton kan opslttes: 2 ( ) n 2 ( ) n y y = y yˆ + ( yˆ ) 2 n = 1 = 1 = 1 y SSE n ( y ˆ ) 2 y = = er den uforklarede varaton. SSR n 1 ( y ) 2 = = er den forklarede varaton. ˆ 1 y SSR = Sum of Squares Regresson

Total og forklaret varaton Opspltnng af varatonen Total = Uforklaret + Forklaret n 2 n 2 n = 1 = 1 = 1 ( y y) = ( y yˆ ) + ( yˆ y) 2 SST = SSE + SSR

Determnatons koeffcenten R 2 Determnatons Koeffcenten: Andelen af den totale varaton, der er forklaret. R 2 Forklaret varaton SSR SST SSE = = = = 1 Total varaton SST SST SSE SST Pr defnton: 0 R 2 1. Jo tættere R 2 er på 1, jo mere af varatonen data er forklaret af modellen. R 2 >0.8 er godt! R 2 meget tæt på 1 er dog mstænkelgt.

Eksempler på R 2 Y Y Y R 2 = 0 SST SSE X R 2 = 0.50 X SST SSE SSR R 2 = 0.90 S S E SST SSR X

Er modellen besværet værd? H 0 : β 1 = β 2 = = β k = 0 H 1 : Mndst et β 0 Der er ngen (lneær) sammenhæng mellem Y og de forklarende varable Der er (lneær) sammenhæng mellem Y og mndst én af de forklarende varable Teststørrelse: F = SSR k MSR = ~ F SSE MSE n ( n k 1) Mean Squared Error ( 1, 2) Store værder af F er ufordelagtge for H 0. Mean Squared Regresson

Eksempel: R 2 og F-test SSR SSE SST MSR p-værd F=MSR/MSE MSE R 2 SSR = SST = 35,019 75,014 = 0,467 F = 35,019 0,741 = 47,282

F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal = p-værd 0.1 0.0 0 1 2 3 F 4 5 F

Eksempel - fortsat Y : Forbrug af gas, skala (gas) X Temp : Udetemperatur, skala (temp) X Isolerng : {Før, Efter}, kategorsk (nsulate) Omkod X Isolerng tl bnær varabel X Før X Før = 1 hvs X Isolerng = Før X Før = 0 hvs X Isolerng = Efter Model: Y = 0 Temp Temp Før Før β + β x + β x + ε

Fortolknng af model Når X Isolerng = Før Y = α + β x + β 1+ ε = α + β Temp Før Når X Isolerng = Efter Temp + β Temp x Før Temp + ε Y = α + β x + β 0 = α + β Temp Temp x Temp Temp + ε Før + ε To lnjer med forskellg skærngspunkter! β Før angver forskellen skærngspunkt.

To regressonslnjer med forskellge skærnger, men samme hældnng Y Lnje for X Før =1 α + β Før Lnje for X Før =0 α X 1

Eksempel og SPSS SPSS: Som før, dog er Insulate tlføjet Fxed factor Som ventet er F-testet stadg sgnfkant. Som ventet er R 2 vokset med nye varable kan modellen aldrg forklare mndre end før. Bemærk at R 2 er meget større!

Eksempel og SPSS Estmater Estmeret model: yˆ = 4,986 0,337x Temp + 1, 565x Før Prædkteret gas-forbrug for et hus før det solerng når temperatur er 7 o (x Temp = 7 og X Før =1): 4,986 0,337 7 + 1,565 1 = 4,192

Vekselvrknng / Interakton V kan ntroducere en vekselvrknng mellem kvaltatve og kvanttatve varable. Y, X Temp og X Før er som før. Introducer: X Temp,Før = X Temp X Før Model Y α + β x + β x + β x + ε = Temp Temp Før Før Temp, Før Temp, Før ε ~ N(0, σ 2 )

Fortolknng Når X Isolerng = Før: E Y x = α + Når X Isolerng = Efter: E ( ) ( Y x) = β ( α + β ) ( ) Før + β Temp + β Temp, Før x Temp α + βtempxtemp + β Før 0 + βtemp, Før = x 0 = α + β Temp Temp x x Temp Temp + β Temp, Før xtemp 1 Temp β Temp,Før beskrver forskellen hældnngen mellem de to regressonslnjer. Før 1+ β

SPSS Hoved-effekt: Ensom varabel Interaktonsled: Produkt af to eller flere varable I SPSS: Under Model angv hoved-effekter og nteraktonsled. Indsæt altd hoved-effekter først!

Scatterplot Estmater Estmeret model: yˆ = 4,724 + 0.278x Temp + 2,130x Før 0,115x Temp, Før

Varansanalyse (ANOVA) En Generel Lneær Model, der kun har kategorske forklarende varable, kaldes en varansanalyse. På engelsk: Analyss of Varance (ANOVA) Eksempel: Y: Månedlge forbrug Shoppngstl: Hver 2. uge, Ugentlgt, Oftere Køn: Mand, Kvnde

Dummy-varable To kategorske varable: Omkodnng tl dummy varable. Referencekategorer: Kvnde og Ofte (SPSS vælger altd sdste kategor som reference) Køn X Mand Mand 1 Kvnde 0 Stl X H2U X Uge Hver 2. uge 1 0 Ugentlg 0 1 Ofte 0 0

Model Den generelle lneære model er: E(Y x) = α + β Kvnde X Kvnde + β H2U X H2U + β Uge X Uge Fortolknng: Sammenlgnng and mand og kvnde med samme Stl : E(Y Køn=Mand, Stl) - E(Y Køn=Kvnde, Stl) = (α + β Mand 1 + β H2U X H2U + β Uge X Uge ) (α + β Mand 0 + β H2U X H2U + β Uge X Uge ) = β Kvnde Dvs. β Mand angver forskellen gennemsnts-forbruget for mænd forhold tl kvnder (uagtet deres shoppng-stl).

Mere fortolknng β H2U angver forskellen gennemsnts-forbrug for folk der handler hver 2. uge forhold tl folk der handler ofte. β Uge angver forskellen gennemsnts-forbrug for folk der handler ugentlgt forhold tl folk der handler ofte.

Hypotesetest Hypoteser H 0 : β H2U = β Uge = 0 Dvs. ngen effekt af shoppe-stl. H 1 : β H2U 0 og/eller β Uge 0 Teststørrelse: F = SSStl q MSStl = ~ F( q, n SSE MSE k ( n k 1) SS Stl : Sum of Squares for Stl q : Antal parametre forbundet med Stl (2) 1) SS stl er forskellen den forklarede varaton (SSR) med og uden Stl modellen. Intuton: Jo mere af den totale varaton Stl forklarer, jo større er SS Stl og dermed F. Store værder af F er dermed ufordelagtge for H 0.

SPSS Analyze General Lnear Model Unvarte amtspend som dependent style og gender som fxed factor SSR SS Stl SSE SST Bemærk at style kke er sgnfkant! Bemærk: R 2 = 0.118, dvs. kun 11,8% af den totale varaton er forklaret af modellen!

Estmerede model Den estmerede model: E(Y x) = 374,133 + 61,183 X Mand 27,703 X H2U 4,271 X Uge Prædkton: Gennemsntsforbruget for en mand, der shopper ugentlgt er: E(Y Køn = Mand, Shoppng = Ugentlgt ) = 374,133 + 61,183 1 27,703 0 4,271 1 = 431,045

Vekselvrknng Introducer vekselvrknng: Køn*Stl Nye dummy varable: X Køn,Stl = X køn * X Stl. Bemærk: Dummy-varable X Køn,Stl = 0 hvs referencekategor er ndblandet. Hver 2. uge Ugentlg Ofte (ref.kat.) Mand X Mand,H2U X Mand,Uge Kvnde (ref.kat.)

Model Den generelle lneære model er: E(Y x) = α + β Mand X Mand + β H2U X H2U + β Uge X Uge + β Mand,H2U X Mand,H2U + β Mand,Uge X Mand,Uge Bemærk: Alle X er er dummy varable.

SPSS Bemærk: Hoved-effekter før nteraktoner!

SPSS R 2 er nu 0,138. Bemærk: Interaktonen Køn*Stl er sgnfkant, mens hovedeffekten Stl kke er! Normalt : Fjerne led med højest p-værd, dvs. mndst sgnfkante led. Herarkske prncp: V fjerner kke en hoved-effekt, hvs den ndgår en nterakton.

Estmerede model Estmerede model er: ŷ = 405,727 + 2,048 X Mand 61,751 X H2U 44,006 X Uge + 67,042 X Mand,H2U + 77,196 X Mand,Uge