Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Relaterede dokumenter
Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statikstik II 4. Lektion. Generelle Lineære Modeller

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Kvantitative metoder 2

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Statistik Lektion 4. Variansanalyse Modelkontrol

Økonometri 1 Efterår 2006 Ugeseddel 9

Lineær regressionsanalyse8

Simpel Lineær Regression - repetition

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Morten Frydenberg Biostatistik version dato:

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Kvantitative metoder 2

Bilag 6: Økonometriske

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1 Efterår 2006 Ugeseddel 13

Ugeseddel 8. Gruppearbejde:

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Repetition. Forårets højdepunkter

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

TALTEORI Følger og den kinesiske restklassesætning.

Kvantitative metoder 2

Kvantitative metoder 2

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

DLU med CES-nytte. Resumé:

Binomialfordelingen. Erik Vestergaard

Multipel Lineær Regression

Binomialfordelingen: april 09 GJ

Kvantitative metoder 2

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Sandsynlighedsregning og statistik med binomialfordelingen

χ 2 -fordelte variable

Brugen af R^2 i gymnasiet

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Forberedelse til den obligatoriske selvvalgte opgave

Beregning af strukturel arbejdsstyrke

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Løsninger til kapitel 12

Inertimoment for arealer

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Brugerhåndbog. Del IX. Formodel til beregning af udlandsskøn

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Statistik Lektion 16 Multipel Lineær Regression

Luftfartens vilkår i Skandinavien

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Tabsberegninger i Elsam-sagen

Validering og test af stokastisk trafikmodel

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Husholdningsbudgetberegner

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Nøglebegreber: Objektivfunktion, vægtning af residualer, optimeringsalgoritmer, parameterusikkerhed og korrelation, vurdering af kalibreringsresultat.

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonomisk Kandidateksamen 2005II Økonometri 1. Lønpræmier

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Stadig ligeløn blandt dimittender

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Note til Generel Ligevægt

Rettevejledning til Økonomisk Kandidateksamen 2005II, Økonometri 1

1. Beskrivelse af opgaver inden for øvrig folkeskolevirksomhed

Økonometri 1 Forår 2003 Ugeseddel 10: Prøveeksamen. Indtjening, konkurrencesituation og produktudvikling i danske virksomheder. Om opgavens formål:

To-sidet variansanalyse

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Fysik 3. Indhold. 1. Sandsynlighedsteori

2. Sandsynlighedsregning

Notat om porteføljemodeller

Transkript:

Statstk II Lekton 5 Modelkontrol Modelkontrol Modelsøgnng Større eksempel

Opbygnng af statstsk model Eksploratv data-analyse Specfcer model Lgnnger og antagelser Estmer parametre Modelkontrol Er modellen passende? Ja Anvend modellen Nej Herunder test, modelsøgnng, prædktoner og fortolknnger.

Generel Lneær Model Y afhængg skala varabel 1,, k forklarende varable, skala eller bnære Model: hvor fejlleddet ε er normalfordelt med mddelværd 0 og varans σ 2, ε ~N(0, σ 2 ). Mddelværden for Y gvet = ( 1,, k ) er Dvs. regressons- lnjen angver mddelværden. + = = + + + = k k k X Y E 1 1 1 ) ( β α β β α ε β α ε β β α + + = + + + + = = k k k Y 1 1 1

Generel Lneær Model Mere præcst: te observaton y ud af n er gvet ved Y α + ε = + β1 1, + + βk k, Systematsk del Tlfældg del j, er j te forklarende varabel for den te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) Idependent and Identcally Dstrbuted - IID

Estmater og prædkton Lad a være et estmat af α Lad b 1 være et estmat af β 1, osv Defner den prædkterede værd som ŷ y ˆ = a + b + + b k k Dvs. er et estmat af mddelværden 1 1 E ( Y X ) = α + β + + β 1 1 k k

Resdual I den sande model har v Det kan v skrve om tl Resdualet, e, er derfor et estmat af fejlleddet: Da ε erne er normalfordelte bør e erne også være det (hvs modellen da ellers er korrekt). ε ε β β α + = + + + + = ] [ 1 1 X E Y Y k k ] [ X = Y E Y ε y y e ˆ =

Estmaton Vores estmater, a, b 1, b 2,, b k, er fundet ved at mnmere summen af de kvadrerede resdualer: SSE = n = 1 e 2 = n ( y yˆ ) = 1 2 Metoden kaldes mndste kvadraters metode SSE står for Sum of Squared Errors SSE angver også størrelsen af den uforklarede varaton data.

Modelkontrol For at kunne stole på test og estmater skal v skre os, at modellens antagelser er overholdt! Antagelse: Mddelværd-strukturen modellen er E( Y X ) = α + β + + β Kan være svært at checke drekte, hvs v har mange forklarende varable. Hvs mddelværd-strukturen modellen er korrekt, så bør mddelværden af e erne være ca. nul uanset værden af. ŷ erne eller erne. Grafsk check: plot af af e mod. 1 1 ŷ k k

Modelkontrol Antagelse: Fejlleddene ε 1,, ε n uafhænge? Der må kke vær nogen systematsk sammenhæng mellem e erne og ŷ erne eller erne. Grafsk check: Et plot at e mod eller. Antagelse: Fejlleddene ε 1,, ε n ~ N(0,σ 2 )? Hvs sandt regner v med at e erne er crka normalfordelte. ŷ Et plot at e mod kan afsløre om varansen er konstant (homoskedatske fejlled). Et hstogram eller QQ-plot kan afsløre om e erne er normalfordelte ŷ

Resdualplot Resdualer Resdualer 0 eller yˆ 0 eller yˆ Homoskedastsk: Resdualerne ser ud tl at varere ufahænggt af hnanden og (eller ŷ). Resdualer Heteroskedastsk: Varansen for resdualerne ændrer sg når ændrer sg. Resdualer 0 Td 0 eller yˆ Resdualerne udvser lneær trend med tden (eller en anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Eksempel: Salg og Reklame Data: n = 30 par af observatoner (,y ) Model: y = Ugentlge salg = Ugentlge reklame-budget y α + β + ε = Hvor ε ~N(0,σ 2 )

Resdualer SPSS I Lnear Regresson vnduet vælges Save I Save vnduet vælges Unstandardzed både under Reresduals (e erne) og ŷ Predcted Values ( erne).

Efter endt regresson skaber SPSS to nye søjler Data Edtor, der ndeholder resdualer ( RES_1 ) prædktoner ( PRE_1 ). Derefter kan man f lave scatter plots.

Scatter plot af resdualer (e erne) mod højde ( erne) (øverst) resdualer (e erne) mod prædktonerne ( erne) (nederst). ŷ Ser jo ganske usystematsk ud!

Hstogram af resdualer Hstogrammet burde lgne en normalfordelng. Det gør det også sådan crka så ngen problemer her

Normalfordelngsplot (Q-Q plot) Konstruer et kunstge data u 1,u 2,,u n som følger en normalfordelng. I et Q-Q plot plotter man u. mod e. Bemærk at både u erne og e erne er sorterede. Hvs resdualerne er normalfordelte, vl v have e u. Dvs (e,u ) lgge usystematsk omkrng en lnje med hældnng 1 og skærng 0.

Normalfordelngsplot (Q-Q plot) Det kunstge data (u erne) opnås ved at nddele normalfordelngen n+1 lge store stykker. Areal = 1/(n+1) u 5

Vælg Analyze Descrptve Statstcs Q-Q plots Ser helt fnt ud snor sg kke alt for systematsk omkrng lnjen. Punkterne lgger rmlg usystematsk omkrng lnjen: Altså ca. normalfordelt

Determnatons-koeffcenten R 2 Defnton R 2 SSR = = 1 SST SSE SST Fordel: Nem at fortolke: Andel af den totale varaton der er forklaret af modellen. Ulempe: R 2 vokser når v tlføjer flere forklarende varable. Dvs. ved at tlføje flere og flere forklarende varable kan v få et vlkårlgt stort R 2. Mål: V jagter den smplest mulge model, der forklarer data tlfredsstllende.

Justeret R 2 Defnton: R 2 = 1 SSE SST ( n k 1) ( n 1) Trade-off mellem forklarngsgrad, R 2, og antallet af parametre, k. Fordel: Vokser kun, hvs ekstra forklarende varabels forklarngsgrad er stor forhold tl antal ekstra parametre. Ulempe: Ikke samme smple fortolknng som R 2.

Hypotese-test Generelt vl v teste om en eller flere β er kan sættes lg nul. Det svarer tl at fjerne de tlsvarende led fra modellen. Formelle hypoteser H 0 : β 1 = = β q = 0 q β er efter eget valg H 1 : β 0 for mndst et af de q parametre Testes vha. af et F-test. Teststørrelsen F 0 og følger en F-fordelng Jo større F er jo mere krtsk for H 0. V konkluderer som sædvanlgt på baggrund af p-værd.

F-test detaljer for de nysgerrge Teststørrelsen er F = ( * SSE SSE) SSE q ( n k 1) SSE er summen af de kvadrerede fejl en model, hvor når β 1,, β q er med (den oprndelge model) SSE * er summen af de kvadrede fejl når β 1,, β q kke er med. Der gælder SSE * SSE. Intuton: Jo større forskel (SSE * -SSE) jo mere betyder β 1,, β q for modellen og jo mndre tror v på F.

F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal = p-værd 0.1 0.0 0 1 2 3 F 4 5 F

Modelform Sdst så v på en model for forbruget af gas (Gas) forklaret ved temperatur (Temp) og om huset var soleret (Insulate) Y α + β + β + β + ε = Temp Temp Før Før Temp, Før Temp, Før Her er Før dummy varabel At skrve formlen op kan hurtgt blve uoverskuelgt. Modellens modelform kan skrves som Gas = Temp + Insulate + Temp*Insulate I forbndelse med analyse eller fortolknng af modellen er det stadg nyttgt at skrve den matematske formel op.

Modelsøgnng Formål: Fnd den smplest mulg model, der beskrver data tlfredsstllende. Kanddater: V vl kun bruge modeller der overholder det herarkske prncp: Hvs en model ndeholder en nterakton, så skal hovedeffekterne også være med. F. Hvs modellen ndeholder nteraktonen A*B, så skal den også ndeholde A og B. Hvs modellen ndeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv Nav søgnng: Gennemgå alle modeller og vælg den der er bedst efter et eller andet krtere, f R 2. Backwards søgnng: Start med en komplceret model og fjern derefter en efter en led, der kke er sgnfkante.

Backwards søgnng Backwards-søgnng: Startmodel: Vælg tl at starte med en model, der ndeholder alle varable og vekselvrknnger, der menes at være (faglgt) nteressante som forklarng den afhængge varabel. Undgå at specfcere en model der er vanskelg at fortolke. Test hvlke led modellen, der kan fjernes. Mndst sgnfkante led fjernes, dvs F-test med højest p-værd, dog så Det herarkske prncp er overholdt p-værden > α (typsk α = 0.05) Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mndre model. Slutmodel: Når kke flere led kan fjernes har v vores slutmodel. Forbehold: Før hver test-runde skal man afklare om modellens antagelser er opfyldt ellers kan man kke stole på p-værderne.

Stort Eksempel: Bolgprser prce: Bolgens prs $ sqft: Bolgens størrelse kvadrat-fod bedrooms: Antal soveværelser baths: Antal badeværelser garage: Antal bler, der er plads tl garagen.

Eksploratv analyse

Krydstabel garage vs bedrooms Bemærk: Mange epected counts <5, så v kan kke bruge en χ 2 test. Løsnng: Slå kategorer sammen

Omkodnng af Garage Omkodnng: garage = 0 tl 1 garage2 = 0 garage 2 garage2 = 1 SPSS: Transform Recode nto Dfferent Varables

Omkodnng af Bedrooms Omkodnng: bedroom = 1 tl 2 bedroom2 = 2 bedroom = 3 bedroom2 = 3 bedroom = 4 tl 5 bedroom2 = 4

Krydstabel garage2 vs bedrooms2 Hypotese: H 0 : Uafhængghed H 1 : Afhængghed Teststørrelse: χ 2 P-værd < 0.0005 Konkluson: V afvser H 0, dvs. der er afhængghed.

Logstsk Regresson Afhængg varabel garage2 Forklarende varabel prce Output: Konkluson: Prs har en betydnng, hvs modellen er god men det er modellen kke

Varansanalyse Afhængg: Bolgprs Forklarende: Garage2 og Bedroom2 Model(formel): y = α + β g 0 g 0, + β b2 β b2, g 0b2 + β g 0, b3 b2, b3, + + β g 0b3 g 0, b3, + ε Dummy varable: g0 = 1 garage2 = 0 ε ~ N(0, σ b2 = 1 garage2 = 2 b3 = 1 garage2 = 3 2 )

Modelform Slpper for detaljerne: Brug modelform Modelform: Garage2 + Bedroom2 + Garage2*Bedroom2 Denne model kaldes mættet, da alle tænkelg vekselvrknnger er medtaget. Er man ekstra doven, så skrver man kun Garage2*Bedroom2 De resterende led følger af det herarkske prncp.

SPSS: Test af model-led V afvser hypotesen om at vekselvrknngsleddet kan udelades. Konkluson: Prsen på bolg kan kke forklares af antal soveværelser og størrelsen på garagen alene. Et vekselvrknngsled mellem antal soveværelser og størrelsen på garagen er nødvendg. Næste skrdt burde være modelkontrol.

Bolgprs og Bolgareal

Badeværelser og Bolgprs

Generel Lneære Model - Startmodel Afhængg: Bolgprs Forklarende: sqft, baths og bedroom2 Modelform: sqft + baths + bedroom2 + sqft*bedroom2 + baths*bedroom2 + sqft*baths

Model-formel Den tlsvarende model-formel er y = α + β β β sqft* b2 sqft baths* b2 sqft, sqft, baths, + β b2, b2, baths + β baths, sqft* b3 + β sqft, baths* b3 + β b2 b3, baths, b2, + b3, + β + ε b3 b3, + ε ~ N(0, σ 2 ) b2 og b3 er dummyvarable kodet som før.

Modelkontrol Scatterplot af e mod ^y Godt: Usystematsk Skdt: Varansen er kke konstant. Løsnnger? Indfør prce2 = log(prce) Indfør prce2 = prce

Normalfordelte Resdualer Fordelngen er ldt for spds tl at være normalfordelt. Men lad det nu lgge

Test SPSS Ingen af nteraktonsleddene er sgnfkante! Fjerner mndst sgnfkante led (baths*sqft)

Reduceret Model Begge tlbageværende vekselvrknngsled er mndre sgnfkante end før ldt atypsk. V fjerner bedrooms2*baths

Slutmodel Nu er bedrooms2*sqrt stærkt sgnfkant! Modelsøgnngen er slut pånær modelkontrol.

Estmater Antal badeværelser har betydnng for prsen Lgeledes har antal soveværelser og bolgareal Prsen for en ekstra sqft afhænger af antal værelser.

Mn-Projekt Omfang: Ca. 30 sder (kke noget krav sådan ender det som regel) Indhold: Beskrvelse af data Opstllng af (kvaltatve) hypoteser Anvend modeller og metoder fra kurset Afleverng: Senest mandag. d. 26/11 kl. 12. pr. e-mal tl kkb@math.aau.dk og en hard-copy tl Dorte. Eksamen: Torsdag 5. November.