Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Relaterede dokumenter
Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Statikstik II 4. Lektion. Generelle Lineære Modeller

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Kvantitative metoder 2

Bilag 6: Økonometriske

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Lineær regressionsanalyse8

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Simpel Lineær Regression - repetition

Økonometri 1 Efterår 2006 Ugeseddel 9

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Morten Frydenberg Biostatistik version dato:

Kvantitative metoder 2

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Brugerhåndbog. Del IX. Formodel til beregning af udlandsskøn

Ugeseddel 8. Gruppearbejde:

Statistik Lektion 4. Variansanalyse Modelkontrol

Forberedelse til den obligatoriske selvvalgte opgave

To-sidet variansanalyse

Økonometri 1 Efterår 2006 Ugeseddel 13

Scorer FCK "for mange" mål i det sidste kvarter?

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Husholdningsbudgetberegner

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

Sandsynlighedsregning og statistik med binomialfordelingen

Luftfartens vilkår i Skandinavien

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Repetition. Forårets højdepunkter

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 21. september 2005

Beregning af strukturel arbejdsstyrke

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kvantitative metoder 2

Kvantitative metoder 2

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Validering og test af stokastisk trafikmodel

TALTEORI Følger og den kinesiske restklassesætning.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Binomialfordelingen: april 09 GJ

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Multipel Lineær Regression

1. Beskrivelse af opgaver inden for øvrig folkeskolevirksomhed

Statistik Lektion 17 Multipel Lineær Regression

Binomialfordelingen. Erik Vestergaard

DLU med CES-nytte. Resumé:

Tabsberegninger i Elsam-sagen

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Stadig ligeløn blandt dimittender

Stadig ligeløn blandt dimittender

Inertimoment for arealer

Løsninger til kapitel 12

Note til Generel Ligevægt

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistik Lektion 16 Multipel Lineær Regression

Forberedelse INSTALLATION INFORMATION

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Forbedret Fremkommelighed i Aarhus Syd. Agenda. 1. Vurdering af forsøg Lukning af Sandmosevej

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

2. Sandsynlighedsregning

Fra små sjove opgaver til åbne opgaver med stor dybde

Nøglebegreber: Objektivfunktion, vægtning af residualer, optimeringsalgoritmer, parameterusikkerhed og korrelation, vurdering af kalibreringsresultat.

TO-BE BRUGERREJSE // Personligt tillæg

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Kvantitative metoder 2

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Brugen af R^2 i gymnasiet

FOTO FRA STEDET. Ekkodalen Bofællesskab i Ballerup Kommune - OK FONDEN

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Ligeløn-stilling blandt dimittender

DANMARKS NATIONALBANK WORKING PAPERS

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

10. Usikkerhed og fejlsøgning

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

FACITLISTE TIL KOMPLEKSE TAL

Undersøgelse af pris- og indkomstelasticiteter i forbrugssystemet - estimeret med AIDS

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

MfA. V Udstyr. Trafikspejle. Vejregler for trafikspejles egenskaber og anvendelse. Vejdirektoratet -Vejregeludvalget Oktober 1998

Transkript:

Statstk II Lekton 5 Modelkontrol Modelkontrol Modelsøgnng Større eksempel

Generel Lneær Model Y afhængg skala varabel 1,, k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet =( 1,, k ) + = = + + + = k k k X Y E 1 1 1 ) ( β α β β α L

Generel Lneær Model Mere præcst: te observaton y ud af n er gvet ved Y = + β11, + L+ βk k, α + ε Systematsk del Tlfældg del j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) Idependent and Identcally Dstrbuted - IID

Hypotese-test Generelt vl v teste om en eller flere β er kan sættes lg nul. Det svarer tl at fjerne de tlsvarende led fra modellen. Formelle hypoteser H 0 : β 1 = = β q = 0 q β er efter eget valg H 1 : Mndst et af de q parametre har β 0 Teststørrelsen er: F = ( * SSE SSE) SSE q ( n k 1) (Alternatv formulerng forhold tl sdst)

F-test Teststørrelsen er F = ( * SSE SSE) SSE q ( n k 1) SSE er summen af de kvadrerede fejl en model, hvor når β 1,, β q er med (den oprndelge model) SSE * er summen af de kvadrede fejl når β 1,, β q kke er med. Der gælder SSE * SSE. Intuton: Jo større forskel (SSE * -SSE) jo mere betyder β 1,, β q for modellen og jo mndre tror v på F.

F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal = p-værd 0.1 0.0 0 1 2 3 F 4 5 F

Opbygnng af statstsk model Eksploratv data-analyse Specfcer model Lgnnger og antagelser Estmer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen

Modelkontrol For at kunne stole på test og estmater skal v skre os, at modellens antagelser er overholdt! Er der en lneær sammenhæng mellem X og Y? Er fejlleddene ε 1,, ε n uafhænge? Følger fejlleddene ε 1,, ε n alle N(0,σ 2 )?

Resdualanalyse Bemærk at resdualet e = y yˆ er et estmat for ε. Dvs. e erne groft sagt skal opføre sg som uafhængge N(0,σ 2 ) varable! Grafsk kontrol: Plot e erne mod eller. ŷ

Resdualplot Resdualer Resdualer 0 eller yˆ 0 eller yˆ Homoskedastsk: Resdualerne ser ud tl at varere ufahænggt af hnanden og. Heteroskedastsk: Varansen for resdualerne ændrer sg når ændrer sg. Resdualer Resdualer 0 Td 0 eller yˆ Resdualerne udvser lneær trend med tden (ellern anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Eksempel: Salg og Reklame Data: n=30 par af observatoner. Y = Ugentlge salg X = Ugentlge reklame-budget

Resdualer SPSS I Lnear Regresson vnduet vælges Save I Save vnduet vælges Unstandardzed både under Reresduals (e erne) og ŷ Predcted Values ( erne).

Efter endt regresson skaber SPSS to nye søjler Data Edtor, der ndeholder resdualer ( RES_1 ) prædktoner ( PRE_1 ). Derefter kan man f lave scatter plots.

Scatter plot af resdualer (e erne) mod højde ( erne) (øverst) resdualer (e erne) mod prædktonerne (^y erne) (nederst). Ser jo ganske usystematsk ud!

Grafske check for Normalfordelng For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( ε ~N(0,σ 2 ) ) Lav et hstogram over resdualerne og se efter om det normalfordelt ud. Lave et normalfordelngsplot (Q-Q plot).

Hstogram af resdualer Det ser jo ca. normalfordelt ud

Normalfordelngsplot (Q-Q plot) Et Q-Q plot er scatter plot, hvor X = Resdualerne (e erne) Y = Idealseret stkprøve fra normalfordelng Bemærk at både erne og erne er sorterede. Hvs resdualerne er normalfordelte, vl v have y. Dvs (,y) lgge usystematsk omkrng en lnje med hældnng 1 og skærng 0.

Normalfordelngsplot (Q-Q plot) De dealsrede data (y erne) opnås ved at nddele normalfordelngen n+1 lge store stykker. 0.0 0.1 0.2 0.3 0.4 Areal = 1/(n+1) 2 1 0 1 2 y 5

Vælg Analyze Descrptve Statstcs Q-Q plots Ser helt fnt ud snor sg kke alt for systematsk omkrng lnjen. Punkterne lgger rmlg usystematsk omkrng lnjen: Altså ca. normalfordelt

Modelsøgnng Formål: Fnd den smplest mulg model, der beskrver data tlfredsstllende. Backwards-søgnng: Startmodel: Vælg tl at starte med en model, der ndeholder alle varable og vekselvrknnger, der menes at være (faglgt) nteressante som forklarng den afhængge varabel. Undgå at specfcere en model der er vanskelg at fortolke. Test hvlke led modellen, der kan fjernes. Mndst sgnfkante led fjernes, dvs F-test med højest p-værd, dog så Det herarkske prncp er overholdt p-værden > α (typsk α = 0.05) Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mndre model. Slutmodel: Når kke flere led kan fjernes har v vores slutmodel. Forbehold: Før hver test-runde skal man afklare om modellens antagelser er opfyldt ellers kan man kke stole på p-værderne.

R 2 Determnatons-koeffcenten Defnton R 2 SSR = = 1 SST SSE SST Fordel: Nem at fortolke: Andel af den totale varaton der er forklaret af modellen. Ulempe: R 2 vokser når v tlføjer flere forklarende varable. Dvs. et stort R 2 er kke nødvendgvs en fordel.

Justeret R 2 Defnton: R 2 = 1 SSE SST ( n k 1) ( n 1) Fordel: Vokser kun, hvs ekstra forklarende varabels forklarngsgrad er stor forhold tl antal ekstra parametre. Ulempe: Ikke samme smple fortolknng som R 2.

Stort Eksempel: Bolgprser prce: Bolgens prs $ sqft: Bolgens størrelse kvadrat-fod bedrooms: Antal soveværelser baths: Antal badeværelser garage: Antal bler, der er plads tl garagen.

Eksploratv analyse

Krydstabel garage vs bedrooms Bemærk: Mange epected counts <5, så v kan kke bruge en χ 2 test. Løsnng: Slå kategorer sammen

Omkodnng af Garage Omkodnng: garage = 0 tl 1 garage2 = 0 garage 2 garage2 = 1 SPSS: Transform Recode nto Dfferent Varables

Omkodnng af Bedrooms Omkodnng: bedroom = 1 tl 2 bedroom2 = 2 bedroom = 3 bedroom2 = 3 bedroom = 4 tl 5 bedroom2 = 4

Krydstabel garage2 vs bedrooms2 Hypotese: H 0 : Uafhængghed H 1 : Afhænmgghed Teststørrelse: χ 2 P-værd < 0.0005 Konkluson: V afvser H 0, dvs. der er afhængghed.

Logstsk Regresson Afhængg varabel garage2 Forklarende varabel prce Output: Konkluson: Prs har en betydnng, hvs modellen er god men det er modellen kke

Varansanalyse Afhængg: Bolgprs Forklarende: Garage2 og Bedroom2 Model(formel): y = α + β g 0 g 0, + β b2 β b2, g 0b2 + β g 0, b3 b2, b3, + + β g 0b3 g 0, b3, + ε Dummy varable: g0 = 1 garage2 = 0 ε ~ N(0, σ b2 = 1 garage2 = 2 b3 = 1 garage2 = 3 2 )

Modelform Slpper for detaljerne: Brug modelform Modelform: Garage2 + Bedroom2 + Garage2*Bedroom2 Denne model kaldes mættet, da alle tænkelg vekselvrknnger er medtaget. Er man ekstra doven, så skrver man kun Garage2*Bedroom2 De resterende led følger af det herarkske prncp.

SPSS: Test af model-led V afvser hypotesen om at vekselvrknngsleddet kan udelades. Konkluson: Prsen på bolg kan kke forklares af antal soveværelser og størrelsen på garagen alene. Et vekselvrknngsled mellem antal soveværelser og størrelsen på garagen er nødvendg. Næste skrdt burde være modelkontrol.

Bolgprs og Bolgareal

Badeværelser og Bolgprs

Generel Lneære Model - Startmodel Afhængg: Bolgprs Forklarende: sqft, baths og bedroom2 Modelform: sqft + baths + bedroom2 + sqft*bedroom2 + baths*bedroom2 + sqft*baths

Model-formel Den tlsvarende model-formel er y = α + β β β sqft* b2 sqft baths* b2 sqft, sqft, baths, + β b2, b2, baths + β baths, sqft* b3 + β sqft, baths* b3 + β b2 b3, baths, b2, + b3, + β + ε b3 b3, + ε ~ 2 N(0, σ ) b2 og b3 er dummyvarable kodet som før.

Modelkontrol Scatterplot af e mod ^y Godt: Usystematsk Skdt: Varansen er kke konstant. Løsnnger? Indfør prce2 = log(prce) Indfør prce2 = prce

Normalfordelte Resdualer Fordelngen er ldt for spds tl at være normalfordelt. Men lad det nu lgge

Test SPSS Ingen af nteraktonsleddene er sgnfkante! Fjerner mndst sgnfkante led (baths*sqft)

Reduceret Model Begge tlbageværende vekselvrknngsled er mndre sgnfkante end før ldt atypsk. V fjerner bedrooms2*baths

Slutmodel Nu er bedrooms2*sqrt stærkt sgnfkant! Modelsøgnngen er slut pånær modelkontrol.

Estmater Antal badeværelser har betydnng for prsen Lgeledes har antal soveværelser og bolgareal Prsen for en ekstra sqft afhænger af antal værelser.

Mn-Projekt Omfang: Ca. 30 sder Indhold: Beskrvelse af data Opstllng af (kvaltatve) hypoteser Anvend modeller og metoder fra kurset Afleverng: Senest mandag. d. 27/10 kl. 12. pr. e-mal tl kkb@math.aau.dk Eksamen: Torsdag 30. Oktober.