Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statstk II Lekton 5 Modelkontrol Modelkontrol Modelsøgnng Større eksempel

Generel Lneær Model Y afhængg skala varabel 1,, k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet =( 1,, k ) + = = + + + = k k k X Y E 1 1 1 ) ( β α β β α L

Generel Lneær Model Mere præcst: te observaton y ud af n er gvet ved Y = + β11, + L+ βk k, α + ε Systematsk del Tlfældg del j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) Idependent and Identcally Dstrbuted - IID

Hypotese-test Generelt vl v teste om en eller flere β er kan sættes lg nul. Det svarer tl at fjerne de tlsvarende led fra modellen. Formelle hypoteser H 0 : β 1 = = β q = 0 q β er efter eget valg H 1 : Mndst et af de q parametre har β 0 Teststørrelsen er: F = ( * SSE SSE) SSE q ( n k 1) (Alternatv formulerng forhold tl sdst)

F-test Teststørrelsen er F = ( * SSE SSE) SSE q ( n k 1) SSE er summen af de kvadrerede fejl en model, hvor når β 1,, β q er med (den oprndelge model) SSE * er summen af de kvadrede fejl når β 1,, β q kke er med. Der gælder SSE * SSE. Intuton: Jo større forskel (SSE * -SSE) jo mere betyder β 1,, β q for modellen og jo mndre tror v på F.

F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal = p-værd 0.1 0.0 0 1 2 3 F 4 5 F

Opbygnng af statstsk model Eksploratv data-analyse Specfcer model Lgnnger og antagelser Estmer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen

Modelkontrol For at kunne stole på test og estmater skal v skre os, at modellens antagelser er overholdt! Er der en lneær sammenhæng mellem X og Y? Er fejlleddene ε 1,, ε n uafhænge? Følger fejlleddene ε 1,, ε n alle N(0,σ 2 )?

Resdualanalyse Bemærk at resdualet e = y yˆ er et estmat for ε. Dvs. e erne groft sagt skal opføre sg som uafhængge N(0,σ 2 ) varable! Grafsk kontrol: Plot e erne mod eller. ŷ

Resdualplot Resdualer Resdualer 0 eller yˆ 0 eller yˆ Homoskedastsk: Resdualerne ser ud tl at varere ufahænggt af hnanden og. Heteroskedastsk: Varansen for resdualerne ændrer sg når ændrer sg. Resdualer Resdualer 0 Td 0 eller yˆ Resdualerne udvser lneær trend med tden (ellern anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Eksempel: Salg og Reklame Data: n=30 par af observatoner. Y = Ugentlge salg X = Ugentlge reklame-budget

Resdualer SPSS I Lnear Regresson vnduet vælges Save I Save vnduet vælges Unstandardzed både under Reresduals (e erne) og ŷ Predcted Values ( erne).

Efter endt regresson skaber SPSS to nye søjler Data Edtor, der ndeholder resdualer ( RES_1 ) prædktoner ( PRE_1 ). Derefter kan man f lave scatter plots.

Scatter plot af resdualer (e erne) mod højde ( erne) (øverst) resdualer (e erne) mod prædktonerne (^y erne) (nederst). Ser jo ganske usystematsk ud!

Grafske check for Normalfordelng For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( ε ~N(0,σ 2 ) ) Lav et hstogram over resdualerne og se efter om det normalfordelt ud. Lave et normalfordelngsplot (Q-Q plot).

Hstogram af resdualer Det ser jo ca. normalfordelt ud

Normalfordelngsplot (Q-Q plot) Et Q-Q plot er scatter plot, hvor X = Resdualerne (e erne) Y = Idealseret stkprøve fra normalfordelng Bemærk at både erne og erne er sorterede. Hvs resdualerne er normalfordelte, vl v have y. Dvs (,y) lgge usystematsk omkrng en lnje med hældnng 1 og skærng 0.

Normalfordelngsplot (Q-Q plot) De dealsrede data (y erne) opnås ved at nddele normalfordelngen n+1 lge store stykker. 0.0 0.1 0.2 0.3 0.4 Areal = 1/(n+1) 2 1 0 1 2 y 5

Vælg Analyze Descrptve Statstcs Q-Q plots Ser helt fnt ud snor sg kke alt for systematsk omkrng lnjen. Punkterne lgger rmlg usystematsk omkrng lnjen: Altså ca. normalfordelt

Modelsøgnng Formål: Fnd den smplest mulg model, der beskrver data tlfredsstllende. Backwards-søgnng: Startmodel: Vælg tl at starte med en model, der ndeholder alle varable og vekselvrknnger, der menes at være (faglgt) nteressante som forklarng den afhængge varabel. Undgå at specfcere en model der er vanskelg at fortolke. Test hvlke led modellen, der kan fjernes. Mndst sgnfkante led fjernes, dvs F-test med højest p-værd, dog så Det herarkske prncp er overholdt p-værden > α (typsk α = 0.05) Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mndre model. Slutmodel: Når kke flere led kan fjernes har v vores slutmodel. Forbehold: Før hver test-runde skal man afklare om modellens antagelser er opfyldt ellers kan man kke stole på p-værderne.

R 2 Determnatons-koeffcenten Defnton R 2 SSR = = 1 SST SSE SST Fordel: Nem at fortolke: Andel af den totale varaton der er forklaret af modellen. Ulempe: R 2 vokser når v tlføjer flere forklarende varable. Dvs. et stort R 2 er kke nødvendgvs en fordel.

Justeret R 2 Defnton: R 2 = 1 SSE SST ( n k 1) ( n 1) Fordel: Vokser kun, hvs ekstra forklarende varabels forklarngsgrad er stor forhold tl antal ekstra parametre. Ulempe: Ikke samme smple fortolknng som R 2.

Stort Eksempel: Bolgprser prce: Bolgens prs $ sqft: Bolgens størrelse kvadrat-fod bedrooms: Antal soveværelser baths: Antal badeværelser garage: Antal bler, der er plads tl garagen.

Eksploratv analyse

Krydstabel garage vs bedrooms Bemærk: Mange epected counts <5, så v kan kke bruge en χ 2 test. Løsnng: Slå kategorer sammen

Omkodnng af Garage Omkodnng: garage = 0 tl 1 garage2 = 0 garage 2 garage2 = 1 SPSS: Transform Recode nto Dfferent Varables

Omkodnng af Bedrooms Omkodnng: bedroom = 1 tl 2 bedroom2 = 2 bedroom = 3 bedroom2 = 3 bedroom = 4 tl 5 bedroom2 = 4

Krydstabel garage2 vs bedrooms2 Hypotese: H 0 : Uafhængghed H 1 : Afhænmgghed Teststørrelse: χ 2 P-værd < 0.0005 Konkluson: V afvser H 0, dvs. der er afhængghed.

Logstsk Regresson Afhængg varabel garage2 Forklarende varabel prce Output: Konkluson: Prs har en betydnng, hvs modellen er god men det er modellen kke

Varansanalyse Afhængg: Bolgprs Forklarende: Garage2 og Bedroom2 Model(formel): y = α + β g 0 g 0, + β b2 β b2, g 0b2 + β g 0, b3 b2, b3, + + β g 0b3 g 0, b3, + ε Dummy varable: g0 = 1 garage2 = 0 ε ~ N(0, σ b2 = 1 garage2 = 2 b3 = 1 garage2 = 3 2 )

Modelform Slpper for detaljerne: Brug modelform Modelform: Garage2 + Bedroom2 + Garage2*Bedroom2 Denne model kaldes mættet, da alle tænkelg vekselvrknnger er medtaget. Er man ekstra doven, så skrver man kun Garage2*Bedroom2 De resterende led følger af det herarkske prncp.

SPSS: Test af model-led V afvser hypotesen om at vekselvrknngsleddet kan udelades. Konkluson: Prsen på bolg kan kke forklares af antal soveværelser og størrelsen på garagen alene. Et vekselvrknngsled mellem antal soveværelser og størrelsen på garagen er nødvendg. Næste skrdt burde være modelkontrol.

Bolgprs og Bolgareal

Badeværelser og Bolgprs

Generel Lneære Model - Startmodel Afhængg: Bolgprs Forklarende: sqft, baths og bedroom2 Modelform: sqft + baths + bedroom2 + sqft*bedroom2 + baths*bedroom2 + sqft*baths

Model-formel Den tlsvarende model-formel er y = α + β β β sqft* b2 sqft baths* b2 sqft, sqft, baths, + β b2, b2, baths + β baths, sqft* b3 + β sqft, baths* b3 + β b2 b3, baths, b2, + b3, + β + ε b3 b3, + ε ~ 2 N(0, σ ) b2 og b3 er dummyvarable kodet som før.

Modelkontrol Scatterplot af e mod ^y Godt: Usystematsk Skdt: Varansen er kke konstant. Løsnnger? Indfør prce2 = log(prce) Indfør prce2 = prce

Normalfordelte Resdualer Fordelngen er ldt for spds tl at være normalfordelt. Men lad det nu lgge

Test SPSS Ingen af nteraktonsleddene er sgnfkante! Fjerner mndst sgnfkante led (baths*sqft)

Reduceret Model Begge tlbageværende vekselvrknngsled er mndre sgnfkante end før ldt atypsk. V fjerner bedrooms2*baths

Slutmodel Nu er bedrooms2*sqrt stærkt sgnfkant! Modelsøgnngen er slut pånær modelkontrol.

Estmater Antal badeværelser har betydnng for prsen Lgeledes har antal soveværelser og bolgareal Prsen for en ekstra sqft afhænger af antal værelser.

Mn-Projekt Omfang: Ca. 30 sder Indhold: Beskrvelse af data Opstllng af (kvaltatve) hypoteser Anvend modeller og metoder fra kurset Afleverng: Senest mandag. d. 27/10 kl. 12. pr. e-mal tl kkb@math.aau.dk Eksamen: Torsdag 30. Oktober.