Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statstk II Lekton 5 Modelkontrol Modelkontrol Modelsøgnng Større eksempel

Opbygnng af statstsk model Eksploratv data-analyse Specfcer model Lgnnger og antagelser Estmer parametre Modelkontrol Er modellen passende? Ja Anvend modellen Nej Herunder test, modelsøgnng, prædktoner og fortolknnger.

Generel Lneær Model Y afhængg skala varabel 1,, k forklarende varable, skala eller bnære Model: hvor fejlleddet ε er normalfordelt med mddelværd 0 og varans σ 2, ε ~N(0, σ 2 ). Mddelværden for Y gvet = ( 1,, k ) er Dvs. regressons- lnjen angver mddelværden. + = = + + + = k k k X Y E 1 1 1 ) ( β α β β α ε β α ε β β α + + = + + + + = = k k k Y 1 1 1

Generel Lneær Model Mere præcst: te observaton y ud af n er gvet ved Y α + ε = + β1 1, + + βk k, Systematsk del Tlfældg del j, er j te forklarende varabel for den te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) Idependent and Identcally Dstrbuted - IID

Estmater og prædkton Lad a være et estmat af α Lad b 1 være et estmat af β 1, osv Defner den prædkterede værd som ŷ y ˆ = a + b + + b k k Dvs. er et estmat af mddelværden 1 1 E ( Y X ) = α + β + + β 1 1 k k

Resdual I den sande model har v Det kan v skrve om tl Resdualet, e, er derfor et estmat af fejlleddet: Da ε erne er normalfordelte bør e erne også være det (hvs modellen da ellers er korrekt). ε ε β β α + = + + + + = ] [ 1 1 X E Y Y k k ] [ X = Y E Y ε y y e ˆ =

Estmaton Vores estmater, a, b 1, b 2,, b k, er fundet ved at mnmere summen af de kvadrerede resdualer: SSE = n = 1 e 2 = n ( y yˆ ) = 1 2 Metoden kaldes mndste kvadraters metode SSE står for Sum of Squared Errors SSE angver også størrelsen af den uforklarede varaton data.

Modelkontrol For at kunne stole på test og estmater skal v skre os, at modellens antagelser er overholdt! Antagelse: Mddelværd-strukturen modellen er E( Y X ) = α + β + + β Kan være svært at checke drekte, hvs v har mange forklarende varable. Hvs mddelværd-strukturen modellen er korrekt, så bør mddelværden af e erne være ca. nul uanset værden af. ŷ erne eller erne. Grafsk check: plot af af e mod. 1 1 ŷ k k

Modelkontrol Antagelse: Fejlleddene ε 1,, ε n uafhænge? Der må kke vær nogen systematsk sammenhæng mellem e erne og ŷ erne eller erne. Grafsk check: Et plot at e mod eller. Antagelse: Fejlleddene ε 1,, ε n ~ N(0,σ 2 )? Hvs sandt regner v med at e erne er crka normalfordelte. ŷ Et plot at e mod kan afsløre om varansen er konstant (homoskedatske fejlled). Et hstogram eller QQ-plot kan afsløre om e erne er normalfordelte ŷ

Resdualplot Resdualer Resdualer 0 eller yˆ 0 eller yˆ Homoskedastsk: Resdualerne ser ud tl at varere ufahænggt af hnanden og (eller ŷ). Resdualer Heteroskedastsk: Varansen for resdualerne ændrer sg når ændrer sg. Resdualer 0 Td 0 eller yˆ Resdualerne udvser lneær trend med tden (eller en anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Eksempel: Salg og Reklame Data: n = 30 par af observatoner (,y ) Model: y = Ugentlge salg = Ugentlge reklame-budget y α + β + ε = Hvor ε ~N(0,σ 2 )

Resdualer SPSS I Lnear Regresson vnduet vælges Save I Save vnduet vælges Unstandardzed både under Reresduals (e erne) og ŷ Predcted Values ( erne).

Efter endt regresson skaber SPSS to nye søjler Data Edtor, der ndeholder resdualer ( RES_1 ) prædktoner ( PRE_1 ). Derefter kan man f lave scatter plots.

Scatter plot af resdualer (e erne) mod højde ( erne) (øverst) resdualer (e erne) mod prædktonerne ( erne) (nederst). ŷ Ser jo ganske usystematsk ud!

Hstogram af resdualer Hstogrammet burde lgne en normalfordelng. Det gør det også sådan crka så ngen problemer her

Normalfordelngsplot (Q-Q plot) Konstruer et kunstge data u 1,u 2,,u n som følger en normalfordelng. I et Q-Q plot plotter man u. mod e. Bemærk at både u erne og e erne er sorterede. Hvs resdualerne er normalfordelte, vl v have e u. Dvs (e,u ) lgge usystematsk omkrng en lnje med hældnng 1 og skærng 0.

Normalfordelngsplot (Q-Q plot) Det kunstge data (u erne) opnås ved at nddele normalfordelngen n+1 lge store stykker. Areal = 1/(n+1) u 5

Vælg Analyze Descrptve Statstcs Q-Q plots Ser helt fnt ud snor sg kke alt for systematsk omkrng lnjen. Punkterne lgger rmlg usystematsk omkrng lnjen: Altså ca. normalfordelt

Determnatons-koeffcenten R 2 Defnton R 2 SSR = = 1 SST SSE SST Fordel: Nem at fortolke: Andel af den totale varaton der er forklaret af modellen. Ulempe: R 2 vokser når v tlføjer flere forklarende varable. Dvs. ved at tlføje flere og flere forklarende varable kan v få et vlkårlgt stort R 2. Mål: V jagter den smplest mulge model, der forklarer data tlfredsstllende.

Justeret R 2 Defnton: R 2 = 1 SSE SST ( n k 1) ( n 1) Trade-off mellem forklarngsgrad, R 2, og antallet af parametre, k. Fordel: Vokser kun, hvs ekstra forklarende varabels forklarngsgrad er stor forhold tl antal ekstra parametre. Ulempe: Ikke samme smple fortolknng som R 2.

Hypotese-test Generelt vl v teste om en eller flere β er kan sættes lg nul. Det svarer tl at fjerne de tlsvarende led fra modellen. Formelle hypoteser H 0 : β 1 = = β q = 0 q β er efter eget valg H 1 : β 0 for mndst et af de q parametre Testes vha. af et F-test. Teststørrelsen F 0 og følger en F-fordelng Jo større F er jo mere krtsk for H 0. V konkluderer som sædvanlgt på baggrund af p-værd.

F-test detaljer for de nysgerrge Teststørrelsen er F = ( * SSE SSE) SSE q ( n k 1) SSE er summen af de kvadrerede fejl en model, hvor når β 1,, β q er med (den oprndelge model) SSE * er summen af de kvadrede fejl når β 1,, β q kke er med. Der gælder SSE * SSE. Intuton: Jo større forskel (SSE * -SSE) jo mere betyder β 1,, β q for modellen og jo mndre tror v på F.

F-fordelngen F-fordelng 0.7 0.6 0.5 0.4 f( F ) 0.3 0.2 Areal = p-værd 0.1 0.0 0 1 2 3 F 4 5 F

Modelform Sdst så v på en model for forbruget af gas (Gas) forklaret ved temperatur (Temp) og om huset var soleret (Insulate) Y α + β + β + β + ε = Temp Temp Før Før Temp, Før Temp, Før Her er Før dummy varabel At skrve formlen op kan hurtgt blve uoverskuelgt. Modellens modelform kan skrves som Gas = Temp + Insulate + Temp*Insulate I forbndelse med analyse eller fortolknng af modellen er det stadg nyttgt at skrve den matematske formel op.

Modelsøgnng Formål: Fnd den smplest mulg model, der beskrver data tlfredsstllende. Kanddater: V vl kun bruge modeller der overholder det herarkske prncp: Hvs en model ndeholder en nterakton, så skal hovedeffekterne også være med. F. Hvs modellen ndeholder nteraktonen A*B, så skal den også ndeholde A og B. Hvs modellen ndeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv Nav søgnng: Gennemgå alle modeller og vælg den der er bedst efter et eller andet krtere, f R 2. Backwards søgnng: Start med en komplceret model og fjern derefter en efter en led, der kke er sgnfkante.

Backwards søgnng Backwards-søgnng: Startmodel: Vælg tl at starte med en model, der ndeholder alle varable og vekselvrknnger, der menes at være (faglgt) nteressante som forklarng den afhængge varabel. Undgå at specfcere en model der er vanskelg at fortolke. Test hvlke led modellen, der kan fjernes. Mndst sgnfkante led fjernes, dvs F-test med højest p-værd, dog så Det herarkske prncp er overholdt p-værden > α (typsk α = 0.05) Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mndre model. Slutmodel: Når kke flere led kan fjernes har v vores slutmodel. Forbehold: Før hver test-runde skal man afklare om modellens antagelser er opfyldt ellers kan man kke stole på p-værderne.

Stort Eksempel: Bolgprser prce: Bolgens prs $ sqft: Bolgens størrelse kvadrat-fod bedrooms: Antal soveværelser baths: Antal badeværelser garage: Antal bler, der er plads tl garagen.

Eksploratv analyse

Krydstabel garage vs bedrooms Bemærk: Mange epected counts <5, så v kan kke bruge en χ 2 test. Løsnng: Slå kategorer sammen

Omkodnng af Garage Omkodnng: garage = 0 tl 1 garage2 = 0 garage 2 garage2 = 1 SPSS: Transform Recode nto Dfferent Varables

Omkodnng af Bedrooms Omkodnng: bedroom = 1 tl 2 bedroom2 = 2 bedroom = 3 bedroom2 = 3 bedroom = 4 tl 5 bedroom2 = 4

Krydstabel garage2 vs bedrooms2 Hypotese: H 0 : Uafhængghed H 1 : Afhængghed Teststørrelse: χ 2 P-værd < 0.0005 Konkluson: V afvser H 0, dvs. der er afhængghed.

Logstsk Regresson Afhængg varabel garage2 Forklarende varabel prce Output: Konkluson: Prs har en betydnng, hvs modellen er god men det er modellen kke

Varansanalyse Afhængg: Bolgprs Forklarende: Garage2 og Bedroom2 Model(formel): y = α + β g 0 g 0, + β b2 β b2, g 0b2 + β g 0, b3 b2, b3, + + β g 0b3 g 0, b3, + ε Dummy varable: g0 = 1 garage2 = 0 ε ~ N(0, σ b2 = 1 garage2 = 2 b3 = 1 garage2 = 3 2 )

Modelform Slpper for detaljerne: Brug modelform Modelform: Garage2 + Bedroom2 + Garage2*Bedroom2 Denne model kaldes mættet, da alle tænkelg vekselvrknnger er medtaget. Er man ekstra doven, så skrver man kun Garage2*Bedroom2 De resterende led følger af det herarkske prncp.

SPSS: Test af model-led V afvser hypotesen om at vekselvrknngsleddet kan udelades. Konkluson: Prsen på bolg kan kke forklares af antal soveværelser og størrelsen på garagen alene. Et vekselvrknngsled mellem antal soveværelser og størrelsen på garagen er nødvendg. Næste skrdt burde være modelkontrol.

Bolgprs og Bolgareal

Badeværelser og Bolgprs

Generel Lneære Model - Startmodel Afhængg: Bolgprs Forklarende: sqft, baths og bedroom2 Modelform: sqft + baths + bedroom2 + sqft*bedroom2 + baths*bedroom2 + sqft*baths

Model-formel Den tlsvarende model-formel er y = α + β β β sqft* b2 sqft baths* b2 sqft, sqft, baths, + β b2, b2, baths + β baths, sqft* b3 + β sqft, baths* b3 + β b2 b3, baths, b2, + b3, + β + ε b3 b3, + ε ~ N(0, σ 2 ) b2 og b3 er dummyvarable kodet som før.

Modelkontrol Scatterplot af e mod ^y Godt: Usystematsk Skdt: Varansen er kke konstant. Løsnnger? Indfør prce2 = log(prce) Indfør prce2 = prce

Normalfordelte Resdualer Fordelngen er ldt for spds tl at være normalfordelt. Men lad det nu lgge

Test SPSS Ingen af nteraktonsleddene er sgnfkante! Fjerner mndst sgnfkante led (baths*sqft)

Reduceret Model Begge tlbageværende vekselvrknngsled er mndre sgnfkante end før ldt atypsk. V fjerner bedrooms2*baths

Slutmodel Nu er bedrooms2*sqrt stærkt sgnfkant! Modelsøgnngen er slut pånær modelkontrol.

Estmater Antal badeværelser har betydnng for prsen Lgeledes har antal soveværelser og bolgareal Prsen for en ekstra sqft afhænger af antal værelser.

Mn-Projekt Omfang: Ca. 30 sder (kke noget krav sådan ender det som regel) Indhold: Beskrvelse af data Opstllng af (kvaltatve) hypoteser Anvend modeller og metoder fra kurset Afleverng: Senest mandag. d. 26/11 kl. 12. pr. e-mal tl kkb@math.aau.dk og en hard-copy tl Dorte. Eksamen: Torsdag 5. November.