Simpel Lieær Regressio Opsplitig af variatioe Determiatios koefficiet Variasaalse F-test Model-kotrol
Opbgig af statistisk model Specificer model Ligiger og atagelser Estimer parametre Modelkotrol Er modelle passede Nej Ja Aved modelle
Simpel Lieær Regressio - repetitio Spørgsmål: Afhæger lieært af?. Model: iid N(, σ i i i i ) Sstematisk kompoet Stokastisk kompoet
Estimatio - repetitio Vha. Midste Kvadraters Metode fider vi regressiosliie hvor b b ˆ Residual: i SS SS b b b ˆ ei i i i b b i ˆ b b estimat af estimat af estimat af E( Y i X i ) i
Forklaret og uforklaret afvigelse Y i s afvigelse fra Y ka opdeles i to. Y Y Yˆ Y Forklaret afvigelse Forklaret afvigelse. Totale afvigelse X X X
Total og forklaret variatio - illustratio Y Y De totale variatio ses år vi kigger lags -akse X De uforklarede variatio ses år vi kigger lags regressiosliie X
De totale variatio De totale variatio for data er SST ( ) ( i i SS Variatioe i data omkrig datas middelværdi SST Sum of Squares Total Y )
Opslitig af de totale variatio De totale variatio ka opslittes: ( ) ( ) ˆ ( ˆ ) i i i i i i i SSE ( ˆ ) i er de uforklarede variatio. SSR i ( ) er de forklarede variatio. ˆ i i SSR Sum of Squares Regressio i
Total og forklaret variatio Opslitig a variatioe Total Uforklaret Forklaret i i i i i i ( ) ( ˆ ) ( ˆ ) i SST SSE SSR
Determiatios koeffciete Determiatios Koeffciete: Adele af de totale variatio, der er forklaret. r Forklaret variatio SSR SST SSE Total variatio SST SST SSE SST Pr defiitio: r. Jo tættere r er på, jo mere af variatioe i data er forklaret af modelle. r >.8 er godt! r meget tæt på er dog mistækeligt.
Eksempler på r Y Y Y r SST SSE X r.5 X SST SSE SSR r.9 S S E SST SSR X
r og Korrelatioskoefficiete r De estimerede korrelatioskoefficiete Vis at r r. :-s r SS SS X XY SS Y Igredieser: SST SS Y b SS SS XY X SST SSE SSR r SSR SST SSE SS b Y SS XY
Variasaalse-tabel Hpoteser: H : Lieær regressio er ikke besværet værd. H : Uder H gælder SSE/σ og SSR/σ er uafhægige og SSE SSR ~ χ χ σ σ ( ) og ~ () Atal observatioer mius totale atal parametre. Atal parametre ivolveret i teste.
Variasaalse - fortsat Af forrige slide følger: F SSR MSR ~ F SSE MSE ( ) (, ) Store værdier af F er kritiske for H. Med sigifikasiveau α afviser vi H, hvis F > F α (, )
SPSS output SSR SSE SST MRE MSE F MSR SSR SSE ( ) MSE p værdi F-teststørresle Sums of Squares Frihedsgrader Mea Sums of Squares
r SSR SST 73,44 456,5,43.635.43
Modelkotrol For at kue stole på test og estimater skal vi sikre os, at modelles atagelser er overholdt! Er der e lieær sammehæg mellem X og Y? Er fejlleddee,, uafhæige? Følger fejlleddee,, alle N(,σ )?
Residualaalse Bemærk at residualet e i i ˆ i er et estimat for i. Dvs. e i ere groft sagt skal opføre sig som uafhægige N(,σ ) variable! Grafisk kotrol: Plot e i ere mod i eller. ŷ i
Residualplot Residualer Residualer eller ˆ eller ˆ Homoskedastisk: Residualere ser ud til at variere ufahægigt af hiade og. Heteroskedastisk: Variase for residualere ædrer sig år ædrer sig. Residualer Residualer Tid eller ˆ Residualere udviser lieær tred med tide (eller ade variabel vi ikke har brugt). Dette idikerer at tid skulle ikluderes i modelle. Det buede møster idikerer e uderlæggede ikke-lieær sammehæg.
TV-Statistik-Køkke Jeg har sdt og lavet mit eget data Det liger reklame/salg data, me med flere observatioer (3).
Residualer i SPSS I Liear Regressio viduet vælges Save I Save viduet vælges Ustadardized både uder Reresiduals (e i ere) og ŷ i Predicted Values ( ere).
Efter edt regressio skaber SPSS to e søjler i Data Editor, der ideholder residualer ( RES_ ) prædiktioer ( PRE_ ). Derefter ka ma f lave scatter plots.
Scatter plot af residualer (e i ere) mod højde ( i ere) (øverst) residualer (e i ere) mod prædiktioere (^ i ere) (ederst). Ser jo gaske usstematisk ud!
Grafiske check for Normalfordelig For at tjekke holdbarhede af atagelse om ormalfordelte fejlled: ( i ~N(,σ ) ) Lav et histogram over residualere og se efter om det ormalfordelt ud. Lave et ormalfordeligsplot (Q-Q plot). Lav et formelt χ -test for goodess of fit til e ormalfordelig for residualere
Histogram af residualer Det ser jo ca ormalfordelt ud
Normalfordeligsplot (Q-Q plot) For hvert residual e i udreger vi q i l i m hvor l i er atallet af residualer der er midre ed e i, og m i er atallet af residualer med samme værdi som e i. i For hvert q i fider vi z i, så P(Z z i ) q i, hvor Z~N(,). Hvis e i ere er ormalfordelte vil et plot af (e i, z i ) ligge på e ret liie.
Normalfordeligsplot (Q-Q plot) Nemmere med e tegig
Vælg Aalze Descriptive Statistics Q-Q plots Ser helt fit ud sor sig ikke alt for sstematisk omkrig lije.
Prædiktio i SLR-modelle Puktprædiktio: Hvilke værdi vil forveteligt atage, hvis atager e bestemt værdi, f? Svar: ˆ b b ˆ b b Gaske simpelt ved at idsætte i de estimerede regressios lije! Dvs. vi prædikterer som bedste bud på puktets værdi. Bedst ikke at prædiktere for værdier for lagt fra, hvor vi har data
Prædiktiositerval for observatioe X s t SS ) ( ) ( ˆ ± α Et (-α)% prædiktios iterval for Y X er Hvor s MSE. Et (-α)% kofides iterval for E(Y X) er X s t SS ) ( ) ( ˆ ± α
Prædiktiosbåd Y Prædiktiosbåd for E[Y X] Regressiosliie Prædiktiosbåd for Y X X Prædiktiosbådee fremkommer ved at betragte kofidesitervallets edepukter som fuktio af.
SLR og lieær algebra De simple lieære regressios model siger: Hvor,..., er uafhægige og efordelte ~N(,σ ). Det ka vi skrive som to søjle-vektore! 3 3 3 M M
SLR og lieær algebra Såda! De sidste vektor ka vi skrive som e sum af vektore 3 3 3 M M
SLR og lieær algebra Modelle ka skrives vha. matrier og vektore: Hvor Matrice X kaldes Desig-matrice. X M M M M M M M M 3 3 3 3 3 3 3 M M M M 3 3 3 X
SLR og lieær algebra Regeregel fra lieære algebra: T i i Estimatet for er: b b b ( T ) T X X X