Module 9: Residualanalyse

Relaterede dokumenter
Module 4: Ensidig variansanalyse

Module 1: Lineære modeller og lineær algebra

Module 3: Statistiske modeller

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Kvantitative metoder 2

Forelæsning 11: Kapitel 11: Regressionsanalyse

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Modul 6: Regression og kalibrering

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Kvantitative Metoder 1 - Forår Dagens program

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Eksamen i Statistik for biokemikere. Blok

Statistisk modellering og regressionsanalyse

Module 12: Mere om variansanalyse

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik Lektion 4. Variansanalyse Modelkontrol

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Kvantitative Metoder 1 - Efterår Dagens program

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Modul 11: Simpel lineær regression

Lineære normale modeller (4) udkast

Multipel Lineær Regression

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Simpel Lineær Regression

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Modelkontrol i Faktor Modeller

Løsning til eksamen d.27 Maj 2010

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

To samhørende variable

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Perspektiver i Matematik-Økonomi: Linær regression

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik Lektion 16 Multipel Lineær Regression

Kapitel 12 Variansanalyse

EKSAMEN Flerdimensional Analyse Sommer sider

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Elementær sandsynlighedsregning

Kapitel 12 Variansanalyse

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Simpel Lineær Regression: Model

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Module 12: Mere om variansanalyse

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Løsning eksamen d. 15. december 2008

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Program. 1. Flersidet variansanalyse 1/11

Kvantitative Metoder 1 - Forår Dagens program

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

(studienummer) (underskrift) (bord nr)

To-sidet variansanalyse

Statistik Formelsamling. HA Almen, 1. semester

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Nanostatistik: Lineær regression

Kvantitative metoder 2

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Elementær sandsynlighedsregning

Generelle lineære modeller

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Modul 12: Regression og korrelation

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Note om Monte Carlo metoden

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Hvorfor bøvle med MIXED

Transkript:

Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer 8 95 De fire hovedpunkter i residualanalyse 9 Rå residualer Model Lad µ = Xβ L, så er hvor H er hatmatricen: husk at H opfylder: Y N n ( Xβ,σ 2 I ), X regulær ( ˆµ = X X X) X Y = HY, ( H = X X X) X, H 2 = H og H = H Lad R være vektoren af rå (raw) residualer: R = (I H)Y = Y ˆµ Dvs, R projektion af Y på ortogonalkomplement til L, så udtryk for variation i Y væk fra modellen Da Y i = β + β x,i + + β k x k,i + ε i og ˆµ indeholder estimater for middelværdien af Y i erne, kan R opfattes som indeholdende observationer af fejlledene ε i, dvs R Y ˆµ R 2 Y 2 ˆµ 2 R = R n = Y n ˆµ n,

9 Rå residualer 2 hvor ˆµ i = E (Y i ) = β + k j= β jx ji Vektorerne R og ˆµ uafhængige, da vektorerne i H og I H er ortogonale Da ˆµ = HY ses det for µ L, at ˆµ N n ( Hµ,Hσ 2 IH ) = N n ( µ,σ 2 H ) Denne normalfordeling er singulær, da H har rang k = diml < n Da R = (I H)Y fås R N n ( (I H) µ,(i H)σ 2 I (I H) ) = N n (,σ 2 (I H) ) Denne normalfordeling er også singulær, da I H har rang n k Specielt gælder R i N (,σ 2 ( h ii ) ) ˆµ i N ( µ i,σ 2 ) dvs h h ii ii Envidere, for i j, corr (R i,r j ) = = σ 2 ( h ij ) σ 2 σ 2 ( h ii ) ( h jj ) h ij ( hii )( h jj ) Indtil nu, har vi brugt residualerne R i til at checke modelantagelser for Y i erne: Varianshomogenitet af Y i erne 2 Normalitet af Y i erne 3 Lineær sammenhæng ml Y i og x i Problem: Y i erne har samme varians det har R i erne ikke Y i erne er uafhængige det er R i erne ikke Svært at bedømme om et afvigende punkt er outlier, eller blot har større varians

92 Standardiserede residualer 3 92 Standardiserede residualer Definition: S i = R i hii N (,σ 2) Dvs, S i erne har ens varians Men er stadig korrolerede (samme korrelationskoefficienter som R i erne) Hvis ikke for korrolerede, bruges s i til Residualplot (s i mod ˆµ i ) 2 Normalfordelingsplot af s i Eksempel: Vægt, højde og alder af børn med spiseforstyrrelse Residualplot med rå residualer: Figure 9: Rå residualer: normalfordelingsplot Residualplot med standardiserede residualer Figure 92: Rå residualer: residualplot

93 Ensidig variansanalyse 4 Figure 93: Standardiserede residualer: normalfordelingsplot Figure 94: Standardiserede residualer: residualplot 93 Ensidig variansanalyse Model: Y ij N ( β i,σ 2) i =,,k og j =,,n i Husk, designmatrix X har søjler x i = ite gruppe Hatmatrice:

93 Ensidig variansanalyse 5 ( H = X X X) X = Fordelingen for de rå residualer er n n 2 n k R ij = Y ij Y i+ N (,σ 2 ( n i Residualer fra forskellige grupper er ukorrolerede )) n n 2 n k Korrelation inden for samme gruppe: corr (R ij,r il ) = ( n i n i ) ( n i ) = n i Forsigtig, når n i er lave Fx, hvis n i = 2 er corr(r i,r i2 ) =, da R i = 2 (Y i Y i2 ) R i2 = 2 (Y i2 Y i ) = R i S ij = R ij n i Værdien af korrelationen for små n (se sidste kolonne): n i n i n i 2 7 3 8 5 4 86 33 5 89 25 95 Leverage: Standardiserede residualer OK, hvis alle h ij små (Så R i approximativt uafhængige) Problem, hvis for et i, h ii : Var ˆµ i = σ 2 h ii stor (dårlig estimator) Var R i = σ 2 ( h ii ) (lille residual)

93 Ensidig variansanalyse 6 Figure 95: A leverage point in regression (BJ figur, kap 5) Den i-te observation siges at have stor leverage (En outlier, der har stor invirkning på analysen) Se på: n Cov(Y i, ˆµ i ) = Cov Y i, h ij Y j = j= n h ij Cov(Y i,y j ) j= = h ii Cov(Y i,y i ) = h ii VarY i = σ 2 h ii σ 2, hvis h ii corr (Y i, ˆµ i ) = σ2 h ii σ 2 σ 2 h ii = h ii er stor, hvis h ii Dvs ˆµ i følger Y i meget tæt Eksempel: Kobber produktion This dataset relate to the processing of copper ore in a given calender month The response variable (Y) is the percentage of copper recovered for a certain production process, the explanatory variables are the date of production (x), the percentage of solids in the ore (x2), the mesh size (x3), and the retention time (x4) Lineær regression: Y i N ( β + β 2 x i,σ 2) uafhængige hvor Dvs x + = og n = k + l + x i = for i =,,k for i = k +,,k + l k for i = k + l +

93 Ensidig variansanalyse 7 Figure 96: Scatterplot af Y mod x, x2, x3 og x4 Figure 97: Residualplot og normalfordelingsplot for kobberdata Når k stor er punktet i x = k isoleret Udregning af H: X = k k l [ X n X = k + k 2 ] Så ( ) [ X X = n k(k+) ]

94 Studentiserede residualer 8 ( ) H = X X X X H H 2 H 3 = H 2 H 22 H 23 H 3 H 32 H 33 k l = /n + /k (k + ) /n /n /(k + ) /n /n /n /n /(k + ) /n /n + k/(k + ) {{ k gange {{ l gange {{ gang k gange l gange gang hvor /n + k/(k + ) for n og k store, altså høj leverage 94 Studentiserede residualer En outlier er en observation Y i, der ikke følger den generelle trend i data Kan skyldes: Tilfældig variation i data 2 Observationen stammer fra en anden model end resten af data 2 kan forekomme som følge af fx målefejl, dårligt forsøgsdesign, uforudset ydre påvirkning, etc Residualplot/ normalfordelingsplot angiver ikke om det skyldes eller 2 Fx, hvis Y i kommer fra en fordeling med en anden middelværdi end resten af data Ønsket model: hvor H : Y = Xβ + ε, β = (β,,β k ) og ε,,ε n uafhængige N (,σ 2) Grundmodel (med Y i outlier) H : Y,,Y i,y i+,,y n uafhængige med fordeling Y j N ( β x j + + β k x kj,σ 2),

94 Studentiserede residualer 9 uafhængig af Y i N ( β k+ + β x i + + β k x ki,σ 2) Dvs E (Y j ) som før, undtagen på plads i, hvor Så hvor E (Y i ) = k x ij β j +β k+ j= H : Y = Xβ + β k+ x k+ + ε x k+ = Test om Y i outlier (af denne form): test H under H plads nr i Antag, at x,,x k+ er en basis for L = span {x,,x k+ Så test H : β k+ = under H Benyt teknikken fra t-test (Modul 3) for at estimere β k+ : Ortogonaliser x k+ på resten af X: z = x k+ p (x k+ ) = (I H)x k+ Så er hvor og ˆβ k+ = zt Y z 2, z T Y = x k+ (I H)Y = x k+ R = R i z 2 = x k+ (I H)2 x {{ k+ = h ii I H (rå residual)

94 Studentiserede residualer Dvs, t-test for H : β k+ = : ˆβ k+ = R i h ii H N (β k+, σ 2 h ii ) T i = = ˆβ k+ σ ( h ii ) /2 R i σ ( h ii ) /2 = S i σ H t (n k ) Bemærk: Da S i N(,σ 2 ), er S i /σ N(,) Men σ ukendt, så estimat σ benyttes istedet Giver t-fordelte studentiserede residualer Disse er ikke uafhængige Skal have estimat σ 2 for σ2 under H : Find hvor p (Y) projektion på L, dvs hvor p (Y) projektion på L Det følger at: Y p (Y) 2, p (Y) = p (Y) + zt Y z 2 z, Y p (Y) 2 = Y 2 p (Y) 2 = Y 2 p (Y) 2 ˆβ 2 k+ z 2 = Y p (Y) 2 = Y p (Y) 2 S 2 i = (n k) σ 2 S 2 i R 2 i ( h ii ) 2 ( h ii) Dvs Så σ 2 = T i { (n k) σ 2 n k Si 2 n k = S i (n k) σ 2 S2 i = studentiseret residual Bemærk:

95 De fire hovedpunkter i residualanalyse T i er monoton i S i for σ 2 fast og T i for σ 2 (dvs så er y i en outlier) Altså T i fremhæver outliers! R i tilslører outliers, fordi ofte er h ii for outliers, og R i N (,σ 2 ( h ii ) ) (dvs lille varians) S i er neutral (altid samme varians) Eksempel: Vægt, højde og alder af børn med spiseforstyrrelse Residualplot med studentiserede residualer: Figure 98: Studentiserede residualer: residualplot 95 De fire hovedpunkter i residualanalyse Plot s i mod ˆµ i (check varians funktion) 2 Normalfordelingsdiagram for s i (check normalitet) 3 Plot t i mod h ii (check outliers, leverage) 4 Partielle residualplot (lineær sammenhæng næste gang)