Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer 8 95 De fire hovedpunkter i residualanalyse 9 Rå residualer Model Lad µ = Xβ L, så er hvor H er hatmatricen: husk at H opfylder: Y N n ( Xβ,σ 2 I ), X regulær ( ˆµ = X X X) X Y = HY, ( H = X X X) X, H 2 = H og H = H Lad R være vektoren af rå (raw) residualer: R = (I H)Y = Y ˆµ Dvs, R projektion af Y på ortogonalkomplement til L, så udtryk for variation i Y væk fra modellen Da Y i = β + β x,i + + β k x k,i + ε i og ˆµ indeholder estimater for middelværdien af Y i erne, kan R opfattes som indeholdende observationer af fejlledene ε i, dvs R Y ˆµ R 2 Y 2 ˆµ 2 R = R n = Y n ˆµ n,
9 Rå residualer 2 hvor ˆµ i = E (Y i ) = β + k j= β jx ji Vektorerne R og ˆµ uafhængige, da vektorerne i H og I H er ortogonale Da ˆµ = HY ses det for µ L, at ˆµ N n ( Hµ,Hσ 2 IH ) = N n ( µ,σ 2 H ) Denne normalfordeling er singulær, da H har rang k = diml < n Da R = (I H)Y fås R N n ( (I H) µ,(i H)σ 2 I (I H) ) = N n (,σ 2 (I H) ) Denne normalfordeling er også singulær, da I H har rang n k Specielt gælder R i N (,σ 2 ( h ii ) ) ˆµ i N ( µ i,σ 2 ) dvs h h ii ii Envidere, for i j, corr (R i,r j ) = = σ 2 ( h ij ) σ 2 σ 2 ( h ii ) ( h jj ) h ij ( hii )( h jj ) Indtil nu, har vi brugt residualerne R i til at checke modelantagelser for Y i erne: Varianshomogenitet af Y i erne 2 Normalitet af Y i erne 3 Lineær sammenhæng ml Y i og x i Problem: Y i erne har samme varians det har R i erne ikke Y i erne er uafhængige det er R i erne ikke Svært at bedømme om et afvigende punkt er outlier, eller blot har større varians
92 Standardiserede residualer 3 92 Standardiserede residualer Definition: S i = R i hii N (,σ 2) Dvs, S i erne har ens varians Men er stadig korrolerede (samme korrelationskoefficienter som R i erne) Hvis ikke for korrolerede, bruges s i til Residualplot (s i mod ˆµ i ) 2 Normalfordelingsplot af s i Eksempel: Vægt, højde og alder af børn med spiseforstyrrelse Residualplot med rå residualer: Figure 9: Rå residualer: normalfordelingsplot Residualplot med standardiserede residualer Figure 92: Rå residualer: residualplot
93 Ensidig variansanalyse 4 Figure 93: Standardiserede residualer: normalfordelingsplot Figure 94: Standardiserede residualer: residualplot 93 Ensidig variansanalyse Model: Y ij N ( β i,σ 2) i =,,k og j =,,n i Husk, designmatrix X har søjler x i = ite gruppe Hatmatrice:
93 Ensidig variansanalyse 5 ( H = X X X) X = Fordelingen for de rå residualer er n n 2 n k R ij = Y ij Y i+ N (,σ 2 ( n i Residualer fra forskellige grupper er ukorrolerede )) n n 2 n k Korrelation inden for samme gruppe: corr (R ij,r il ) = ( n i n i ) ( n i ) = n i Forsigtig, når n i er lave Fx, hvis n i = 2 er corr(r i,r i2 ) =, da R i = 2 (Y i Y i2 ) R i2 = 2 (Y i2 Y i ) = R i S ij = R ij n i Værdien af korrelationen for små n (se sidste kolonne): n i n i n i 2 7 3 8 5 4 86 33 5 89 25 95 Leverage: Standardiserede residualer OK, hvis alle h ij små (Så R i approximativt uafhængige) Problem, hvis for et i, h ii : Var ˆµ i = σ 2 h ii stor (dårlig estimator) Var R i = σ 2 ( h ii ) (lille residual)
93 Ensidig variansanalyse 6 Figure 95: A leverage point in regression (BJ figur, kap 5) Den i-te observation siges at have stor leverage (En outlier, der har stor invirkning på analysen) Se på: n Cov(Y i, ˆµ i ) = Cov Y i, h ij Y j = j= n h ij Cov(Y i,y j ) j= = h ii Cov(Y i,y i ) = h ii VarY i = σ 2 h ii σ 2, hvis h ii corr (Y i, ˆµ i ) = σ2 h ii σ 2 σ 2 h ii = h ii er stor, hvis h ii Dvs ˆµ i følger Y i meget tæt Eksempel: Kobber produktion This dataset relate to the processing of copper ore in a given calender month The response variable (Y) is the percentage of copper recovered for a certain production process, the explanatory variables are the date of production (x), the percentage of solids in the ore (x2), the mesh size (x3), and the retention time (x4) Lineær regression: Y i N ( β + β 2 x i,σ 2) uafhængige hvor Dvs x + = og n = k + l + x i = for i =,,k for i = k +,,k + l k for i = k + l +
93 Ensidig variansanalyse 7 Figure 96: Scatterplot af Y mod x, x2, x3 og x4 Figure 97: Residualplot og normalfordelingsplot for kobberdata Når k stor er punktet i x = k isoleret Udregning af H: X = k k l [ X n X = k + k 2 ] Så ( ) [ X X = n k(k+) ]
94 Studentiserede residualer 8 ( ) H = X X X X H H 2 H 3 = H 2 H 22 H 23 H 3 H 32 H 33 k l = /n + /k (k + ) /n /n /(k + ) /n /n /n /n /(k + ) /n /n + k/(k + ) {{ k gange {{ l gange {{ gang k gange l gange gang hvor /n + k/(k + ) for n og k store, altså høj leverage 94 Studentiserede residualer En outlier er en observation Y i, der ikke følger den generelle trend i data Kan skyldes: Tilfældig variation i data 2 Observationen stammer fra en anden model end resten af data 2 kan forekomme som følge af fx målefejl, dårligt forsøgsdesign, uforudset ydre påvirkning, etc Residualplot/ normalfordelingsplot angiver ikke om det skyldes eller 2 Fx, hvis Y i kommer fra en fordeling med en anden middelværdi end resten af data Ønsket model: hvor H : Y = Xβ + ε, β = (β,,β k ) og ε,,ε n uafhængige N (,σ 2) Grundmodel (med Y i outlier) H : Y,,Y i,y i+,,y n uafhængige med fordeling Y j N ( β x j + + β k x kj,σ 2),
94 Studentiserede residualer 9 uafhængig af Y i N ( β k+ + β x i + + β k x ki,σ 2) Dvs E (Y j ) som før, undtagen på plads i, hvor Så hvor E (Y i ) = k x ij β j +β k+ j= H : Y = Xβ + β k+ x k+ + ε x k+ = Test om Y i outlier (af denne form): test H under H plads nr i Antag, at x,,x k+ er en basis for L = span {x,,x k+ Så test H : β k+ = under H Benyt teknikken fra t-test (Modul 3) for at estimere β k+ : Ortogonaliser x k+ på resten af X: z = x k+ p (x k+ ) = (I H)x k+ Så er hvor og ˆβ k+ = zt Y z 2, z T Y = x k+ (I H)Y = x k+ R = R i z 2 = x k+ (I H)2 x {{ k+ = h ii I H (rå residual)
94 Studentiserede residualer Dvs, t-test for H : β k+ = : ˆβ k+ = R i h ii H N (β k+, σ 2 h ii ) T i = = ˆβ k+ σ ( h ii ) /2 R i σ ( h ii ) /2 = S i σ H t (n k ) Bemærk: Da S i N(,σ 2 ), er S i /σ N(,) Men σ ukendt, så estimat σ benyttes istedet Giver t-fordelte studentiserede residualer Disse er ikke uafhængige Skal have estimat σ 2 for σ2 under H : Find hvor p (Y) projektion på L, dvs hvor p (Y) projektion på L Det følger at: Y p (Y) 2, p (Y) = p (Y) + zt Y z 2 z, Y p (Y) 2 = Y 2 p (Y) 2 = Y 2 p (Y) 2 ˆβ 2 k+ z 2 = Y p (Y) 2 = Y p (Y) 2 S 2 i = (n k) σ 2 S 2 i R 2 i ( h ii ) 2 ( h ii) Dvs Så σ 2 = T i { (n k) σ 2 n k Si 2 n k = S i (n k) σ 2 S2 i = studentiseret residual Bemærk:
95 De fire hovedpunkter i residualanalyse T i er monoton i S i for σ 2 fast og T i for σ 2 (dvs så er y i en outlier) Altså T i fremhæver outliers! R i tilslører outliers, fordi ofte er h ii for outliers, og R i N (,σ 2 ( h ii ) ) (dvs lille varians) S i er neutral (altid samme varians) Eksempel: Vægt, højde og alder af børn med spiseforstyrrelse Residualplot med studentiserede residualer: Figure 98: Studentiserede residualer: residualplot 95 De fire hovedpunkter i residualanalyse Plot s i mod ˆµ i (check varians funktion) 2 Normalfordelingsdiagram for s i (check normalitet) 3 Plot t i mod h ii (check outliers, leverage) 4 Partielle residualplot (lineær sammenhæng næste gang)