Udeladelse af én observation. Note til kapitlerne 4, 5 og 6

Relaterede dokumenter
Nøgleord og begreber

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Eksempel 9.1. Areal = (a 1 + b 1 )(a 2 + b 2 ) a 1 a 2 b 1 b 2 2a 2 b 1 = a 1 b 2 a 2 b 1 a 1 a 2 = b 1 b 2

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kursusgang 3 Matrixalgebra fortsat

Matematik for økonomer 3. semester

Kursusgang 3 Matrixalgebra Repetition

Matrix Algebra med Excel Forelæsningsnoter til FR86. Jesper Lund

Det Ingeniør-, Natur- og Sundhedsvidenskabelige basisår Matematik 2A, Forår 2007, Hold 4 Opgave A Kommenteret version

Matricer og lineære ligningssystemer

Module 3: Statistiske modeller

Definition multiplikation En m n-matrix og en n p-matrix kan multipliceres (ganges sammen) til en m p-matrix.

Nøgleord og begreber. Definition multiplikation En m n-matrix og en n p-matrix kan multipliceres (ganges sammen) til en m p-matrix.

Eksempler Determinanten af en kvadratisk matrix. Calculus Uge

Oversigt [LA] 3, 4, 5

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning

Lineær algebra Kursusgang 6

Lokalt ekstremum DiploMat 01905

Matrx-vektor produkt Mikkel H. Brynildsen Lineær Algebra

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Besvarelser til Lineær Algebra Ordinær Eksamen Juni 2017

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

To ligninger i to ubekendte

Kvadratiske matricer. enote Kvadratiske matricer

Besvarelser til Calculus og Lineær Algebra Globale Forretningssystemer Eksamen - 3. Juni 2014

LiA 2 Side 0. Lineær algebra 3. kursusgang

Program for de næste 3 1/4 dobbeltlektion

Modulpakke 3: Lineære Ligningssystemer

Lineære normale modeller (4) udkast

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80)

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

LiA 5 Side 0. Lineær algebra Kursusgang 5

Noter til Perspektiver i Matematikken

Lineær algebra: Matrixmultiplikation. Regulære og singulære

J n (λ) = dvs. n n-jordan blokken med λ i diagonalen. Proposition 1.2. For k 0 gælder. nullity (J n (λ) λi) k 1) 1 for 1 k n. n for k n.

To samhørende variable

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Kvadratisk regression

Module 9: Residualanalyse

Kursusgang 3 Matrixalgebra Repetition

Lineære sammenhænge, residualplot og regression

Selvstudium 1, Diskret matematik

Matematik og Form: Matrixmultiplikation. Regulære og singu

Matematik og FormLineære ligningssystemer

Københavns Universitet, Det naturvidenskabelige Fakultet. Afleveringsopgave 4

Formler & algebra - Fase 2 Omskriv & beregn med variable

Matematisk induktion

Matematik: Stuktur og Form Lineære ligningssystemer

Anvendt Lineær Algebra

Matematik og Form 3. Rækkereduktion til reduceret echelonfo. Rang og nullitet

Undervisningsnoter til øvelse i Panel Modeller. %, it. E(x kjs

6.1 Reelle Indre Produkter

Kvantitative metoder 2

Modulpakke 3: Lineære Ligningssystemer

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Ligningssystemer - nogle konklusioner efter miniprojektet

Algebra - Teori og problemløsning

Sylvesters kriterium. Nej, ikke mit kriterium. Sætning 9. Rasmus Sylvester Bryder

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Interferens mellem cirkelbølger fra to kilder i fase Betingelse for konstruktiv interferens: PB PA = m λ hvor m er et helt tal og λ er bølgelængden

, i ' 1,...,N ; t ' 1,...,T, - i.i.d.(0,f 2, ), ) ' 0, E(, it. x kjs. œ i,t,s,j,k.

EKSAMEN Flerdimensional Analyse Sommer sider

Forelæsning 11: Kapitel 11: Regressionsanalyse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Lineære ligningssystemer

Lineær Algebra. Lars Hesselholt og Nathalie Wahl

Eksempel 9.1. Areal = (a 1 + b 1 )(a 2 + b 2 ) a 1 a 2 b 1 b 2 2a 2 b 1 = a 1 b 2 a 2 b 1 a 1 a 2 = b 1 b 2. Eksempel = ( 1) = 10

Omskrivningsregler. Frank Nasser. 10. december 2011

Oversigt [LA] 1, 2, 3, [S] 9.1-3

Matematisk modellering og numeriske metoder. Lektion 13

1 Regressionsproblemet 2

Anvendt Lineær Algebra

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Konfidensintervaller og Hypotesetest

Vektorer og lineær regression

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

ØVEHÆFTE FOR MATEMATIK C FORMLER OG LIGNINGER

Kapitel 11 Lineær regression

Vektorer og lineær regression. Peter Harremoës Niels Brock

LINALG JULENØD 2013 SUNE PRECHT REEH

Bedste rette linje ved mindste kvadraters metode

Mat H /05 Note 2 10/11-04 Gerd Grubb

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Matematisk modellering og numeriske metoder. Lektion 16

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Lineær algebra 4. kursusgang

Oversigt [LA] 1, 2, 3, [S] 9.1-3

Biologisk model: Epidemi

Teoretiske Øvelsesopgaver:

Løsning eksamen d. 15. december 2008

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

3.1 Baser og dimension

Kapitel 3 Centraltendens og spredning

Lineær Algebra F08, MØ

Statistiske Modeller 1: Kontingenstabeller i SAS

Transkript:

Udeladelse af én observation Note til kapitlerne 4, 5 og 6 I de følgende resultater 1-10 bevises en række resultater, der alle vedrører udeladelse af én observation. Derved bevises og uddybes en række resultater om standardiserede residualer og diagnosticeringsstørrelser i lærebogens kapitler 4, 5 og 6. i øvrigt tilsvarende resultater ved udeladelse af flere observationer. Antag at designmatricen X er delt på følgende måde hvor X (n) er matricen bestående af de n - 1 første rækker i X mens x n er den nederste række. Rækkevektoren x n består altså af værdierne af de p forklarende variable for den n'te observation. Resultat 1 X T X = X (n)t X (n) + x nt x n. Resultatet følger umiddelbart, da Resultat 2

hvor h nn = x n (X T X) -1 x n T er n'te diagonalelement i hatmatricen H = X(X T X) -1 X T. Multipliceres det postulerede udtryk for (X (n)t X (n) ) -1 fra venstre med X (n)t X (n) = X T X - x nt x n fås Resultat 3 Udelades den n'te observation bliver MK-estimatet (Dette er (5.1) i bogen for i = n. Bemærk at der i bogen mangler en hat over e i ).

Af resultat 2 og af fås I dette udtryk er første led = X T X -1 X T y og i de sidste tre led kan (X T X) -1 x n T sættes uden for parentes til venstre. I næstsidste led står længst til højre = X T X -1 X T y og i sidste led h nn = x n (X T X) -1 x nt, gange y n. Dermed bliver det samlede udtryk lig med Ved til sidst at benytte. sammenholdt med definitionen af det n te residual, = y n - x n, ses resultatet

Resultat 4 Om Cook's afstand gælder dvs. at (5.3) og (5.4) er ens. Venstresiden er ifølge (5.1) (resultat 3) lig med ifølge definitionen af det standardiserede residual r n. Resultat 5 (1)

Ifølge resultat 2 og definitionen af h nn gælder Resultat 6 hvor x n(1) er værdien af de p - 1 forklarende variable i den n te observation, hvor er søjlevekoren bestående af gennemsnittene af de p -1 egentlige forklarende variable beregnet uden anvendelse af den n te observation, og hvor (p - 1) (p - 1) matricen er den inverse af den empiriske kovariansmatrix for de egentlige forklarende variable beregnet uden anvendelse af den n te observation (pånær en faktor n - 1). Udtrykket (1) i resultat 5 udtrykker dermed afstanden mellem den n te observation af de forklarende variable og gennemsnittet af de forklarende variable for de øvrige n - 1 observationer. Afstanden måles med den inverse empiriske kovariansmatrix, som i et Wald test - også beregnet uden anvendelse af den n te observation. Derfor måler (1) udelukkende, hvor atypisk den n-te observation af de forklarende variable er i forhold til de øvrige n - 1 værdier af de forklarende variable.

et ligger meget tæt op af beviset i noteform for lærebogens formel (4.9). Betragt blokinddelingen af (X (n)t X (n) ) hvor X (n)(1) er den (n - 1) (p - 1) dimensionale designmatrix for de n - 1 første observationer uden den første søjle af et-taller. Denne matrix skal inverteres og den inverse er på blokform De enkelte blokke i den inverse matrix beregnes ved hjælp af formel (A5.1) side 304, idet der gælder og jf. noten om beviset for lærebogens formel (4.9). og

I disse formler er den p - 1 dimensionale søjlevektor, der består af gennemsnittene for de p - 1 egentlige forklarende variable, beregnet uden den n te observation. Tilsvarende er. Matricen er på nær en faktor n eller n - 1 den inverse af den empiriske kovariansmatrix for de p - 1 egentlige forklarende variable, beregnet uden den n te observation. Alt i alt er hvilket er lig med højresiden i det postulerede udtryk i resultat 6. Resultat 7 Dette viser at (4.11) er lig med (6.1), jf. (6.2). Tælleren på højresiden er ifølge resultat 3

(2) Nævneren på højresiden er ifølge resultat 4 således at højresiden i alt bliver Bemærk at formlen (2) ovenfor viser, at forudsigelsesfejlen når værdien y n forudsiges ved hjælp af de tilhørende forklarende variable og de parametre, der estimeres uden afvendelse af den n te observation, adskiller sig fra residualet med faktoren 1/(1 - h nn ), der er større end 1og er meget større end 1, hvis de forklarende variable for den n te observation adskiller sig meget fra øvrige. Resultat 8 Altså er (5.5) og (5.6) ens.

ifølge (2) i beviset for resultat 7. Dermed er Bemærk at første faktor er det eksternt standardiserede residual Af resultat 8 og definitionen på Cooks afstand følger umiddelbart Resultat 9 DFFITS kvadreret er altså lig med faktoren p gange Cook's afstand, pånær at det internt standardiserede residual r n i definitionen af Cook's afstand erstattes med det eksternt standardiserede residual t n i DFFITS n.

Resultat 10 Dette er (5.8). Størrelsen (n - p - 1)s (n) 2 er residualkvadratsummen beregnet uden anvendelse af n'te sæt. Den kan naturligvis udtrykkes som en kvadratsum af n led minus bidraget fra det n'te led (n - p - 1)s (n) 2 = (y - X ) T (y - X ) - (y n - x n ) 2. Andet led er ifølge (2) i beviset for resultat 7 lig med Desuden er ifølge resultat 3 så

ifølge definitionen af h nn samt fordi X T e = 0. Alt i alt er Resultat 10 følgende om determinanten af en blokmatrix Dvs. at X (n) X (n) = X T X (1 - h nn ), hvoraf (5.11) følger. Betragt følgende produkt af blokmatricer

Ved at tage determinanten på begge sider ses som jo ifølge resultat 1 er lig med X T (n)x (n). Tilsvarende gælder og dermed