E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt og elegant. De følgende sider viser hvordan; det er dog ikke alt der er idel fryd og gammen: der skal forskellige lidt tekniske krumspring til for simpelt hen at kunne definere den flerdimensionale normalfordeling. På side 7f gives en kort genopfriskning af notation, definitioner og sætninger fra lineær algebra. Flerdimensionale stokastiske variable En n-dimensional stokastisk variabel X kan opfattes som et talsæt af n endimensionale stokastiske variable, eller som en stokastisk vektor i V R n ) hvis koordinater i standardkoordinatsystemet er n endimensionale stokastiske variable. Middelværdien af X er talsættet bestående af middelværdierne af de enkelte koordinater: EX EX 2 EX. EX n eller den vektor EX for hvilken E u, X ) u, EX for alle u V i begge tilfælde forudsættes det at alle de optrædende endimensionale stokastiske variable har middelværdi. Variansen af X er den symmetriske positivt semidefinitte matrix hvis i, j)-te element er CovX i, X j ): VarX VarX CovX, X 2 ) CovX, X n ) CovX 2, X ) VarX 2 CovX 2, X n )...... CovX n, X ) CovX 2, X n ) VarX n
Lineære normale modeller ) Side 2 af 8 eller variansen er den symmetriske, positivt semidefinitte lineære afbildning VarX for hvilken Cov u, X, v, X ) u, VarX)v for alle u, v V eller variansen er den kvadratiske form u Var u, X ). I alle tilfælde forudsættes det at alle de optrædende endimensionale stokastiske variable har endeligt andet moment. Ud fra definitionerne viser man let SÆTNING. Lad X være en n-dimensional stokastisk variabel, og antag at X har middelværdi og varians. Hvis A er en lineær afbildning fra R n til R p [eller en p n-matrix], og b er en konstant vektor i R p [eller en p -matrix], så er EAX + b) AEX) + b VarAX + b) AVarX)A For en endimensional stokastisk variabel X gælder som bekendt at hvis VarX 0, så er X med sandsynlighed konstant. Her er en generalisation til flerdimensionale stokastiske variable: SÆTNING.2 Lad X være en n-dimensional stokastisk variabel med middelværdi 0 og varians Σ. Så gælder at X med sandsynlighed ligger i billedrummet for Σ. BEVIS Lad L være billedrummet for Σ. Sætningens påstand er at PX L) eller sagt på en anden måde: PX L ). Lad d dim L. Hvis d 0, er der intet at vise, så antag at d > 0. Vælg en basis u, u 2,..., u d for L. Da L er nulrummet for Σ Korollar A.2), er Var u j, X ) u j Σu j 0, og derfor er P u j, X 0), dvs. PX u j ). Da X L X u j, j, 2,..., d, er P X L ) P d {X u j } j hvor det sidste lighedstegn kommer af at en fællesmængde af endeligt eller tælleligt) mange hændelser med sandsynlighed er en hændelse med sandsynlighed. KOROLLAR.3 Hvis X har middelværdi µ og varians Σ, så ligger X med sandsynlighed i sideunderrummet {µ + Σu : u R n }.
Lineære normale modeller ) Side 3 af 8 2 Den flerdimensionale normalfordeling I dette afsnit skal vi indføre den flerdimensionale normalfordeling og vise at hvis X er n-dimensionalt normalfordelt med parametre µ og Σ, og hvis A er en p n-matrix og b en p -matrix, så er AX + b p-dimensionalt normalfordelt med parametre Aµ + b og AΣA. Da man kan komme ud for at fordelingen med sandsynlighed er koncentreret på et ægte sideunderrum jf. Korollar.3), kan man ikke uden videre benytte en generel definition baseret på tæthedsfunktioner. I stedet går vi frem i flere skridt. DEFINITION Den n-dimensionale regulære normalfordeling med middelværdi µ og varians Σ > 0 er den n-dimensionale fordeling hvis tæthedsfunktion er f x) ) 2π) n/2 det Σ /2 exp 2 x µ) Σ x µ), x R n ) Den n-dimensionale standardnormalfordeling er den n-dimensionale regulære normalfordeling med middelværdi 0 og varians I. Bemærkninger:. Den endimensionale regulære normalfordeling er den sædvanlige endimensionale normalfordeling. 2. Hvis Σ σ 2 I, reducerer tæthedsfunktionen ) til f x) 2πσ 2 ) n/2 exp 2 x µ 2 /σ 2), x R n svarende til at X, X 2,..., X n er uafhængige og X j er normalfordelt med middelværdi µ j og varians σ 2. 3. Den todimensionale regulære normalfordeling med parametre µ [ µ µ 2 er omtalt i DeGroot Afsnit 5.2. ] [ og Σ σ 2 ρσ σ 2 ρσ σ 2 σ2 2 ] SÆTNING 2.4 Hvis X er regulært normalfordelt med parametre µ og Σ, og hvis A er er en bijektiv lineær afbildning af R n, så er Y AX regulært normalfordelt med parametre Aµ og AΣA.
Lineære normale modeller ) Side 4 af 8 BEVIS Ifølge sætningen om transformation af tætheder se f.eks. DeGroot side 65-6) er tæthedsfunktionen for Y gy) det A f A y) ) exp 2 A y µ) Σ A y µ) 2π) n/2 det Σ /2 det A 2π) n/2 detaσa ) /2 exp 2 y Aµ) AΣA ) y Aµ) ) KOROLLAR 2.5 Hvis X er regulært normalfordelt med parametre 0 og I, og hvis A er er en ortogonal afbildning af R n, så er Y AX ligeledes regulært normalfordelt med parametre 0 og I. Indtil videre har vi kun defineret normalfordelinger med regular variansmatrix. Imidlertid har vi brug for også at kunne tale om normalfordelinger med en singulær variansmatrix; inspireret af Sætning. kunne man forestille sig en definition i retning af følgende: Den n-dimensionale normalfordeling med middelværdi µ og varians Σ 0 er den fordeling der fremkommer ved at transformere den n-dimensionale normalfordeling med afbildningen x µ + Ax hvor A er indrettet sådan at AA Σ. For at en sådan definition skal være brugbar, er der forskelligt der skal afklares: ) Findes der altid et A? iflg. Sætning A.3 ja) 2) Hvis der er flere forskellige A-er således at AA Σ, får man så samme fordeling? Det udtaler nedenstående lemma sig om. LEMMA 2.6 Antag at X er n-dimensionalt normalfordelt med parametre 0 og I. Hvis A og B er to lineære afbildninger af R n sådan at AA BB, så har de to stokastiske vektorer AX og BX samme fordeling. BEVIS SKITSEMÆSSIGT) Problemerne kommer af at A og B) ikke er bijektive. Betragtet som afbildning fra RA ) til RAA ) er A bijektiv Sætning A.0), så vi kan lave en bijektiv afbildning hvor G er en eller anden ortogonal transformation fra N A) til N AA )) R n RA ) N A) RAA ) N AA ) R n x x + x 2 Ax + Gx 2 y med omvendt afbildning A y + G y 2 y + y 2 y hvor A y er det entydigt bestemte element i RA ) der ved A afbildes over i y. Tæthedsfunktionen for Y er proportional med exp 2 xy) 2 ), og xy) 2 A y 2 + y 2 2. Vi søger fordelingen af Y AX) og skal derfor integrere y 2
Lineære normale modeller ) Side 5 af 8 ud. Derved får vi noget der afhænger af A y. Påstanden er nu at den måde som A y afhænger af y på, ikke involverer A, men kun AA BB ). For det første afhænger opspaltningen y y + y 2 kun af AA. Dernæst er A y det entydigt bestemte punkt af formen A z for hvilket AA z y hvor z er entydigt bestemt modulo N A ) RA) RAA ). Herefter kan vi tillade os at fremsætte følgende definition: DEFINITION 2 Den n-dimensionale normalfordeling med middelværdi µ og varians Σ 0 er den fordeling der fremkommer ved at transformere den n-dimensionale normalfordeling med middelværdi 0 og varians I med en afbildning x µ + Ax hvor A er en lineær afbildning af R n således at AA Σ. Der eksisterer altid et sådant A.) Vi kan nu vise SÆTNING 2.7 Hvis X er normalfordelt med parametre µ og Σ, så er Y b + CX normalfordelt med parametre b + Cµ og CΣC. Bemærk at sætningen ikke forudsætter at X og Y har samme dimension. BEVIS Lad os sige at X er n-dimensional og Y er p-dimensional. Ifølge antagelsen kan X fås som X µ + AU hvor U er n-dimensionalt normalfordelt med parametre 0 og I, og AA Σ. Så er Y b + Cµ) + CAU. Hvis n p, er vi nu færdige fordi CA)CA) CAA C CΣC ). Hvis p < n, har N CA) RA C ) dimension højst p, så ved et passende ortogonalt) koordinatskift i R n hvorunder den n-dimensional standardnormalfordeling er invariant, jf. Korollar 2.5) kan vi opnå at CAU kun afhænger af U, U 2,..., U p, dvs. CAU BV hvor V er p-dimensionalt normalfordelt med parametre 0 og I, og BB CA)CA) CΣC. Hvis p > n, skriver vi U som CV, hvor C er den lineære afbildning af R p ind i R n som består i at smide de sidste p n koordinater væk. Så er Y b + Cµ) + CAB)V hvor CAB)CAB) CΣC. SÆTNING 2.8 Antag at X n-dimensionalt normalfordelt med middelværdivektor 0 og og variansmatrix σ 2 I. Hvis V L L 2... L k er en ortogonal opspaltning og p, p 2,..., p k de tilsvarende projektioner, så er de stokastiske vektorer p X, p 2 X,..., p k X uafhængige; p j X er normalfordelt med middelværdi 0 og varians σ 2 p j, og p j X er χ 2 -fordelt med skalaparameter σ 2 og dim L j frihedsgrader.
Lineære normale modeller ) Side 6 af 8 BEVIS Da x 2 p x 2 + p 2 x 2 +... + p k x 2, bliver den simultane normalfordelingstæthed et produkt af de marginale tæthedsfunktioner, hvoraf uafhængigheden følger. At p j X er normalfordelt med de nævnte parametre, følger af Sætning 2.7. Der findes en ortogonal transformation A af R n sådan at hvis vi sætter Y AX, så er p j X 2 en sum af dim L j forskellige Y 2 i -er, og da Y i-erne er uafhængige og normalfordelte med parametre 0 og σ 2 Korollar 2.5), er fordelingen af p j X 2 en χ 2 -fordeling af den nævnte slags. 2. Opgaver OPGAVE 2. Gennemgå ræsonnementerne i beviset for Lemma 2.6 for en konkret matrix A. Det vil sige: tag et passende n f.eks. n 3) og nogle talværdier for elementerne i A f.eks. A optrædende objekter nærmere er. [ 3 2 0 ] ) og find ud af hvad de i beviset 3 Lineære normale modeller Vi vil studere statistiske modeller af formen X X, X 2,..., X n ) er n-dimensionalt normalfordelt med middelværdivektor µ og variansmatrix σ 2 I. Om parametrene vides at µ er et punkt i underrummet L af V R n, og at σ 2 > 0. Modellen er en lineær normal model fordi middelværdien tilhører et lineært underrum L. Likelihoodfunktionen svarende til en observation x er Lµ,σ 2 ) 2π) n/2 σ 2 exp x µ 2 ) ) n/2 2 σ 2 Lad p være ortogonalprojektionen af V på L. Da x px px µ, er x µ 2 x px 2 + px µ 2 hvoraf følger at Lµ,σ 2 ) Lpx,σ 2 ) for ethvert σ 2, dvs. maksimaliseringsestimatet for µ er px. Ved sædvanlige metoder finder man at Lpx,σ 2 ) maksimaliseres når σ 2 er lig x px 2 /n dim L). Fra Sætning 2.8 anvendt på X µ ved vi at X px 2 er χ 2 -fordelt med n dim L frihedsgrader og skalaparameter σ 2, specielt har den middelværdi n dim L)σ 2. Alt i alt gælder derfor
Lineære normale modeller ) Side 7 af 8 SÆTNING 3.9 Middelværdivektoren µ estimeres ved ˆµ px, altså projektionen af x ned på L. Variansparameteren σ 2 estimeres centralt ved s 2 n dim L x px 2. Maksimaliseringsestimatoren for σ 2 er σ 2 n x px 2. Vektoren x px er residualvektoren. Størrelsen x px 2 er residualkvadratsummen. Tallet n dim L er antallet af frihedsgrader for variansskønnet og/eller residualkvadratsummen. Man kan bestemme ˆµ af relationen x ˆµ L som i realiteten er dim L lineære ligninger med lige så mange ubekendte; disse ligninger kaldes normalligningerne fordi de udtrykker at x ˆµ er normal til L). Antag nu at der foreligger en hypotese om middelværdien) af formen H 0 : µ L 0 hvor L 0 er et underrum af L. Under H 0 er maksimaliseringsestimaterne hhv. p 0 x og n dim L 0 x p 0 x 2, og kvotientteststørrelsen er hvor Q Lp 0x, n x p 0x 2 ) Lpx, n x px 2 ) x px 2 ) n/2 x p 0 x 2 x px 2 x px 2 + px p 0 x 2 + px p 0x 2 ) n/2 x px 2 ) n/2 + dim L dim L 0 n dim L F F Man forkaster for store værdier af F. dim L dim L px 0 p 0 x 2 n dim L x. px 2 ) n/2 Det følger af Sætning 2.8 at under H 0 er tælleren og nævneren i F-størrelsen stokastisk uafhængige χ 2 -fordelte med skalaparametre σ 2 /dim L dim L 0 ) hhv. σ 2 /n dim L) så de er hver især centrale skøn over σ 2 ), og F-størrelsen bliver derfor F-fordelt med dim L dim L 0 ) og n dim L) frihedsgrader. Hermed er estimations- og testproblemerne i princippet løst. Vi kan så gå over til at se hvordan det tager sig ud i konkrete modeller. A Resultater fra lineær algebra Det er overalt underforstået at der er tale om endeligdimensionale reelle vektorrum med indre produkt.
Lineære normale modeller ) Side 8 af 8 A. Notation Vektorrummet betegnes typisk V. Underrum betegnes L, L, L 2,... Vektorer betegnes normalt med fede bogstaver x, u, v osv.). Nulvektoren er 0. Lineære afbildninger [og deres matricer] betegnes ofte med bogstaver som A og B; den transponerede til A betegnes A. Nulrummet for A betegnes N A) og billedmængden range ) RA). Den identiske afbildning [enhedsmatricen] betegnes I. Skalarproduktet eller det indre produkt af u og v skrives u, v, og længden af u skrives u. Det ortogonale komplement til underrummet L betegnes L. Ortogonalprojektionen af V på underrummet L er den lineære afbildning p af V ind i sig selv for hvilken px L og x px L for alle x V. A.2 Forskellige definitioner En symmetrisk lineær afbildning [en matrix] A er positivt semidefinit hvis x, Ax 0 [x Ax 0] for alle x; den er positivt definit kort: A > 0 hvis ulighedstegnet er skarpt for alle x 0. A.3 Forskellige resultater SÆTNING A.0 Lad A være en lineær afbildning af R n ind i R p. Da gælder at RA) og N A ) er hinandens ortogonale komplementer i R p ). KOROLLAR A. RA) RAA ). BEVIS FOR KOROLLAR A. Vi vil vise at N A ) er lig N AA ). Det er klart at førstnævnte er en delmængde af sidstnævnte. Vi behøver derfor kun vise at AA u 0 A u 0: Antag at AA u 0; ifølge sætningen er da A u RA ), og da A u pr. definition også tilhører RA ), må A u nødvendigvis være 0. KOROLLAR A.2 Lad A være en symmetrisk lineær afbildning af R n ind i sig selv. Da gælder at RA) og N A) er hinandens ortogonale komplementer. SÆTNING A.3 Hvis A er symmetrisk og positiv semidefinit, så findes en symmetrisk positiv semidefinit matrix A /2 således at A /2 A /2 A.