Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Relaterede dokumenter
Den lineære normale model

hvor a og b er konstanter. Ved middelværdidannelse fås videre

standard normalfordelingen på R 2.

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Module 1: Lineære modeller og lineær algebra

Den lineære normale model

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Elementær sandsynlighedsregning

Statistik og Sandsynlighedsregning 2

Tidligere Eksamensopgaver MM505 Lineær Algebra

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår Dagens program

Sandsynlighedsregning Oversigt over begreber og fordelinger

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kvantitative Metoder 1 - Efterår Dagens program

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Reeksamen 2014/2015 Mål- og integralteori

Om hypoteseprøvning (1)

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Oversigt [LA] 11, 12, 13

Eksamen 2014/2015 Mål- og integralteori

Den todimensionale normalfordeling

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

3.1 Baser og dimension

Lidt om fordelinger, afledt af normalfordelingen

Lineær Algebra eksamen, noter

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Del II. Den lineære normale model

Statistik og Sandsynlighedsregning 2

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Lineær Algebra, TØ, hold MA3

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Nøgleord og begreber Ortogonalt komplement Tømrerprincippet. [LA] 13 Ortogonal projektion

INSTITUT FOR MATEMATISKE FAG c

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

MM501 forelæsningsslides

MM501/MM503 forelæsningsslides

Produkt og marked - matematiske og statistiske metoder

Besvarelser til Lineær Algebra med Anvendelser Ordinær Eksamen 2016

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

8 Regulære flader i R 3

Lineær algebra 1. kursusgang

Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM02)

Kvantitative Metoder 1 - Forår Dagens program

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2

Om første og anden fundamentalform

Lineær Algebra - Beviser

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Lineær Algebra F08, MØ

DesignMat Uge 1 Gensyn med forårets stof

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

EKSAMEN Flerdimensional Analyse Sommer sider

Hilbert rum. Chapter Indre produkt rum

Transformation: tætheder pår k

z 1 = z 1z 1z 1 z 1 2 = z z2z 1 z 2 2

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Sylvesters kriterium. Nej, ikke mit kriterium. Sætning 9. Rasmus Sylvester Bryder

Taylors formel. Kapitel Klassiske sætninger i en dimension

Nanostatistik: Opgavebesvarelser

DesignMat Uge 2. Preben Alsholm. Efterår Lineære afbildninger. Preben Alsholm. Lineære afbildninger. Eksempel 2 på lineær.

Anvendt Lineær Algebra

DESIGNMAT FORÅR 2012: UGESEDDEL Forberedelse Læs alle opgaverne fra tidligere ugesedler, og læg særlig mærke til dem du har spørgsmål til.

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Symmetriske og ortogonale matricer Uge 7

Teoretiske Øvelsesopgaver:

Kvadratiske matricer. enote Kvadratiske matricer

Oversigt [LA] 1, 2, 3, [S] 9.1-3

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

DesignMat Uge 11 Lineære afbildninger

Ligningssystemer - nogle konklusioner efter miniprojektet

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Lineære normale modeller (4) udkast

Endeligdimensionale vektorrum

Ølopgaver i lineær algebra

Løsninger til udvalgte Eksamensopgaver i Lineær Algebra Juni 2000 og Juni 2001.

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

4 Oversigt over kapitel 4

Højde af kvinder 2 / 18

Note om Monte Carlo metoden

Transkript:

E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt og elegant. De følgende sider viser hvordan; det er dog ikke alt der er idel fryd og gammen: der skal forskellige lidt tekniske krumspring til for simpelt hen at kunne definere den flerdimensionale normalfordeling. På side 7f gives en kort genopfriskning af notation, definitioner og sætninger fra lineær algebra. Flerdimensionale stokastiske variable En n-dimensional stokastisk variabel X kan opfattes som et talsæt af n endimensionale stokastiske variable, eller som en stokastisk vektor i V R n ) hvis koordinater i standardkoordinatsystemet er n endimensionale stokastiske variable. Middelværdien af X er talsættet bestående af middelværdierne af de enkelte koordinater: EX EX 2 EX. EX n eller den vektor EX for hvilken E u, X ) u, EX for alle u V i begge tilfælde forudsættes det at alle de optrædende endimensionale stokastiske variable har middelværdi. Variansen af X er den symmetriske positivt semidefinitte matrix hvis i, j)-te element er CovX i, X j ): VarX VarX CovX, X 2 ) CovX, X n ) CovX 2, X ) VarX 2 CovX 2, X n )...... CovX n, X ) CovX 2, X n ) VarX n

Lineære normale modeller ) Side 2 af 8 eller variansen er den symmetriske, positivt semidefinitte lineære afbildning VarX for hvilken Cov u, X, v, X ) u, VarX)v for alle u, v V eller variansen er den kvadratiske form u Var u, X ). I alle tilfælde forudsættes det at alle de optrædende endimensionale stokastiske variable har endeligt andet moment. Ud fra definitionerne viser man let SÆTNING. Lad X være en n-dimensional stokastisk variabel, og antag at X har middelværdi og varians. Hvis A er en lineær afbildning fra R n til R p [eller en p n-matrix], og b er en konstant vektor i R p [eller en p -matrix], så er EAX + b) AEX) + b VarAX + b) AVarX)A For en endimensional stokastisk variabel X gælder som bekendt at hvis VarX 0, så er X med sandsynlighed konstant. Her er en generalisation til flerdimensionale stokastiske variable: SÆTNING.2 Lad X være en n-dimensional stokastisk variabel med middelværdi 0 og varians Σ. Så gælder at X med sandsynlighed ligger i billedrummet for Σ. BEVIS Lad L være billedrummet for Σ. Sætningens påstand er at PX L) eller sagt på en anden måde: PX L ). Lad d dim L. Hvis d 0, er der intet at vise, så antag at d > 0. Vælg en basis u, u 2,..., u d for L. Da L er nulrummet for Σ Korollar A.2), er Var u j, X ) u j Σu j 0, og derfor er P u j, X 0), dvs. PX u j ). Da X L X u j, j, 2,..., d, er P X L ) P d {X u j } j hvor det sidste lighedstegn kommer af at en fællesmængde af endeligt eller tælleligt) mange hændelser med sandsynlighed er en hændelse med sandsynlighed. KOROLLAR.3 Hvis X har middelværdi µ og varians Σ, så ligger X med sandsynlighed i sideunderrummet {µ + Σu : u R n }.

Lineære normale modeller ) Side 3 af 8 2 Den flerdimensionale normalfordeling I dette afsnit skal vi indføre den flerdimensionale normalfordeling og vise at hvis X er n-dimensionalt normalfordelt med parametre µ og Σ, og hvis A er en p n-matrix og b en p -matrix, så er AX + b p-dimensionalt normalfordelt med parametre Aµ + b og AΣA. Da man kan komme ud for at fordelingen med sandsynlighed er koncentreret på et ægte sideunderrum jf. Korollar.3), kan man ikke uden videre benytte en generel definition baseret på tæthedsfunktioner. I stedet går vi frem i flere skridt. DEFINITION Den n-dimensionale regulære normalfordeling med middelværdi µ og varians Σ > 0 er den n-dimensionale fordeling hvis tæthedsfunktion er f x) ) 2π) n/2 det Σ /2 exp 2 x µ) Σ x µ), x R n ) Den n-dimensionale standardnormalfordeling er den n-dimensionale regulære normalfordeling med middelværdi 0 og varians I. Bemærkninger:. Den endimensionale regulære normalfordeling er den sædvanlige endimensionale normalfordeling. 2. Hvis Σ σ 2 I, reducerer tæthedsfunktionen ) til f x) 2πσ 2 ) n/2 exp 2 x µ 2 /σ 2), x R n svarende til at X, X 2,..., X n er uafhængige og X j er normalfordelt med middelværdi µ j og varians σ 2. 3. Den todimensionale regulære normalfordeling med parametre µ [ µ µ 2 er omtalt i DeGroot Afsnit 5.2. ] [ og Σ σ 2 ρσ σ 2 ρσ σ 2 σ2 2 ] SÆTNING 2.4 Hvis X er regulært normalfordelt med parametre µ og Σ, og hvis A er er en bijektiv lineær afbildning af R n, så er Y AX regulært normalfordelt med parametre Aµ og AΣA.

Lineære normale modeller ) Side 4 af 8 BEVIS Ifølge sætningen om transformation af tætheder se f.eks. DeGroot side 65-6) er tæthedsfunktionen for Y gy) det A f A y) ) exp 2 A y µ) Σ A y µ) 2π) n/2 det Σ /2 det A 2π) n/2 detaσa ) /2 exp 2 y Aµ) AΣA ) y Aµ) ) KOROLLAR 2.5 Hvis X er regulært normalfordelt med parametre 0 og I, og hvis A er er en ortogonal afbildning af R n, så er Y AX ligeledes regulært normalfordelt med parametre 0 og I. Indtil videre har vi kun defineret normalfordelinger med regular variansmatrix. Imidlertid har vi brug for også at kunne tale om normalfordelinger med en singulær variansmatrix; inspireret af Sætning. kunne man forestille sig en definition i retning af følgende: Den n-dimensionale normalfordeling med middelværdi µ og varians Σ 0 er den fordeling der fremkommer ved at transformere den n-dimensionale normalfordeling med afbildningen x µ + Ax hvor A er indrettet sådan at AA Σ. For at en sådan definition skal være brugbar, er der forskelligt der skal afklares: ) Findes der altid et A? iflg. Sætning A.3 ja) 2) Hvis der er flere forskellige A-er således at AA Σ, får man så samme fordeling? Det udtaler nedenstående lemma sig om. LEMMA 2.6 Antag at X er n-dimensionalt normalfordelt med parametre 0 og I. Hvis A og B er to lineære afbildninger af R n sådan at AA BB, så har de to stokastiske vektorer AX og BX samme fordeling. BEVIS SKITSEMÆSSIGT) Problemerne kommer af at A og B) ikke er bijektive. Betragtet som afbildning fra RA ) til RAA ) er A bijektiv Sætning A.0), så vi kan lave en bijektiv afbildning hvor G er en eller anden ortogonal transformation fra N A) til N AA )) R n RA ) N A) RAA ) N AA ) R n x x + x 2 Ax + Gx 2 y med omvendt afbildning A y + G y 2 y + y 2 y hvor A y er det entydigt bestemte element i RA ) der ved A afbildes over i y. Tæthedsfunktionen for Y er proportional med exp 2 xy) 2 ), og xy) 2 A y 2 + y 2 2. Vi søger fordelingen af Y AX) og skal derfor integrere y 2

Lineære normale modeller ) Side 5 af 8 ud. Derved får vi noget der afhænger af A y. Påstanden er nu at den måde som A y afhænger af y på, ikke involverer A, men kun AA BB ). For det første afhænger opspaltningen y y + y 2 kun af AA. Dernæst er A y det entydigt bestemte punkt af formen A z for hvilket AA z y hvor z er entydigt bestemt modulo N A ) RA) RAA ). Herefter kan vi tillade os at fremsætte følgende definition: DEFINITION 2 Den n-dimensionale normalfordeling med middelværdi µ og varians Σ 0 er den fordeling der fremkommer ved at transformere den n-dimensionale normalfordeling med middelværdi 0 og varians I med en afbildning x µ + Ax hvor A er en lineær afbildning af R n således at AA Σ. Der eksisterer altid et sådant A.) Vi kan nu vise SÆTNING 2.7 Hvis X er normalfordelt med parametre µ og Σ, så er Y b + CX normalfordelt med parametre b + Cµ og CΣC. Bemærk at sætningen ikke forudsætter at X og Y har samme dimension. BEVIS Lad os sige at X er n-dimensional og Y er p-dimensional. Ifølge antagelsen kan X fås som X µ + AU hvor U er n-dimensionalt normalfordelt med parametre 0 og I, og AA Σ. Så er Y b + Cµ) + CAU. Hvis n p, er vi nu færdige fordi CA)CA) CAA C CΣC ). Hvis p < n, har N CA) RA C ) dimension højst p, så ved et passende ortogonalt) koordinatskift i R n hvorunder den n-dimensional standardnormalfordeling er invariant, jf. Korollar 2.5) kan vi opnå at CAU kun afhænger af U, U 2,..., U p, dvs. CAU BV hvor V er p-dimensionalt normalfordelt med parametre 0 og I, og BB CA)CA) CΣC. Hvis p > n, skriver vi U som CV, hvor C er den lineære afbildning af R p ind i R n som består i at smide de sidste p n koordinater væk. Så er Y b + Cµ) + CAB)V hvor CAB)CAB) CΣC. SÆTNING 2.8 Antag at X n-dimensionalt normalfordelt med middelværdivektor 0 og og variansmatrix σ 2 I. Hvis V L L 2... L k er en ortogonal opspaltning og p, p 2,..., p k de tilsvarende projektioner, så er de stokastiske vektorer p X, p 2 X,..., p k X uafhængige; p j X er normalfordelt med middelværdi 0 og varians σ 2 p j, og p j X er χ 2 -fordelt med skalaparameter σ 2 og dim L j frihedsgrader.

Lineære normale modeller ) Side 6 af 8 BEVIS Da x 2 p x 2 + p 2 x 2 +... + p k x 2, bliver den simultane normalfordelingstæthed et produkt af de marginale tæthedsfunktioner, hvoraf uafhængigheden følger. At p j X er normalfordelt med de nævnte parametre, følger af Sætning 2.7. Der findes en ortogonal transformation A af R n sådan at hvis vi sætter Y AX, så er p j X 2 en sum af dim L j forskellige Y 2 i -er, og da Y i-erne er uafhængige og normalfordelte med parametre 0 og σ 2 Korollar 2.5), er fordelingen af p j X 2 en χ 2 -fordeling af den nævnte slags. 2. Opgaver OPGAVE 2. Gennemgå ræsonnementerne i beviset for Lemma 2.6 for en konkret matrix A. Det vil sige: tag et passende n f.eks. n 3) og nogle talværdier for elementerne i A f.eks. A optrædende objekter nærmere er. [ 3 2 0 ] ) og find ud af hvad de i beviset 3 Lineære normale modeller Vi vil studere statistiske modeller af formen X X, X 2,..., X n ) er n-dimensionalt normalfordelt med middelværdivektor µ og variansmatrix σ 2 I. Om parametrene vides at µ er et punkt i underrummet L af V R n, og at σ 2 > 0. Modellen er en lineær normal model fordi middelværdien tilhører et lineært underrum L. Likelihoodfunktionen svarende til en observation x er Lµ,σ 2 ) 2π) n/2 σ 2 exp x µ 2 ) ) n/2 2 σ 2 Lad p være ortogonalprojektionen af V på L. Da x px px µ, er x µ 2 x px 2 + px µ 2 hvoraf følger at Lµ,σ 2 ) Lpx,σ 2 ) for ethvert σ 2, dvs. maksimaliseringsestimatet for µ er px. Ved sædvanlige metoder finder man at Lpx,σ 2 ) maksimaliseres når σ 2 er lig x px 2 /n dim L). Fra Sætning 2.8 anvendt på X µ ved vi at X px 2 er χ 2 -fordelt med n dim L frihedsgrader og skalaparameter σ 2, specielt har den middelværdi n dim L)σ 2. Alt i alt gælder derfor

Lineære normale modeller ) Side 7 af 8 SÆTNING 3.9 Middelværdivektoren µ estimeres ved ˆµ px, altså projektionen af x ned på L. Variansparameteren σ 2 estimeres centralt ved s 2 n dim L x px 2. Maksimaliseringsestimatoren for σ 2 er σ 2 n x px 2. Vektoren x px er residualvektoren. Størrelsen x px 2 er residualkvadratsummen. Tallet n dim L er antallet af frihedsgrader for variansskønnet og/eller residualkvadratsummen. Man kan bestemme ˆµ af relationen x ˆµ L som i realiteten er dim L lineære ligninger med lige så mange ubekendte; disse ligninger kaldes normalligningerne fordi de udtrykker at x ˆµ er normal til L). Antag nu at der foreligger en hypotese om middelværdien) af formen H 0 : µ L 0 hvor L 0 er et underrum af L. Under H 0 er maksimaliseringsestimaterne hhv. p 0 x og n dim L 0 x p 0 x 2, og kvotientteststørrelsen er hvor Q Lp 0x, n x p 0x 2 ) Lpx, n x px 2 ) x px 2 ) n/2 x p 0 x 2 x px 2 x px 2 + px p 0 x 2 + px p 0x 2 ) n/2 x px 2 ) n/2 + dim L dim L 0 n dim L F F Man forkaster for store værdier af F. dim L dim L px 0 p 0 x 2 n dim L x. px 2 ) n/2 Det følger af Sætning 2.8 at under H 0 er tælleren og nævneren i F-størrelsen stokastisk uafhængige χ 2 -fordelte med skalaparametre σ 2 /dim L dim L 0 ) hhv. σ 2 /n dim L) så de er hver især centrale skøn over σ 2 ), og F-størrelsen bliver derfor F-fordelt med dim L dim L 0 ) og n dim L) frihedsgrader. Hermed er estimations- og testproblemerne i princippet løst. Vi kan så gå over til at se hvordan det tager sig ud i konkrete modeller. A Resultater fra lineær algebra Det er overalt underforstået at der er tale om endeligdimensionale reelle vektorrum med indre produkt.

Lineære normale modeller ) Side 8 af 8 A. Notation Vektorrummet betegnes typisk V. Underrum betegnes L, L, L 2,... Vektorer betegnes normalt med fede bogstaver x, u, v osv.). Nulvektoren er 0. Lineære afbildninger [og deres matricer] betegnes ofte med bogstaver som A og B; den transponerede til A betegnes A. Nulrummet for A betegnes N A) og billedmængden range ) RA). Den identiske afbildning [enhedsmatricen] betegnes I. Skalarproduktet eller det indre produkt af u og v skrives u, v, og længden af u skrives u. Det ortogonale komplement til underrummet L betegnes L. Ortogonalprojektionen af V på underrummet L er den lineære afbildning p af V ind i sig selv for hvilken px L og x px L for alle x V. A.2 Forskellige definitioner En symmetrisk lineær afbildning [en matrix] A er positivt semidefinit hvis x, Ax 0 [x Ax 0] for alle x; den er positivt definit kort: A > 0 hvis ulighedstegnet er skarpt for alle x 0. A.3 Forskellige resultater SÆTNING A.0 Lad A være en lineær afbildning af R n ind i R p. Da gælder at RA) og N A ) er hinandens ortogonale komplementer i R p ). KOROLLAR A. RA) RAA ). BEVIS FOR KOROLLAR A. Vi vil vise at N A ) er lig N AA ). Det er klart at førstnævnte er en delmængde af sidstnævnte. Vi behøver derfor kun vise at AA u 0 A u 0: Antag at AA u 0; ifølge sætningen er da A u RA ), og da A u pr. definition også tilhører RA ), må A u nødvendigvis være 0. KOROLLAR A.2 Lad A være en symmetrisk lineær afbildning af R n ind i sig selv. Da gælder at RA) og N A) er hinandens ortogonale komplementer. SÆTNING A.3 Hvis A er symmetrisk og positiv semidefinit, så findes en symmetrisk positiv semidefinit matrix A /2 således at A /2 A /2 A.