Den generelle lineære model

Kapitel 10 Den generelle lineære model Den generelle lineære normale model, eller blot den lineære normale model, er en matematisk abstraktion af en række af de mest anvendte statistiske modeller: etsidet variansanalyse, tosidet variansanalyse, regressionsanalyse, multipel regression og alle mulige udvidelser og blandinger heraf. Disse modeller kan analyseres under et, og det vil vi gøre. Det giver - på trods af abstraktionen - en forbavsende simpel og gennemskuelig analyse, hvor vi virkelig høster frugterne af vores abstrakte, matematisk betonede tilgang til statistik. En smule Hilbertrumsgeometri giver en indsigt som selv års konkret regneri på de enkelte modeller ikke ville give. Det centrale er ikke udenadslærte formler, men et mentalt billede af en retvinklet trekant! En mere håndfast tilgang til modellerne en for en (sådan som det har været traditionen i den engelsktalende del af verden, og vel stadig er det i et vist omfang) ville gøre dette kapitel flere hundrede sider langt, og alle regninger ville være sovset ind i dekompositioner af kvadratsummer på snart den ene, snart den anden måde. Den pris vi betaler for abstraktionen er, at vi måske får mindre føling med de konkrete modeller. Specielt vil det ikke træde tydeligt frem hvad forskellen er på modellerne, og især ikke hvilke forskelle i den videnskabelige og eksperimentelle problemstilling, der betinger det præcise modelvalg. Disse forskelle vil være emnet for de kommende kapitler. 349

350 Kapitel 10. Den generelle lineære model 10.1 Definition og eksempler Lad V være et endeligdimensionalt reelt vektorrum, udstyret med et indre produkt,. Vi vil i almindelighed betegne dimensionen af V med N. En lineær normal model på V har to ingredienser. Den ene er et lineært underrum L V. Det skal være et ægte underrum - hvis vi tillader L = V fører det til forskellige degenerationer som vi helst er fri for. På den anden side er det fuldt ud tilladt at L er nulvektorrummet. Vi refererer til L som middelværdiunderrummet. Den anden ingrediens er en hel familie af indre produkter, fremstillet ud fra det oprindelige indre produkt,. Vi sætter for σ 2 (0, ) x, y σ 2 = x, y σ 2, x, y V. (10.1) Vi bemærker at det oprindelige indre produkt er med i denne familie, hvor det svarer til σ 2 = 1. Disse indre produkter er uenige om længder. Men det vil stå centralt i analysen at de er enige om en ting: de er enige om hvilke vektorer der står ortogonalt på hinanden. Der gælder at x, y σ 2 = 0 x, y = 0 for alle x, y V, σ 2 (0, ). Definition 10.1 Den lineære normale model på et endeligdimensionalt vektorrum V med middelværdiunderrum L V og grundlæggende præcision,, er familien af alle regulære normalfordelinger på V med centrum ξ L og en præcision af formen, σ 2. De ukendte parametre i modellen er (ξ, σ 2 ) L (0, ). I praksis vil vektorrummet V være R N. For de modeller der interesserer os her, vil det grundlæggende indre produkt endvidere altid være det sædvanlige indre produkt på R N. At specificere en lineær normal model for den stokastiske variabel X = (X 1,..., X N ) T med det sædvanlige indre produkt som grundlæggende indre produkt, er blandt andet at sige at enkeltmålingerne X 1,..., X N er uafhængige reelle variable, og at X i N(ξ i, σ 2 ) for i = 1,..., N. Alle variablene er således normalfordelte, og de har samme (ukendte) varians. Fleksibiliteten i modellen ligger i at variablene ikke behøver at have samme middelværdi:

10.1. Definition og eksempler 351 EX i = ξ i kan fint variere med observationsnummeret i. Men dog ikke friere end at sammenbundtningen ξ = (ξ 1,..., ξ N ) T ligger i det på forhånd givne underrum L. Selv om vores praktiske interesse således er rettet mod eksempler af ret konkret karakter, vil vi alligevel insistere på den abstrakte ramme, med vilkårlige indre produkter på vilkårlige vektorrum. Denne formulering leder nemlig automatisk hen mod et geometrisk syn på modellen. Og den rette dosis geometrisk tankegang er afgørende for den lethed med hvilken vi vil analysere den lineære normale model. Når V = R N og når, er det sædvanlige indre produkt, er modellens egenskaber beskrevet ved specifikationen af hvilke middelværdivektorer der er lovlige. Vi vil nu give et par eksempler, der belyser hvad man er i stand til at udtrykke om virkeligheden ved at insistere på at de lovlige middelværdivektorer udgør et underrum, og hvad man ikke kan udtrykke i den ramme. Eksempel 10.2 Hvis observationerne svarer til uafhængige replikationer af det samme eksperiment, så vil det være naturligt at antage at EX i = α ξ = for alle i = 1,..., N for ukendt α R. Hvis vi ikke lægger restriktioner på α, har vi på denne måde specificeret en lineær normal model, idet middelværdivektoren opfylder at α 1 α 1. α = α det vil sige at de mulige middelværdivektorer udgør et etdimensionalt underrum af R N, udspændt af (1,..., 1) T. I visse situationer ved man på forhånd at den fælles middelværdi α er positiv. Denne viden kan ikke udtrykkes gennem en lineær normal model. Derfor lukker man ofte øjnene for denne forhåndsviden, og går frem som om α kan antage vilkårlige reelle værdier. Eksempel 10.3 Hvis observationerne naturligt falder i to grupper, og hvis observationerne inden for hver gruppe svarer til uafhængige replikationer af det samme eksperiment, så vil det være naturligt at antage at EX i = α 1 for i = 1,..., M, EX i = α 2 for i = M + 1,..., N,. 1,

352 Kapitel 10. Den generelle lineære model hvor vi har antaget at de første M observationer udgør den ene gruppe, og de sidste N M observationer udgør den anden gruppe. Hvis vi ikke lægger restriktioner på α 1 og α 2, har vi på denne måde specificeret en lineær normal model, idet middelværdivektoren opfylder at 1 0 ξ = α 1. α 1 α 2. α 2 = α 1. 1 0. 0 + α 2 det vil sige at de mulige middelværdivektorer udgør et todimensionalt underrum af R N, udspændt af (1,..., 1, 0,... 0) T og (0,..., 0, 1,..., 1) T. I visse situationer ved man på forhånd at de to grupper har forskellig middelværdi, altså at α 1 α 2. I andre situationer ved man på forhånd at α 1 α 2, altså at den første gruppe har en middelværdi der er mindst lige så stor som den anden gruppe. Viden af denne type kan ikke udtrykkes gennem en lineær normal model. Man kan naturligvis udbygge eksemplet til at involvere flere grupper end blot to, og man taler da gerne om en etsidet variansanalyse. Den eneste måde tingene bliver mere komplicerede på, er notationsmæssigt. Det gælder i særdeleshed hvis observationerne i de enkelte grupper ikke er nummereret fortløbende. Vi vil i et senere kapitel udvikle en formalisme, der kan håndtere denne generelle situation. Eksempel 10.4 Hvis vi til hver observation X i har knyttet et reelt tal t i som en kovariat, så kan det være naturligt at opstille en lineær regressionsmodel, hvor. 0 1. 1 EX i = α + β t i for i = 1,..., N. Hvis vi ikke lægger restriktioner på α og β, har vi på denne måde specificeret en lineær normal model, idet middelværdivektoren opfylder at α + β t 1 α + β t 2 ξ = = α. α + β t N 1 1. 1 + β t 1 t 2. t N,.

10.1. Definition og eksempler 353 Det vil sige at de mulige middelværdivektorer udgør et todimensionalt underrum af R N, udspændt af (1,..., 1) T og (t 1,..., t N ) T. I visse situationer ved man på forhånd at kovariaten har en positiv indflydelse på responsen, altså at β > 0. Viden af denne type kan ikke udtrykkes gennem en lineær normal model. Et gennemgående træk i disse eksempler er at middelværdiunderrummet for den lineære normale model specificeres ved et frembringersystem. Og de virkeligt begribelige størrelser i modellen er for så vidt ikke middelværdivektoren selv, men de koefficienter man får frem, når man skriver middelværdivektoren som en linearkombination af dette frembringersystem. Hvis frembringersystemet er lineært uafhængigt er disse koefficienter entydigt bestemt, og sættet af koefficienter er det man sædvanligvis forstår ved modellens middelværdiparametre. Hvis vi opskriver et frembringersystems vektorer (antag der er k af dem) som søjlerne i en N k-matrix A kalder vi denne matrix for en designmatrix for modellen. Middelværdiunderrummet har i så fald formen L = {Aβ β R k }. Her repræsenterer β R k modellens middelværdiparametre. Vi vil sædvanligvis insistere på at søjlerne i A er lineært uafhængige, svarende til at A har rang k. I så fald er β Aβ en bijektion mellem R k og L, og underforstås denne oversættelse mellem middelværdiparametrene og middelværdivektoren, kan hele den lineære normale model parametriseres ved (β, σ 2 ) R k (0, ). Eksempel 10.5 For at give et mere vidtgående eksempel på hvordan designmatricer ser ud, vil vi nu kombinere eksempel 10.3 og eksempel 10.4. Vi antager derfor at hver observation X i har tilknyttet en kovariat t i, men vi antager også at observationerne naturligt falder i to grupper. En separat lineær regression i hver gruppe svarer til middelværdispecifikationen EX i = α 1 + β 1 t i for i = 1,..., M, EX i = α 2 + β 2 t i for i = M + 1,..., N, hvor vi igen har antaget at de første M observationer udgør den ene gruppe, og de sidste N M observationer udgør den anden gruppe. Dette er en lineær normal model

354 Kapitel 10. Den generelle lineære model med middelværdiunderrum 1 0 t 1 0 L =.... 1 0 t M 0 0 1 0 t M+1.... 0 1 0 t N α 1 α 2 β 1 β 2 α 1 α 2 β 1 β 2 R 4. Populære varianter af denne model inkluderer en version hvor de to grupper har samme hældning, men forskelligt intercept, 1 0 t 1... α 1 0 t 1 α L = M 1 α 0 1 t M+1 2 α β 2 R3, β... 0 1 t N og (noget sjældnere) en version hvor de to grupper har samme intercept, men forskellig hældning, 1 t 1 0 L =... 1 t M 0 1 0 t M+1... 1 0 t N α β 1 β 2 α β 1 β 2 R3. Bemærk at et underrum altid har mange frembringersystemer, og en konkret lineær normal model vil derfor altid have mange designmatricer, eller mange parametriseringer om man vil. I praksis prøver man at finde en designmatrix, så middelværdiparametrene er direkte fortolkelige i forhold til det videnskabelige problem man diskuterer.

10.1. Definition og eksempler 355 Eksempel 10.6 I eksempel 10.3, med to homogene grupper af observationer, kunne vi let opskrive et frembringersystem for middelværdiunderrummet. Dette frembringersystem svarer til designmatricen 1 0.. 1 0 A 1 =. 0 1.. 0 1 Bijektionen β A 1 β (hvor β er en todimensional parametervektor) giver en naturlig fortolkning af β s to koordinater som henholdvis niveauet i første gruppe og niveauet i anden gruppe. Man kan let finde andre frembringersystemer for middelværdiunderrummet, og dermed andre designmatricer for modellen. For eksempel 1 0 1 1.. 1 0 A 2 = 1 1.. 1 1 og A 3 =.. 1 1 1 1.. 1 1 Bijektionerne β A 2 β og β A 3 β giver anledning til helt andre fortolkninger af parametrene. I A 2 -tilfældet bliver β s førstekoordinat niveauet i første gruppe, og β s andenkoordinat bliver til forskellen mellem de to grupper. I A 3 -tilfældet bliver β s førstekoordinat en slags gennemsnitsniveau for de to grupper, og β s andenkoordinat fortæller hvor langt de to gruppeniveauer ligger fra gennemsnitsniveauet. En af de vanskeligste udfordringer man skal løse, når man skriver et computerprogram, der kan analysere lineære normale modeller, er at finde en strategi for hvordan designmatricerne skal se ud. Problemet omtales gerne som valg af kontraster. De to designmatricer A 2 og A 3 i eksempel 10.6 svarer til to generelle principper for valg af kontraster, henholdsvis kaldet treatmentkontraster (valget af A 2 ) og sumkontraster (valget af A 3 )..

356 Kapitel 10. Den generelle lineære model 10.2 Projektioner på Hilbertrum Lad V være et endeligdimensionalt vektorrum, og lad, være et indre produkt på V. Vi vil i dette afsnit udvikle en del teori om ortogonalprojektioner med hensyn til det givne indre produkt. Denne teori er det vigtigste tekniske hjælpemiddel i analysen af den lineære normale model. Lad os reformulere definitionen af ortogonalprojektioner. Hvis L V er et underrum, og hvis x V er en given vektor, så findes der præcis en vektor p(x) L sådan at x p(x) L, dvs. sådan at x p(x), y = 0 for alle y L. (10.2) Vi kalder p(x) for ortogonalprojektionen af x på L. For hvert y L er p(x) y L, og ved at bruge Pythagoras sætning, ser vi at x y 2 = x p(x) + p(x) y 2 = x p(x) 2 + p(x) y 2 (10.3) for alle y L. En vigtig konsekvens af (10.3) er, at p(x) kan karakteriseres som det punkt i L, der ligger tættest på x. Man ser ud fra (10.2) at p(x) = x hvis x L, p(x) = 0 hvis x L. (10.4) Vi vil interesse os for p som en afbildning. Nogen gange opfatter vi p som en afbildning V L - det gjorde vi f.eks. i spaltningssætningen. I dette kapitel er vi nærmere tilbøjelige til at opfatte p som en afbildning V V, hvis værdier tilfældigvis ligger i L. Fra et formelt synspunkt er der en indlejring af L i V til forskel på disse betragtningsmåder, men notationen er tilbøjelig til at blive temmelig tung hvis man skal skelne. Sætning 10.7 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt,, og lad L V være et underrum. Der gælder at en lineær afbildning p : V V er ortogonalprojektionen på L, hvis og kun hvis den opfylder følgende tre betingelser: p(v) = L, (10.5) p 2 (x) = p(x) for alle x V, (10.6) p(x), y = x, p(y) for alle x, y V. (10.7)

10.2. Projektioner på Hilbertrum 357 BEMÆRK: Den første betingelse er at billedmængden for p præcis er L. Alle punkter x V afbildes altså ind i L, og alle punkter i L bliver ramt i denne proces. Hvis p opfylder (10.6) siger vi at den er idempotent, mens den er selvadjungeret med hensyn til det indre produkt, hvis den opfylder (10.7). BEVIS: Lad p : V V være ortogonalprojektionen på L. Det er klart at p er lineær, og det er klart at p(x) L for alle x V. Endvidere har vi fra (10.4) at alle punkter i L fastholdes af p. Heraf indses både (10.5) og (10.6). Og bruges denne observation i (10.2), får vi at x, p(y) = p(x), p(y) for alle x, y V. Bruges symmetrien af det indre produkt, får vi nu at (10.7) er opfyldt. Lad omvendt p : V V være en lineær afbildning der tilfredsstiller de tre betingelser. Hvis y L findes der et z V så p(z) = y. Da p er idempotent, er p(y) = p 2 (z) = p(z) = y. Vi kan altså konstatere at p holder alle punkter i L fast. Hvis x V og y L, kan vi udnytte at p er selvadjungeret til at vise at x p(x), y = x, y p(x), y = x, y x, p(y) = x, y x, y = 0, hvilket betyder at (10.2) er opfyldt. Eksempel 10.8 Hvis vi fokuserer på tilfældet hvor V = R N, så kan ortogonalprojektionen p ned på et underrum L repræsenteres ved en N N-matrix P, sådan at p(x) kan udtrykkes som matrixproduktet Px. At p er idempotent, oversættes nu til at P er en idempotent matrix, altså at P 2 = P. (10.8) Hvis det indre produkt, er givet ved en symmetrisk matrix B, x, y = x T B y for x, y R n, (10.9) så oversættes selvadjungerethed af p til matrixligningen Kombineres denne ligning med idempotens, udvides den til P T B = B P. (10.10) P T B P = P T B = B P.

358 Kapitel 10. Den generelle lineære model Betingelse (10.5) lader sig også formulere som matrixformel, hvis vi antager at L = { Aβ β R k} (10.11) hvor A er en N k-matrix af rang k. I så fald er betingelsen om at x Px L identisk med at 0 = Aβ, x Px = β T A T B(I P)x for alle β R k, x R N, hvor symbolet I betegner enhedsmatricen af den relevante dimension (i dette tilfælde af dimension N). Bemærk at A T B(I P)x er en k-vektor, og påstanden kan læses på den måde at denne k-vektor står vinkelret på alle k-vektorer i det sædvanlige indre produkt på R k. Men det kan kun lade sig gøre hvis vektoren selv er nul. Og hvis A T B(I P)x = 0 for alle x, kan vi slutte at A T B(I P) = 0. (10.12) Man checker let efter at hvis det indre produkt er givet ved (10.9), mens L er givet ved (10.11), og hvis P er en N N-matrix, så repræsenterer P ortogonalprojektionen ned på L hvis og kun hvis de tre ligninger (10.8), (10.9) og (10.12) er opfyldt. Indenfor rammerne af eksempel 10.8 kan vi faktisk gøre endnu mere end blot at oversætte de abstrakte karakteriseringer af ortogonalprojekter: vi kan finde P-matricen helt eksplicit. Sætning 10.9 Lad V = R N være udstyret med et indre produkt af formen x, y = x T B y for x, y R N, hvor B er en symmetrisk, positivt definit N N matrix, og lad L være et underrum af R N af formen L = { Aβ β R k} hvor A er en N k-matrix af rang k. Da repræsenteres ortogonalprojektionen ned på L af matricen P = A(A T BA) 1 A T B. (10.13)

10.2. Projektioner på Hilbertrum 359 BEVIS: Lad os starte med at indse at A T BA er invertibel. Dette matrixprodukt er tydeligvis en symmetrisk k k-matrix, og β T (A T BA)β = (Aβ) T B(Aβ) = Aβ 2 0 for alle β R k. Så A T BA er positivt semidefinit. Faktisk gælder der skarp ulighed medmindre Aβ = 0, og da søjlerne i A er lineært uafhængige, kan det kun indtræffe hvis β = 0. Altså har vi vist at A T BA er positivt definit, og dermed invertibel. Lad N N-matricen P repræsentere ortogonalprojektionen ned i L. For at bevise at P opfylder (10.13), tager vi et konkret x R N. Idet Px L kan vi antage at Px = Aβ for et passende β R k. På grund af (10.12) ser vi at og dermed er A T Bx = A T BPx = A T BAβ, (10.14) Multipliceres begge sider af dette lighedstegn med A, fås β = (A T BA) 1 A T Bx. (10.15) Px = Aβ = A(A T BA) 1 A T Bx. Eftersom denne formel gælder for alle x R N, følger (10.13). Disse formler antyder at det er let at sætte en computer til at regne projektioner ud: man skal blot have adgang til matrixrutiner for multiplikation, transponering og inversion. I praksis griber man dog sagen an med lidt større sofistikation. Hvis man skal løse den såkaldte normalligning (10.14), er det regnemæssigt ineffektivt at invertere A T BA - normalligningen kan løses langt hurtigere ved f.eks. Gauss-elimination. Endnu mere sofistikeret findes en klasse af algoritmer, der søger at minimere β A β x 2 (10.16) uden overhovedet at danne matrixproduktet A T BA. Det sker typisk ved omformning af problemet til et andet problem, der er nemmere at løse. Hvis B = I (sådan at det indre produkt vi taler om, er det sædvanlig indre produkt på R N ), og hvis Q er en ortonormal N N-matrix, vil Q T (A β x) 2 = A β x 2.

360 Kapitel 10. Den generelle lineære model I stedet for at minimere (10.16), kan man derfor forsøge at minimere β Ã β x 2, Ã = Q T A, x = Q T x. Denne omformning er ikke nødvendigvis en gevinst. Men hvis Ã er en øvre trekantsmatrix, r 11 r 12... r 1k ( ) R 0 r 22... r 2k Ã =, R = 0...... 0 0... r kk så er problemet nemt at løse: hvis x = ( x 1 x 2 ) T er den tilsvarende blokopdeling af den omformede observationsvektor, så minimeres (10.16) af β = R 1 x 1, der naturligvis findes ved Gauss-elimination, ikke ved inversion af matricen - bemærk at Gauss-elimination går rasende stærkt, når man starter med en trekantsmatrix. Ydermere finder vi let den minimale værdi til at være min β A β x 2 = x 2 2. Denne teknik står og falder altså med at man kan omforme det oprindelige A til en øvre trekantsmatrix, eller ækvivalent, at man kan skrive ( ) R A = Q. 0 Bogstaverne i denne formel har vundet hævd, og man taler gerne om en QRdekomposition af A. Der er ikke selvindlysende at QR-dekompositioner er en fornuftig tilgang til projektionsproblemet - det er ikke klart hvordan man skal finde en sådan dekomposition, og det er slet ikke klart hvordan man skal gå frem, hvis det skal gå stærkt. Men der findes højtudviklede iterative algoritmer, hvor man omformer den oprindelige designmatrix gennem en serie af mellemformer, der bliver mere og mere trekantsagtige. En algoritme baserer sig på Householder-spejlinger, en anden på Givens-rotationer. En regnemæssig gevinst ved disse algoritmer, er at man ikke behøver at holde styr over mellemformerne - når man har gennemført et omformningstrin kan man glemme hvor man kom fra. I praksis betyder det at man konstant overskriver designmatrix og observationsvektor med de omformede varianter.

10.3. Projektioner og geometri 361 Normalligningsmetoder er i det store og hele hurtigere end metoder, baseret på QRdekompositioner. Til gengæld har QR-dekompositionen overlegne numeriske egenskaber. Hvis A T A har determinant tæt på nul, så kan afrundingsfejl etc. komme til at betyde ganske meget for (A T A) 1 - det er endnu en pind til ligkisten for den praktiske anvendelighed af formel (10.13). Denne mangel på stabilitet af matrixinversion kan i nogen grad genfindes i normalligninsmetoderne. Indenfor numerisk analyse taler man om en matrices konditionstal, et heltal, der måler hvor følsom regninger med matricen er overfor småfejl - et lavt konditionstal er godt, et højt konditionstal er dårligt. Matricen A T A har et konditionstal, der er kvadratet på A s eget konditionstal. Metoderne baseret på QR-dekompositioner fastholder derimod det oprindelige konditionstal. 10.3 Projektioner og geometri Lad igen V være et endeligdimensionalt vektorrum med indre produkt,. I det følgende vil vi betragte to underrum L 1 og L 2 med tilhørende ortogonalprojektioner p 1 og p 2. Vi vil interessere os for den indbyrdes placering af L 1 og L 2 som geometriske objekter i V, og vi vil prøve at udtrykke denne placering ved hjælp af de to ortogonalprojektioner. Et simpelt eksempel på den type resultater vi ønsker, er at hvis L 2 = L 1, så er p 2 = 1 p 1 (hvor symbolet 1 betegner den identiske afbildning på V). Lemma 10.10 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt,, lad L 1 og L 2 være to underrum, og lad p 1 og p 2 være de tilhørende ortogonalprojektioner. Da er følgende tre betingelser ækvivalente: L 1 og L 2 er ortogonale, (10.17) p 1 p 2 = 0, (10.18) p 2 p 1 = 0. (10.19) BEVIS: Antag først at L 1 og L 2 er ortogonale. For x V er p 2 (x) L 2 og desmere er p 2 (x) L 1. Og dermed følger det af (10.4) at p 1 (p 2 (x)) = 0. På tilsvarende måde følger det at p 2 (p 1 (x)) = 0.

362 Kapitel 10. Den generelle lineære model Antag omvendt at p 1 p 2 = 0, og tag x L 1, y L 2. På grund af (10.4) er p 1 (x) = x og p 2 (y) = y. Og da p 1 er selvadjungeret, er x, y = p 1 (x), p 2 (y) = x, p 1 p 2 (y) = x, 0 = 0. Altså er L 1 og L 2 ortogonale underrum. Af symmetrigrunde ser vi at der også må gælde at L 1 og L 2 er ortogonale hvis p 2 p 1 = 0. Vi er her gået over til den sædvanlige operatornotation for lineære afbildninger, hvor sammensætning af afbildninger skrives uden brug af parenteser eller tegnet, og hvor argumentet sædvanligvis underforstås. Når vi skriver p 1 p 2 = 0 mener vi således at p 1 (p 2 (x)) = 0 for alle x V. Symbolet 0 betyder så alt efter sammenhængen nulvektoren i V eller nuloperatoren, altså den lineære afbildning der sender alt ind i nulvektoren. Lemma 10.11 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt,, lad L 1 og L 2 være to underrum, og lad p 1 og p 2 være de tilhørende ortogonalprojektioner. Da er følgende tre betingelser ækvivalente: L 2 L 1, (10.20) p 1 p 2 = p 2, (10.21) p 2 p 1 = p 2. (10.22) BEVIS: Hvis L 2 L 1, så er L 2 og L 1 ortogonale. Idet ortogonalprojektionen på L 1 er 1 p 1, følger det af lemma 10.10 at (1 p 1 ) p 2 = 0 = p 2 (1 p 1 ). Ganges parenteserne ud, fås netop som ønsket at p 1 p 2 = p 2 = p 2 p 1. Hvis vi omvendt antager at p 1 p 2 = p 2, ser vi at (1 p 1 )p 2 = 0. Ifølge lemma 10.10 står L 2 og L 1 da vinkelret på hinanden. Men heraf følger at L 2 L 1. Og helt tilsvarende vises at p 1 p 2 = p 2 medfører at L 2 L 1.

10.3. Projektioner og geometri 363 Definition 10.12 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt, og lad L 2 L 1 være to underrum. Det relative ortogonale komplement af L 2 i forhold til L 1, skrevet L 1 L 2, er underrummet L 1 L 2 = {x V x L 1 og x, y = 0 for alle y L 2 }. Den definerede relation for det relative ortogonale komplement kan skrives direkte som L 1 L 2 = L 1 L 2. Se figur 10.1 for en skitse. Strengt taget består L 1 L 2 af de vektorer, der udgør det almindelige ortogonale komplement til L 2, hvis man ser bort fra at der eksisterer et univers uden for L 1. Men pointen er at L 1 L 2 netop opfattes som en delmængde af det omkringliggende univers V, nærmere end som en delmængde af L 1. PSfrag replacements V L 1 L 2 L 2 L 1 Figur 10.1: En illustration af det relative ortogonale komplement. Det omgivende vektorrum V er på tegningen tredimensionalt (antydet af de tre basisvektorer), mens L 1 er todimensionalt og L 2 er etdimensionalt. Det relative komplement L 1 L 2 er et etdimensionalt underrum. Per konstruktion er det indeholdt i L 1, men man bør nærmere tænke på det som et selvstændigt underrum af det omgivende univers V. Lemma 10.13 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt,, lad L 2 L 1 være to underrum, og lad p 1 og p 2 være de tilhørende ortogonalprojektioner. Da er p 1 p 2 ortogonalprojektionen ned i L 1 L 2. BEVIS: Det er klart at p 1 (x) p 2 (x) L 1 for alle x V, eftersom både p 1 (x) og p 2 (x) ligger i L 1. Hvis y L 2 er p 1 (x) p 2 (x), y = p 1 (x), y p 2 (x), y = x, p 1 (y) x, p 2 (y) = x, y x, y = 0.

364 Kapitel 10. Den generelle lineære model Så p 1 (x) p 2 (x) L 2. Og altså må p 1 (x) p 2 (x) L 1 L 2 for alle x V. Hvis x V og y L 1 L 2, så er y, x (p 1 (x) + p 2 (x)) = y, x y, p 1 (x) y, p 2 (x) = y, x p 1 (y), x p 2 (y), x = y, x y, x 0 = 0. Det vil sige at p 1 p 2 opfylder den relevante version af (10.2). Definition 10.14 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt,. Lad L 1 og L 2 være to underrum, og lad L 0 = L 1 L 2 være deres fællesmængde. Vi siger at L 1 og L 2 er geometrisk ortogonale, skrevet L 1 G L 2, hvis L 1 L 0 L 2 L 0. Man kan tænke på to planer i rummet gennem nulpunktet. Hvis de ikke er ens, så skærer de hinanden i en ret linie L 0. De kan dermed aldrig stå ægte ortogonalt på hinanden, i den forstand at enhver vektor i den ene plan står vinkelret på enhver vektor i den anden, for i så fald skulle vektorer på L 0 stå vinkelret på sig selv. Alligevel synes man sommetider at planerne danner en ret vinkel med hinanden - tænk på forholdet mellem to vægge i et hjørne. Det vi tænker på, er i så fald netop ovenstående begreb geometrisk ortogonalitet. Begrebet er illustreret i figur 10.2. Lemma 10.15 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt,, lad L 1 og L 2 være to underrum, og lad p 1 og p 2 være de tilhørende ortogonalprojektioner. Lad L 0 = L 1 L 2 og lad p 0 være projektionen ned på L 0. Da er følgende tre betingelser ækvivalente: L 1 og L 2 er geometrisk ortogonale. (10.23) p 1 p 2 = p 2 p 1. (10.24) p 1 p 2 = p 0. (10.25)

10.3. Projektioner og geometri 365 L 1 PSfrag replacements V L 2 L 0 L0 L 1 L 0 L 2 Figur 10.2: En illustration af hvad det betyder at to underrum, L 1 og L 2, er geometrisk ortogonale. Vi har optegnet fællesmængden L 0 = L 1 L 2, og med fedt de to relative komplementer til L 0, inden i henholdsvis L 1 og L 2. De to originale underrum er geometrisk ortogonale, hvis disse to relative komplementer står ægte ortogonalt på hinanden. BEVIS: Det føler af lemma 10.13 at p 1 p 0 er projektionen ned i L 1 L 0, mens p 2 p 0 er projektionen ned i L 2 L 0. Det følger af lemma 10.10 at L 1 og L 2 er geometrisk ortogonale hvis og kun hvis Ganger man paranteserne ud, får man 0 = (p 1 p 0 )(p 2 p 0 ). (p 1 p 0 )(p 2 p 0 ) = p 1 p 2 p 1 p 0 p 0 p 2 + p 0 p 0 = p 1 p 2 p 0 p 0 + p 0 = p 1 p 2 p 0, så de to underrum er altså geometrisk ortogonale hvis og kun hvis p 1 p 2 = p 0. Da p 0, p 1 og p 2 er selvadjungerede, følger det af p 1 p 2 = p 0 for alle x, y V at (p 1 p 2 )x, y = x, (p 1 p 2 )y = p 1 x, p 2 y = p 2 p 1 x, y, hvoraf vi slutter at p 1 p 2 = p 2 p 1, altså at de to projektioner kommuterer. Endelig, hvis de to projektioner kommuterer, ser vi at p 1 p 2 er en selvadjungeret idempotent med værdier i L 0, og at p 1 p 2 faktisk fastholder elementerne i L 0. Dermed er p 1 p 2 = p 0 ifølge 10.7.

366 Kapitel 10. Den generelle lineære model Korollar 10.16 Lad V være et endeligdimensionalt vektorrum, udstyret med et indre produkt,. Lad L 1 og L 2 være to underrum, og lad p 1 og p 2 være de tilhørende ortogonalprojektioner. Hvis L 1 og L 2 er geometrisk ortogonale, så kan projektionen ned på underrummet L 1 + L 2 findes som Der gælder endvidere at p 1+2 = p 1 + p 2 p 1 p 2. (10.26) p 1+2 x 2 = p 1 x 2 + p 2 x 2 p 1 p 2 x 2 for alle x V. (10.27) BEVIS: Lad L 0 = L 1 L 2, og lad den tilhørende projektion være p 0. Hvis L 1 og L 2 er geometrisk ortogonale, er de tre underrum L 1 L 0, L 2 L 0 og L 0 indbyrdes (ægte) ortogonale, og da L 1 + L 2 = (L 1 L 0 ) + (L 2 L 0 ) + L 0, har vi at p 1+2 = (p 1 p 0 ) + (p 2 p 0 ) + p 0 = p 1 + p 2 p 0. Og da p 1 p 2 = p 0, er dette præcis påstanden i (10.27). Tilsvarende giver ortogonaliteten - sammen med Pythagoras sætning - at p 1+2 x 2 = (p 1 p 0 )x 2 + (p 2 p 0 )x 2 + p 0 x 2 = ( p 1 x 2 p 0 x 2) + ( p 2 x 2 p 0 x 2) + p 0 x 2, hvilket reducerer til (10.27). De underrum man interesserer sig for i forbindelse med lineære normale modeller, er meget ofte sumunderrum. I almindelighed findes der ingen måde at udtrykke projektionen ned i en sum af to underrum L 1 + L 2 på, udelukkende ved hjælp af projektionerne ned i L 1, L 2 og L 1 L 2. Dette forhold komplicerer analysen af visse lineære normale modeller betydeligt. Det er kun på grund af den ekstra betingelse om geometrisk ortogonalitet, at det lykkes at finde projektionen ned på sumunderrummet i korollar 10.16. Vi skal senere se hvordan dette forhold betyder, at geometriske ortogonalitet spiller en vigtig rolle i analysen af de såkaldte faktorforsøg. Nogle forsøgsdesign bliver meget nemmere at forstå end andre, fordi visse underrum, der optræder i analysen, bliver geometrisk ortogonale.

10.4. Estimation i den lineære normale model 367 10.4 Estimation i den lineære normale model Vi vil nu betragte den lineære normale model på V, baseret på det grundlæggende indre produkt,, og med middelværdiunderrum L. Normen med hensyn til det grundlæggende indre produkt betegnes med de sædvanlige dobbeltstreger, x 2 = x, x for x V. En gang imellem får vi brug for normen med hensyn til et af de afledte indre produkter, σ 2. Til det vil vi bruge et symbol med trippelstreger, x 2 σ 2 = x, x σ 2 = x 2 σ 2 for x V. Vi får brug for at diskutere ortogonalprojektioner ned på L, og også ned på forskellige andre underrum af V. Ortogonalprojektion er et begreb der afhænger af det valgte indre produkt, og derfor kunne man frygte at komme til at arbejde med en hel skare af ortogonalprojektioner. Men de indre produkter, σ 2 er helt enige om hvilke vektorer der står vinkelret på hinanden. Karakteriseringen i (10.2) viser derfor at de også er enige om hvordan ortogonalprojektioner ser ud. Så når vi blot taler om ortogonalprojektionen på L, så er det med hensyn til et vilkårligt af de indre produkter, σ 2. Eftersom det grundlæggende indre produkt, er med i familien, er det naturligt at tænke på ortogonalprojektionen med hensyn til dette indre produkt. Sætning 10.17 Lad V være et vektorrum af dimension N. Betragt den lineære normale model på V baseret på det grundlæggende indre produkt,, og med middelværdiunderrum L V. Lad λ V være et Lebesguemål på V. Med λ V som dominerende mål er likelihoodfunktionen for den lineære normale model L X (ξ, σ 2 ) = c ( ) N/2 1 σ 2 e X ξ 2 /2σ 2, (ξ, σ 2 ) L (0, ). (10.28) Her er c en konstant, der afhænger af λ V og,, men ikke af L.

368 Kapitel 10. Den generelle lineære model BEVIS: Vi kalkerer argumentationen i lemma 9.21. Alle Lebesguemål på V er proportionale, så det er uden betydning for resultatet hvilket Lebesguemål vi tager fat på. Men det er ikke uden betydning for hvor let regningerne forløber. Så vi vælger os et specielt hensigtsmæssigt Lebesguemål: Lad e 1,..., e N være en ortonormal basis for V med hensyn til,. Denne basis består at vektorer der står vinkelret på hinanden med hensyn til ethvert, σ 2, men det er kun med hensyn til det grundlæggende indre produkt at vektorerne har længde 1. Lad φ : R N V være koordinatafbildning for den valgte basis. Vi vil antage at λ V = φ(m N ). For alle x V og σ 2 > 0 er φ(x) 2 = n i=1 x i e i, n j=1 x j e j ni=1 x 2 i σ 2 σ 2 = σ 2. eftersom e i erne er ortogonale. For ethvert ξ V ser vi derfor at e 1 2 v ξ 2 σ 2 dλ V (v) = e 1 2 v 2 σ 2 dφ(m N )(v) = e 1 2 φ(x) 2 σ 2 dm N (x) N N = e x2 i /2σ2 dm N (x) = e x2 i /2σ2 dx i i=1 i=1 = ( 2πσ 2) N/2, hvor vi har brugt Tonellis sætning. Dermed har normalfordelingen med centrum ξ og præcision, σ 2 tæthed ( 1 2πσ 2 ) N/2 ( e x ξ 2 σ 2 /2 = 1 2πσ 2 ) N/2 e x ξ 2 /2σ 2 med hensyn til λ V.

10.4. Estimation i den lineære normale model 369 Sætning 10.18 Lad V være et vektorrum af dimension N. Betragt den lineære normale model på V baseret på det grundlæggende indre produkt,, og med middelværdiunderrum L. Lad p være ortogonalprojektionen ned i L. Med sandsynlighed 1 er maksimaliseringsestimatoren entydigt bestemt som ˆξ = p(x), σˆ 2 X p(x) 2 = N. BEVIS: Vi kan argumentere analogt med eksempel 4.18. Hvis vi ser bort fra numeriske konstanter, kan likelihoodfunktionen (10.28) ifølge Pythagoras sætning skrives som ( ) N/2 1 L X (ξ, σ 2 ) = e X ξ 2 /2σ 2 σ 2 ( 1 = = σ 2 ) N/2 e 1 2σ 2 ( X p(x) 2 + p(x) ξ 2 ) ( ) N/2 1 σ 2 e 1 2σ 2 X p(x) 2 e 1 2σ 2 p(x) ξ 2. I første omgang holder vi σ 2 fast. De to første faktorer i likelihoodfunktionen er dermed givne, og vi kan kun gøre noget ved sidste faktor. Denne faktor maksimeres for ˆξ = p(x), og maksimum er 1. Dermed er profillikelihoodfunktionen for σ 2 lig med ( ) N/2 1 L X (σ 2 ) = σ 2 e 1 2σ 2 X p(x) 2. Underrummet L har lavere dimension end V, så λ V (L) = 0 for et vilkårligt Lesguemål λ V på V. Fordelingen af X har, uanset værdien af parametrene, tæthed med hensyn til λ V, og derfor er P ξ,σ 2(X L) = 0 for alle (ξ, σ 2 ) L (0, ). Vi kan konstatere at der er sandsynlighed 1 for at X p(x) 2 0. Anvendes lemma 4.17 med y = σ 2, a = X p(x) 2 2 og b = N/2, følger det at L X (σ 2 ) har entydigt maksimum for σˆ 2 = X p(x) 2 N. Når man i praksis skal estimere i en lineær normal model, vil man altid bruge ˆξ som estimator for ξ. Men ˆ σ 2 er - som vi skal se om et øjeblik - tilbøjelig til at undervudere

370 Kapitel 10. Den generelle lineære model den sande varians, og man bruger derfor hellere estimatoren σ 2 = N N k σˆ 2 X p(x) 2 = N k (10.29) hvor k = dim L. Ofte har man nytte af at p(x) og X p(x) er ortogonale, for Pythagoras sætning giver da at X 2 = p(x) + (X p(x)) 2 = p(x) 2 + X p(x) 2. Derfor kan variansestimatet regnes ud som σ 2 = X 2 p(x) 2 N k x L PSfrag replacements p(x) 0 Figur 10.3: En grafisk fremstilling af estimationsproceduren i en lineær normal model. Som centrumestimat ud fra observationen x bruger vi p(x), altså det punkt i L, der ligger tættest ved x. Som variansestimat bruger vi en skaleret version af kvadratet på afstanden mellem x og p(x). Det fremgår af beviset for sætning 10.18 hvorfor middelværdiunderrummet L for en lineær normal model skal være et ægte underrum af V. Hvis L = V er p(x) = X, og dermed kan profillikelihoodfunktionen for σ 2 ikke maksimeres inden for det lovlige område (0, ). Så i det degenererede tilfælde L = V eksisterer maksimaliseringsestimatoren aldrig. Mere prosaisk: hvis L = V kan vi rette centrumestimatet ind, så det falder sammen med observationen. Og vi har i så fald ingen mulighed for at vurdere σ 2, der netop er et udtryk for variationen omkring centrum - for der er ingen variation tilbage.

10.4. Estimation i den lineære normale model 371 Sætning 10.19 Lad V være et vektorrum af dimension N. Betragt den lineære normale model på V baseret på det grundlæggende indre produkt,, og med middelværdiunderrum L. Lad k = dim L og lad ( ˆξ, σˆ 2 ) være maksimaliseringsestimatoren fra sætning 10.18. Fordelingen af maksimaliseringsestimatoren kan opsummeres i tre punkter: 1) ˆξ og ˆ σ 2 er uafhængige. 2) ˆξ er regulært normalfordelt på L med centrum ξ og en præcision, der er restriktionen af, σ 2 til L. 3) ˆ σ 2 er χ 2 -fordelt med N k frihedsgrader og skalaparameter σ 2 /N. BEVIS: Vi kan argumentere analogt med eksempel 9.33. Idet 1 p er ortogonalprojektionen ned på L, følger det af spaltningssætningen er p(x) og X p(x) er uafhængige, uanset hvilket, σ 2 der er det sande. Eftersom ˆξ og σ ˆ2 produceres ud fra hver sin af disse størrelser, kan vi konkludere at ˆξ og σ ˆ2 uafhængige. Det følger også direkte af spaltningssætningen at ˆξ = p(x) er regulært normalfordelt på L med centrum p(ξ) = ξ og en præcision, der er restriktionen af det sande, σ 2 til L. Endelig følger det af spaltningssætningssætningen at X p(x) er regulært normalfordelt på L med centrum ξ p(ξ) = 0 og en præcision, der er restriktionen af det sande, σ 2 til L. Sætning 9.31 fortæller at X p(x) 2 σ 2 er χ 2 -fordelt med N k frihedsgrader og skalaparameter 1. Og dermed er σˆ 2 X p(x) 2 = N = σ2 N X p(x) 2 σ 2 som ønsket χ 2 -fordelt med N k frihedsgrader og skalaparameter σ 2 /N. Det følger af sætning 10.19 at ˆ σ 2 underestimerer den sande varians, for E ˆ σ 2 = N k N σ2 hvis (ξ, σ 2 ) er de sande parametre. Hvis dimensionen af L er stor i forhold til N kan fejlen være betragtelig. Men vi ser at korrektionen (10.29) har den rigtige størrelse: E σ 2 = E N N k ˆ σ 2 = σ 2 hvis (ξ, σ 2 ) er de sande parametre.

372 Kapitel 10. Den generelle lineære model Som det fremgik af afsnit 10.1 er vi primært interesserede i lineære normale modeller på V = R N, med det sædvanlige indre produkt som grundlæggende indre produkt - svarende til en antagelse om at vi har uafhængige normalfordelte målinger med samme varians - og hvor middelværdiunderrummet har formen L = {Aβ β R k } hvor A er en passende N k-matrix af rang k. I så fald vil man foretrække at parametrisere modellen ved (β, σ 2 ) R k (0, ), fordi middelværdiparameteren β er meget nemmere at fortolke end middelværdivektoren ξ R N. Sammenhængen mellem de to parametriseringer er naturligvis at ξ = Aβ. Vi kan oversætte de opnåede resultater til denne situation: Korollar 10.20 Lad X være en stokastisk variabel på R N, og antag at X N ( Aβ, σ 2 I ), hvor A er en N k-matrix af rang k, og hvor I er N N enhedsmatricen. Hvis modellen parametriseres ved (β, σ 2 ) R k (0, ), så er maksimaliseringsestimatorerne ( ˆβ, σˆ 2 ) givet ved ˆβ = (A T A) 1 A T X, ˆ σ 2 = X A ˆβ 2 /N. (10.30) Disse estimatorer er uafhængige, ˆβ N ( β, σ 2 (A T A) 1), (10.31) og ˆ σ 2 er χ 2 -fordelt med N k frihedsgrader og skalaparameter σ 2 /N. BEVIS: Modellen for X er den lineære normale model på R N med det sædvanlige indre produkt som grundlæggende indre produkt og med middelværdiunderrum L = {Aβ β R k }. Man kan gennemgå beviset for sætning 10.18 en gang til, eller man kan bruge ækvivarians af maksimaliseringsestimation fra sætning 4.13 til at se at maksimaliseringsestimatet for middelværdivektoren og for middelværdiparametrene er relateret ved ˆξ = Aˆβ.

10.4. Estimation i den lineære normale model 373 Ortogonalprojektionen ned på L er givet ved en N N-matrix P, der ifølge (10.13) kan skrives på formen P = A(A T A) 1 A T. Derfor er Aˆβ = ˆξ = PX = A(A T A) 1 A T X. Matricen A er ikke kvadratisk, så man kan ikke gange denne ligning igennem med A s inverse matrix. Men vi kan sætte A uden for parantes, og opnå at A (ˆβ (A T A) 1 A T X ) = 0. Udnyttes at A har fuld rang, ser vi således at ˆβ = (A T A) 1 A T X som ønsket. Idet X N ( Aβ, σ 2 I ), følger det af korollar 9.48 at ˆβ er normalfordelt med middelværdi E ˆβ = (A T A) 1 A T Aβ = β, og varians V ˆβ = ( (A T A) 1 A T ) σ 2 I ( (A T A) 1 A T )T = σ 2 (A T A) 1. De øvrige påstande i korollaret er simple oversættelser af resultaterne i sætning 10.18 og sætning 10.19. Naturligvis vil vi også i denne situation foretrække det centrale variansestimat σ 2 = X A ˆβ 2 N k fremfor maksimaliseringsestimatoren σ ˆ2, der systematisk undervurderer den sande varians. I praksis er det ofte nemmest at udregne variansestimatet ved hjælp af Pythagoras sætning, σ 2 = X 2 Aˆβ 2. (10.32) N k Ønsker man helt at fjerne formlernes geometriske karakter, erstatter man normstregerne med matrixprodukter, og får σ 2 = XT X ˆβ T A T Aˆβ. N k Det er ikke indlysende at denne konkretisering er en gevinst for forståeligheden.,

374 Kapitel 10. Den generelle lineære model 10.5 Test af lineære hypoteser Lad V være et N-dimensionalt vektorrum med indre produkt, og et udvalgt underrum L af dimension k. Vi vil betragte den lineære normale model på V givet ud fra, og L. Observationen repræsenteres af en stokastisk variabel X. En lineær hypotese i denne model er givet ved et underrum L L, som vi vil antage har dimension m < k. Hypotesen er H : ξ L, hvor vi altså begrænser de mulige centrale vektorer til at skulle ligge i L. Uden for hypotesen har den centrale vektor derimod frihed til at ligge hvor som helst i det større underrum L. Eksempel 10.21 Hvis vi har et underrum L R N af formen L = {Aβ β R k } for en N k matrix A af rang k, så vil en lineær hypotese ofte fremkomme ud fra en designmatrix, hvis søjler er udtaget blandt A s søjler. En anden måde at sige det samme på, er at fastholde designmatricen A, men insistere på at visse af β s komponenter er nul, f.eks. L = { ( γ A 0 ) γ R m }. Lad p være ortogonalprojektionen på L, og lad p være ortogonalprojektionen på L. Eftersom L L, har vi at p p = p p = p. Endvidere ved vi at p p er ortogonalprojektionen på L L. Disse forhold er illustreret på figur 10.4. Lemma 10.22 Uanset om hypotesen H er sand eller ej, så er de tre variable X p(x), p(x) p (X) og p (X) uafhængige.

10.5. Test af lineære hypoteser 375 x PSfrag replacements L 0 p(x) p (x) L Figur 10.4: To lineære underrum L L med tilhørende ortogonalprojektioner p og p. Man ser at p p er ortogonalprojektionen ned på L L. Specielt er de tre vektorer p (x), p(x) p (x) og x p(x) indbyrdes ortogonale. BEVIS: Vi ved fra spaltningssætningen at X p(x) er uafhængig af p(x). Da ( p (X), p(x) p (X) ) = ( p p(x), (1 p ) p(x) ), ser vi at (p (X), p(x) p (X)) kun afhænger af X gennem p(x). Altså må X p(x) og (p (X), p(x) p (X)) være uafhængige. Ligeledes ved vi fra spaltningssætningen at p (X) og 1 p (X) er uafhængige. Men p(x) p (X) = p(1 p )(X), og derfor må p (X) være uafhængig af p(x) p (X). Vi opfatter intuitivt X p(x) 2 som et udtryk for hvor godt observationen X passer med middelværdiunderrummet L - hvis X passer dårligt med L, vil X p(x) 2 være stor. Tilsvarende er X p (X) 2 et intutivt udtryk for hvor godt observationen passer med hypotesen om at ξ L. Naturlige teststørrelser for hypotesen H kan derfor konstrueres ved en sammenligning af X p(x) 2 og X p (X) 2 - hvis de er af samme størrelsesorden, taler det for hypotesen. Ifølge Pythagoras sætning har vi at X p (X) 2 = X p(x) 2 + p(x) p (X) 2. Derfor kan vi alternativt sammenligne X p(x) 2 og p(x) p (X) 2. Geometrisk set sammenligner man da længderne af de to kateter i den retvinklede trekant dannet

376 Kapitel 10. Den generelle lineære model af x, p(x) og p (x), se figur 10.4. Hvis den katete, der ligger i L, er kort sammenlignet med den, der står vinkelret på L, vil man være tilbøjelig til at acceptere hypotesen. Uanset om hypotesen er sand eller ej har X p(x) centrum 0, og dermed er X p(x) 2 χ 2 -fordelt med N k frihedsgrader og skalaparameter σ 2. Hvis hypotesen er sand, har p(x) p (X) også centrum 0, og dermed er p(x) p (X) 2 χ 2 -fordelt med k m frihedsgrader og skalaparameter σ 2. Den konkrete sammenligning af siderne i den retviklede trekant fra figur 10.4 kan f.eks. foretages ved at opskrive størrelsen F = p(x) p (X) 2 /(k m) X p(x) 2 /(N k). (10.33) Under hypotesen er dette en brøk af to uafhængige χ 2 -fordelte størrelser, begge med middelværdi σ 2. Derfor er brøken F-fordelt med (k m, N k) frihedsgrader - hvis hypotesen vel at mærke er rigtig - og store værdier af F er kritiske for hypotesen. Når F-størrelsen skal regnes ud i praksis, benytter man gerne Pythagoras sætning til at konkludere at p(x) p (X) 2 = p(x) 2 p (X) 2, X p(x) 2 = X 2 p(x) 2, og dermed er F = ( p(x) 2 p (X) 2 )/(k m) ( X 2 p(x) 2 )/(N k) En alternativ måde at foretage sammenvejningen på, er at opskrive B =. (10.34) X p(x) 2 X p (X) 2 = X p(x) 2 X p(x) 2 + p(x) p (X) 2, (10.35) der under hypotesen er B-fordelt med (N k, k m) frihedsgrader. Bemærk at små B-værdier er kritiske for hypotesen. Det gør ingen forskel om man tester hypotesen ved hjælp af F-størrelsen eller B-størrelsen: eftersom B = N k N k + (k m)f, er der en bijektiv korrespondence mellem de to teststørrelser, hvor store F-værdier svarer til små B-værdier og vice versa, og de to teststørrelser er derfor ækvivalente. Traditionen foreskriver dog at man benytter sig af F-størrelsen. I stedet for disse ad hoc teststørrelser kan vi gå mere systematisk til værks og finde kvotientteststørrelsen:

10.5. Test af lineære hypoteser 377 Sætning 10.23 Kvotientteststørrelsen for hypotesen H er ( ) X p(x) 2 N/2 Q = X p (X) 2, og små Q-værdier er kritiske for hypotesen. BEMÆRK: Q står i bijektiv korrespondence med B. Og dermed kan kvotienttestet udføres som et B-test eller som et F-test. Selve fordelingen af Q hører derimod ikke til i standardarsenalet. BEVIS: Kombinerer vi sætning 10.17 og sætning 10.18 ser vi at den maksimale værdi af likelihoodfunktionen under modellen er ( ) N/2 sup L X (ξ, σ 2 N ) = c ξ L,σ 2 >0 X p(x) 2 e N/2. Her er c en konstant, der afhænger af hvilket Lebesguemål vi bruger som dominerende mål. Tilsvarende er den maksimale værdi af likelihoodfunktionen under hypotesen ( sup L X (ξ, σ 2 ) = c ξ L,σ 2 >0 Derfor er kvotientteststørrelsen N X p (X) 2 ) N/2 e N/2. Q = sup ξ L,σ 2 >0 L X(ξ, σ 2 ( ) ) X p(x) 2 N/2 sup ξ L,σ 2 >0 L X(ξ, σ 2 ) = X p (X) 2 som ønsket. Man kan vride en interessant konsekvens ud af ortogonalitetsbetragtningerne i lemma 10.22, under forudsætning af at hypotesen H er sand. I så fald kan man vise at centrumestimatet p (X), variansestimatet baseret på X p (X) 2 og kvotienttesttørrelsen Q er uafhængige af hinanden. Det er således ikke tilfældet at vi ser med større skepsis på parameterestimaterne under hypotesen, hvis hypotesen næsten forkastes, end vi ville gøre hvis hypotesen accepteres med glans. Eller omvendt, at usædvanlige parameterestimater gør det mere sandsynligt at hypotesen forkastes.

378 Kapitel 10. Den generelle lineære model 10.6 Successive test Hvis man har to underrum L L af det primære middelværdiunderrum L, kan man foretage et direkte test af hypotesen om at ξ L mod den generelle antagelse af ξ L. Men man kan også udføre successive test, det vil sige først teste en hypotese om at ξ L mod den generelle model, og i tilfælde af at dette test godkendes derefter teste hypotesen om at ξ L mod den allerede accepterede hypotese om at ξ L. Fordelen ved den successive tilgang opstår først og fremmest i den situation hvor man forkaster at ξ L. For hvis man allerede har accepteret at ξ L har man dog opnået nogen reduktion i forhold til udgangspunktet. En mere teknisk gevinst er at hvis det sande centrum ligger i L, så kan testet af ξ L mod ξ L vises at have større styrke end det direkte test af ξ L mod det generelle alternativ ξ L. Så det er nemmere at opdage at den mindste hypotese er falsk, ved den successive tilgang. Korollar 10.24 Lad L L L være underrum af V med tilhørende ortogonalprojektione p, p og p. Betragt hypoteserne H 1 : ξ L og H 2 : ξ L, i forhold til den generelle model ξ L. Lad B 1 = X p(x) 2 X p (X) 2 og B 2 = X p (X) 2 X p (X) 2 være teststørrelserne for et test af H 1 mod den generelle model, henholdsvis et test af H 2 mod H 1. Under forudsætning af at H 2 er sand, så er B 1 og B 2 uafhængige. BEMÆRK: Uafhængighedsresultatet er formuleret med B-teststørrelser, men gælder uindskrænket, hvis man i stedet betragter F-teststørrelser eller kvotientteststørrelser, fordi alle disse teststørrelser står i bijektiv korrespondence med hinanden.

10.6. Successive test 379 BEVIS: Under hypotesen er X p(x) 2, p(x) p (X) 2, p (X) p (X) 2, uafhængige og χ 2 -fordelte med passende formparametre, og alle med skalaparameter σ 2. Et velkendt, generelt resultat om brøker af summer af uafhængige Γ-fordelte variable giver derfor at og B 2 = B 1 = X p(x) 2 X p(x) 2 + p(x) p (X) 2 X p(x) 2 + p(x) p (X) 2 X p(x) 2 + p(x) p (X) 2 + p (X) p (X) 2 er uafhængige af hinanden, og iøvrigt også af X p (X) 2 = X p(x) 2 + p(x) p (X) 2 + p (X) p (X) 2. Selv om den successive strategi ofte er at foretrække, skal man dog være opmærksom på strategiens indvirkning på det samlede testniveau. Hvis alle enkelttest gennemføres på et 5%-niveau, så er sandsynligheden for at acceptere en hypotese om at ξ L væsentlig mindre end 95% hvis man bruger en successiv strategi, selv når hypotesen er sand. Man vil ikke nå ned i det rigtige middelværdiunderrum, hverken hvis man forkaster i første testrunde, eller hvis man forkaster i anden testrunde - der er så at sige to lodtrækninger involveret, og begge kan gå galt. Uafhængigheden i korollar 10.24 fortæller at sandsynligheden for at alt går godt under den successive strategi er 0.95 2 = 0.9025. Samlet set har testproceduren således et niveau på omkring 10%! I praktiske sammenhænge udfører man ofte mange, mange test på et konkret datamateriale, og problemerne med multipel testning er noget man har inde på livet hver dag. Man taler om massesignifikans, når man kommer til at afvise sande hypoteser ved overdrevet forbrug af test. Om et konkret afvist test skyldes massesignifikans eller om det skyldes at hypotesen vitterligt er forkert, er jo ikke til at vide, så den sædvanlige statistiske reaktion på problemet er at underspille betydningen af det niveau som testet formelt foregår på. I stedet for hårdt at acceptere/forkaste på et fast niveau, bruger man testets p-værdi til at skønne over i hvilken grad hypotesen kunne tænkes at være forkert. Men i visse sammenhænge er man nødt til at have et håndfast forhold til massesignifikans. Man kan da ofte håndtere problemerne ved at gennemføre enkelttestene

380 Kapitel 10. Den generelle lineære model på et andet niveau end det niveau hvorpå man ønsker at drage hovedkonklusionen. Hvis man i et successivt test af to lineære hypoteser gennemfører hvert test på 2.5%- niveau, vil den samlede testprocedure have et niveau meget tæt på 5%. Man taler om at budgettere med kontrollen over fejl af type I ud over de enkelte test, og man taler om en Bonferroni-korrektion af testniveauet. 10.7 Test af affine hypoteser I visse tilfælde er interessen ikke rette mod lineære hypoteser, men mod såkaldt affine hypoteser, altså hypoteser af formen H : ξ L + η, hvor L L er et ægte underrum, og hvor η er en fast vektor i L. Hvis vi insisterer på at η ligger i L L er η entydigt bestemt udfra hypotesen. Men ofte kommer affine hypoteser til verden som H : s(ξ) = w 0, hvor s : L L er en surjektiv, lineær afbildning, og hvor w 0 er en fast vektor i L. Hvis w 0 = 0 specificerer dette en lineær hypotese med L = ker(s). Hvis w 0 0 er der derimod tale om en affin hypotese med L = ker(s) og med η som en vilkårlig vektor, der opfylder at s(η) = w 0. Affine hypoteser diskuteres nemmest ved at skifte variabel. Hvis vi indfører en translateret variabel X = X η, så er X regulært normalfordelt med samme præcision som X, og med centrum ξ = ξ η. Centrum for X ligger i L hvis og kun hvis centrum for X ligger i L. Forskellen opstår når vi diskuterer den givne affine hypotese, for den kan reformuleres som H : ξ L. For den nye variable X er H således en lineær hypotese, og vi kan uden videre opstille f.eks. en B-teststørrelse, B = X p(x ) 2 X p (X ) 2 = X p(x) 2 X p (X) (1 p )(η) 2, (10.36)

10.8. Konfidensområder 381 der under hypotesen er B-fordelt med (N k, k m) frihedsgrader (hvor k og m er dimensionen af L hhv. L ). Om man i den sidste nævner skriver (1 p )(η) eller (p p )(η) er lige meget, det er under alle omstændigheder ortogonalprojektionen af η ind på L L. 10.8 Konfidensområder I de lineære normale modeller er det ikke særlig naturligt at forsøge at finde et simultant konfidensområde for både centrum ξ og varians σ 2. Som regel er man nærmest ligeglad med variansparameteren, så udfordringen er at producere et konfidensområde for parameterfunktionen (ξ, σ 2 ) ξ. Det kan vi gøre med profillikelihoodmetoder. Sætning 10.25 Lad V være et vektorrum af dimension N. Betragt den lineære normale model på V baseret på det grundlæggende indre produkt,, og med middelværdiunderrum L af dimension k. Et (1 α)-konfidensområde for ξ er da C(X) = { ξ L p(x) ξ 2 < k z α σ 2}, (10.37) hvor z er (1 α)-fraktilen for en F-fordeling med (k, N k) frihedsgrader. BEVIS: For fast ξ maksimeres likelihoodfunktionen (10.28) af σˆ 2 X ξ 2 (ξ) =, N og derfor bliver profillikelihoodfunktionen ( ) N/2 N L X (ξ) = X ξ 2 e N/2. Profillikelihoodfunktionen maksimeres af ˆξ = p(x), og derfor bliver kvotientteststørrelsen på baggrund af profillikelihoodfunktionen ( X p(x) 2 ) N/2 Q X (ξ) = X ξ 2.

382 Kapitel 10. Den generelle lineære model Denne teststørrelse kan uden videre erstattes med en F-størrelse p(x) ξ 2 /k X p(x) 2 /(N k) = p(x) ξ 2 /k, σ 2 der er F-fordelt med (k, N k) frihedsgrader hvis ξ er den sande parameter. Store værdier af F gør ξ utroværdig. Ved kun at inkludere ξ-værdier med F-størrelse mindre end z α, får vi et konfidensområde af formen (10.37) af den ønskede dækningsgrad. Bemærk den meget nydelige geometriske fortolkning af dette område: det er en kugle i L med centrum i projektionen p(x) og en med radius der er bestemt af hvor langt X ligger fra L. Korollar 10.26 Lad X være en stokastisk variabel på R N, og antag at X N ( Aβ, σ 2 I ), hvor A er en N k-matrix af rang k, og hvor I er N N enhedsmatricen. Et (1 α)-konfidensområde for middelværdiparametrene β er C(X) = {β R k (β ˆβ) T A T A (β ˆβ) < k z α σ 2 } (10.38) hvor z α er (1 α)-fraktilen i F-fordelingen med (k, N k) frihedsgrader. BEVIS: Dette resultat er en direkte oversættelse af det abstrakte resultat fra sætning 10.25. Området (10.38) består simpelthen af de β er for hvilke Aβ ligger i området givet ved (10.37). Konfidensområdet i (10.38) er det indre af en ellipse i R k med centrum i ˆβ, med symmetriakser og ekcentriciteter bestemt af A T A og med størrelse i det væsentlige bestemt af σ 2. Som regel vil symmetriakserne ikke være parallelle med koordinatakserne. Dette er ikke i modstrid med den simple geometriske fortolkning af (10.37) som en kugle i L - designmatricen A inducerer en isomorfi mellem L og R k, men denne isomorfi er ikke konform, den behandler forskellige retninger i rummet forskelligt, og derfor afbilder den typisk kugler over i ellipser. Vi vil nu konstruere konfidensområder for lineære funktioner af middelværdien ξ. Man kan naturligvis godt interessere sig for ikke-lineære funktioner, men så taber man det specielle samspil med lineær algebra, der gør den lineære normale model så matematisk tilfredsstillende.

10.8. Konfidensområder 383 Det er naturligt at starte internt i L med at konstruere konfidensområder for ortogonalprojektionen q ned på et underrum L L. Vi bruger en anden notation for dette underrum end for de hidtidige, fordi dets rolle er ny. At spørge om q(ξ) = 0 svarer til at teste hypotesen H 0 : ξ L L. Så den naturlige lineære hypotese forbundet med q har ikke at gøre med L, men med L s relative ortogonale komplement i L. Tilsvarende, at spørge om q(ξ) = η for en bestemt værdi η L er ækvivalent med at teste den affine hypotese H η : ξ L L + η. Sætning 10.27 Lad V være et vektorrum af dimension N. Betragt den lineære normale model på V baseret på det grundlæggende indre produkt,, og med middelværdiunderrum L af dimension k. Lad L være et underrum af L af dimension m, og lad q : V L være ortogonalprojektionen ned på L. Et (1 α)-konfidensområde for q er da D(X) = { η L q(x) η 2 < m z α σ 2}, (10.39) hvor z α er (1 α)-fraktilen for en F-fordeling med (m, N k) frihedsgrader. BEVIS: Vi følger i så høj grad som muligt beviset for sætning 10.25. Modellen kan reparametriseres ved hjælp af den ortogonale dekomposition og vi får da likelihoodfunktionen L X (η, ψ, σ 2 ) = c L = L + (L L ), ( ) N/2 1 σ 2 e X (η+ψ) 2 /2σ 2 for (η,, ψ, σ 2 ) L L L (0, ). Fra Pythagoras sætning følger det at X (η + ψ) 2 = X p(x) + p(x) q(x) + q(x) η ψ 2 For fast η maksimeres likelihoodfunktionen af = X p(x) 2 + q(x) η 2 + p(x) q(x) ψ 2. ˆψ(η) = p(x) q(x), σˆ 2 (η) = X p(x) 2 + q(x) η 2 N,

384 Kapitel 10. Den generelle lineære model så profillikelihoodfunktionen for η bliver ( ) N/2 N L X (η) = X p(x) 2 + q(x) η 2 e N/2. Profillikelihoodfunktionen maksimeres af ˆη = q(x), og derfor bliver kvotientteststørrelsen på baggrund af profillikelihoodfunktionen ( X p(x) Q 2 ) N/2 X (η) = X p(x) 2 + q(x) η 2. Denne teststørrelse kan uden videre erstattes med en F-størrelse q(x) η 2 /m X p(x) 2 /(N k) = q(x) η 2 /m, σ 2 der er F-fordelt med (m, N k) frihedsgrader hvis det sande centrum ξ opfylder at q(ξ) = η. Store værdier af F gør η utroværdig som mulig q-værdi. Ved kun at inkludere η-værdier med F-størrelse mindre end z α, får vi et konfidensområde af formen (10.39) af den ønskede dækningsgrad. Hvis s : L W er en surjektiv lineær afbildning, så kan vi skrive s = s L q hvor L er det ortogonale komplemet til kers. Idet s L er en isomorfi mellem L og W, kan vi derfor oversætte (10.39) til følgende relativt unyttige konfidensområde for s: D(X) = { w W q(x) s L 1 (w) 2 < m z α σ 2}. (10.40) Denne formel kan kun være nogen nytte til, hvis vi er i stand til at skrive eksplicitte udtryk for de indgående størrelser. Det kan godt lade sig gøre i visse tilfælde. Eksempel 10.28 Lad s : L R være en lineær afbildning, og lad målet være at konstruere et konfidensområde for s(ξ). Hvis e 1,..., e k er en ortonormal basis for L med hensyn til det grundlæggende indre produkt, så er k k k s(x) = s x, e i e i = x, e i s(e i ) = x, s(e i ) e i. i=1 Det vil sige at sætter vi γ = k i=1 s(e i ) e i, så er γ en L-vektor, der opfylder at i=1 s(x) = x, γ x L. i=1

10.8. Konfidensområder 385 Kernen for s er det ortogonale komplement til det etdimensionale underrum, udspændt af γ. Og derfor er L, det ortogonale komplement til kernen for s, lig med underrummet udspændt af γ. Vi ser at og derfor er Det er endvidere klart at og det medfører at s(c γ) = c γ 2, s L 1 (w) = w γ for alle w R. γ 2 q(x) = x, γ γ 2 γ for x V, ( ) 2 X, γ w q(x) s L 1 (w) 2 =. γ Det abstrakte (1 α)-konfidensområde (10.40) for s bliver derfor til intervallet ( ) D(X) = X, γ γ 2 z α σ 2, X, γ + γ 2 z α σ 2, hvor z α er (1 α)-fraktilen for en F-fordeling med (1, N k) frihedsgrader. Idet X, γ = q(x), γ + X q(x), γ = s( ˆξ) + 0, vil man normalt skrive dette konfidensinterval på formen ( ) D(X) = s(ˆξ) γ 2 z α σ 2, s(ˆξ) + γ 2 z α σ 2. (10.41) Eksempel 10.29 Lad X være en stokastisk variabel på R N, og antag at X N ( Aβ, σ 2 I ), hvor A er en N k-matrix af rang k, og hvor I er N N enhedsmatricen. Vi vil interessere os for en afbildning af formen β ψ T β (10.42)

386 Kapitel 10. Den generelle lineære model for en givet vektor ψ R k. Hvis ψ f.eks. er den i te kanoniske enhedsvektor, betyder denne formulering at vi interesserer os for den i te koordinat af β. Betragt den lineære afbildning s : L R er givet ved s(x) = A(A T A) 1 ψ, x hvor, betegner det sædvanlige indre produkt på R N. Idet s(aβ) = A(A T A) 1 ψ, Aβ = ψ T (A T A) 1 A T Aβ = ψ T β er s vores interesseafbildning, udtrykt som afbildning på L. Vi ser at A(A T A) 1 ψ 2 = ψ T (A T A) 1 A T A(A T A) 1 ψ = ψ T (A T A) 1 ψ. Og det følger nu fra (10.41) at et (1 α)-konfidensområde for ψ T β er ( ) D(X) = ψ T ˆβ ψ T (A T A) 1 ψ z α σ 2, ψ T ˆβ + ψ T (A T A) 1 ψ z α σ 2. (10.43) hvor z α er (1 α)-fraktilen for en F-fordeling med (1, N k) frihedsgrader. Denne formel bruges ganske ofte. I de fleste fremstillinger ses den dog ikke som et specialtilfælde af et mere generelt resultat, den udledes i stedet ved håndkraft: Man udnytter at ψ T ˆβ ψ T β N ( 0, σ 2 ψ T (A T A) 1 ψ ) og at denne størrelse er uafhængig af σ 2, til at opstille en T-fordelt pivot. Kvadreres denne pivot, bliver den F-fordelt, og man opnår netop konfidensområdet (10.43) for ψ T β. 10.9 Prediktion Som den eneste af de grundlæggende statistiske discipliner, udført for lineære normale modeller, så vil konstruktionen af prediktionsintervaller ikke vinde ved at vi fastholder den geometriske formulering - her er matrixformuleringen at foretrække. Til gengæld kan den nødvendige konstruktion ganske let modelleres over hvad der foregik i eksempel 7.13. Lad X være en observeret stokastisk variabel på R N, og antag at X N ( Aβ, σ 2 I ),

10.9. Prediktion 387 hvor A er en N k-matrix af rang k, og hvor I er N N enhedsmatricen. Lad endvidere Y være en uobserveret, reel stokastisk variabel, uafhængig af X og med fordeling Y N ( ψ T β, σ 2), for en passende k-vektor ψ. Vi ser at den kombinerede vektor (X Y) T selv kan módelleres ved en lineær normal model på R N+1, men dette forhold interesserer os ikke så meget. Maksimaliseringsestimatoren ˆβ for β på baggrund af X-observationen er som bekendt normalfordelt, ˆβ N ( β, σ 2 (A T A) 1). Dermed er ψ T ˆβ N ( ψ T β, σ 2 ψ T (A T A) 1 ψ ), og da denne størrelse er en funktion af X, er den uafhængig af Y. Derfor er Y ψ T ˆβ N ( 0, σ 2 (1 + ψ T (A T A) 1 ψ) ),. Både Y og ˆβ er uafhængige af det sædvanlige variansestimat σ 2 på baggrund af X, og derfor følger den stokastiske variabel Y ψ T ˆβ σ 2 (1 + ψ T (A T A) 1 ψ) en T-fordeling med N k frihedsgrader. Det leder til et (1 α)-prediktionsområde for Y på (ψ T ˆβ z α σ 2 ( 1 + ψ T (A T A) 1 ψ ), ψ T ˆβ + z α σ 2 ( 1 + ψ T (A T A) 1 ψ )), (10.44) hvor z α er 1 α/2-fraktilen for T-fordelingen med N k frihedsgrader. Det er meget svært at generalisere disse simple regninger til en situation, hvor den uobserverede variabel Y er flerdimensional - her kunne det måske nok betale sig at udvikle en geometrisk formalisme. På den anden side er det meget sjældent at man virkelig nærer et ønske om at finde et flerdimensionalt prediktionsområde, så skaden er til at overskue.

388 Kapitel 10. Den generelle lineære model 10.10 Modelkontrol Lad os betragte en stokastisk variabel X på R N. Hvis vi ønsker at kontrollere en modelpåstand af formen X N ( Aβ, σ 2 I ) skal vi altså undersøge om der overhovedet er noget par (β, σ 2 ) R k (0, ) der kan opfattes som værende i konkordans med observationen. Vi har et kanonisk estimat af (β, σ 2 ) fra (10.30), der er udledt som det par der passer bedst med observationen. Det er derfor naturligt at undersøge om observationen X er i konkordans med ( ˆβ, σ 2 ). Startpunktet for en sådan undersøgelse er residualerne ˆɛ = X A ˆβ = (I A(A T A) 1 A T )X. Notationen ˆɛ bruges, fordi selve modellen ofte skrives ned på formen X i = ξ i + ɛ i for i = 1,... N, hvor ξ 1,..., ξ N er den deterministiske del af modellen, og hvor ɛ 1,..., ɛ N traditionelt kaldes fejlene - fejl i forhold til den rent deterministiske model. Fejlene antages at være uafhængige og N(0, σ 2 )-fordelte. Residualerne er nu ˆɛ i = X i ˆξ i for i = 1,... N, hvor ˆξ i er et estimat af ξ i, ofte kaldet de fittede værdier. Og derfor repræsenterer residualerne et forsøg på at reproducere de oprindelige fejl - heraf hatten. Den intuitive ide, som ofte præsenteres i indledende tekster om statistik, er at residualerne stort set repræsenterer uafhængige observationer fra en N(0, σ 2 )-fordeling. Denne tankegang har visse defekter, som vi nu vil forklare. For det første er residualerne ikke uafhængige. Analogt med regningerne i eksempel 9.38 kan man vise at residualvektoren ˆɛ under modellen følger en singulær normalfordeling. Geometrisk vil ˆɛ ligge i det ortogonale komplement til middelværdiunderrummet. Mere overraskende er det måske at residualerne ikke er identisk fordelte. Vi ser udfra fordelingen af ˆβ at ˆɛ N ( 0, σ 2 (I A(A T A) 1 A T ) ). (10.45)

10.10. Modelkontrol 389 Matricen A(A T A) 1 A T kaldes ofte hat matricen. Den repræsenterer designets indflydelse på fordelingen af residualerne. Hvis vi lader h ii betegne diagonalelementerne i hat matricen, er ˆɛ i N(0, σ 2 (1 h ii )) for i = 1,... N. Størrelsen h ii kaldes den i te observations leverage. Hvis h ii er tæt på 1, vil det pågældene residual være stort set nul uanset hvordan målingerne falder! Det betyder at parameterestimaterne rettes ind sådan at ˆξ stort set bliver lig X i. En sådan observation har derfor en uforholdsmæssig stor indflydelse på parameterestimaterne. Sådanne abnormt høje leverage-værdier optræder faktisk i visse modeller. Et simpelt eksempel er en den etsidede variansanalyse med to grupper, som i eksempel 10.3. Hvis den ene gruppe kun har en enkelt observation, så vil niveauet for denne gruppe blive estimeret som værdien af observationen - hvad skulle man ellers gøre? Og i så fald bliver denne observations residual 0 per konstruktion! Som regel går det ikke så galt. Hvis I k betegner enhedsmatricen af dimension k k, viser regnereglerne for sporet af en matrix at gælder der at N h ii = tr ( A(A T A) 1 A ) T = tr ( (A T A) 1 A T A ) = tr(i k ) = k. i=1 Dermed er den typiske h ii -værdi omkring k/n. Og for de fleste lineære modeller man støder på i praksis, er alle h ii -værdierne af den størrelsesorden. Men en gang i mellem optræder der modeller med kraftigt varierende leverage-værdier. Og hvis man ikke er opmærksom på det, kan man komme til at lave alvorlige fejl. En regulær målefejl på en observation med høj leverage vil ødelægge hele analysen! Man prøver gerne at gardere sig mod den type fejl, ved leave-one-out analyser, hvor man genanalyserer datamaterialet efter at have slettet en enkelt observation. Sletter man observationer med lav leverage-værdi, sker der ikke noget særligt, men sletter man observationer med høj leverage-værdi risikerer man at det ændrer analysens konklusioner dramatisk. Der er ingen faste regler for hvad man så skal gøre - det kan være et tegn på en forkert registreret observation, eller det kan være et tegn på at ens model er forkert. Man er nødt til at diskutere sagen nøje igennem i hvert enkelt tilfælde.

390 Kapitel 10. Den generelle lineære model For at undgå problemerne med forskellig leverage, ser man gerne på de standardiserede residualer, givet som U i = ˆɛ i for i = 1,... N. (1 h ii ) σ 2 Disse standardiserede residualer har alle samme fordeling, men denne fordeling hører ikke til standardrepetoiret. De standardiserede residualer er naturligvis stadigt afhængige. Mange forfatter går videre og anbefaler de såkaldte deletion residualer, givet som U i = ˆɛ i (1 h ii ) σ 2 (i) for i = 1,... N. hvor σ 2 (i) er variansestimatet fremkommet ved analysen af det datamateriale, hvor observation i er slettet. Fordelen ved deletion residualerne er dels at de har en kendt fordeling (de er T-fordelte med N 1 k frihedsgrader), og dels at de har en meget begribelig fortolkning som forskellen mellem den i te observation og den værdi man ville prediktere for den i te observation på baggrund af alle de øvrige målinger, normaliseret med prediktionsusikkerheden. Deletion residualet siger derfor noget om hvor godt den i te observation stemmer overens med hvad man ville forvente på baggrund af de øvrige observationer. Man foretager sig gerne tre ting med samlingen af standardiserede residualer eller deletion residualer, når man udfører modelkontrol. Man ser efter store residualer, man undersøger om den empiriske fordeling af residualerne ligner en normalfordeling, og man undersøger om man kan finde et mønster i hvordan residualerne varierer. Man ser efter store residualer, fordi de tyder på problematiske enkeltobservationer, såkaldte outliers. Fortolkningen af outliers er lige så uklar som fortolkningen af observationer, der giver kraftigt udslag i leave-one-out analyserne. En outlier kan skyldes en målefejl, eller det kan skyldes en modelfejl. En primitiv reaktion på outliers er at slette dem, men det kan i almindelighed ikke anbefales - hvis virkeligheden ikke stemmer overens med ens model, skal man være meget påpasselig med at kassere virkeligheden! Nærmere skal man diskutere sådanne outliers meget omhyggeligt i den konkrete kontekst. Hvordan ser man om et residual er stort? Først og fremmest betyder det formentlig at residualet er større end de andre residualer, men et af residualerne skal jo være

10.10. Modelkontrol 391 størst, så det er ikke i sig selv kriminelt. Deletion residualerne er jo T-fordelte, så man kan sammenligne med fraktilerne i en T-fordeling. Men denne sammenligning hæmmes af at residualerne ikke er uafhængige - det er svært at sige noget generelt om hvordan denne afhængighed vil påvirke det maksimale residual. Den vigtigste praktiske målestok er simulation. Generer et antal datasæt af samme størrelse som det ægte datasæt, og efter den model datasættet analyseres med. Hvert af de genererede datasæt analyseres, og man finder de standardiserede residualer (eller deletion residualerne, som man nu synes). På den baggrund kan man vurdere om de store residualer for det ægte datasæt, er urimeligt store, eller om de har den størrelse som man må forvente under modellen. Bemærk at fordelingen af de standardiserede residualer kun afhænger af modellens design, ikke af de sande parametre. Så i simulationen kan man f.eks. lade som om samtlige middelværdiparametre er nul og som om at variansen σ 2 er 1 - det vil sige at de simulerede observationer er uafhængige, standard normalfordelte. Så længe man blot analyserer de falske datasæt uden at bruge denne viden, gør det ingen skade. Man undersøger den empiriske fordeling af residualerne som en kontrol af modellens normalfordelingsantagelse. Typisk tegner man et QQ-plot af de standardiserede residualer mod en standard normalfordeling. Begrundelsen for at gøre det er lidt vag, når de standardiserede residualer nu hverken er uafhængige eller ægte standard normalfordelte. Men erfaring viser at en iøjnefaldende afvigelse fra en ret linie i et sådant QQ-plot, er et udtryk for at modellen passer dårligt til data. Hvis man vil være sikker på om en afvigelse fra en ret linie i en sådat QQ-plot er noget at hidse sig op over elle ej, er det igen en god ide at lave nogle tilsvarende plot for residualer fra simulerede datasæt. På den måde kan man oparbejde en fornemmelse af hvor store afvigelser, der kan forekomme, selv hvis modellen er rigtig. Det tredie - og ofte vigtigste - trin i analysen af residualerne, en optegning af de standardiserede residualer mod de fittede værdier, altså grafen {(ˆξ i, U i ) i = 1,..., N}, der gerne kaldes et residualplot. Hvis man kan se antydning af struktur i denne tegning, antyder det alvorlige problemer med modellen. Man er typisk på vagt overfor krumninger af punktskyen (svarende til en forkert middelværdistruktur) og overfor trompetformede puntskyer (svarende til at observationer med stor middelværdi har en anden varians end observationer med lille middelværdi).

392 Kapitel 10. Den generelle lineære model Varianter af residualplottet er at optegne de standardiserede residualer mod observationsnummeret, eller mod værdien af en af de indgående kovariater. Igen vil enhver antydning af struktur i tegningen føre til mistænksomhed mod modellen. Det er lidt af en kunst at lære at fortolke residualplot. Det kan anbefales at man studerer residualplots fra simulerede data - men det er ikke helt så nemt som i de første trin af modelkontrollen: Udseendeet af residualplottet afhænger faktisk af de sande parametre, fordi det ikke kun er residualerne, men også de fittede værdier, der indgår. Så man skal være mere omhyggelig når man generer falske datasæt i denne fase af analysen. 10.11 Opgaver OPGAVE 10.1. Lad X 1, X 2, X 3, X 4, X 5 være uafhængige reelle variable. Vi antager at de er uafhængige, normalfordelte med samme ukendte varians σ 2 og med middelværdier EX 1 EX 2 EX 3 EX 4 EX 5 α 1 α 2 α 1 α 1 α 2 α 1 + α 2 Her er α 1, α 2 R ukendte parametre. En realisation af eksperimentet har givet følgende data: x 1 x 2 x 3 x 4 x 5 0.903 2.202 1.081 1.156 3.173 SPGM 10.1(a). Opskriv designmatricen A for modellen. Find (A T A) 1. SPGM 10.1(b). Opskriv et teoretisk udtryk for maksimaliseringsestimatoren ˆα for α = (α 1, α 2 ). Udregn ˆα for de konkrete data. SPGM 10.1(c). Find fordelingen af ˆα. Lad L være middelværdiunderrummet L = {Aα α R 2 } R 5. SPGM 10.1(d). Find ortogonalprojektionen p(x) (mht. det sædvanlige indre produkt) ned på L, både abstrakt og for det konkret observerede datapunkt i R 5. SPGM 10.1(e). Find SSD = x p(x) 2, både abstrakt og for det konkret observerede datapunkt i R 5.

10.11. Opgaver 393 SPGM 10.1(f). Opskriv den sædvanlige estimator σˆ 2 for variansparameteren σ 2, både abstrakt og for det konkret observerede datapunkt i R 5. SPGM 10.1(g). Find fordelingen af ˆ σ 2. SPGM 10.1(h). Angiv den simultane fordeling af ˆα og ˆ σ 2. OPGAVE 10.2. Lad X 1, X 2, X 3, X 4, X 5 være uafhængige reelle variable. Vi antager at de er uafhængige, normalfordelte med samme ukendte varians σ 2 og med middelværdier EX 1 EX 2 EX 3 EX 4 EX 5 α 1 α 2 α 1 α 1 α 2 α 2 α 1 Her er α 1, α 2 R ukendte parametre. En realisation af eksperimentet har givet følgende data: x 1 x 2 x 3 x 4 x 5 1.005 2.172 1.481 0.809 1.018 Gennemløb alle delopgaverne fra opgave 10.1, tilpasset den nye situation. OPGAVE 10.3. Lad X 1, X 2, X 3, X 4, X 5 være uafhængige reelle variable. Vi antager at de er uafhængige, normalfordelte med samme ukendte varians σ 2 og med middelværdier EX 1 EX 2 EX 3 EX 4 EX 5 α 1 α 2 α 3 α 1 α 2 α 2 α 3 Her er α 1, α 2, α 3 R ukendte parametre. En realisation af eksperimentet har givet følgende data: x 1 x 2 x 3 x 4 x 5 0.870 2.032 1.204 0.699 0.973 Gennemløb alle delopgaverne fra opgave 10.1, tilpasset den nye situation. OPGAVE 10.4. Lad X og Y være uafhængige reelle variable, sådan at X N(β, σ 2 ), mens Y er χ 2 -fordelt med m frihedsgrader og skalaparameter σ 2 /m. SPGM 10.4(a). Vis at X β Y er T-fordelt med m frihedsgrader. SPGM 10.4(b). Konstruer på denne baggrund et 95% konfidensområde for β. SPGM 10.4(c). Hvad sker der med det konstruerede konfidensområde hvis m?

394 Kapitel 10. Den generelle lineære model OPGAVE 10.5. Lad X 1, X 2, X 3, X 4, X 5 være uafhængige reelle variable. Vi antager at de er uafhængige, normalfordelte med samme ukendte varians σ 2 og med middelværdier EX 1 EX 2 EX 3 EX 4 EX 5 α 1 α 1 α 2 α 1 α 2 α 1 + α 2 α 1 + α 2 Her er α 1, α 2 R ukendte parametre. En realisation af eksperimentet har givet følgende data: x 1 x 2 x 3 x 4 x 5 0.187 1.731 0.184 2.252 1.775 SPGM 10.5(a). Udled maksimaliseringsestimatoren ˆα for α = (α 1, α 2 ). Udregn ˆα for de konkrete data. SPGM 10.5(b). Udled en central estimator data. SPGM 10.5(c). Angiv den simultane fordeling af ˆα og σ 2. σ 2 for σ 2. Udregn σ 2 for de konkrete SPGM 10.5(d). Angiv et 95% konfidensområde for α 1 og for α 2. SPGM 10.5(e). Angiv et simultant 95% konfidensområde for (α 1, α 2 ). SPGM 10.5(f). Angiv et 95% konfidensområde for σ 2. Betragt hypotesen H : α 1 = 0. SPGM 10.5(g). Estimer α 2 og σ 2 under hypotesen H. SPGM 10.5(h). Udfør et test af H ved hjælp af en F-fordelt teststørrelse. SPGM 10.5(i). Udfør et test af H ved hjælp af en B-fordelt teststørrelse. SPGM 10.5(j). Kan testet af H også udføres ved hjælp af en T-fordelt teststørrelse? SPGM 10.5(k). Diskuter sammenhængen mellem de udførte test, og diskuter disse tests forbindelse til det fundne konfidensområde for α 1. OPGAVE 10.6. Lad X 1, X 2, X 3, X 4, X 5 være uafhængige reelle variable. Vi antager at de er uafhængige, normalfordelte med samme ukendte varians σ 2 og med middelværdier EX 1 EX 2 EX 3 EX 4 EX 5 α 1 α 2 α 1 α 2 α 1 + α 2 α 1 + α 2

10.11. Opgaver 395 Her er α 1, α 2 R ukendte parametre. En realisation af eksperimentet har givet følgende data: x 1 x 2 x 3 x 4 x 5 0.732 1.359 0.097 1.953 1.869 SPGM 10.6(a). Udled maksimaliseringsestimatoren ˆα for α = (α 1, α 2 ). Udregn ˆα for de konkrete data. SPGM 10.6(b). Udled en central estimator data. SPGM 10.6(c). Angiv den simultane fordeling af ˆα og σ 2. σ 2 for σ 2. Udregn σ 2 for de konkrete SPGM 10.6(d). Angiv et 95% konfidensområde for α 1 og for α 2. SPGM 10.6(e). Angiv et simultant 95% konfidensområde for (α 1, α 2 ). SPGM 10.6(f). Angiv et 95% konfidensområde for σ 2. Betragt hypotesen H : α 1 = α 2. SPGM 10.6(g). Parameteriser modellen under hypotesen. Estimer parametrene. SPGM 10.6(h). Udfør et test af H, f.eks. ved hjælp af en F-fordelt teststørrelse. SPGM 10.6(i). Reparameteriser den fulde model, stadig som en lineær normal model. Middelværdistrukturen skal have parametre γ, δ, og hypotesen H skal kunne beskrives som H : δ = 0. Estimer γ og δ, og opstil et 95% konfidensområde for δ. SPGM 10.6(j). Sammenhold resultatet af det udførte test for H med konfidensområdet for δ. OPGAVE 10.7. Lad X 1, X 2, X 3, X 4, X 5 være uafhængige reelle variable. Vi antager at de er uafhængige, normalfordelte med samme ukendte varians σ 2 og med middelværdier EX 1 EX 2 EX 3 EX 4 EX 5 α 1 α 2 α 3 α 1 α 2 α 1 + α 3 Her er α 1, α 2, α 3 R ukendte parametre. En realisation af eksperimentet har givet følgende data: x 1 x 2 x 3 x 4 x 5 0.251 0.592 0.827 0.138 0.251

396 Kapitel 10. Den generelle lineære model SPGM 10.7(a). Udled maksimaliseringsestimatoren ˆα for α = (α 1, α 2, α 3 ). Udregn ˆα for de konkrete data. SPGM 10.7(b). Udled en central estimator data. SPGM 10.7(c). Angiv den simultane fordeling af ˆα og σ 2. σ 2 for σ 2. Udregn σ 2 for de konkrete SPGM 10.7(d). Angiv et 95% konfidensområde for α 1, for α 2, for α 3 og for σ 2. Betragt hypotesen H : α 2 = α 3. SPGM 10.7(e). Parameteriser modellen under hypotesen. Estimer parametrene. SPGM 10.7(f). Udfør et test af H, f.eks. ved hjælp af en F-fordelt teststørrelse. Kan testet udføres uden egentlig estimation af parametre? OPGAVE 10.8. Lad X 1,..., X n være reelle stokastiske variable. Vi antager at de er uafhængige, normalfordelte med samme ukendte varians σ 2 og med middelværdier EX i = β 1 + β 2 (i 1) for i = 1,..., n. SPGM 10.8(a). Gør rede for at dette er en lineær normal model. SPGM 10.8(b). Udled maksimaliseringsestimatoren for β = (β 1, β 2 ) og find estimatorens fordeling. SPGM 10.8(c). Udled en central estimator for σ 2, og angiv estimatorens fordeling. SPGM 10.8(d). Opstil et test for hypotesen H : β 2 = 0. SPGM 10.8(e). Opstil et test for hypotesen H : β 2 = 1. (Vink: erstat de oprindelige observationer med Y i = X i (i 1).)