Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde model opfylder de regularitetsbetingelser vi hidtil har stillet op, så vil den såkaldte deviancestørrelse, ( ) D n = 2 inf h n (X n, ψ) inf h n(x n, ψ), ψ Ψ 0 ψ Ψ der er en forholdsvis naturlig teststørrelse for hypotesen om at den sande ψ-værdi ligger i Ψ 0 Ψ, være asymptotisk χ 2 -fordelt med dim Ψ dim Ψ 0 frihedsgrader. 8.1 Glatte hypoteser De hypoteser vi vil interessere os for, kan formuleres i termer af delmængder af Ψ. Hvis Ψ 0 er en sådan delmængde, vil vi interessere os for den delmodel, hvor den sande ψ-værdi ligger i Ψ 0. Vores hidtidige analyse har baseret sig på Taylorapproksimationer, og hvis den type argumenter også skal fungere for delmodellen, må vi antage at Ψ 0 har forskellige pæne egenskaber. Man opsummerer gerne disse egenskaber ved at tale om glatte hypoteser. 97
98 Kapitel 8. Asymptotisk testteori Faktisk vil vi se på to forskellige formuleringer af hvad man skal forstå ved glatte hypoteser: de parametriserede glatte hypoteser og de implicit givne glatte hypoteser. I praksis er forskellen mellem dem ikke så stor, som det umiddelbart kan synes. Definition 8.1 Hvis U R m er en åben delmængde og hvis γ : U Ψ er en C 2 - afbildning, der opfylder at 1) γ er injektiv, 2) Dγ(β) har rang m for hvert β U, 3) γ 1 er kontinuert på γ(u), så er billemængden Ψ 0 = γ(u) en parametriseret glat hypotese af dimension m. Hvis betingelse 1) og 2) er opfyldt, taler man i differentialgeometri om at afbildningen γ er en immersion, hvis betingelse 3) også er opfyldt taler man om en embedding (hvilket sikkert hedder en indlejring på dansk). Det er rimeligt at kræve at γ er en immersion, hvis vi skal opfatte billedmængden γ(u) som en m-dimensional glat delmængde af Ψ. Betingelse 3) ser mere besynderlig ud, men til gengæld er den altid opfyldt i praksis. Betingelsen beskytter mod en geometrisk patologi, som formentlig aldrig nogensinde er dukket op i statistiske sammenhænge. Men hvis man vil overtræde den, så kan man f.eks. afbilde R ind i R 2 som skitseret på figur 8.1. Figur 8.1: En immersion, der ikke er en embedding. Tegningen beskriver en situation hvor γ : R R 2 er en immersion med den egenskab at γ(x) γ(0) for x. Det forhindrer γ 1 : γ(r) R i at være kontinuert, når γ(r) arver sin topologi fra R 2.
8.1. Glatte hypoteser 99 Problemet i figur 8.1 er at γ laver en kopi af R, der essentielt har to topologier: en, der stammer fra den oprindelige kopi af R, og en, der arves fra det omliggende rum R 2. At kræve at γ er en embedding, er essentielt at kræve at de to topologier er sammenfaldende. Definition 8.2 Hvis κ : Ψ R k er en C 2 -afbildning, der opfylder at 1) Dκ(ψ) har rang k for hvert ψ Ψ med κ(ψ) = 0, så siger vi at en originalmængde af formen Ψ 0 = {ψ Ψ κ(ψ) = 0} er en implicit givet glat hypotese af dimension d k. I differentialgeometrien siger man at κ er en submersion hvis den opfylder betingelse 1) for alle ψ, men vi kræver altså lidt mindre. Det er klart at originalmængder af formen {ψ Ψ κ(ψ) = α} også er implicit givne glatte hypoteser - de svarer til at κ erstattes med κ α. Forskellen mellem de to formuleringer af glathed synes større end den egentlig er. Begge definitioner giver en global beskrivelse af hypotesen. Men den glathedsegenskab vi forsøger at beskrive er naturligvis et lokalt forhold. Det naturlige er at sige at en sammenhængende delmængde Ψ 0 Ψ er en lokalt parametriseret glat hypotese hvis der for hvert punkt ψ Ψ 0 findes en omegn V Ψ af ψ sådan at Ψ 0 V er en parametriseret glat hypotese. Kravet om at Ψ 0 er sammenhængende sikrer at de forskellige lokale parametriseringer er enige om hvilken dimension, de tildeler hypotesen. Tilsvarende kan man sige at en sammenhængende delmængde Ψ 0 Ψ er en lokalt implicit givet glat hypotese, hvis Ψ 0 restriktion til en omegn af ethvert punkt er en implicit givet glat hypotese. Pointen er at disse lokale definitioner er enige: en lokalt parametriseret glat hypotese er også lokalt implicit givet og vice versa. Eksempel 8.3 Hvis vi ser på enhedscirklen i planen, Ψ 0 = {(x, y) R 2 x 2 + y 2 = 1}, så er det per konstruktion en implicit givet glat hypotese af dimension 1, svarende til parameterfunktionen κ(x, y) = x 2 +y 2 1. Vi ser at κ opfylder submersionsbetingelsen, fordi Dκ repræsenteres af matricen (2x 2y) for alle (x, y) R 2,
100 Kapitel 8. Asymptotisk testteori hvoraf vi let ser at Dκ(x, y) har rang 1, når (x, y) (0, 0). Og undtagelsespunktet (0, 0) ligger ikke i Ψ 0. Bemærk at Ψ 0 ikke har en global parametrisering. Det er intuitivt oplagt, skønt det nok kræver lidt knofedt at eftervise - Ψ 0 er kompakt, og kan derfor ikke være i homeomorf korrespondence med et åbent interval på R. Men det er lige så klart at Ψ 0 har lokale parametriseringer. Vi kan f.eks. bruge γ(θ) = (cos θ, sin θ) for θ (0, π) til at parametrisere den del af Ψ 0 der ligger i den øvre halvplan. Tilsvarende kan man finde parametriseringer der dækker den del af Ψ 0 der ligger i den nedre halvplan, i den venstre halvplan og i den øvre halvplan (brug samme definition af γ som foroven, men se på andre θ-værdier). Sætning 8.4 (Lokal linearisering) Lad Ψ 0 Ψ være en lokalt parameteriseret glat hypotese af dimension m, og lad ψ Ψ 0. Lad V Ψ være en omegn af ψ, og lad γ : U V være en parametrisering af Ψ 0 V. Lad β U opfylde at γ(β ) = ψ. Efter eventuelt at have gjort U og V mindre, kan vi finde en omegn W R m R d m af (β, 0) og en diffeomorfi π : V W så π γ(β) = (β, 0) for alle β U 0. (8.1) BEVIS: På ingen måde elementært. Der er tale om en anvendelse af konglomeratet af resultater, der går under navnet invers funktions sætning og implicit funktions sætning. Et bevis vil kunne findes i de fleste introducerende bøger i differentialgeometri. Den geometriske betydning af arrangement i sætning 8.4 fremgår nok tydeligere af figur 8.2 end af en ordrig forklaring. Pointen er at lader vi η 2 : R m R d m R d m være projektionen ned på den sidste faktor, altså η 2 (β, α) = α, så er så er hypotesen lokalt på formen {γ(β) β U} = {ψ V η 2 π(ψ) = 0}.
8.2. Estimation i parametriserede glatte hypoteser 101 PSfrag replacements U V 0 γ π R d R m R d m W Figur 8.2: Lokal linearisering af en parametriseret glat hypotese, som beskrevet i sætning 8.4. Punkterne på de tre tegninger er henholdsvis β, ψ og (β, 0). Så skønt hypotesen startede med at være lokalt parametriseret ser vi nu at den også er lokalt implicit givet. Og bemærk at de to formuleringer er enige om hvad dimensionen er: den implicitte beskrivelse giver dimensionen d (d m) = m. Man kan tilsvarende etablere en lokal linearisering af en implicit givet hypotese, defineret ved parameterfunktionen κ : R d R k. Den lokale linearisering er en diffeomorfi π : W V hvor W R k R d k og V R d er åbne mængder, så κ π(α, β) = α for alle (α, β) W. Dermed er β π(0, β) en lokal parametrisering af hypotesen. 8.2 Estimation i parametriserede glatte hypoteser Man kan bruge de lokale udretninger af hypotesen til at se at glatte hypoteser i virkeligheden er modeller af den art vi allerede har diskuteret. Vi vil fokusere på en parametriseret hypotese. Den virkelige hypose er naturligvis en delmængde Θ 0 Θ. Hvis vi lader η 1 og η 2 være de to projektioner fra R m R d m ned på faktorrummene R m og R d m så er Betragt parameterfunktionen Θ 0 = {θ Θ η 2 π ψ(θ) = 0}. ψ 0 : Θ 0 R m givet ved ψ 0 = η 1 π ψ.
102 Kapitel 8. Asymptotisk testteori Vi ser at ψ 0 (Θ 0 ) = {η 1 π ψ(θ) η 2 π ψ(θ) = 0} = {β (β, 0) W} hvilket er en åben delmængde af R m. Parameterfunktionen ψ 0 opfylder således den tekniske grundantagelse p. 52. Vi konstaterer at der gælder følgende relation mellem den oprindelige parameterfunktion ψ og den nye ψ 0 : ψ(θ) = γ ψ 0 (θ) for alleθ Θ 0. Det er derfor fornuftigt at bruge konkordanskombinanten g n (x, β) = h n ( x, γ(β) ) for x X n, β U, til at vurdere overensstemmelse mellem observationen x og parameterværdien β. På den måde vil en parameterværdi under hypotesen, ψ = γ(β), blive vurderet ens i forhold til x, hvad enten vi betragter den som en ψ-værdi eller som en β-værdi. Bemærk at g n automatisk opfylder den tekniske grundantagelse p. 58. Hvis vi har reskaleringsskemaer (A n ) n N og (B n ) n N på henholdsvis R d og R m, så kan vi interessere os for B-reskaleringen af g n omkring β i forhold til A-reskaleringen af h n omkring ψ = γ(β ). Vi kalder de reskalerede β-værdier for ζ. Vi ser at hvor g n (x, ζ) = g n (x, β + B n 1 ζ) = h n ( x, γ(β + B n 1 ζ) ) = h n ( x, q(ζ) ) q n (ζ) = A n ( γ(β + B n 1 ζ) ψ ) for ζ Præcis hvilket ζ er formlen giver mening for, varierer med n. Men q n vil være defineret på en vilkårlig fast kugle om 0, når blot n er stor nok. Vi konstaterer at at og at q n (0) = A n ( γ(β ) ψ ) = 0, Dq n (0) (ζ 1 ) = A n Dγ(β )B n 1 ζ 1, (8.2) D 2 q n (ζ) (ζ 1, ζ 2 ) = A n D 2 γ(β + B n 1 ζ) (B n 1 ζ 1, B n 1 ζ 2 ). (8.3) Det er nemt nok at sikre sig at den første afledede af q n opfører sig fornuftigt når n. Men det er forbløffende vanskeligt at kontrollere den anden afledede. Vi indfører derfor endnu en regularitetsbetingelse:
8.2. Estimation i parametriserede glatte hypoteser 103 Regularitetsbetingelse E (for en glat hypotese) Der skal findes et reskaleringsskema (B n ) n N på R m og en lineær afbildning H : R m R d af rang m så Endvidere skal der findes en konstant L så A n Dγ(β ) B n 1 H for n. (8.4) A n B n 1 L for alle n. (8.5) Denne regularitetsbetingelse er ikke en betingelse på modellen, men en betingelse på hypotesen. Som sædvanlig må B-skemaet ikke variere med β, mens den lineære afbildning H gerne mål. Vi bemærker at hvis regularitetsbetingelse E er opfyldt for givne reskaleringsskemaer, så kan vi skifte både A- og B-skemaet ud med andre skemaer, der er asymptotisk ækvivalente. Det ændrer ikke på at hypotesen er opfyldt - men det ændrer naturligvis den lineære afbildning H. Eksempel 8.5 I de fleste eksempler bruger vi normeringsskemaet A n ψ = n ψ. Bruger vi tilsvarende ser vi at B n β = n β, A n Dγ(β ) B n 1 β = n Dγ(β ) β n = Dγ(β ) β for alle β. Dermed er A n Dγ(β ) B 1 n = Dγ(β ) for alle n. Så (8.4) er opfyldt med H = Dγ(β ). Distortionsbetingelsen (8.5) volder heller ikke problemer, for A n = n mens B 1 n = 1 n. Når modellen er af en sådan art at standardreskalering er på sin plads, så er regularitetsbetingelsen for glatte hypoteser således tom - alle glatte hypoteser opfylder den. Lemma 8.6 Hvis hypotesen opfylder regularitetsbetingelse E, så vil indlejringen i de reskalerede koordinater, q n opfylde at for alle c > 0. Dq n (0) H, sup D 2 q n (ζ) 0 for n, ζ: ζ <c
104 Kapitel 8. Asymptotisk testteori BEVIS: At Dq n (0) H er naturligvis en direkte konsekvens af betingelse (8.4). Hvis ζ < c og hvis n er så stor at B n 1 c < ɛ, så giver (8.3) at D 2 q n (ζ) A n sup D 2 γ(β) B 1 n 2. β: β β <ɛ Og denne øvre grænse går mod nul, når distortionsbetingelsen (8.5) er opfyldt. Lemma 8.7 Hvis den store model opfylder Regularitetsbetingelse C, og hvis hypotesen opfylder (8.4), så vil g n (X n, 0) H h n (X n, 0) P 0 for n. BEVIS: Kædereglen giver at D g n (X n, 0) β = D h n (X n, 0) Dq n (0) ζ = D h n (X n, 0)A n Dγ(β )B n 1 ζ Den definerende relation for gradienten (2.7) giver at g n (X n, 0), ζ = D g n (X n, 0) ζ = D h n (X n, 0)A n Dγ(β )B n 1 ζ = h n (X n, 0), A n Dγ(β )B n 1 ζ. For et fast ζ får vi ifølge Cauchy-Schwarz ulighed at Altså er g n (X n, 0) H h n (X n, 0), ζ = h n (X n, 0), (A n Dγ(β )B n 1 H)ζ h n (X n, 0) A n Dγ(β )B n 1 H ζ g n (X n, 0) H h n (X n, 0) = sup g n (X n, 0) H h n (X n, 0), ζ ζ: ζ 1 h n (X n, 0) A n Dγ(β )B n 1 H P 0.
8.2. Estimation i parametriserede glatte hypoteser 105 Konsekvenserne af dette lemma er ikke blot at hypotesen opfylder regularitetsbetingelse C hvis den store model gør det: Også varianterne C og C følger med fra den store model til hypotesen. For hvis så vil h n (X n, 0) P Z for n, g n (X n, 0) P H Z for n. Det er sværere at få regularitetsbetingelserne om den andenafledede af de reskalerede kombinanter med fra den store model til hypotesen. Vi ser at D 2 g n (ζ) (ζ 1, ζ 2 ) = D 2 h n ( Xn, q n (ζ) ) (Dq n (ζ) ζ 1, Dq n (ζ) ζ 2 ) + D h n ( Xn, q n (ζ) ) (D 2 q n (ζ) (ζ 1, ζ 2 ) ). Regularitetsbetingelse A og B for den store model tillader os at kontrollere første led i dette udtryk. Men andet led tager desværre ikke vare på sig selv, og vi er kun i stand til at håndtere det, fordi fordi Regularitetsbetingelse E er så kraftig, at dette led går mod nul. Lemma 8.8 Hvis den store model opfylder Regularitetsbetingelse A, og hvis hypotesen opfylder Regularitetsbetingelse E, så vil hvor D 2 g n (X n, 0) P F 0 for n, F 0 (ζ 1, ζ 2 ) = F(Hζ 1, Hζ 2 ) for alle ζ 1, ζ 2 R m. BEVIS: Det følger lige ud af landevejen. Lemma 8.9 Hvis den store model opfylder Regularitetsbetingelse B, og hvis hypotesen Regularitetsbetingelse E, så vil sup D 2 g n (X n, ζ) D 2 g n (X n, 0) P 0 for n. ζ: ζ <c BEVIS: Det følger også lige ud af landevejen.
106 Kapitel 8. Asymptotisk testteori Opsummerende kan vi konstatere at hvis den store model opfylder Regularitetsbetingelse A, B og en af C-varianterne, og hvis hypotesen opfylder Regularitetsbetingelse E, så vil hypotesen af sig selv opfylde Regularitetsbetingelse A, B og den samme C-variant som den store model. Hvis vi taler om C, så kan vi konkludere at der er en asymptotisk veldefineret lokal M-estimator ˆβ n for β, og at Vi har her udnyttet at B n (ˆβ n β ) D (H Q H) 1 H Z for n. F 0 (ζ 1, ζ 2 ) = F(Hζ 1, Hζ 2 ) = Hζ 1, QHζ 2 = ζ 1, H QHζ 2, og så ellers sat ind i sætning 7.7. Man kan iøvrigt også ved indsættelse konstatere at hvis den store model opfylder Regularitetsbetingelse D, så vil det samme gælde for hypotesen. 8.3 Test af glatte hypoteser Lad os i dette afsnit arbejde videre med en glat hypotese Ψ 0 Ψ af dimension m. Vi vil antage at hypotesen er parametriseret, hvilket jo i det mindste er opfyldt lokalt. Hvis hypotesen er sand, så er der både en sand β-værdi β og en sand ψ-værdi ψ, og de er forbundet med relationen ψ = γ(β ). Regularitetsbetingelserne A, B, C og E sikrer at der eksisterer en lokal M-estimator ˆψ n for ψ, og en lokal M-estimator ˆβ n for β. Vi kan på naturlig måde flytte ˆβ n op på Ψ 0 ved at sætte ψ n = γ(ˆβ n ). Her må vi så forstå ˆψ n som den lokale M-estimator uden for hypotesen, mens ψ n er den lokale M-estimator inden for hypotesen. Hvis man ønsker at teste hypotesen, er den naturlige fremgangsmåde at sammenligne disse to estimatorer. Lemma 8.10 Hvis den store model opfylder Regularitetsbetingelse A, B og C, og hvis hypotesen opfylder Regularitetsbetingelse E, så vil A n ( ψ n ψ ) + H(H QH) 1 H h n (X n, 0) P 0 for n.
8.3. Test af glatte hypoteser 107 BEVIS: Ved at kombinere lemma 7.6 og lemma 8.7 har vi at B n (ˆβ n β ) + (H Q H) 1 H h n (X n, 0) P 0 for n. (8.6) Taylors formel brugt på γ giver at A n ( ψ n ψ ) = A n (γ(ˆβ n ) γ(β )) = A n (Dγ(β ) (ˆβ n β ) + D 2 γ(η) ( ˆβ n β, ˆβ n β )) = A n Dγ(β ) (ˆβ n β ) + A n D 2 γ(η) ( ˆβ n β, ˆβ n β ) for et passende mellempunkt η. Hvis ˆβ n ligger i B(β, ɛ), så vil mellempunktet også gøre det, og sidste leds opførsel er dermed bestemt af at A n D 2 γ(η) ( ˆβ n β, ˆβ n β ) A n A n sup D 2 γ(β) ˆβ n β 2 β: β β <ɛ sup D 2 γ(β) B 1 n 2 B n (ˆβ n β ) 2 β: β β <ɛ der konvergerer mod nul i sandsynlighed. Det første led er derimod A n Dγ(β ) (ˆβ n β ) = ( A n Dγ(β )B n 1 ) B n (ˆβ n β ). Her går den første faktor (den store parentes) mod H, og den anden faktors opførsel kan aflæses i (8.6). Vi er nu i stand til at sammenligne de to estimatorer: Lemma 8.11 Hvis den store model opfylder Regularitetsbetingelse A, B og C, og hvis hypotesen opfylder Regularitetsbetingelse E, så vil A n ( ˆψ n ψ n ) D ( I H(H QH) 1 H Q ) Q 1 Z for n. (8.7) BEVIS: Da der selvfølgelig gælder at A n ( ˆψ n ψ n ) = A n ( ˆψ n ψ ) + A n ( ψ n ψ ), følger resultat ved at kombinere lemma 8.6, lemma 7.6 og Regularitetsbetingelse C.
108 Kapitel 8. Asymptotisk testteori Resultatet i (8.7) er formuleret med lineære afbildninger, og indholdet kan muligvis ikke gennemskues direkte. Men de tilsvarende matrixudtryk er velkendte. Hvis A er en n k matrix af rang k, og hvis B er en positivt definit n n matrix, så er A(A T BA) 1 A T B matrixudtrykket for projektionen med hensyn til det indre produkt x, y = x T By ned på underrummet frembragt af A s søjler. Derfor repræsenterer den store parentes i (8.7) projektionen ned på det ortogonale komplement til billedrummet for H, hvor både projektion og ortogonalt komplement skal forstås i forhold til det indre produkt givet ved Q. Men dette indre produkt er netop bilinearformen F. Sætning 8.12 Hvis den store model og hypotesen tilsammen opfylder Regularitetsbetingelserne A-E, så vil F ( A n ( ˆψ n ψ n ), A n ( ˆψ n ψ n ) ) D W for n. (8.8) hvor den stokastiske variabel W er χ 2 -fordelt med d m frihedsgrader under hypotesen. BEVIS: Resultatet følger af (8.7), når man observerer at Regularitetsbetingelse D netop siger at den den inverse varians for QZ (altså præcisionen) netop er identisk med F. Herefter er det blot at pege på spaltningssætningen. I praktiske sammenhænge bruges størrelsen i (8.8) ofte som teststørrelse for hypotesen. Man taler om at man udfører et Wald test. Principielt betragtes det dog som bedre at udføre et test ved hjælp af deviance størrelsen D n = 2 ( h n (X n, ψ n ) h n (X n, ˆψ n ) ), der er denne abstrakte teoris variant af en kvotientteststørrelse. Sætning 8.13 Hvis den store model og hypotesen tilsammen opfylder Regularitetsbetingelserne A-E, så vil D n D W for n. (8.9) hvor den stokastiske variabel W er χ 2 -fordelt med d m frihedsgrader under hypotesen.
8.3. Test af glatte hypoteser 109 BEVIS: Lad os Taylorudvikle h n (X n, ψ) omkringn ˆψ n. Vi har at h n (X n, ψ n ) = h n (X n, ˆψ n ) + Dh n (X n, ˆψ n ) ( ψ n ˆψ n ) + 1 2 D2 h n (X n, η) ( ψ n ˆψ n, ψ n ˆψ n ) for et mellempunkt η. Per definition er ˆψ n et stationært punkt for h n, så denne regning viser at D n = D 2 h n (X n, η) ( ψ n ˆψ n, ψ n ˆψ n ) = D 2 h n (X n, A n (η ψ )) (A n ( ψ n ˆψ n ), A n ( ψ n ˆψ n )). I det den anden afledede stort set er F, følger resultatet nu af sætning 8.12. Både deviance størrelse og Walds teststørrelse burde retteligen omtales som lokale. De involverede de lokale M-estimatorer, som man kun kender i praksis i det omfang de kan relateres til de globale M-estimatorer. Det er derfor ikke i alle modeller at sætning 8.12 og sætning 8.13 med sikkerhed har noget relevant at sige.
110 Kapitel 8. Asymptotisk testteori