Kapitel 4 Regularitetsbetingelserne Vi vender nu tilbage til det asymptotiske scenarie fra kapitel 1. Vi har stokastiske variable X n med værdier i (X n,e n ) - oftest er X n en sammenbundtning af flere og flere simple observationer, X n = (Y 1,...,Y n ). Vi har en fælles parameterisering af fordelingerne af alle X n -variablene, givet i form af en parametermængdeθ, og vi har en interesseparameterψ:θ R d med billedmængdeψ=ψ(θ). Herudover har vi en konkordanskombinant h n :X n Ψ R med den fortolkning at en lille værdi af h n (x,ψ) betyder at x ogψer i god overensstemmelse. Se figur 4.1. X n (Ω,F) (X n,e n ) h n Ψ R P θ ν n θ Ψ Θ θ ψ Ψ R d Figur 4.1: En skematisk illustration af ingredienserne i det asymptotiske scenarie. Målet med den følgende analyse er at forstå hvordan den stokastiske funktionψ h n (X n,ψ) egentlig ser ud, især for store værdier af n. 67
68 Kapitel 4. Regularitetsbetingelserne I det følgende lader viθ betegne den sande parameter, ogψ betegneψ(θ ), altså den sandeψ-værdi. Vi kræver to fundamentale tekniske betingelser opfyldt før vi overhovedet går i gang med analysen. Teknisk grundantagelse: Der gælder at 1) BilledmængdenΨ=ψ(Θ) er en åben delmængde afr d. 2) For alle n Nog alle x X n erψ h n (x,ψ) en C 2 -afbildning på heleψ. Vi vil studere opførslen af h n (X n,ψ) omkringψ ved hjælp af Taylorudviklinger. Det første problem vi skal forholde os til er at denne opførsel som regel er meget kraftigt n-afhængig. Det forsøger vi at reparere på ved at erstatte kombinanten h n med en modificeret variant. Vi skal se flere forskellige strategier for hvordan man kan modificere, men hovedparten af resultaterne vil blive udviklet i en ramme hvor vi udtrykker h n i et n-afhængigt koordinatsystem omkringψ. 4.1 Reskalering Et reskaleringsskema, eller en reskaleringssekvens, er en følge (A n ) n N af invertible, lineære afbildningerr d R d. I alle tilfælde uden undtagelse vil vi forestille os at A n for n, ja faktisk vil vi stramme kravet til at A n 1 0 for n. (4.1) Eftersom det gælder at x = A n 1 A n x A n 1 A n x følger det af (4.1) at A n x for alle x 0. Meningen med A n er at den skal udtrykke den hastighed hvormed vi opsamler information om parametrene. Det sædvanlige reskaleringsskema er A n ψ= nψ for alle ψ R d, (4.2) der dels udtrykker at vi opsamler information om de forskellige parametre med samme hastighed (fordi A n er et multiplum af I), og dels udtrykker at denne fælles hastighed er af størrelsesorden n (svarende til den sædvanlige normering i CLT). Men vi skal se en hel del andre reskaleringssekvenser i brug, i situationer hvor der optræder andre indlæringshastigheder end n og i særdeleshed i situationer hvor de forskellige parametre indgår så asymmetrisk i modellen at man ikke bliver klogere på dem i samme hastighed.
4.1. Reskalering 69 Ud fra et givet reskaleringsskema (A n ) n N indfører vi de reskalerede konkordanskombinanter h n (x,ξ)=h n (x,ψ + A n 1 ξ) h n (x,ψ ). (4.3) Man kender ikke den sandeψ-værdiψ, så det er en fiktion at forestille sig at man kan i praksis kan konstruere disse reskalerede kombinanter - det kræver at man kender den sande parameter, og hvis man gjorde det, brugte man nok ikke kræfter på at estimere den. Man skal i stedet tænke at vi gennemfører analysen af de reskalerede konkordanskombinanter for alle potentielle værdier af den sande parameter. Hvis vi kan sige noget begavet om alle disse kombinanter, så får vi specielt sagt noget begavet om kombinanten dannet ud fra den sande sande parameter. Ψ 00000 11111 00000000 11111111 0000000000 1111111111 000000000 111111111 0000000 1111111 01 000 111 0000000 1111111 000000000 111111111 000000000 111111111 00000000000 11111111111 00000000000 11111111111 0000000000000 1111111111111 0000000000000 1111111111111 0000000000000 1111111111111 0000000000000 1111111111111 0000000000000 1111111111111 0000000000000 1111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000 11111111111111 0000000000000 1111111111111 0000000000000 1111111111111 0000000000000 1111111111111 0000000000000 1111111111111 0000000000000 1111111111111 00000000000 11111111111 00000000000 11111111111 000000000 111111111 000000000 111111111 0000000 1111111 00000 11111 ψ koordinater ξ koordinater Figur 4.2: En grafisk fremstilling af blow up ideen i (4.3). Vi fokuserer på en fast omegn af 0 iξ-koordinaterne, transformerer den over i mindre og mindre omegne afψ iψ-koordinaterne ved hjælp af de affine afbildningerξ ψ + A n 1 ξ. Vi studerer konkordanskombinanterne i disse små omegne afψ ved at udtrykke dem iξ-koordinater. Man referer ofte til denne reskaleringside som et blow up. Man kan tænke sig at man studerer h n i en lille omegn afψ ved at se i en slags mikroskop. Når n vokser, ændres billedet naturligvis, men det forsøger man at kompensere for ved at skrue højere og højere op for forstørrelsesgraden. Hvis man er heldig, kan man finde den helt rigtige hastighed at skrue på forstørrelsesgraden med, sådan at billedet i mikroskopets okular holder sig næsten konstant selv om n vokser. Definitionsmængden for de reskalerede konkordanskombinanter er ikke så nem at få fastlagt, men eftersomψer en åben mængde der indeholderψ, vilψindeholde en lille kugle B(ψ,ǫ). Hvis vi lægger os fast på et bestemt c>0 og ser påξ B(0, c), så vil (ψ + A n 1 ξ) ψ A n 1 c.
70 Kapitel 4. Regularitetsbetingelserne Når n er så stor at A n 1 c<ǫ, ser vi således atξ h n (x,ξ) er veldefineret på hele kuglenξ B(0, c). Og det gælder uanset hvor stort c vi har valgt - omend et stort c nok kræver at vi ser på meget store n-værdier. Ideen bag reskaleringen er at undersøge h n s opførsel i en meget lille omegn om den sande ψ-værdi, en omegn der mindskes når n vokser. Undersøgelsen foretages ved at blæse omegnen op, indtil den har fået en på forhånd fastlagt størrelse. Og i denne optik, kan det være at dette eller hint konvergerer. At der kan komme noget fornuftigt ud af det, illustreres nok bedst med et konkret eksempel. Eksempel 4.1 Lad Y 1, Y 2,... være uafhængige reelle stokastiske variable, alle med tæthed f θ med hensyn til Lebesguemålet. Vi antager atθ Θ, hvorθ R er et åbent interval, og vi antager at f θ (x) er strengt positiv og C 3 som funktion afθ. Endelig antager vi at l y (θ) C for alle y R,θ Θ, hvorl y (θ)= log f θ (y) er loglikelihoodfunktionen baseret på en enkelt observation. Den naturlige konkordanskombinant i denne sammenhæng er loglikelihoodfunktionen n h n (y 1,...,y n,θ)= l yi (θ). Hvis vi reskalerer ved hjælp af standardskemaet (4.2), får vi den reskalerede kombinant n ( h n (y 1,...,y n,ξ)= l yi θ + ξ n ( ) l yi θ ). n Nuvel, den konvergerer sådan set ikke. Men lad os se på de tre første afledede: h n (y 1,...,y n,ξ)= 1 n h n (y 1,...,y n,ξ)= 1 n n h n (y 1,...,y n,ξ)= 1 n 3/2 Bemærk at den tredie afledede opfylder at n l y i ( θ + ξ n ), ( l y i θ + ξ ), n n ( l y i θ + ξ ). n h n (y 1,...,y n,ξ) 1 n 3/2 n C= C n.
4.1. Reskalering 71 Den tredie afledede af den reskalerede kombinant går således uniformt mod 0. Hvis man laver en 2. ordens Taylorudvikling af h n ser man at den reskalerede kombinant i alt væsentligt er et andengradspolynomium, når n er stor, fordi restledet falder væk. Og hvilket andengradspolynomium taler vi så om? Hvis vi ser på den anden afledede i ξ = 0 som en stokastisk variabel, så er h n (Y 1,...,Y n, 0)= 1 n n l Y i (θ ). Her falder det naturligt at bruge store tals lov, og vi ser at h n (Y 1,...,Y n, 0) P E θ l Y 1 (θ ) for n, hvis middelværdien på højre side eksisterer. Og det gør den i alle rimelige modeller. I notationen fra Introduktion til Matematisk Statistik er denne middelværdi i 1 (θ ), Fisher informationen baseret på en enkelt observation, regnet ud i den sande parameter. En tilsvarende analyse af den første afledede i ξ = 0 fortæller via Laplaces CLT at h n(y 1,...,Y n, 0)= 1 n l n Y i (θ ) D Z for n, hvor Z N(0, i 1 (θ )). Her har vi udnyttet at i alle rimelige modeller gælder Bartletts identiteter, der siger at E θ l Y 1 (θ )=0, og at V θ l Y 1 (θ )=i 1 (θ ). Idet h n (Y 1,...,Y n, 0) per konstruktion er nul, kan vi opsummere disse observationer på den måde at h n (Y 1,...,Y n,ξ) Zξ+ i 1(θ ) 2 ξ 2. (4.4) Man må ikke fortolke (4.4) på den måde at h n (Y 1,...,Y n,ξ) konvergerer punktvist for n - der er nærmere tale om en form for svag konvergens, hvis sande natur det kræver lidt tilvænning at forstå. Men vi er alligevel i stand til at se at h n (Y 1,...,Y n,ξ) har et globalt minimum i ˆξ n Z/i 1 (θ ). Minimaet flytter sig fra realisation til realisation, men der er grund til at tro at ˆξ n approx N ( 0, ) 1 i 1 (θ. ) Vi kan oversætte disse resultater til den oprindelige parameterskala. Når h n har et minimum iξˆ n, så må h n tilsvarende have sit minimum i ˆθ n =θ + ˆξ n n θ Z n i1 (θ ).
72 Kapitel 4. Regularitetsbetingelserne Hermed har vi givet et plausibelt argument for at maksimaliseringsestimatoren eksisterer i denne model, og for at ˆθ n N(θ, 1 1 as n i 1 (θ )). Når det ikke er et rigtigt bevis, så er det udelukkende fordi vi har haft lidt løs hånd i approksimationerne - ræsonnementet kan sagtens gøres præcist, og det vil vi gøre i de kommende kapitler. Pointen på dette sted er primært at vise at med den rigtige reskalering, så vil den reskalerede kombinant opføre sig på en måde, så man kan se dens monotoniforhold. For den uskalerede kombinant vil såvel funktionen som dens afledede divergere, og det er svært at få overblik over noget som helst. ψ ξ Figur 4.3: En skitse af reskaleringens effekt. Til venstre er optegnetψ h n (x,ψ) h n (x,ψ ). Denne funktion ændrer sig meget hurtigt, og den bliver mere eksplosiv med stigende n. Til højre er tegnetξ h n (x,ξ). Det markerede område svarer til det markerede område på den første tegning. Fordi området er blevet strukket ud, er det nemmere at se hvad funktionen gør. For nogle af de fænomener vi skal studere, gør det en forskel om vi bruger et pænt reskaleringsskema eller om vi tillader et reskaleringsskema, der ændrer geometrien i situationen fundamentalt. Definition 4.2 En sekvens (A n ) n N af invertible lineære afbildninger pår d har begrænset distortion hvis for en passende konstant L. A n A n 1 L for alle n N, (4.5) Den norm, der indgår i definitionen af begrænset distortion, er i første omgang operatornormen. Men eftersom alle normer på Lin(R d,r d ) er ækvivalente, ser man at den
4.1. Reskalering 73 konkrete norm faktisk ikke spiller nogen rolle. Hvis et skema af lineære afbildninger pår d opfylder (4.5) med en eller anden norm, vil den også opfylde (4.5) med en vilkårlig anden norm - det kræver blot en udskiftning af den øvre grænse L. Det er ganske heldigt at det forholder sig sådan, for operatornormen er ofte vanskelig at finde eksplicit, mens andre normer har en helt anderledes konkret karakter. Et bekvemt valg er ofte maksimumsnormen: Hvis den lineære afbildning A pår d repræsenteres af d d matricen A=(a i j ), er A = max a i j. i j Hvis man gerne vil have et eksplicit bånd mellem operatornormen og maksimumsnormen, kan man indse at A A d A for alle A Lin(R d,r d ), (4.6) men man plejer at nøjes med at væve med hånden og påberåbe sig den generelle ækvivalens af alle normer på endeligdimensionale vektorrum. Eksempel 4.3 Hvis (A n ) n N er standardreskaleringsskemaet (4.2) pår d, så repræsenteres A n af matricen n 0... 0 0 n... 0....... 0 0... n Vi finder således let maksimumsnormen A n = n. Da A n 1 repræsenteres af den inverse matrix 1 n 0... 0 1 0 n... 0...... 1 0 0... n. ser vi tilsvarende at A 1 n = 1 n.
74 Kapitel 4. Regularitetsbetingelserne Og dermed er A n A n 1 = 1 for alle n N. Vi konkluderer at standardreskaleringsskemaet har begrænset distortion. For lige præcis disse lineære afbildninger, der jo simpelthen består i multiplikation med en skalar, er maksimumsnormen og operatornormen identiske. Det er derfor ikke strengt nødvendigt at gå over maksimumsnormen i argumentet - men det er det i de fleste andre tilfælde. Eksempel 4.4 Betragt reskaleringsskemaet (A n ) n N pår 2, hvor A n er givet ved matricen ( ) n 0. 0 n Her er A n = n. Vi finder den inverse matrix som 1 n 0 1 0 n så A 1 n = n 1/2. Reskaleringsskemaet opfylder det fundamentale krav (4.1), men A n A 1 n = n n 1/2 = n 1/2, så skemaet har ubegrænset distortion. Eksemplet illustrerer de problemer der kan opstå i flere dimensioner, når forskellige koordinater må behandles forskelligt. Betragt også reskaleringsskemaet (B n ) n N pår 2, hvor B n er givet ved matricen n 0. n 3/2 n Her er B n = n 3/2. Vi finder den inverse matrix som 1 n 0 1 n 1 n så B 1 n = n 1/2. Reskaleringsskemaet opfylder det fundamentale krav (4.1), men B n B 1 n = n 3/2 n 1/2 = n, så skemaet har ubegrænset distortion. Eksemplet illustrerer meget godt de problemer der kan opstå i flere dimensioner, når skaleringen blander koordinaterne.
4.1. Reskalering 75 Den teknik, vi skal gennemgå, afhænger af at man kan finde et fornuftigt reskaleringsskema. Men kravene til dette skema er ikke særligt fintmærkende. I det store og hele skal skemaet kun bruges til at beskrive det nødvendige tempo i reskaleringen, og det præcise valg af lineære afbildninger i sekvensen er mindre afgørende. Eksempel 4.5 Hvis man i eksempel 4.1 forsøger sig med en reskaleringssekvens af formen A n ψ=a nψfor et fastholdt a>0, så får man den reskalerede konkordanskombinant ȟ n (y 1,...,y n,ξ)= n ( l yi θ + ξ ) a n n ( l yi θ ). Også denne reskalerede kombinant har en tredieafledet der essentielt forsvinder når n er stor, og man regner sig frem til at ȟ n (Y 1,...,Y n,ξ) Wξ+ i 1(θ ) 2 a 2 ξ2, hvor W N(0, i 1(θ ) ). Denne grænsekombinant (eller hvad man nu skal kalde den) er a 2 formelt forskellig fra den, der dukkede op i eksempel 4.1. Men det er igen et konvekst andengradspolynomium, hvis minimum let lader sig finde som ˆξ n a2 W i 1 (θ ). Oversætter vi tilbage til den oprindelige parameterskala, får vi at maksimaliseringsestimatoren ˆθ n er ˆθ n θ a W n i1 (θ ), og vi finder heraf den sædvanlige asymptotisk fordeling ( approx ˆθ n N θ, 1 n ) 1 i 1 (θ. ) Så forskellen på at bruge standardreskaleringsskemaet fra eksempel 4.1 og det let modificerede skemaer i dette eksempel, er udelukkende et spørgsmål om hvordan visse delresultater tager sig ud. Argumentationen forløber på samme måde for de forskellige reskaleringsskemaer, og den endelige konklusion - den asymptotiske fordeling af maksimaliseringsestimatoren - er de helt enige om.
76 Kapitel 4. Regularitetsbetingelserne Vi skal se at konklusionen i eksempel 4.5 kan overføres til de fleste andre situationer: man kan skifte et reskaleringsskema ud med et andet, uden at det ændrer ved de essentielle konklusioner. Kravet er blot at det nye reskaleringsskema opfører sig ligesom det gamle for n. Hvis (A n ) n N og (B n ) n N er to reskaleringsskemaer, og hvis h n og h n er de to reskalerede konkordanskombinanter, så gælder der at h n (x,ξ)=h n (x,ψ + B 1 n ξ) h n (x,ψ ) = h n (x,ψ + A 1 n A n B 1 n ξ) h n (x,ψ ) = h n (x, A n B 1 n ξ) Det er derfor relevant med følgende definition: Definition 4.6 To følger af invertible, lineære afbildninger (A n ) n N og (B n ) n N pår d er asymptotisk ækvivalente hvis der findes en invertibel lineær afbildning C så A n B n 1 C for n. (4.7) Betingelsen for asymptotisk ækvivalens ser en smule asymmetrisk ud i de to følger af lineære afbildninger. Men man overbeviser sig let om at hvis (4.7) er opfyldt, så vil B n A 1 n C 1 for n. Så asymmetrien forsvinder når man ser efter, på grund af kravet om grænsen C skal være invertibel. Lemma 4.7 Lad (A n ) n N og (B n ) n N være to følger af invertible, lineære afbildninger pår d. Hvis de to følger er asymptotisk ækvivalente, så gælder der at lim A n 1 =0 n lim n B n 1 =0. BEVIS: Antag at A n B n 1 C og at A n 1 0 for n. I så fald vil B n 1 = A n 1 A n B n 1 A n 1 A n B n 1 0 for n, eftersom A n 1 0 og A n B n 1 C for n.
4.2. Behovet for regularitetsbetingelser 77 Lemma 4.8 Lad (A n ) n N og (B n ) n N være to følger af invertible, lineære afbildninger pår d. Hvis de to følger er asymptotisk ækvivalente, og den ene følge har begrænset distortion, så har den anden følge også begrænset distortion. BEVIS: Antag at A n B n 1 C og at A-skemaet har begrænset distortion. Vi har at B n B n 1 = B n A n 1 A n A n 1 A n B n 1 B n A n 1 A n A n 1 A n B n 1. Hvis A n B n 1 C og hvis A-skemaet har begrænset distortion, ser vi at lim sup n B n B 1 n ( C C 1 ) lim sup A n A 1 n. n Vi vil i det følgende adskillige steder påvise at det ikke fører til væsentlige ændringer hvis man erstatter ét reskaleringsskema med et andet, blot de er asymptotisk ækvivalente. For nogle formål man endda endnu friere mulighed for at skifte reskaleringsskemaer. 4.2 Behovet for regularitetsbetingelser Vi vil forsøge at genskabe miraklet fra eksempel 4.1 i en meget generel ramme. Det er derfor vigtigt at vende tilbage til eksemplet og forsøge at forstå hvad der egentlig skete. Den grundliggende ide var at et omhyggeligt valgt reskaleringsskema førte til en reskaleret konkordanskombinant, som vi stort set kunne opfatte som et konvekst andengradspolynomium. Argumentationen var baseret på tre fundamentale asymptotiske observationer: 1) I de reskalerede koordinater er den anden afledede af konkordanskombinanten, regnet ud i 0, stort set lig med en kendt, positiv konstant. 2) I de reskalerede koordinater er den anden afledede af konkordanskombinanten stort set konstant - i eksempel 4.1 bliver det formuleret på den måde at den tredie afledede er stort set nul, men pointen er at andenordens Taylorpolynomiet, udviklet om 0, skal være en god approksimation til konkordanskombinanten over et stort område.
78 Kapitel 4. Regularitetsbetingelserne 3) I de reskalerede koordinater er den første afledede af konkordanskombinanten, regnet ud i 0, stort set en stokastisk variabel med kendt fordeling. Betingelse 1) og 3) fortæller hvordan anden ordens Taylorpolynomiet for den reskalerede konkordanskombinant ser ud, når vi bruger 0 som udviklingspunkt. Og betingelse 2) sikrer at den reskalerede konkordanskombinant faktisk ligner dette andengradspolynomium over et stort område. Vi vil stille tre tekniske regularitetsbetingelser op, der i generelle modeller svarer til disse tre fundamentale observationer fra den simple model. Betingelserne er bestemt ikke nemme at gennemskue, og de er heller ikke helt lige til at checke efter i konkrete eksempler. Men de tillader os at erstatte analysen af den faktiske konkordanskombinant i en omegn af den sande parameter, med en analyse af et andengradspolynomium med stokastiske koefficienter. En pointe, der kun blev overfladisk berørt i eksempel 4.1 er at overensstemmelsen mellem den reskalerede konkordanskombinant og det fundne andengradspolynomium ikke er global. Vi kan måske bruge ordet semiglobal, for overensstemmelsen er god på store mængder - men der er ingen grund til at regne med at de to funktioner ligner hinanden helt ude i halerne. Når man analyserer andengradspolynomiet, kan det ske at dets minimum smutter uden for det område hvor polynomiet og konkordansfunktionen matcher hinanden, og så er det lidt svært at finde noget fornuftigt at konkludere om konkordansfunktionens opførsel. Der er således et vist arbejde forbundet med at styre andengradspolynomiets opførsel i relation til det område hvor andengradspolynomiet siger noget relevant. Og derfor tager den måde man opnår de endelige konklusioner ud fra regularitetsbetingelserne på, sig ganske teknisk ud. Detaljerne i denne fremgangsmåde tager vi os af i næste kapitel. 4.3 Valg af reskalering Den første regularitetsbetingelse er nok en betingelse på modellen, i den forstand at man kan forestille sig modeller, hvor betingelsen ikke er opfyldt. Men nok så meget er der tale om et kriterium for hvordan vi skal vælge reskaleringssekvensen. Denne sekvens indgår i de øvrige betingelser, og i argumentationen generelt, men den må jo komme et sted fra.
4.3. Valg af reskalering 79 Regularitetsbetingelse A Det skal være muligt at finde en reskaleringssekvens (A n ) n N så den tilhørende reskalerede konkordanskombinant h n opfylder at D 2 h n (X n, 0) P F for n, (4.8) for en passende symmetrisk og positivt definit bilineær afbildning F :R d R d R. Ofte vil vi have brug for at formulere os om F som en lineær afbildning: Det følger af afsnit 2.2.2 at der findes en lineær afbildning Q Lin ( R d,r d) sådan at F(ξ 1,ξ 2 )= ξ 1, Qξ 2 for alleξ 1,ξ 2 R d (4.9) Vi vil skifte frem og tilbage mellem en F-formulering og en Q-formulering, og vi vil som regel underforstå relationen (4.9) uden at gøre eksplicit opmærksom på den. Det er ikke helt let at forstå rækkevidden af regularitetsbetingelse A, for det meste foregår i det halvskjulte, dækket nødtørftigt af en notation, der prøver at få tingene til at se nemmere ud end de er. Principielt har vi kun behov for at betingelsen er opfyldt i den sande parameterθ. Udsagnet er i virkeligheden at P θ ( F n F >ǫ) 0 for n, (4.10) for alle ǫ > 0, hvor normstregerne betegner f.eks. operatornormen på rummet af bilinearformer, og hvor F n er den stokastiske bilinearform givet ved at F n (ξ 1,ξ 2 )=D 2 h n (X n,ψ ) (A n 1 ξ 1, A n 1 ξ 2 ) for alleξ 1,ξ 2 R d. (4.11) Her har vi brugt 2. ordens kædereglen til at udtrykke D 2 h n i termer af den oprindelige konkordanskombinant. Bemærk at måleligheden af F n følger af lemma 3.18. Men skønt vi kun har brug for betingelsen i den sande parameter, det vil sige den parameter, der genererer de data vi til syvende og sidst skal analysere, så er vi på dette trin af analysen helt uvidende om hvad denne parameter egentlig er. Og derfor er vi nødt til at checke efter at betingelsen er opfyldt for alle tænkelige værdier af den sande parameter. Regularitetsbetingelse A beskriver en modelegenskab, ikke en egenskab ved en konkret parameter. Det er på mange måder en mystisk sprogbrug: vi er nødt til at forestille os at den sande parameter kan ændres efter forgodtbefindende - den er ikke spor fast. På sin vis er der to parametre, der kan skrues på:θ og det deraf afledteψ, der bruger som udgangspunkt for sandsynlighedsudsagnene og som anker for konstruktionen af de
80 Kapitel 4. Regularitetsbetingelserne reskalerede konkordanskombinanter. Og ψ, der blot betegner det formelle argument i konkordanskombinanten, og derfor ikke betyder noget som helst. Risikoen for forveksling bliver forhåbentlig lidt mindre af at vi kalder det formelle argument i den reskalerede konkordanskombinant for ξ. Når vi påberåber os Regularitetsbetingelse A, så kræver vi i virkeligheden at betingelsen er opfyldt for alle tænkelige værdier af den sande parameter θ. Skruer vi på θ, så ændrer vi på det sandsynlighedsmål, vi bruger til at udtale os om konvergens i sandsynlighed. Vi ændrer også på definitionen af F n erne i (4.10), simpelthen fordi vi ser på en anden reskaleret kombinant. Det er meget vanskeligt at forestille sig at (4.10) i så fald kan opfyldes, hvis vi insisterer på at holde fast i den samme grænsebilinearform F for alle værdier atθ. Så vi accepterer at F et ændres medθ, uden at vi føler os tvunget til at lade det afspejle i notationen - vi kunne sætte et fodtegn på grænsebilinearformen, og tale om F θ, men det er vi helst fri for. For at det ikke skal være løgn må man også forestille sig at reskaleringsskemaet (A n ) n N afhænger afθ. I nogle modeller vil D 2 h n (X n,ψ) f.eks. være rent deterministisk. Hvis man kan finde en lineær afbildning A n så D 2 h n (X n,ψ ) (ψ 1,ψ 2 )= A n ψ 1, A n ψ 2 for alleψ 1,ψ 2 R d, så kan man bruge (A n ) n N som reskaleringsskema og smertefrit opnå at regularitetsbetingelse A er opfyldt med Q=I, eftersom F n (ξ 1,ξ 2 )= ξ 1,ξ 2 for alleξ 1 ogξ 2. I denne situation er F altså parameterfri, men A n er givetvis kraftigt afhængig afψ. Det centrale i regularitetsbetingelse A er at vi forlanger at reskaleringsskemaet vælget så der er en grænse F og at denne grænse er positivt definit. Disse to krav tilsammen lægger kraftige bånd på hvordan A n kan udvikle sig med n. Eksempel 4.9 I eksempel 4.1 benyttede vi standardskemaet A n ξ= nξ, hvilket førte til de reskalerede andenafledede h n (Y 1,...,Y n, 0)= 1 n l Y n i (θ ). Store tals lov sikrer at denne størrelse under P θ konvergerer i sandsynlighed mod i 1 (θ ), der under rimelige omstændigheder er strengt positiv. Den tilhørende bilinearform er naturligvis der er positivt definit når i 1 (θ )>0. (ξ 1,ξ 2 ) ξ 1 i 1 (θ )ξ 2 for alleξ 1,ξ 2 R,
4.3. Valg af reskalering 81 Havde vi benyttet et fundamentalt andet reskaleringsskema, var tingene næppe gået så glat. Hvis vi havde brugt A n ξ= 3 nξ så ville den reskalerede andenafledede være h n (Y 1,...,Y n ; 0)= 1 n 2/3 n l Y i (θ ), der - igen på grund af store tals lov - asymptotisk opfører sig som 3 n i 1 (θ ) og dermed ikke kan konvergere i sandsynlighed, medmindre der er eksotiske ting på spil 1 På den anden side, hvis vi havde brugt reskaleringsskemaet A n ξ=nξ, så ville den reskalerede andenafledede være h n (Y 1,...,Y n ; 0)= 1 n 2 n l Y i (θ ), der utvivlsomt konvergerer mod nul i sandsynlighed. Og dermed ryger den positive definithed af grænsebilinearformen. Disse eksempler viser at der ikke er megen frihed med hensyn til hvor hurtigt reskaleringsskemaet skal divergere, hvis Regularitetsbetingelse A skal være opfyldt. Men betingelsen fastlægger dog ikke reskaleringsskemaet entydigt - som vi så i eksempel 4.5 kan man sagtens erstatte standardskemaet med f.eks. A n θ=a nθ, eller for den sags skyld med et hvilket som helst andet reskaleringsskema der er asymptotisk ækvivalent med standardskemaet. Blot skal man være forberedt på at et sådant skifte fører til en anden grænsebilinearform. Som det fremgår af eksempel 4.9 repræsenterer reskaleringssekvensen (A n ) n N en løs ide om en hastighed, nærmere end noget helt velbestemt. Man kan undersøge om man kan få Teknisk Betingelse A opfyldt for to forskellige reskaleringsskemaer på én gang. Lad (A n ) n N og (B n ) n N være to reskaleringsskemaer, og se på de tilhørende reskalerede kombinanter h n og h n. Som tidligere bemærket er de forbundet med relationen h n (x,ξ)= h n (x, C n ξ), hvor C n = A n B n 1. Kædereglen for den to gange afledede giver at D 2 h n (x,ξ) (ξ 1,ξ 2 )=D 2 h n (x, C n ξ) (C n ξ 1, C n ξ 2 ) 1 Eksotisk betyder her at i 1 (θ)=0for alleθ
82 Kapitel 4. Regularitetsbetingelserne eftersom D 2 C n = 0. Specielt er D 2 h n (X n, 0) (ξ 1,ξ 2 )=D 2 h n (X n, 0) (C n ξ 1, C n ξ 2 ). Lemma 4.10 Antag at A n B n 1 C hvor C er invertibel, og antag at Da vil D 2 h n (X n, 0) P F D 2 h n (X n, 0) P G for n. for n, hvor G(ξ 1,ξ 2 )=F(Cξ 1, Cξ 2 ) for alleξ 1,ξ 2 R d. (4.12) BEVIS: For alleξ 1,ξ 2 R d har vi at D 2 h n (X n, 0) (ξ 1,ξ 2 ) G(ξ 1,ξ 2 ) D 2 h n (X n, 0) (C n ξ 1, C n ξ 2 ) F(C n ξ 1, C n ξ 2 ) + F(C n ξ 1, C n ξ 2 ) F(C n ξ 1, Cξ 2 ) + F(C n ξ 1, Cξ 2 ) F(Cξ 1, Cξ 2 ) D 2 h n (X n, 0) F C n 2 ξ 1 ξ 2 + F C n C n C ξ 1 ξ 2 + F C C n C ξ 1 ξ 2. Tages supremum overξ 1 ogξ 2 i enhedskuglen, ser vi at D 2 h n (X n, 0) G D 2 h n (X n, 0) F C n 2 + F C n C n C + F C C n C. De to sidste led er deterministiske, og konvergerer begge mod nul. Idet C n C vil første led gå mod nul i sandsynlighed. Konklusionen er derfor at D 2 h n (X n, 0) G P 0 for n, som ønsket. Bemærk at hvis F er symmetrisk og positivt definit, så er G defineret af (4.12) også symmetrisk og positivt definit. Vi kan således konkludere at hvis (A n ) n N er et reskaleringsskema, der passer ind i Regularitetsbetingelse A, og hvis (B n ) n N er et
4.4. Kontrol af restled 83 reskaleringsskema, der er asymptotisk ækvivalent med (A n ) n N, så vil (B n ) n N også passe ind i Regularitetsbetingelse A, dog med en anden grænsebilinearform. I langt de fleste modeller vil det omvendte også gælde: hvis de to reskaleringsskemaer (A n ) n N og (B n ) n N begge passer ind i Regularitetsbetingelse A (med hver sin grænsebilinearform), så vil de to reskaleringsskemaer være asymptotisk ækvivalente. Det ses for eksempel let at være tilfældet i eksempel 4.1. Den præcise betingelse for hvornår dette resultat er rigtig, er dog vanskelig at formulere (den har at gøre med hvordan F ændrer sig medθ ), og vi vil ikke forfølge spørgsmålet. 4.4 Kontrol af restled Når man studerer eksempel 4.1 får man det indtryk at den naturlige måde at kontrollere afstanden mellem den reskalerede kombinant og andenordens Taylorpolynomiet i 0 fås ved at lægge begrænsninger på den tredie afledede af loglikelihoodfunktionen. Det er for så vidt også rigtigt nok i én dimension. Men i flerdimensionale problemer vil man meget nødigt til at skulle finde den tredie afledede af konkordanskombinanten - det er slemt nok at være nødt til at finde den anden afledede. Derfor opstiller vi en betingelse, der eksplicit kontrollerer hvor meget den anden afledede af den reskalerede konkordanskombinant varierer. Betingelsen er effektiv i vores teoretiske ræsonementer. Til gengæld volder det ofte store kvaler at gøre for at den er opfyldt i praktiske eksempler - i mange tilfælde er der ikke nogen vej uden om de tredie afledede når det kommer til stykket. Lemma 4.11 For hvert c > 0 er størrelsen en reel stokastisk variabel. sup D 2 h n (X n,ξ) D 2 h n (X n, 0) (4.13) ξ: ξ <c BEVIS: For hvert fastξer D 2 h n (X n,ξ) målelig ifølge lemma 3.18. Det volder således ingen problemer at se at D 2 h n (X n,ξ) D 2 h n (X n, 0)
84 Kapitel 4. Regularitetsbetingelserne er en reel stokastisk variabel. Problemet med lemmaets påstand er udelukkende det overtællelige supremum i (4.13). Men det overtællelige supremum kan erstattes med et supremum over en tællelig tæt delmængde af B(0, c), fordiψ h n (x,ψ) er antaget at være C 2. Denne egenskab arves tilξ h n (x,ξ), og derfor erξ D 2 h n (x,ξ) kontinuert for hvert fast x. Regularitetsbetingelse B Modellen og reskaleringsskemaet skal opfylde at for alle c>0. sup D 2 h n (X n,ξ) D 2 h n (X n, 0) P 0 for n, (4.14) ξ: ξ <c Her underforstås igen det sandeθ : konvergens i sandsynlighed betyder med hensyn til P θ, hvorθ er den samme parameter der viaψ indgår i konstruktionen af h n. Og påstanden skal være opfyldt for samtlige mulige værdier afθ for at være nogen nytte til. Hvor Regularitetsbetingelse A angav ret restriktive bånd på reskaleringssekvensen (A n ) n N, der skulle gå mod uendelig i det helt rigtige tempo, så indebærer Regularitetsbetingelse B kun et krav om at A n går mod uendelig hurtigt nok. Hvis vi forsøger os med to reskaleringsskemaer som i (??), ser vi at D 2 h n (X n,ξ) (ξ 1,ξ 2 ) D 2 h n (X n, 0) (ξ 1,ξ 2 ) = D 2 h n (X n, C n ξ) (C n ξ 1, C n ξ 2 ) D 2 h n (X n, 0) (C n ξ 1, C n ξ 2 ) hvor C n = A n B n 1. Hvis vi forestiller os at C n er begrænset af K, så er sup D 2 h n (X n,ξ) D 2 h n (X n, 0) ξ: ξ <c sup D 2 h n (X n,ξ ) D 2 h n (X n, 0) K 2. ξ : ξ <ck Derfor ser vi at hvis A-skemaet opfylder Regularitetsbetingelse B, så vil B-skemaet også gøre det, blot A n B n 1 er begrænset. Specielt selvfølgelig hvis A- og B- skemaerne er asymptotisk ækvivalente, men meget mindre kan gøre det.
4.5. Kontrol af gradienten 85 4.5 Kontrol af gradienten Som beskrevet tidligere er ideen bag reskaleringen at den reskalerede kombinant essentielt er et andengradspolynomium hvor andengradsleddet er kendt, men hvor førstegradsledet er stokastisk. Vi vil sætte pris på at dette førstegradsled har en kendt fordeling, især vil vi sætte pris på at kunne sige at førstegradsledet er normalfordelt. For en umiddelbar betragtning er førstegradsledet en lineær afbildning. Og skønt man sagtens kan diskutere normalfordelinger på rum af lineære afbildninger, så bliver det mindre intuitivt end normalfordelinger på euklidiske rum. Man er nødt til at formulere sig i termer af centrum og præcision, men de fleste opfatter det som ulige meget nemmere at tale om middelværdi og varians. Så vi vælger at flytte problemstillingen til et euklidisk rum ved at fokusere på gradienten h n (x,ψ) fremfor på den første afledede Dh n (x,ψ). Som det fremgår af relationen (3.7) er de to begreber snævert knyttet sammen. Regularitetsbetingelse C Modellen og reskaleringsskemaet skal opfylde at de stokastiske variable h n (X n, 0) udgør en uniformt tight følge. Endnu en gang underforstår vi at at udsagnet gøres med hensyn til sandsynlighedsmålet P θ, hvorθ er den parameter, der indgår i konstruktionen af den reskalerede kombinant h n. Vi underforstår også at udsagnet skal være opfyldt for alle værdier af θ. Hvis vi skal pinde definition ud, så skal der for alleθ Θ og alleǫ> 0 findes et K så P θ ( h n (X n, 0) >K ) <ǫ for n=1, 2,... (4.15) For en række indledende armbøjninger har vi kun brug for at vide at det andengradspolynomium der approksimerer den reskalerede konkordanskombinant, har et førstegradsled, der ikke opfører sig ukontrollabelt. Og i den sammenhæng er Regularitetsbetingelse C kraftig nok. Men når finmekanikken skal i sving vil vi normalt kræve lidt mere. En naturlig styrkelse er: Regularitetsbetingelse C Modellen og reskaleringsskemaet skal opfylde at der findes en stokastisk variabel Z så h n (X n, 0) D Z for n.
86 Kapitel 4. Regularitetsbetingelserne Eftersom stokastiske variable, der konvergerer i fordeling, automatisk udgør en uniformt tight følge, er det klart at Regularitetsbetingelse C medfører Regularitetsbetingelse C. Skønt det ikke vil være et tema i disse noter, er der en række modeller hvor det er meget hensigtsmæssigt at tillade vilkårlige fordelinger af grænsevariablen. Men den typiske måde at vise Regularitetsbetingelse C på er at bruge en variant af CLT, og derfor er det gerne naturligt med endnu en styrkelse af betingelsen: Regularitetsbetingelse C Modellen og reskaleringsskemaet skal opfylde at der findes en variansmatrixσså h n (X n, 0) D N(0,Σ) for n. Hvis vi forsøger os med to reskaleringsskemaer som i (??), ser vi at D h n (x, 0) ξ=d h n (x, 0) C n ξ for alleξ R d, hvor C n = A n B 1 n. Eller om man vil h n (X n, 0),ξ = h n (X n, 0), C n ξ for alleξ R d. Heraf ses at h n (X n, 0)=C n h n (X n, 0). Hvis A-skemaet og B-skemaet er asymptotisk ækvivalente, altså hvis C n C for et passende invertibelt C, så aflæser vi heraf at hvis A-skemaet opfylder en af varianterne af Regularitetsbetingelse C, så vil B-skemaet opfylde den samme betingelse. Specielt er det relevant at bemærke at hvis A-skemaet opfylder Regularitetsbetingelse C, sådan at h n (X n, 0) N(0,Σ) D for n, så vil B-skemaet opfylde at h n (X n, 0) D N(0, C T ΣC) for n, (4.16) hvor vi for læseligheden skyld har erstattet forekomsten af den adjungerede lineære afbildning C med symbolet C T, der må forstås som transpositionen af den matrix, der repræsenterer C.
4.6. Sammenknytning af betingelserne 87 4.6 Sammenknytning af betingelserne Fisherinformationen i 1 (θ ) baseret på en enkelt observation spillede to forskellige roller i eksempel 4.1. På den ene side var det den størrelse, der fastlagde andengradsleddet i det polynomium, der approksimerer loglikelihoodfunktionen. På den anden side var det den størrelse, der bestemte variabiliteten af det stokastiske førstegradsled. Denne dobbelte betydning er et udtryk for den klassiske observation, at under rimelige betingelser er Fisherinformationen netop variansen af scorefunktionen regnet ud i den sande parameter. I vores nuværende abstrakte ramme svarer denne observation til følgende antagelse: Regularitetsbetingelse D Modellen og reskaleringsskemaet skal opfylde Regularitetsbetingelserne A og C. Ydermere skal bilinearformen F fra Regularitetsbetingelse A og variansmatricenσ fra Regularitetsbetingelse C være knyttet sammen af relationen F(ξ 1,ξ 2 )=ξ 1 T Σξ 2 for alleξ 1,ξ 2 R d. Hvis vi forsøger os med to reskaleringsskemaer som i (??), ser vi at hvis A-skemaet opfylder Regularitetsbetingelse D, og hvis A n B n 1 C, så vil B-skemaet opfylde Regularitetsbetingelse A med grænsebilinearformen G(ξ 1,ξ 2 )=F(Cξ 1, Cξ 2 )=(Cξ 1 ) T Σ (Cξ 2 )=ξ 1 T C T ΣCξ 2, og da C T ΣC ifølge (4.16) netop er den variansmatrix, der optræder i Regularitetsbetingelse C, når vi bruger B-skemaet, så må vi konstatere at B-skemaet også opfylder Regularitetsbetingelse D. Man kan altså ikke rigtig gøre noget for at få Regularitetsbetingelse D opfyldt: enten er betingelsen opfyldt - eller også er den det ikke. Det er en konstatering man må gøre, når man har kontrolleret de øvrige regularitetsbetingelser. Tilfældigvis er den opfyldt i mange tilfælde, skønt der ikke er skyggen af argument for at det burde forholde sig sådan i den generalitet vi arbejder i. I den asymptotiske estimationsteori spiller Regularitetsbetingelse D kun en mindre rolle. Hvis betingelsen er opfyldt, kan den asymptotiske fordeling af estimatorerne beskrives lidt simplere end hvis betingelsen ikke er opfyldt, men simplifikationen er
88 Kapitel 4. Regularitetsbetingelserne ikke af en karakter så den gør nogen væsentlig forskel. Anderledes forholder det sig i den asymptotiske testteori. Her er det forventede resultat at forskellige teststørrelser er asymptotiskχ 2 -fordelte med et antal frihedsgrader, der er dimensionstabet fra den fulde model til hypotesen. Sådan et resultat kan man kun få frem når Regularitetsbetingelse D er opfyldt.