I den generelle regressionsmodel med homogen støj har observationerne formen

Transkript

1 Kapitel 8 Regressionsmodeller Vi vil i dette kapitel diskutere eksempler på mere kompliceret modeller, med observationer, der nok er uahængige, men ikke identisk ordelte. I sådanne modeller kan der opstå et naturligt behov or reskaleringsskemaer, der er mere komplicerede end den sædvanlige n-skalering. 8. Ikke-lineær regression I den generelle regressionsmodel med homogen støj har observationerne ormen Y i = i (β+ǫ i or, 2,... (8. Her erβ R k en ukendt vektor a middelværdiparametre, ogǫ,ǫ 2,... er uahængige, identisk ordelte støjvariable med middelværdi (og et passende antal momenter. Funktionerne, 2,... antages kendte. Som regel er der til hver observation knyttet en vektor t a kovariater, og i erne er givet ved at i (β= (β, t i hvor er en unktion, der er ælles or alle observationerne. De lineære modeller remkommer hvis i (β= β, t i or, 2,... 39

2 4 Kapitel 8. Regressionsmodeller hvor t i er en kovariatvektor hørende til den i te observation. Men metamodellen (8. indeholder naturligvis mange andre modelklasser. For eksempel middelværdispeciikationer a ormen i (β=g ( β, t i or, 2,... hvor t i er en kovariatvektor hørende til den i te observation, og hvor g :R R er en såkaldt link unktion. I så ald bevæger vi os ind på området or generaliserede lineære modeller, ote orkortet GLM. Eksempel 8. Et vitterligt ikke-lineært eksempel er Michaelis-Menten unktionen ra enzymkinetik, i (α,β= β t i α+t i. (8.2 Her indgårβlineært, mensαindgår ikke-lineært. I anvendelser vil i repræsentere steady-state dannelseshastigheden a et kemisk produkt, når der i dannelsesreaktionen indgår en katalysator - altså et sto, der er nødvendigt or reaktionen, og som muligvis omdannes undervejs, men som ved reaktionens aslutning har samme orm som ved reaktionens begyndelse. I så ald vil produktionshastigheden ahænge dels a hvor meget katalysator, der er til stede - katalysatormængden udgør en slags laskehals or reaktionen. Og dels a hvor meget substrat der er til stede - substrat er betegnelsen or det sto, der omdannes til produkt i reaktionen. Michaelis-Menten unktionen beskriver produktionshastigheden som unktion a substratmængden t i, under antagelse a en ast mængde katalysator (proportional med parameteren β. Der er tale om en såkaldt steady state approksimation til den rigtige produktionshastighed, der kun svarer til virkeligheden i det omang produktionshastigheden er så lav at mængden a substrat essentielt ikke ændres. t Y t Y t Y Tabel 8.: Data ra et enzymkinetisk eksperiment. I hvert deleksperiment repræsenterer t en nøje avejet substratmængde, mens Y repræsenterer en eksperimentets respons: en målt produktionshastighed. Data er optegnet i igur 8..

3 8.. Ikke-lineær regression 4 Hastighed Substrat Figur 8.: Samhørende værdier a substratmængde og produktionshastighed ra tabel 8.. Der er også optegnet en estimeret Michaelis-Menten kurve, med ˆα=. og ˆβ=.7. Estimateterne er opnået ved at minimere den relevante version a (8.7 ved hjælp a en quasi-newton algoritme. I praksis kan det være lidt tvivlsomt at anvende (8. med Michaelis-Menten unktionen som regressionsunktion. Problemet er at der ote vil være variansheterogenitet: målinger med lave t-værdier vil have mindre varians end målinger med høje t-værdier. Man orsøger gerne at løse problemet ved at se på logaritmen a produktionshastighederne. Men det ører naturligvis til at man erstatter Michaelis-Menten unktionen med dens logaritme. Vi ved at or lineære modeller spilder designmatricen en stor rolle. Det er den n k matrix man år rem ved at samle kovariaterne or de n ørste observationer. Det viser sig at den såkaldte lokale designmatrix D (β=d n 2. n (β (8.3 i høj grad spiller den samme rolle i den generelle teori. Skriver man den lokale de-

4 42 Kapitel 8. Regressionsmodeller signmaterix ud i koordinater, ser man at D (β= n β 2 β 2. n β β 2... β k 2 β k β n β 2... n β k. For en lineær model er D n (β netop designmatricen. Vi kommer ote til at møde den lokale designmatrix i en lidt anderledes orm, nemlig via D n (β T D n (β. (8.4 Denne matrix er automatisk symmetrisk og positivt semideinit. En essentiel betingelse vil være at den er positivt deinit ra et vist trin, og dermed invertibel set som lineær abildning. Det er en ikke-trivialitetsbetingelse på de kovariater, der indgår i designet. Hvis man i praksis skal regne denne matrix ud, kan det være hensigstmæssigt at indøre notationen og observere at x y x y 2... x y k x x y= x y T 2 y x 2 y 2... x 2 y k = x k y x k y 2... x k y k D n (β T D n (β= or x, y R k (8.5 i (β i (β. (8.6 Rigtigheden a denne ormel indses ved at sammenligne matricerne på venstre og højre side og konstatere at de er ens koordinat or koordinat. Eksempel 8.2 Hvis vi ser på en simpel lineær regression a ormen i (α,β=α+β t i så er ( i (α,β= t i, i (α,β i (α,β= ( ti t i t 2 i Vi ser at i (α,β i (α,β har egenværdier +t 2 i og, og den er således positivt semi-deinit, men ikke positivt deinit. En egenvektor hørende til egenværdien er

5 8.. Ikke-lineær regression 43 ( ti. Det er klart at tager vi en sekvens t, t 2,... a kovariater, vil (8.4 være positivt deinit medmindre de enkelte matricers nul-rum er sammenaldende. Så medmindre alle kovariaterne er ens, vil vi å positiv deinithed når n 2. Eksempel 8.3 Hvis vi ser på en Michaelis-Menten model a ormen i (α,β= β t i α+t i så er i (α,β= βt i (α+t i 2 t i α+t i, i(α,β i (α,β= t 2 i (α+t i 2 β 2 β (α+t i 2 α+t i β α+t i β α+t i Vi ser at i (α,β i (α,β har egenværdier + β2 og, og den er således positivt (α+t i 2 ( semi-deinit, men ikke positivt deinit. En egenvektor hørende til egenværdien er. Det er klart at tager vi en sekvens t, t 2,... a kovariater, vil (8.4 være positivt deinit medmindre de enkelte matricers nul-rum er sammenaldende. Så medmindre alle kovariaterne er ens, vil vi å positiv deinithed når n 2. Foreløbig har vi ikke sagt noget om støjvariableneǫ,ǫ 2,... ud over at skal være iid og have middelværdi. Ote antager man at støjvariablene er normalordelte med ukendt varians. Vi har et højere ambitionsniveau, og vil gennemøre så meget som muligt a analysen uden at have en præcis beskrivelse a støjordelingen. Den ulde parameter involverer altsåβ R k og støjordelingen, men interesseparameteren er kunβ. Når vi skal opstille en konkordankombinant er det deror ristende at bruge h n (x,β= ( Yi i (β 2, (8.7 Hvisǫ i erne er normalordelt er h n ækvivalent med proilloglikelihoodunktionen or β, og den er således uomgængelig. Men også uden en normalordelingsantagelse giver h n god intuitiv mening. Det viser sig dog at der er aldgruber, når man orsøger at drage drage inerens omβ på denne baggrund. Selv i de lykkelige tilælde hvor man kan vise at M-estimatoren

6 44 Kapitel 8. Regressionsmodeller på baggrund a h n er asymptotisk normalordelt, så vil der i grænseordelingen optræde en skalaaktor som et udtryk or hvor stor støjen er - det kan vist ikke komme bag på nogen med eraring i lineære normale modeller. Denne skalaaktor er ukendt or os, og den har den orskellige beklagelige tekniske konsekvenser. For eksempel er regularitetsbetingelse D ikke er opyldt. Deror er deviancestørrelserne ikke asymptotiskχ 2 -ordelte, og testteknikkerne ungerer ikke uden videre. En ote brugt angrebsvinkel på dette problem er at producere en ekstern estimator a skalaaktoren, hvor vi med ekstern mener at estimatoren indes ved ad hoc metoder, nærmere end ved overvejelser om konkordanskombinanten. Hvis man kan producere en konsistent estimator a skalaaktoren, kan man ved håndkrat korrigere deviancestørrelserne, og dermed opnå teststørrelser der er asymptotiskχ 2 -ordelte. Vi vil i stedet inkludere skalaaktoren i interesseparameteren. Ikke ordi vi egentlig interesserer os or den, men ordi vi under alle omstændigheder er nødt til at sige noget om den. Vi antager deror atǫ i =σ U i hvor U, U 2,... er iid variable med middelværdi og varians. Vi betragter en udvidet interesseparameter a ormen (β,σ 2, og konkordanskombinanten h n (x,β,σ 2 = n 2 logσ2 + 2σ 2 ( Yi i (β 2. (8.8 Hvis U i erne er normalordelte er denne kombinant simpelthen loglikelihoodunktionen. I praksis er der meget lidt orskel på at arbejde med h n og h n: ved at gå rem som i den lineære normale model ser vi at man inder ˆβ n ved at minimere h n, og dereter sætte ˆ σ 2 = n ( Yi i (ˆβ n 2. (8.9 Problemet med den ukendte skalaparameter i den semi-parametriske ramme bliver or så vidt ikke løst på den denne måde - det bliver bare lyttet. I den asymptotiske normalordeling vil der nu indgå orskellige karakteristika or U-ordelingen, i særdeleshed κ 3 = E U 3 i, κ 4 = E U 4 i. Disse størrelser kan man så producere ad hoc estimatorer or. Men hvis vi er villige til at antage atκ 3 = (hvilket som regel ikke koster nogen tårer så skal vi se at man kan klare sig uden en ad hoc estimatorer orκ 4, så længe man indskrænker sig til at drage inerens om β. Det var jo det vi ville, så det kan næppe opattes som en alvorlig indskrænkning.

7 8.. Ikke-lineær regression 45 For at komme i gang med den asymptotiske analyse, må vi have at på et reskaleringsskema. Det viser sig at i denne sammenhæng er det rugtbart at vælge skemaet ud ra regularitetsbetingelse C, eller måske nærmere C. For at å mening i det, skal vi diskutere Hájeks CLT. Lemma 8.4 Lad Σ være en positivt deinit symmetrisk k k matrix. Da deinerer, givet ved A, B =Tr(AΣ B T or A, B M k et indre produkt påm k. BEVIS: Det er klart at den deinerede abildning er bilineær. Hvis vi lader e,...,e k være den kanoniske basis ir k ser vi at Hera ølger det at A, B = ( AΣB ii = AΣB e i, e i A, A = ΣA e i, A e i og da Σ er antaget at være positivt deinit, vil hver led i denne sum være ikke-negativt. Hvis summen er nul, må hver led være nul, det vil sige at A e i = or alle i. Men så må A være nulabildningen, og da må også A være nulmatricen. Vi ser umiddelbart ud ra lemma 8.4 at der or hver positivt deinit matrixσindes en konstant C= C Σ sådan at A 2 C Tr ( AΣ A T or alle A M k. (8. Her er A operatornormen påm k (eller en hvilken som helst anden norm, or den sags skyld. Husk at hvisσer en positivt deinit symmetrisk k k matrix, så har den en matrixkvadratrodσ /2, altså en ligeledes positivt deinit symmetrisk k k-matrix der opylder at Σ /2 Σ /2 =Σ. (8.

8 46 Kapitel 8. Regressionsmodeller Det er nemt at se atσ /2 må være injektiv som lineær abildning, og da matricen er kvadratisk må den oven i købet være invertibel. De inverse abildnig kaldesσ /2. Ved at gange relationen (8. ra højre og venstre medσ /2 år vi at Σ /2 ΣΣ /2 = I. (8.2 Sætning 8.5 (Hájek Lad Z, Z 2,... være iid variable med værdier ir k med 3. moment. Antag at E Z i = og at V Z i =Σ er positivt deinit. Lad D n være en ølge a m k matricer. Antag at n D i Σ D T i er positivt deinit ra et vist trin. Hvis /2 max,...,n D j Σ D T j D i or n (8.3 så vil j= D j Σ D T j j= /2 BEVIS: Vi ser på et trekantsskema (X nm hvor X nm = D j Σ D T j j= D i Z i D N(, I. /2 D m Z m Disse variable har alle middelværdi, og de har varians /2 V X nm = D j Σ D T j D m Σ D T m D j Σ D T j j= Deror er har rækkesummerne varians V X nm = D j Σ D T j m= j= /2 m= j= /2 D m Σ D T m D j Σ D T j j= /2 = I, iølge (8.2. Resultatet vil altså ølge, hvis vi kan vise at (X nm opylder Lyapounovs betingelse. Vi se at /2 3 /2 3 E m= D j ΣD T j D m Z m j= m= D j ΣD T j D m E Z m j= 3 /2 /2 2 max m=,...,n D j ΣD T j D m D j ΣD T j D m E Z 3 j= m= j=

9 8.. Ikke-lineær regression 47 Den ørste maksimumsaktor går mod nul per antagelse, og E Z 3 er konstant. Så hele udtrykket vil gå mod nul, hvis summen holder sig begrænset. Ved at bruge (8. ser vi at /2 2 /2 m= D j ΣD T j D m C Tr j= /2 D j ΣD T j D m ΣD T m D j ΣD T j m= j= j= = CTr D j ΣD T j /2 /2 D j ΣD T j D j ΣD T j j= = CTr(I=mC Den praktiske måde at etervise (8.3 på, ser som regel at udnytte at det or operatornormen gælder at B T B = B 2. Deror kan vi lige så godt vise at max D j ΣD T j D i or n (8.4,...,n DT i j= hvorved vi slipper uden om at inde matrixkvadratroden eksplicit. Lad os nu vende tilbage til analysen a konkordanskombinanten (8.8. Vi ser at j= j= h n β j = 2σ 2 2(Y i i (β i(β β j, h n σ 2=n 2 σ 2 2σ 4 ( Yi i (β 2, Deror kan vi stille h n op på blokorm som σ h n (X n,β= 2 i (β Der gælder at og at V E 2σ 4 Y i i (β ( Yi i (β 2 σ 2 = Y i i (β ( Yi i (β 2 σ 2 =Σ= Y i i (β ( Yi i (β 2 σ 2 σ 2 σ 3 κ 3 σ 3 κ 3 σ 4 (κ 4.

10 48 Kapitel 8. Regressionsmodeller Hvis vi vælger det parameterahængige reskaleringsskema σ A n = 2 i (β σ 2 σ 3 κ 3 σ 3 κ 3 σ 4 (κ 4 2σ 4 ser vi ra Hájeks sætning at σ 2 i (β 2σ 4 T /2 A n h n (X n,β N(, D I hvis vi kan gøre rede or at A n er invertibel ra et vist trin og or at den relevante version a betingelse (8.3 er opyldt. Det er svært at regne på A n helt generelt, så vi antager remover atκ 3 =. I så ald reducerer udtrykket til A n = Hermed antager (8.4 ølgende orm: max m=,...,n σ 2 n i (β i (β n (κ 4 4σ 4 σ 2 m (β T( n i (β i (β m (β /2 n σ 2 (κ 4 (8.5 Den nederste diagonalkoordinat volder ingen problemer, or den går a sig selv mod nul. Og ved at udnytte at operatornormen er ækvivialent med spornormen, simpliicerer betingelsen til max m=,...,n m(β T i (β i (β m (β (8.6 Om denne betingelse er opyldt eller ej, må man undersøge i hvert konkret tilælde or sig. Det er muligt at overtræde betingelsen, selv or lineære modeller. Eksempel 8.6 Lad os undersøge hvordan betingelse (8.6 tager sig ud i klassisk simpel lineær regression, hvor i (α,β=α+β t i or en skalar kovariat t i. Vi ser at ( ( ti i (α,β=, i (α,β i (α,β= t i t i t 2 i

11 8.. Ikke-lineær regression 49 og dermed ( n Sn i (α,β i (α,β=, S n SS n hvor vi har brugt de sædvanlige orkortelser. Vi har således at ( SSn S i (α,β i (α,β = n nssd n S n n og dermed at m (α,β T i (α,β i (α,β = nssd n (t i t m 2 = Hájeks betingelse blive i dette tilælde altså til m (α,β= nssd n (SS 2t m S+n t m 2 (SSD n + n(t m t n 2 = nssd n n + (t m t n 2 SSD n (t m t n 2 max m=,...,n SSD n Denne betingelse er opyldt i alle rimelige tilælde, men den bryder sammen hvis kovariaterne koncentreres or kratigt -.eks. vil t n = n or alle n øre til at SSD n er begrænset - og hvis kovariaterne vokser hysterisk -.eks. vil t n = n! or alle n ikke opylde betingelsen. For at opsummere de hidtidige regninger kan vi sige at hvis betingelse (8.6 er opyldt, så vil reskaleringsskemaet (8.5 øre til at h n (X n, D N(, I og regularitetsbetingelse C er således opyldt. Hvis vi kan antage at støjvariablene er normalordelte, behøver vi ikke engang betingelse (8.6, or i det tilælde vil h n (X n, simpelthen være standard normalordelt or alle n. Lad os vende os mod regularitetsbetingelse A. Vi inder de partielle aledede, 2 h n β j β k = σ 2 i (β i (β ( Y i i (β 2 i (β β j β k β j β k

12 5 Kapitel 8. Regressionsmodeller og 2 h n β j σ 2= σ 4 (Y i i (β i(β β j, 2 h n n ( σ 2 2= 2σ 4+ σ 6 (Y i i (β 2 Dermed kan vi opstille D 2 h n (X n,β,σ 2 i blokorm, n σ 2 i (β i (β ( Y i i (β D 2 i (β n ( Yi σ 4 i (β i (β Vi udregner ( σ 4 n ( Yi i (β i (β T n 2σ 4 + σ 6 n (Y i i (β 2 D 2 h n (X n,, =A n D 2 h n (X n,β,σ 2 A n = ( Ω n Ω 2 n Ω 2 n Ω 22 n idet vi udnytter at A n iølge (8.5 er symmetrisk. Vi har skrevet den op på anonym blokorm, ordi udtrykkene er or lange til at den ulde matrix kan stå på en enkelt linie. Ganger man ud, ser man at Ω n = i (β i (β + i (β i (β = I+ i (β i (β /2 /2 /2 i (β i (β i (β i (β ( Yi i (β /2 D 2 i (β i (β i (β ( Yi i (β D 2 i (β i (β i (β /2 Det er overhovedet ikke klart om det konvergerer eller ej, så det vil vi antage os ud a. Hvis vi antager at i (β i (β ( /2 Yi i (β P D 2 i (β i (β i (β /2 (8.7 så vil Ω n P I, Nogle gange kan (8.7 etervises elementært ved hjælp a Chebyshevs ulighed, men ote må man ud i mere komplicerede argumenter hvor man viser næsten sikker konvergens mod ved hjælp at Kroneckers lemma. /2

13 8.. Ikke-lineær regression 5 De øvrige blokke er nemmere at håndtere. Iølge store tals lov har vi at Ω 22 n = 4σ 4 n (κ 4 n 2σ 4+ σ 6 (Y i i (β 2 = 2 κ ( Yi (κ 4 σ 2 i (β 2 n Og Ω 2 n = σ n.s. 2 κ (κ 4 σ 2σ2 = i (β i (β /2 2 κ 4 2 ( Y i i (β n (κ4 i(β Det er let at se atω 2 n er en stokastisk vektor med middelværdi EΩ 2 n =, og variansmatrix VΩ 2 n = 4 κ 4 n I Lemma 8.7 Lad Z være en stokastisk variable med værdier ir k. Lad E Z= og V Z=Σ. For alleǫ> er P( Z ǫ Tr(Σ ǫ 2. BEVIS: Lad Z= (Z,...,Z k. Vi har ud ra Markovs ulighed at P( Z ǫ=p(z ,Z2 k ǫ2 E Z2 +...Z2 k ǫ 2 = Σ +...+Σ kk ǫ 2 Det ølger oplagt herudra at hvis Z, Z 2,... er stokastiske variable med værdier ir k og middelværdi, så vil Z n P hvis V Zn. Det kan bruges direkte påω 2 n oroven. Så vi konkluderer: under antagelse a (8.7 vil der gælde at ( D 2 h n (X n,, P I 2, (8.8 κ 4

14 52 Kapitel 8. Regressionsmodeller det vil sige at regularitetsbetingelse A opyldt. Det er på ingen måde klart om (8.7 er opyldt eller ej. Betingelsen er naturligvis opyldt i det lineære tilælde, or der er D 2 i (β = or alle i. Men i det ikke-lineære tilælde kan betingelsen volde problemer. Eksempel 8.8 Hvis k=, således atβer en skalar, kan (8.7 skrives på en marginalt mere læselig orm som n i (β ( Y i i (β n i (β 2 P Vi ser a Chebyshevs ulighed at betingelsen er opyldt hvis i (β 2 ( n 2 2 Hvis vi.eks. har at i (β <b or alle i, og at i (β >a> or alle i, så er i (β 2 ( n 2 2 n b 2 b2 (n a 2 2= a 4 n som ønsket. Som man kunne orvente det, er regularitetsbetingelse B svær at å sagt noget om i denne generalitet, ikke mindst ordi reskaleringsskemaet er angivet på en temmelig uhåndterlig orm. Vi nøjes med at regne på tilældet med k=, hvor problemerne med matrixkvadratrødder i det mindste orsvinder. Som i eksempel 8.8 vil vi arbejde under antagelse a at i (β <b or alle i, og at >a> or alle i. Vi skal da vise at sup a n (β β <c or alle c>. Bemærk at h n (β= σ 2 h n (β h σ 2 a n 2 n (β i (β2 + σ 2 P ( Yi i (β i (β, or n, ( i (β i (β i (β

15 8.. Ikke-lineær regression 53 hvor vi har sørget or at den stokastiske del har middelværdi. For astβhar vi at E β (( Yi i (β i (β 2 i σ 2 b 2 i 2 <. Et klassisk resultat om summer a uahængige stokastiske variable giver deror at ( Yi i (β i (β i er næsten sikkert konvergent under P β. Og videre sikrer Kroneckers lemma at n ( Yi i (β i (β n.s. or n. Analogt med beviset or den uniorme SLLN, sætning 7.3, kan man udstrække argumentet til at give at sup ( Yi i (β i (β n.s. n or n, β β <δ or hvert ast δ. Det kræver lidt arbejde, med udtynding a åbne overdækninger etc, og vi springer detaljerne over. Men vi ser at når c/a n <δså er sup ( Yi a n (β β <c a 2 i (β i (β n = sup a n (β β <c n ( Yi i (β i (β n n 2 sup β β <δ n ( Yi i (β i (β n.s.. Dermed reducerer problemet med Regularitetsbetingelse B til at vise at sup a n (β β <c n i (β2 2 n ( i (β i (β i (β n 2 + n 2. Det er et rent deterministisk problem - al stokastik er væk. Bemærk at i (β i (β = i (β (β β + 2 i (η i (β β 2, a 2

16 54 Kapitel 8. Regressionsmodeller or et passende mellempunktη i. Dermed giver Cauchy-Schwarz ulighed at n ( i (β i (β i (β n 2 n = i (β i (β n 2 (β β + n i (η i i (β 2 n 2 (β β 2 ( n i (β 2 /2 (nb 2 /2 n 2 β β + n b 2 2 n 2 (β β 2. Vi ser således at n ( i (β sup i (β i (β a n (β β <c n 2 a n n b a 2 n c + n b 2 a n 2 a 2 n hvor vi har udnyttet at n a n 2 a 2. Stort set samme teknik vil vise at sup a n (β β <c n i (β2 2 n 2, c 2 a n 2, og vi har deror påvist at Regularitetsbetingelse B er opyldt under betingelserne ra eksempel 8.8. Man kan på tilsvarende vis kontrollere at betingelsen er opyldt or en række lerdimensionale middelværdispeciikationer,.eks. Michaelis-Menten modellen ra eksempel 8. hvis blot kovariaterne ikke koncentreres alt or voldsomt og er begrænset væk ra nul. Vi observerer at regularitetsbetingelse D er opyldt hvis og kun hvisκ 4 = 3. Det er opyldt hvis U i erne er normalordelte, så vi har nu et uldt unktionelt inerensapparat or ikke-lineær regression med homogene normalordelte ejl: vi kan konstruere test ud ra deviancestørrelser, der er asymptotiskχ 2 -ordelte. Men vi har jo gjort en dyd ud a ikke at antage normalordelte ejl. Og deror er der ingen grund til at tro at regularitetsbetingelse D er opyldt. Men det viser sig at være irrelevant, så længe vi kun diskuterer hypoteser om β. Bemærk at betingelserne i lemma 6.22 er opyldt, så vi har (6.5 til rådighed. Kernepunktet i beviset or at at den lokale deviancestørrelser er asymptotiskχ 2 -ordelt er en observation om de størrelser, der indgår i (6.5: at den lineære abildning H(H T QH H T Q er projektionen ned

17 8.. Ikke-lineær regression 55 på underrummet rembragt a H med hensyn til præcisionen a den stokastiske variabel Q Z. Det er trivielt rigtigt under regularitetsbetingelse D, or der har Z varians A, så Q Z har varians Q opg dermed præcision Q. I vores tilælde uden regularitetsbetingeselse D er Z standard normalordelt i stedet or at have varians Q. Vi ser at variansen a Q Z er Q 2, så præcisionen er givet ved Q 2. Hvis vi kan vise at H(H T QH H T Q=H(H T Q 2 H H T Q 2, (8.9 så kan vi erstatte (6.5 med en ormel, der uden videre giver (6.6 og dermed kan den asymptotiskeχ 2 -ordeling a den lokale deviancestørrelse opretholdes. Eksempel 8.9 Lad os se på regressionsmodellen med middeværdistruktur beskrevet ved Michelis-Menten unktionen (8.2, og lad os undersøge hypotesen om at α har en på orhånd kendt værdiα. Under hypotesen har vi altså middelværdistrukturen g i (β= β t i α + t i. Hypotesen kan beskrives som en parametriset mangoldighed ved hjælp a indlejringenγ :R 2 R 3 givet ved ( α β γ σ 2 = β σ 2 Specielt er ( β Dγ σ 2 = Uden or hypotesen bruger vi reskaleringsskemaet A n =. σ 2 n i (α,β i (α,β n (κ 4 4σ 4 hvor den centrale komponent i i er en 2 2 matrix. Under hypotesen bruger reskaleringsskemaet B n = σ 2 n g i (β g i (β n (κ 4 4σ 4 /2 /2

18 56 Kapitel 8. Regressionsmodeller hvor den centrale komponent g i g i er en matrix, det vil sig et reelt tal. Vi ser at n i i A n Dγ(β,σ 2 B n = n g i g i, hvor øverste venstre hjørne er en kompliceret udseende 2 matrix. Vi vil ikke her diskutere om regularitetsbetingelse E er opyldt, men vi ser at hvis A n Dγ B n H, så må H have ormen h H= h 2. Med et H a denne orm, og med Q ra (8.8 kan man nu kontrollere (8.9 ved simpelthen at regne venstre og højre side ud. Man inder at h 2 h h 2 h 2 H(H T QH H T +h2 h 2 2 +h2 2 Q= h h 2 h 2 h 2 2 +h2 h 2 2 +h2 2 og præcis samme ormel dukker op når man regner højre side ud (hvilket man kan gætte på orhånd, ordi den eneste måde Q og Q 2 aviger ra hinanden på, er ved hvordanκ 4 indgår, ogκ 4 orsvinder i ovenstående matrixprodukt. Regningerne i eksempel 8.9 bruger ikke Michaelis-Menten speciikationen til noget som helst. Når man orstår hvad der oregår i eksemplet, er det klart at man helt generelt ved glatte hypoteser omβa ormenβ=ρ(ζ ser at regularitetsantagelse E kun kan være opyldt med et H med blokstruktur ( G H= or en passende matrix G. Regning med blokmatricer ører til samme konklusion som i eksemplet:κ 4 indgår ikke produktet H(H T QH H T Q, og deror er (8.9 opyldt. Tilbage står selvølgelig spørgsmålet om hvorvidt regularitetsbetingelse E aktisk er opyldt. Det er der desværre ikke nogen garanti or, men det er på sin vis lige meget. Konklusionen om at D n kovergergerer svagt mod enχ 2 -ordeling kan i hvert ald opretholdes langs enhver delølge hvor A n Dγ B n aktisk er konvergent. Men etersom grænseordelingen er den samme or alle delølger, vil et udtyndingsargument vise at den svage konvergens må gælde or den ulde D n -ølge.

19 8.2. Poissonregression Poissonregression Poissonregressionsmodeller er modeller or stokastiske variable Y, Y 2,... der er u- ahængige og Poissonordelte med hver sin middelværdi. Typisk ahænger middelværdien a en eller lere kovariater, og den sædvanlige antagelse er at logaritmen a middelværdien er en lineær kombination a disse kovariater. Den model, der i denne ramme svarer til sædvanlig lineær regression, er altså EY n = e α+β t n or n=, 2,... (8.2 Vi vil undersøge (8.2 or et helt specielt valg a kovariater, nemlig t n = n or alle n. Dette valg a kovariater svarer næppe til nogen realistisk målesituation - det ører til en målingseksplosion når n vokser, og der er næppe noget ysisk måleapparat, der vil være i stand til at ølge med ret langt. Det orekommer nok en kende spekulativt at analysere et praktisk eksperiment, hvor man jo kun har endeligt mange kovariater, under den orudsætning at hvis man skulle tage lere målinger, så ville man indstille apparaturet mere og mere orrykt. Men kovariaterne t n = n illustrerer i dette eksempel på ret dramatisk vis hvad der kan ske med den asymptotiske analyse, når enkeltmålingerne har meget orskelligt inormationsindhold. Vi inder på baggrund a observationen X n = (Y,...,Y n likelihoodunktionen L n (α,β= ( n e α+β i Y i Y i! n e eα+β i = eα Y i +β n i Y i n e n e α+β i, Y i! hvora vi ser at der or hvert ast n er tale om en eksponentiel amilie med kanonisk stikprøveunktion ( n Y i, n i Y i. Når det er en eksponentiel amilie, så ved vi uden at behøve at regne at de to Bartlett-identiteter er opyldt, at D 2 l n er en deterministisk unktion, hvor observationerne Y,...,Y n slet ikke indgår, og at D 2 l n er positivt semideinit. Vi ved også at hvis vi kan å regularitetsbetingelserne opyldt, så er der en uproblematisk kobling mellem den lokale og den globale M-estimator. Der er deror en ret oplagt strategi til at undersøge om regularitetsbetingelserne er opyldt: Hvis vi kan vise at D 2 l n er positivt deinit så kan vi bruge reskaleringsskemaet ( D 2 l n /2 - det vil øre til at regularitetsbetingelse A er opyldt med F = I. Det er muligvis ikke helt klart at (4. er opyldt, så det må vi vel også checke eter undervejs. Dernæst ølger det på grund a Bartlett-identiteterne at E l n (X n,α,β =, V l n (X n,α,β =I.

20 58 Kapitel 8. Regressionsmodeller Hvis vi kan vise at l n (X n,α,β konvergerer mod en normalordeling (hvilket ikke nødvendigvis er trivielt vil det være meget orbløende om ikke denne normalordeling netop ern(, I. I så ald er regularitetsbetingelse C og D opyldt. Tilbage står det sædvanlige problem med at undersøge regularitetsbetingelse B. Vi ser at loglikelihoodunktion er l n (α,β= α Y i β Det ører til de partielle aledede og dermed l n (α,β α = l n (α.β= Endvidere er 2 l n (α,β α 2 = Y i + ( Yi e α+β i, i Y i i Y i + e α+β i, ( e α+β i i e α+β i 2 l n (α,β α β = e α+β i + l n (α,β β = i e α+β i, = ( i log Y i!. iy i + i e α+β i. (Yi e α+β i, (8.2 2 l n (α,β β 2 = der er deterministisk, som tidligere bemærket. Lad os erindre om ormlerne x k = ( x, k= k x k = x ( x 2, k= i 2 e α+β i, k 2 x k = x (+ x ( x 3, der alle gælder or x <. Den ørste a disse ormler er utvivlsomt velkendt, de to øvrige kan opnås ud ra den ørste ved ledvis dierentation (og lidt ingerærdig manipulation. Formlerme tillader os at styre den anden aledede a likelihoodunktionen. Lad os indøre de treβ-ahængige ølger n γ n = e β j, γ 2n = j= n j= k= j e β j, γ 3n = n j= j 2 e β j. Det ølger a potensrækkeormlerne at orβ> er de tre ølger konvergente med ( lim γ n= n e β, lim γ e β 2n= n ( e β 2, limγ 3n= e β +e β n ( e β. 3

21 8.2. Poissonregression 59 Vi kan udtrykke D 2 l n ved hjælp aγ-ølgerne. Vi har at 2 l n (α,β α 2 n = e α+β n e β (n i = e α+β n e β j = e α+β n γ n. j= Tilsvarende har vi at 2 l n (α,β α β n = e α+β n i e β (n i = e α+β n (n j e β j n = e α+β n n j= = e α+β n (nγ n γ 2n, j= n e β j j e β j j= og vi har at 2 l n (α,β β 2 n = e α+β n i 2 e β (n i = e α+β n (n j 2 e β j j= n n n = e α+β n n2 e β j 2n e β j + j 2 e β j j= j= = e α+β n( n 2 γ n 2nγ 2n +γ 3n. j= Det ølger a disse regninger at D 2 l n (α,β=e α+β n γ n nγ n γ 2n nγ n γ 2n n 2 γ n 2nγ 2n +γ 3n. Vi ser hvisβ> så vil γ n nγ n γ 2n det nγ n γ 2n n 2 γ n 2nγ 2n +γ 3n = n2 γ n 2nγ n γ 2n +γ n γ 3n ( nγn 2 +γ 2n 2 =γ n γ 3n γ2n 2 ( e β e β 4. Det viser at D 2 l n er invertibel (og dermed strengt positivt deinit ra et vist trin når β>. Det er muligt at undgå grænseargumentet og vise atγ n γ 3n γ2n 2 > or alle n, men det bliver lidt rodet.

22 6 Kapitel 8. Regressionsmodeller Første trin i vores strategi er således på plads, og vi vil orsøge os med reskaleringsskemaet A n = ( D 2 l n (α,β /2. (8.22 Lad os vise at dette skema opylder (4.. Da D 2 l n er symmetrisk, er A n også symmetrisk. Dermed er A n symmetrisk, og iølge (2.4 er A 2 ( n = D 2 l n (α,β = e γ (α+β n n nγ n γ 2n nγ n γ 2n n 2 γ n 2nγ 2n +γ 3n e (α+β n = n 2 γ n 2nγ 2n +γ 3n nγ n +γ 2n γ n γ 3n γ2n 2 nγ n +γ 2n γ n Den sidste matrix har koordinater der højst vokser som et andengradspolynomium i n, og deror kan operatornormen højst vokse med denne hastighed. Faktoren ude oran år med sikkerhed det samlede udtryk til at gå mod nul, og dermed er (4. opyldt orβ>. Det er ikke helt nemt at argumentere or at l n (α,β er asymptotisk normalordelt. De sædvanlige argumenter ville gå ud på at sikre at enkelt-bidragene i summen (8.2 hver or sig er små, men i dette tilælde er n-leddet aktisk a samme størrelsesorden som hele summen. Redningen er at Y n som Poissonordelt variabel med stor parameter selv er stort set normalordelt. Poissonordelingerne udgør jo en oldningssemigruppe, så vi kan skrive hvert Y i som en sum a et megt stort antal Poissonordelinger med parameter. Gør man det, og indsætter i (8.2, kan man se at hvert led i den sum er orsvindende i orhold til summen, og man kan bruge Lyapounovs sætning til at vise at ( D 2 l n (α,β /2 ln (α,β konvergerer modn(, I hvisβ> - man går rem stort set som i beviset or Hájeks CLT. Nu har vi alle regularitetsbetingelserne pånær B opyldt. Til gengæld er det stort set umuligt at gøre noget ved B, så længe reskaleringsskemaet er så ukonkret som ( udtrykket involverer en matrixkvadratrod, som vi næppe kan inde eksplicit. Så deror vil vi gerne erstatte reskaleringsskemaet med et, der egner sig bedre til konkrete regninger. Et kvaliiceret bud på et brugbart skema kunne være ( B n = e β n/2 n.

23 8.2. Poissonregression 6 Denne normering ville øre til at D 2 l n (, = ( B T n D 2 l(α,β B n ( γ n nγ n γ 2n = e α n nγ n γ 2n n 2 γ n 2nγ 2n +γ 3n γ n γ n = e α n γ 2n γ n n γ 2n γ n 2 n γ 2n+ γ. n 2 3n ( n Hera alæses let at D 2 l n (, e α e β ( or n. Og alt ser således strålende ud - indtil man opdager at grænsematricen ikke er positivt deinit: de to søjler er lineært ahængige. Så (B n -sekvensen ører til reskalerede kombinanter, der ikke opylder regularitetsbetingelse A. En væsentlig mindre oplagt ide er at bruge reskaleringsskemaet ( C n = e β n/2 n. Vi har at ( C n = e β n/2 n, ( ( T Cn = e β n/2 n. Og dermed vil den reskalerede loglikelihoodunktion å anden aledet D 2 l n (, = ( C T n D 2 l(α,β C n ( ( γ n nγ n γ 2n n = e α n nγ n γ 2n n 2 γ n 2nγ 2n +γ 3n γ n γ 2n = e α γ 2n γ 3n ( e β e e β ( e β 2 α e β ( e β 2 e β ( +e β ( e β 3.

24 62 Kapitel 8. Regressionsmodeller Grænsematricen er symmetrisk, med determinant e 2α e β ( +e β ( e β 4 e 2α e 2β ( e β 4 = e 2α e β ( e β 4, der ses at være skarpt positiv. Da diagonalelementerne er positive, ser vi også at grænsen har positivt spor. Hera ølger at begge egenværdier er strengt positive. Altså er denne grænsematrix positivt deinit! Med lidt arbejde kan man overøre de øvrige regularitetsbetingelser ra (A n -skemaet til (C n -skemaet. Vi vil ikke gå i detaljer med det her, ligesom vi ikke vil orsøge at bevise at regularitetsbetingelse B er opyldt med (C n -skemaet - det er det, men det er ikke specielt nemt at å regningerne til at gå op. Når vi springer disse regninger over, er det ordi pointen med eksemplet ikke så meget er at regularitetsbetingelserne er opyldt - det er i stedet en illustration a at ret komplekse reskaleringsskemaer kan være nødvendige. I den indledende gennemgang a den asymptotiske teori okuserede vi udelukkende på n-reskalering. Det er også uldt tilstrækkeligt or iid-modeller, men det er ikke altid det rigtige når enkeltobservationerne har varierende ordeling. Vi har set en række regressionsmodeller, hvor den oplagte reskalering involverer kovariaterne, og også ote den sande parameter. Det er dog ikke nødvendigvis anderledes end den simple n-reskalering. Ote giver det god mening at orestille sig at kovariaterne til de enkelte observationer er tilældige - at der er tale om iid observationer ra en kovariatordeling. Kovariatordelingen er i så ald en del a den ulde speciikation a modellen, men den er ikke inkluderet i interesseparameteren. Hvis denne orestilling giver mening, så kan store tals lov som regel bruges til at vise at det kovariatahængige reskaleringsskema er asymptotisk ækvivalent med et n-skema. Og det betyder at de indviklede reskaleringsskemaer blot er et teknisk hjælpemiddel. Men hvis kovariaterne ikke kan opattes som tilældige, kan man å situationer rem hvor n-skalering ikke slår til, og det er sådan et eksempel vi har set på her. Det naturlige reskaleringsskema (8.22, baseret på overvejelser om eksponentielle amilier, kan ganske vist erstattes a simplere skemaer. Men så simple kan disse skemaer nu ikke gøres. En ting er at n-skalering er helt irrelevant - det skyldes den eksplosive opørsel a kovariaterne. Men man kan heller ikke bruge et andet isotropt skema, det vil sige et skema a ormen D n = d n I hvor (d n er en reel talølge. Et isotropt skema behandler alle retninger ens, men i dette tilælde må man nødvendigvis bruge orskellige skaleringer i orskellige retninger. Og or at gøre det endnu være: Man kan ikke bruge et reskaleringsskema bestående a diagonalmatricer. Forsøger man det, vil

25 8.2. Poissonregression 63 man se samme deekt som vi observerede med (B n -skemaet - det kan godt være at man kan å konvergens a D 2 l n mod en grænsematrix, men grænsematricen vil ikke være positivt deinit. Man er nødt til at skulle ud i ikke-diagonale skemaer or at der er håb om at regularitetsbetingelserne kan være opyldt. Lad os slutte a med kort at diskutere hvad der sker hvisβ<, or så er sagen i virkeligheden endnu værre end hvad ovenstående diskussion lader ane. Middelværdisætningen ortæller at e x x (, e or x (,. Hvisβ<, så vil e α+β n (, når n er større end et passende n. Dermed er n=n P(Y n = ( e e α+β n < e α+β n+ <. n=n n=n Borel-Cantellis lemma ortæller at Y n = ra et vist trin. Eter det trin år vi simpelthen ingen inormation om noget som helst, og slet ikke omαogβ. Deror er maksimaliseringsestimatoren ikke konsistent (det er der or den sags skyld heller ikke andre estimatorer, der er. Konklusionen er at regularitetsbetingelserne umuligt kan være opyldt, uanset hvilket reskaleringsskema vi orsøger os med.