Dette notat om overspredning er tnkt som supplement til Sren Andersen: Statistisk analyse

Transkript

1 Analyse af tlledata, efterar 1992, Henrik Stryhn. Overspredning (i logistisk regression) Dette notat om overspredning er tnkt som supplement til Sren Andersen: Statistisk analyse af tlledata, og indeholder en beskrivelse af dels selve problemstillingen (afsnit 1) og dels en simpel approksimativ metode til korrektion for overspredning (afsnit 2). Endelig prsenteres i afsnit 3 ganske kort to hyppigt anvendte statistiske modeller for overspredning. En mere detaljeret oversigt er givet i Cox & Snell (1989), mens diskussionen i Dean (1992) er centreret omkring tests for overspredning. 1. Introduktion Betegnelsen 'overspredning' refererer til, at variabiliteten i et datast er strre, end man skulle forvente ud fra den statistiske model, her en binomialfordelingsmodel. (Den modsatte situation, at variabiliteten er mindre end forventet, underspredning, er ogsa mulig, men forekommer ikke sa ofte i praksis.) Betragt en logistisk regressionsmodel og en gruppe af gentagelser, dvs. forsgsenheder med samme forsgsbetingelser. At betragte forsgsenheder som gentagelser vil nsten altid vre en idealisering, men der er ofte en 'naturlig', minimal inddeling i grupper af forsgsenheder, der kan regnes som ens. (Datast uden gentagelser behandles ikke i det flgende.) Iflge modellen er udfaldene i gruppen, betegnet med Y1; : : : : ; Y n, uafhngige P med P(Y j = 1) = p = 1? P (Y j = 0). Dermed bliver antallet R af 1'ere i gruppen, R = j Y j, binomialfordelt (n; p), saledes at E(R) = n p ; Var(R) = n p (1? p) : For fastholdt n er variansen altsa fastlagt ud fra middelvrdien, i modstning til fx normalfordelingsmodeller. Ved gentagne observationer af R skal man altsa forvente R np og s 2 R np(1? p). Hvis der faktisk i data er homogene grupper, i den forstand at alle forklarende variable er ens for disse grupper (se eksempel 1), kan man observere R og s 2. R Overspredning viser sig sa ved at s 2 R > n( R=n)(1? ( R=n)), idet R=n er et estimat for p. Eksempel 1. Forekomst af kvik i roemarker. Data i tabel 1 er et uddrag fra en undersgelse af forekomsten af ukrudt, kvik, pa 300 danske marker. Pa hver mark er udfrt 25 malinger vha. Raunkirs metode, gaende ud pa at en ring med areal 0.1 m 2 kastes tilfldigt ud i marken, hvorefter ukrudtsoraen registreres i det omrade, som ringen omslutter. De 3 Kvikforekomst Antal kast med kvik Fyns Amt Vejle Amt Table 1: Kvikforekomst opgjort efter Raunkirs metode pa forskellige marker med fodersukkerroer i Fyns og Vejle Amt. Data fra Tvedegaard (1991). marker i Fyns Amt og de 4 marker i Vejle Amt er ikke identiske mht. alle vrige dyrkningskarakteristika (jordbundstype, forfrugt osv.). For simpelheds skyld ses her dog bort fra dette og opstilles en logistisk regressionsmodel med marker inden for hvert amt som gentagelser (uden hensyntagen til overspredning) Y ijk = ( 1 kvikforekomst 0 ej kvikforekomst ; p i = P(Y ijk = 1) ; logit(p i ) = + i ; 1

2 hvor i = 1; 2 amt; j = 1; : : : ; n i Raunkir kast. Fra tabel 1 fas marker (n1 = 3; n2 = 4) og k = 1; : : : ; 25 ^p1 = 14=75 = 0:19 ; R 1 = 14=3 = 4:67 ; s 2 1 = 16:3 25 ^p1(1? ^p1) = 3:8 ; ^p2 = 37=100 = 0:37 ; R 2 = 37=4 = 9:25 ; s 2 2 = 59:6 25 ^p 2(1? ^p2) = 5:8 : Data udviser en tydelig overspredning i forhold til den statistiske model. 2 For data i eksempel 1 forekommer det indlysende, at overspredningen er et resultat af at ignorere en rkke faktorer (for marker), der har indydelse pa forekomsten af kvik. Men selv om alle de i undersgelsen registrerede dyrkningskarakteristika tages i betragtning, gennem logit(p ij ) = P r x ij;r, udviser data stadig overspredning (Tvedegaard (1991)). Biologisk set er det maske ikke sa overraskende: at marker, hvor alle faktorerne er overensstemmende, stadig ikke kan betragtes som gentagelser. En tilsvarende situation er forsg med dyr, hvor der observeres (antal) hndelser i forskellige kuld, der er udsat for samme forsgsbetingelser. Den ikke-registrerede miljmssige og genetiske homogenitet inden for samme kuld kan fre til overspredning. I nogle tilflde vil overspredning kunne afhjlpes ved at inddrage en eller ere af de underliggende faktorer i forsget { maske er denne ekstra information i sig selv nyttig; i andre tilflde, som eksemplerne ovenfor, er det nppe realistisk at habe pa. Derimod kan overspredningen (naturligvis) elimineres ved at lade modellen indeholde individuelle p{vrdier for hver mark (eller hvert kuld), men sa er der i analysen ikke mulighed for at udtale sig om fllestrk for marker. En analogi til modeller med kontinuerte observationer Y j kan vre nyttig; ogsa i en kontinuert model vil det ofte vre urimeligt at betragte observationerne pa forskellige marker som gentagelser. I en kontinuert model vil man typisk i stedet beskrive variabiliteten mellem marker ved stokastiske komponenter i en varianskomponentmodel med bade systematiske og tilfldige led. Ogsa i en logistisk regression kan man indfre varianskomponenter (dette er omtalt i afsnit 3.2), omend teorien ikke er sa veletableret som i variansanalysen. Det er ogsa muligt direkte at opstille en statistisk model for tilfldige uktuationer i p (mellem grupper), der kan tnkes forarsaget af ikke-observerede forklarende variable, se afsnit 3.1. En anden kilde til overspredning end inhomogenitet af p mellem (homogene) grupper er afhngighed mellem observationerne Y1; : : : ; Y n inden for en gruppe. En afhngighed kan ses som et resultat af, at observationerne netop falder inden for samme gruppe, men der kan ogsa vre mere direkte fortolkninger. Indsamlingen af data i forsget kan spille ind, fx hvis der er en tidsmssig forskydning fra Y1 til Y n. Uden at ga i detaljer kan det nvnes, at hvis Y1; : : : ; Y n er indbyrdes positivt korreleret, frer det til en overspredning pa R { omvendt fas ved negativ korrelation, fx forarsaget af indbyrdes konkurrence, en underspredning pa R. Ved analyse af en logistisk regressionsmodel giver overspredning sig udslag i 'lack-of-t' for enhver reduceret model, dvs. at testet (G 2 eller 2 ) for reduktionen fra den fulde model er signikant. Safremt denne indikation af, at den logistiske regressionsmodel ikke er brugbar, ignoreres, vil man i den flgende analyse undervurdere spredningen. Det frer til for lave estimerede spredninger pa parameterestimaterne og for smalle kondensintervaller, samt kan i sin alvorligste konsekvens medfre fejlagtig signikans for og forkastelse af hypoteser. Dette er illustreret i eksempel 1. Eksempel 1. Forekomst af kvik i roemarker (fortsat). Estimaterne i eksempel 1 viser en tendens til strre kvikforekomst i Vejle Amt; sprgsmalet er om dette er signikant. I tabel 2 er gengivet resultater fra en analyse vha. PROC CATMOD. Det ses, at G 2 for modellen er strkt signikant { en klar indikation af overspredning. Testet for forskel pa amter er 2

3 CATMOD PROCEDURE MAIMUM LIKELIHOOD ANALYSIS OF VARIANCE TABLE Source DF Chi-Square Prob INTERCEPT AMT LIKELIHOOD RATIO Table 2: Logistisk regressions analyse vha. PROC CATMOD uden hensyntagen til overspredning. signikant med P 0:01. En sa klar forskel virker overraskende ud fra tallene i tabel 1, og en analyse hvor der tages hensyn til overspredningen vil ogsa vise, at konklusionen ikke holder, jf afsnit En simpel metode til at korrigere for overspredning I praksis er overspredningen ofte sekundr og nrmest et irritationsmoment i forhold til det primre mal med den logistiske regressionsanalyse: at undersge virkningen af regressionsog kategoriske variable pa P(Y = 1). I dette afsnit beskrives en simpel modikation af den sdvanlige analyse for at tage hjde for overspredning. Metoden er approksimativ, men giver rimelige resultater og er i mange situationer ikke meget darligere end mere prcise og principielle analyser, der er betydelig vanskeligere at udfre. I den statistiske model indfres en ad hoc overspredningsparameter 2, og binomialfordelingsantagelsen for R (fra afsnit 1) erstattes af flgende antagelser alene om middelvrdi og varians for R, E(R) = n p ; Var(R) = 2 n p (1? p) : Der er ere mulige udvidelser heraf til en formel model for hele observationssttet; det skal bl.a. faststtes hvordan overspredningen afhnger af uens antal observationer i forskellige grupper. Den simpleste variant er (McCullagh & Nelder (1989)) E(R i ) = n i p i ; Var(R i ) = 2 n i p i (1? p i ) ; i = 1; : : : ; m ; P n hvor R i = i j=1 Y ij er antallet af 1'ere i den i'te gruppe, og observationerne i grupperne, fx Y11; : : : ; Y1n 1 i den frste gruppe, udgres af gentagelser pa det laveste niveau. I eksempel 1 er der saledes m = 7 grupper med hver n i = 25 observationer. Sandsynlighedsparametrene p i er pa den logistiske skala bestemt ved logit(p i ) = + 1x i;1 + : : : + x i; = r x i;r ; idet 0 = ; x i;0 = 1 ; saledes at der er q frie parametre i modellen. I eksempel 1 er der q = 2 frie parametre. Til estimation af 0; : : : ; anvendes samme metode som i en logistisk regressionsanalyse, hvor der ikke tages hensyn til overspredning. Det er nu ikke lngere maksimum likelihood estimation; sdvanligvis anvendes betegnelsen quasi-likelihood estimater. Metoden kan i denne model opfattes som en slags vgtet mindste kvadraters estimation. Estimaterne kan altsa hentes pa sdvanlig made i udskriftet fra PROC CATMOD eller PROC PROBIT. Til beregning 3

4 af tilhrende estimerede spredninger krves tillige et estimat ~ 2 for 2. Det kan vises, at den asymptotiske varians pa quasi-likelihood estimaterne bliver lig variansen fra analysen uden overspredning - multipliceret med 2. Det giver flgende simple regler for korrektion for overspredning: alle estimerede spredninger skal multipliceres med ~ og estimerede varianser og kovarianser med ~ 2, og alle u-teststrrelser skal divideres med ~ og Walds teststrrelser med ~ 2, ved undret frihedsgradsantal. Tilbage er at estimere 2, og hertil br anvendes ~ 2 = 1 m? q 2 ; 2 = m i=1 (R i? n i^p i ) 2 n i^p i (1? ^p i ) : 2 er Pearsons teststrrelse mod den fulde model i en sdvanlig logistisk regression, og nvneren m? q er antallet af frihedsgrader for 2. I praksis opdages overspredning altsa ved at 2 (eller G 2 ) er signikant i en 2 {fordeling med m? q frihedsgrader, hvorefter ~ 2 straks kan udregnes. Hvis alle n i er store, kan G 2 =(m? q) anvendes som approksimation til 2 =(m? q). I overspredningsmodellen er G 2 ikke lngere en likelihood-ratio teststrrelse, men stadig en vigtig indikator for modellens tilpasning til data, og betegnes ofte med D for devians (eng. deviance). Til test for modelreduktioner anvendes i frste rkke ndringer i deviansen, D=~ 2, evt. Walds test (ligeledes divideret med ~ 2 ). En praktisk detalje er, om 2 skal reestimeres pa linje med 0; : : : ; ved hver modelreduktion. Den asymptotiske teori er baseret pa fast 2, og derfor kan det synes mest logisk kun at udregne ~ 2 for startog slutmodel. I praksis er det, i betragtning af hele metodens approksimative natur, nppe afgrende. For specielle tilflde hvor der er meget strkt varierende og/eller meget lave antal gentagelser i grupperne, ndes alternative estimater (svarende til andre modelspecikationer), og generelt br det i sadanne tilflde overvejes at anvende en af de mere prcise metoder beskrevet i afsnit 3. Eksempel 1. Forekomst af kvik i roemarker (fortsat). Korrektion for overspredning illustreres i analysen fra eksempel 1. Da G 2 = 45:52 er strkt signikant (tabel 2), udviser data overspredning. Vrdien for 2 kan ikke fas direkte i PROC CATMOD, men kan beregnes ud fra residualerne, enten manuelt eller i SAS ved at udnytte muligheden for at eksportere residualerne fra PROC CATMOD til et nyt datast (RESPONSE logit / out = < navn >). I PROC PROBIT er 2 angivet direkte i udskriftet, og tillige foretages automatisk den ovenfor omtalte korrektion for overspredning af de estimerede spredninger og Walds test, se udskrift i tabel 3. En meddelelse signalerer, at der er foretaget en sadan korrektion. Fra udskriftet ases, at ~ 2 = 39:28=5 = 7:856, og det korrigerede Walds test for hypotesen om ingen forskel pa amter giver 6:75=7:856 = 0:859 med 1 frihedsgrad, som angivet i udskriftet, og er klart nonsignikant. Ud fra data i tabel 1 kan der altsa, ved en analyse der tager hensyn til overspredning, ikke pavises forskel pa forekomsten af kvik i Fyns og Vejle amter. 2 En alvorlig ulempe ved PROC PROBIT er, at opdelingen af observationer i grupper, svarende til gentagelser, alene er bestemt ud fra datasttets rkkeflge, og ikke som i PROC CATMOD kan styres ved en POPULATION{stning. For en model som i eksempel 1, hvor marker inden for samme amt skal svare til en separat gruppe, krves en betydelig omordning af datasttet, fr grupperne kan bestemmes korrekt af PROC PROBIT. Det ma anbefales altid at kontrollere, om grupperingerne er udfrt korrekt, fx via antallet af frihedsgrader for 2. En nrmere redegrelse for den omtalte omordning skal ikke gives her, og den vil forhabentlig blive overdiggjort i en revideret udgave af PROC PROBIT. 4

5 Probit Procedure Goodness-of-Fit Tests Statistic Value DF Prob>Chi-Sq Pearson Chi-Square L.R. Chi-Square Response Levels: 2 Number of Covariate Values: 7 WARNING: All variances and covariances have been multiplied by the heterogeneity factor H= Please check to be sure that the large chi-square (p < ) is not caused by systematic departure from the model. A t value of will be used in computing fiducial limits. Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT Intercept AMT Fyn Vejle Table 3: Logistisk regressions analyse vha. PROC PROBIT, korrigeret for overspredning. 3. Logistiske regressionsmodeller med overspredning Fordelene ved at opstille egentlige statistiske modeller er indlysende; her kan blot nvnes en mere stringent analyse samt fortolkningen af overspredningsparametrene. De nedenfor omtalte modeller er blot to blandt mange. En udfrlig beskrivelse af Beta-binomial modellen i afsnit 3.1 kan ndes i Moore (1987). Logistiske varianskomponentmodeller er behandlet i Im & Gianola (1988). 3.1 Beta-fordelt uktuation i sandsynlighedsparametrene Som omtalt i introduktionen vil inhomogenitet i p = P(Y j = 1) fre til overspredning. Her opstilles en statistisk model P for uktuationerne i p mellem grupper. Sandsynligheden p i binomialfordelingen for R = Y j i afsnit 1, opfattes ikke lngere som en konstant, men som en stokastisk variabel med en speciceret fordeling. Beta-fordelingen med parametre (a; b), hvor a; b > 0, er en sandsynlighedsfordeling pa intervallet (0; 1) med tthedsfunktion f(t; a; b) = c(a; b) t a (1? t) b ; 0 < t < 1 ; hvor c(a; b) er en normeringskonstant. Middelvrdi og varians for en Beta-fordelt (a; b) 5

6 variabel B kan udregnes til E(B) = a=(a + b) ; Var(B) = a b (a + b) 2 (a + b + 1) ; eller med en entydig omparametrisering, = a=(a + b) ; = (a + b + 1)?1, E(B) = ; Var(B) = (1? ) : Bemrk, at 0 < < 1. I parametriseringen med (; ) kan en logistisk regressionsmodel udtrykkes ved logit( i ) = r x i;r ; i = 1; : : : ; m : Ofte antages 1 = : : : = m = (for data i eksempel 1 vil det vre muligt at teste om 1 2 = 2), 2 og den statistiske model indeholder da parametrene (0; : : : ; ; ). Likelihoodfunktionen pa basis af observationerne (Y ij ) eller kvivalent (R i ) kan opstilles og en statistisk analyse foretages ved maksimum likelihood estimation og likelihood-ratio test. nsker man ikke at lade analysen afhnge af en (usikker) antagelse om Beta-fordelte uktuationer i p, kan modellen kombineres med quasi-likelihood estimation som beskrevet i afsnit 2. Det kan vises, at E(R i ) = n i i ; Var(R i ) = n i i (1? i ) (1 + (n i? 1)) : Ved ens gruppeantal, dvs. n i = n, svarer dette prcis til den formelle modelspecikation i afsnit 2 med 2 = 1 + (n? 1). Hvilket af de to udtryk for overspredningens afhngighed af (uens) n i, der i praksis giver den bedste tilpasning til datast med overspredning, er et uafklaret sprgsmal. 3.2 Logistiske varianskomponentmodeller Probit og logit modeller kan gives en fortolkning vha. underliggende kontinuerte og ikkeobserverbare (latente) variable. At W er en latent variabel for et binrt respons Y betyder, at Y = 1 () W > t ; for en fast trskel t : (I det flgende anvendes standard parametriseringen t = 0.) Logit modellen fra afsnit 2 modsvares af flgende model for (W ij ) W ij = r x i;r + " ij ; " ij logistisk fordeling med E(" ij ) = 0 : Normalfordelte f" ij g giver en probit model. Ideen er nu at opstille en varianskomponentmodel for W og overfre den til logistisk skala. For data i eksempel 1 bliver der tale om en varianskomponent for marker. St W ij = r x i;r + A i + " ij ; hvor fa i g og f" ij g er uafhngige. For " ij antages som ovenfor en logistisk fordeling, hvorimod A i N(0; 2 A ). Givet A i = a i fas ved omskrivning til logits logit(p i ) = r x i;r + a i : 6

7 Likelihoodfunktionen kan opskrives og maximum likelihood estimation af modellens parametre (0; : : : ; ; 2 A) udfres. I modstning til modellen i foregaende afsnit er overspredningen modelleret pa logit-skalaen i stedet for den absolutte skala for p. Williams (1982) angiver, at for p-vrdier i intervallet 0.2 { 0.8 giver de to modeller praktisk taget samme datatilpasning. En klar fordel ved varianskomponentmodellen er, at den let kan generaliseres til mere komplicerede varianskomponentdesigns. Endelig kan nvnes den beslgtede og mere direkte metode at opstille en varianskomponentmodel for empiriske logits, dvs. logit(r i =n i ); hertil ma det dog forudsttes, at alle n i er store. References [1] Cox, D. R. and Snell, E. J. (1989). Analysis of Binary Data, Chapman and Hall. [2] Dean, C. B. (1992). Testing for overdispersion in Poisson and binomial regression models. J. Am. Statist. Assoc. 87, 451{457. [3] Im, S. and Gianola, D. (1988). Mixed models for binomial data with an application to lamb mortality. Appl. Statist. 37, 196{204. [4] McCullagh, P. and Nelder, J. A. (1989). Generalized Linear Models, Chapman and Hall. [5] Moore, D. F. (1987). Modeling the extraneous variance in the presence of extra{ binomial variation. Appl. Statist. 36, 8{14. [6] Williams, D. A. (1982). Extra{binomial variation in logistic linear models. Appl. Statist. 31, 144{148. 7