Dette notat om overspredning er tnkt som supplement til Sren Andersen: Statistisk analyse

Relaterede dokumenter
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Logistisk Regression - fortsat

Besvarelse af vitcap -opgaven

Noter til Specialkursus i videregående statistik

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Løsning til opgave i logistisk regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

To samhørende variable

Statistiske Modeller 1: Kontingenstabeller i SAS

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Introduktion til GLIMMIX

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Analyse af Saltdata. Henrik Spliid

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Tema. Dagens tema: Indfør centrale statistiske begreber.

k normalfordelte observationsrækker (ensidet variansanalyse)

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistiske principper

Simpel og multipel logistisk regression

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Løsning til eksaminen d. 14. december 2009

Statistik II 4. Lektion. Logistisk regression

Skriftlig eksamen Science statistik- ST501

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Forelæsning 11: Kapitel 11: Regressionsanalyse

Fagplan for statistik, efteråret 2015

Simpel Lineær Regression

Module 12: Mere om variansanalyse

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Generelle lineære modeller

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Reeksamen i Statistik for biokemikere. Blok

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Epidemiologi og Biostatistik

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statistik i basketball

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Module 12: Mere om variansanalyse

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Maple 11 - Chi-i-anden test

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Uge 13 referat hold 4

Forelæsning 11: Envejs variansanalyse, ANOVA

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Lineær og logistisk regression

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Eksamen i Statistik for biokemikere. Blok

2. juni Solitaire spilles med pinde, der pa gurerne er angivet som sorte pletter. Der

1 Hb SS Hb Sβ Hb SC = , (s = )

Kapitel 12 Variansanalyse

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Konfidensintervaller og Hypotesetest

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Lineære normale modeller (4) udkast

2 Opgave i hierarkiske normalfordelingsmodeller

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Løsning til eksaminen d. 29. maj 2009

Opgavebesvarelse, brain weight

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Løsning eksamen d. 15. december 2008

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Transkript:

Analyse af tlledata, efterar 1992, Henrik Stryhn. Overspredning (i logistisk regression) Dette notat om overspredning er tnkt som supplement til Sren Andersen: Statistisk analyse af tlledata, og indeholder en beskrivelse af dels selve problemstillingen (afsnit 1) og dels en simpel approksimativ metode til korrektion for overspredning (afsnit 2). Endelig prsenteres i afsnit 3 ganske kort to hyppigt anvendte statistiske modeller for overspredning. En mere detaljeret oversigt er givet i Cox & Snell (1989), mens diskussionen i Dean (1992) er centreret omkring tests for overspredning. 1. Introduktion Betegnelsen 'overspredning' refererer til, at variabiliteten i et datast er strre, end man skulle forvente ud fra den statistiske model, her en binomialfordelingsmodel. (Den modsatte situation, at variabiliteten er mindre end forventet, underspredning, er ogsa mulig, men forekommer ikke sa ofte i praksis.) Betragt en logistisk regressionsmodel og en gruppe af gentagelser, dvs. forsgsenheder med samme forsgsbetingelser. At betragte forsgsenheder som gentagelser vil nsten altid vre en idealisering, men der er ofte en 'naturlig', minimal inddeling i grupper af forsgsenheder, der kan regnes som ens. (Datast uden gentagelser behandles ikke i det flgende.) Iflge modellen er udfaldene i gruppen, betegnet med Y1; : : : : ; Y n, uafhngige P med P(Y j = 1) = p = 1? P (Y j = 0). Dermed bliver antallet R af 1'ere i gruppen, R = j Y j, binomialfordelt (n; p), saledes at E(R) = n p ; Var(R) = n p (1? p) : For fastholdt n er variansen altsa fastlagt ud fra middelvrdien, i modstning til fx normalfordelingsmodeller. Ved gentagne observationer af R skal man altsa forvente R np og s 2 R np(1? p). Hvis der faktisk i data er homogene grupper, i den forstand at alle forklarende variable er ens for disse grupper (se eksempel 1), kan man observere R og s 2. R Overspredning viser sig sa ved at s 2 R > n( R=n)(1? ( R=n)), idet R=n er et estimat for p. Eksempel 1. Forekomst af kvik i roemarker. Data i tabel 1 er et uddrag fra en undersgelse af forekomsten af ukrudt, kvik, pa 300 danske marker. Pa hver mark er udfrt 25 malinger vha. Raunkirs metode, gaende ud pa at en ring med areal 0.1 m 2 kastes tilfldigt ud i marken, hvorefter ukrudtsoraen registreres i det omrade, som ringen omslutter. De 3 Kvikforekomst Antal kast med kvik Fyns Amt 0 7 7 Vejle Amt 9 20 2 6 Table 1: Kvikforekomst opgjort efter Raunkirs metode pa forskellige marker med fodersukkerroer i Fyns og Vejle Amt. Data fra Tvedegaard (1991). marker i Fyns Amt og de 4 marker i Vejle Amt er ikke identiske mht. alle vrige dyrkningskarakteristika (jordbundstype, forfrugt osv.). For simpelheds skyld ses her dog bort fra dette og opstilles en logistisk regressionsmodel med marker inden for hvert amt som gentagelser (uden hensyntagen til overspredning) Y ijk = ( 1 kvikforekomst 0 ej kvikforekomst ; p i = P(Y ijk = 1) ; logit(p i ) = + i ; 1

hvor i = 1; 2 amt; j = 1; : : : ; n i Raunkir kast. Fra tabel 1 fas marker (n1 = 3; n2 = 4) og k = 1; : : : ; 25 ^p1 = 14=75 = 0:19 ; R 1 = 14=3 = 4:67 ; s 2 1 = 16:3 25 ^p1(1? ^p1) = 3:8 ; ^p2 = 37=100 = 0:37 ; R 2 = 37=4 = 9:25 ; s 2 2 = 59:6 25 ^p 2(1? ^p2) = 5:8 : Data udviser en tydelig overspredning i forhold til den statistiske model. 2 For data i eksempel 1 forekommer det indlysende, at overspredningen er et resultat af at ignorere en rkke faktorer (for marker), der har indydelse pa forekomsten af kvik. Men selv om alle de i undersgelsen registrerede dyrkningskarakteristika tages i betragtning, gennem logit(p ij ) = P r x ij;r, udviser data stadig overspredning (Tvedegaard (1991)). Biologisk set er det maske ikke sa overraskende: at marker, hvor alle faktorerne er overensstemmende, stadig ikke kan betragtes som gentagelser. En tilsvarende situation er forsg med dyr, hvor der observeres (antal) hndelser i forskellige kuld, der er udsat for samme forsgsbetingelser. Den ikke-registrerede miljmssige og genetiske homogenitet inden for samme kuld kan fre til overspredning. I nogle tilflde vil overspredning kunne afhjlpes ved at inddrage en eller ere af de underliggende faktorer i forsget { maske er denne ekstra information i sig selv nyttig; i andre tilflde, som eksemplerne ovenfor, er det nppe realistisk at habe pa. Derimod kan overspredningen (naturligvis) elimineres ved at lade modellen indeholde individuelle p{vrdier for hver mark (eller hvert kuld), men sa er der i analysen ikke mulighed for at udtale sig om fllestrk for marker. En analogi til modeller med kontinuerte observationer Y j kan vre nyttig; ogsa i en kontinuert model vil det ofte vre urimeligt at betragte observationerne pa forskellige marker som gentagelser. I en kontinuert model vil man typisk i stedet beskrive variabiliteten mellem marker ved stokastiske komponenter i en varianskomponentmodel med bade systematiske og tilfldige led. Ogsa i en logistisk regression kan man indfre varianskomponenter (dette er omtalt i afsnit 3.2), omend teorien ikke er sa veletableret som i variansanalysen. Det er ogsa muligt direkte at opstille en statistisk model for tilfldige uktuationer i p (mellem grupper), der kan tnkes forarsaget af ikke-observerede forklarende variable, se afsnit 3.1. En anden kilde til overspredning end inhomogenitet af p mellem (homogene) grupper er afhngighed mellem observationerne Y1; : : : ; Y n inden for en gruppe. En afhngighed kan ses som et resultat af, at observationerne netop falder inden for samme gruppe, men der kan ogsa vre mere direkte fortolkninger. Indsamlingen af data i forsget kan spille ind, fx hvis der er en tidsmssig forskydning fra Y1 til Y n. Uden at ga i detaljer kan det nvnes, at hvis Y1; : : : ; Y n er indbyrdes positivt korreleret, frer det til en overspredning pa R { omvendt fas ved negativ korrelation, fx forarsaget af indbyrdes konkurrence, en underspredning pa R. Ved analyse af en logistisk regressionsmodel giver overspredning sig udslag i 'lack-of-t' for enhver reduceret model, dvs. at testet (G 2 eller 2 ) for reduktionen fra den fulde model er signikant. Safremt denne indikation af, at den logistiske regressionsmodel ikke er brugbar, ignoreres, vil man i den flgende analyse undervurdere spredningen. Det frer til for lave estimerede spredninger pa parameterestimaterne og for smalle kondensintervaller, samt kan i sin alvorligste konsekvens medfre fejlagtig signikans for og forkastelse af hypoteser. Dette er illustreret i eksempel 1. Eksempel 1. Forekomst af kvik i roemarker (fortsat). Estimaterne i eksempel 1 viser en tendens til strre kvikforekomst i Vejle Amt; sprgsmalet er om dette er signikant. I tabel 2 er gengivet resultater fra en analyse vha. PROC CATMOD. Det ses, at G 2 for modellen er strkt signikant { en klar indikation af overspredning. Testet for forskel pa amter er 2

CATMOD PROCEDURE MAIMUM LIKELIHOOD ANALYSIS OF VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- INTERCEPT 1 30.72 0.0000 AMT 1 6.75 0.0094 LIKELIHOOD RATIO 5 45.52 0.0000 Table 2: Logistisk regressions analyse vha. PROC CATMOD uden hensyntagen til overspredning. signikant med P 0:01. En sa klar forskel virker overraskende ud fra tallene i tabel 1, og en analyse hvor der tages hensyn til overspredningen vil ogsa vise, at konklusionen ikke holder, jf afsnit 2. 2 2. En simpel metode til at korrigere for overspredning I praksis er overspredningen ofte sekundr og nrmest et irritationsmoment i forhold til det primre mal med den logistiske regressionsanalyse: at undersge virkningen af regressionsog kategoriske variable pa P(Y = 1). I dette afsnit beskrives en simpel modikation af den sdvanlige analyse for at tage hjde for overspredning. Metoden er approksimativ, men giver rimelige resultater og er i mange situationer ikke meget darligere end mere prcise og principielle analyser, der er betydelig vanskeligere at udfre. I den statistiske model indfres en ad hoc overspredningsparameter 2, og binomialfordelingsantagelsen for R (fra afsnit 1) erstattes af flgende antagelser alene om middelvrdi og varians for R, E(R) = n p ; Var(R) = 2 n p (1? p) : Der er ere mulige udvidelser heraf til en formel model for hele observationssttet; det skal bl.a. faststtes hvordan overspredningen afhnger af uens antal observationer i forskellige grupper. Den simpleste variant er (McCullagh & Nelder (1989)) E(R i ) = n i p i ; Var(R i ) = 2 n i p i (1? p i ) ; i = 1; : : : ; m ; P n hvor R i = i j=1 Y ij er antallet af 1'ere i den i'te gruppe, og observationerne i grupperne, fx Y11; : : : ; Y1n 1 i den frste gruppe, udgres af gentagelser pa det laveste niveau. I eksempel 1 er der saledes m = 7 grupper med hver n i = 25 observationer. Sandsynlighedsparametrene p i er pa den logistiske skala bestemt ved logit(p i ) = + 1x i;1 + : : : + x i; = r x i;r ; idet 0 = ; x i;0 = 1 ; saledes at der er q frie parametre i modellen. I eksempel 1 er der q = 2 frie parametre. Til estimation af 0; : : : ; anvendes samme metode som i en logistisk regressionsanalyse, hvor der ikke tages hensyn til overspredning. Det er nu ikke lngere maksimum likelihood estimation; sdvanligvis anvendes betegnelsen quasi-likelihood estimater. Metoden kan i denne model opfattes som en slags vgtet mindste kvadraters estimation. Estimaterne kan altsa hentes pa sdvanlig made i udskriftet fra PROC CATMOD eller PROC PROBIT. Til beregning 3

af tilhrende estimerede spredninger krves tillige et estimat ~ 2 for 2. Det kan vises, at den asymptotiske varians pa quasi-likelihood estimaterne bliver lig variansen fra analysen uden overspredning - multipliceret med 2. Det giver flgende simple regler for korrektion for overspredning: alle estimerede spredninger skal multipliceres med ~ og estimerede varianser og kovarianser med ~ 2, og alle u-teststrrelser skal divideres med ~ og Walds teststrrelser med ~ 2, ved undret frihedsgradsantal. Tilbage er at estimere 2, og hertil br anvendes ~ 2 = 1 m? q 2 ; 2 = m i=1 (R i? n i^p i ) 2 n i^p i (1? ^p i ) : 2 er Pearsons teststrrelse mod den fulde model i en sdvanlig logistisk regression, og nvneren m? q er antallet af frihedsgrader for 2. I praksis opdages overspredning altsa ved at 2 (eller G 2 ) er signikant i en 2 {fordeling med m? q frihedsgrader, hvorefter ~ 2 straks kan udregnes. Hvis alle n i er store, kan G 2 =(m? q) anvendes som approksimation til 2 =(m? q). I overspredningsmodellen er G 2 ikke lngere en likelihood-ratio teststrrelse, men stadig en vigtig indikator for modellens tilpasning til data, og betegnes ofte med D for devians (eng. deviance). Til test for modelreduktioner anvendes i frste rkke ndringer i deviansen, D=~ 2, evt. Walds test (ligeledes divideret med ~ 2 ). En praktisk detalje er, om 2 skal reestimeres pa linje med 0; : : : ; ved hver modelreduktion. Den asymptotiske teori er baseret pa fast 2, og derfor kan det synes mest logisk kun at udregne ~ 2 for startog slutmodel. I praksis er det, i betragtning af hele metodens approksimative natur, nppe afgrende. For specielle tilflde hvor der er meget strkt varierende og/eller meget lave antal gentagelser i grupperne, ndes alternative estimater (svarende til andre modelspecikationer), og generelt br det i sadanne tilflde overvejes at anvende en af de mere prcise metoder beskrevet i afsnit 3. Eksempel 1. Forekomst af kvik i roemarker (fortsat). Korrektion for overspredning illustreres i analysen fra eksempel 1. Da G 2 = 45:52 er strkt signikant (tabel 2), udviser data overspredning. Vrdien for 2 kan ikke fas direkte i PROC CATMOD, men kan beregnes ud fra residualerne, enten manuelt eller i SAS ved at udnytte muligheden for at eksportere residualerne fra PROC CATMOD til et nyt datast (RESPONSE logit / out = < navn >). I PROC PROBIT er 2 angivet direkte i udskriftet, og tillige foretages automatisk den ovenfor omtalte korrektion for overspredning af de estimerede spredninger og Walds test, se udskrift i tabel 3. En meddelelse signalerer, at der er foretaget en sadan korrektion. Fra udskriftet ases, at ~ 2 = 39:28=5 = 7:856, og det korrigerede Walds test for hypotesen om ingen forskel pa amter giver 6:75=7:856 = 0:859 med 1 frihedsgrad, som angivet i udskriftet, og er klart nonsignikant. Ud fra data i tabel 1 kan der altsa, ved en analyse der tager hensyn til overspredning, ikke pavises forskel pa forekomsten af kvik i Fyns og Vejle amter. 2 En alvorlig ulempe ved PROC PROBIT er, at opdelingen af observationer i grupper, svarende til gentagelser, alene er bestemt ud fra datasttets rkkeflge, og ikke som i PROC CATMOD kan styres ved en POPULATION{stning. For en model som i eksempel 1, hvor marker inden for samme amt skal svare til en separat gruppe, krves en betydelig omordning af datasttet, fr grupperne kan bestemmes korrekt af PROC PROBIT. Det ma anbefales altid at kontrollere, om grupperingerne er udfrt korrekt, fx via antallet af frihedsgrader for 2. En nrmere redegrelse for den omtalte omordning skal ikke gives her, og den vil forhabentlig blive overdiggjort i en revideret udgave af PROC PROBIT. 4

Probit Procedure Goodness-of-Fit Tests Statistic Value DF Prob>Chi-Sq ------------------ -------- -- ----------- Pearson Chi-Square 39.2801 5 0.0000 L.R. Chi-Square 45.5153 5 0.0000 Response Levels: 2 Number of Covariate Values: 7 WARNING: All variances and covariances have been multiplied by the heterogeneity factor H= 7.856. Please check to be sure that the large chi-square (p < 0.0001) is not caused by systematic departure from the model. A t value of 2.5705 will be used in computing fiducial limits. Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT 1 0.53221681 0.580537 0.84046 0.3593 Intercept AMT 1 0.859675 0.3538 1 0.93959972 1.013388 0.859675 0.3538 Fyn 0 0 0.. Vejle Table 3: Logistisk regressions analyse vha. PROC PROBIT, korrigeret for overspredning. 3. Logistiske regressionsmodeller med overspredning Fordelene ved at opstille egentlige statistiske modeller er indlysende; her kan blot nvnes en mere stringent analyse samt fortolkningen af overspredningsparametrene. De nedenfor omtalte modeller er blot to blandt mange. En udfrlig beskrivelse af Beta-binomial modellen i afsnit 3.1 kan ndes i Moore (1987). Logistiske varianskomponentmodeller er behandlet i Im & Gianola (1988). 3.1 Beta-fordelt uktuation i sandsynlighedsparametrene Som omtalt i introduktionen vil inhomogenitet i p = P(Y j = 1) fre til overspredning. Her opstilles en statistisk model P for uktuationerne i p mellem grupper. Sandsynligheden p i binomialfordelingen for R = Y j i afsnit 1, opfattes ikke lngere som en konstant, men som en stokastisk variabel med en speciceret fordeling. Beta-fordelingen med parametre (a; b), hvor a; b > 0, er en sandsynlighedsfordeling pa intervallet (0; 1) med tthedsfunktion f(t; a; b) = c(a; b) t a (1? t) b ; 0 < t < 1 ; hvor c(a; b) er en normeringskonstant. Middelvrdi og varians for en Beta-fordelt (a; b) 5

variabel B kan udregnes til E(B) = a=(a + b) ; Var(B) = a b (a + b) 2 (a + b + 1) ; eller med en entydig omparametrisering, = a=(a + b) ; = (a + b + 1)?1, E(B) = ; Var(B) = (1? ) : Bemrk, at 0 < < 1. I parametriseringen med (; ) kan en logistisk regressionsmodel udtrykkes ved logit( i ) = r x i;r ; i = 1; : : : ; m : Ofte antages 1 = : : : = m = (for data i eksempel 1 vil det vre muligt at teste om 1 2 = 2), 2 og den statistiske model indeholder da parametrene (0; : : : ; ; ). Likelihoodfunktionen pa basis af observationerne (Y ij ) eller kvivalent (R i ) kan opstilles og en statistisk analyse foretages ved maksimum likelihood estimation og likelihood-ratio test. nsker man ikke at lade analysen afhnge af en (usikker) antagelse om Beta-fordelte uktuationer i p, kan modellen kombineres med quasi-likelihood estimation som beskrevet i afsnit 2. Det kan vises, at E(R i ) = n i i ; Var(R i ) = n i i (1? i ) (1 + (n i? 1)) : Ved ens gruppeantal, dvs. n i = n, svarer dette prcis til den formelle modelspecikation i afsnit 2 med 2 = 1 + (n? 1). Hvilket af de to udtryk for overspredningens afhngighed af (uens) n i, der i praksis giver den bedste tilpasning til datast med overspredning, er et uafklaret sprgsmal. 3.2 Logistiske varianskomponentmodeller Probit og logit modeller kan gives en fortolkning vha. underliggende kontinuerte og ikkeobserverbare (latente) variable. At W er en latent variabel for et binrt respons Y betyder, at Y = 1 () W > t ; for en fast trskel t : (I det flgende anvendes standard parametriseringen t = 0.) Logit modellen fra afsnit 2 modsvares af flgende model for (W ij ) W ij = r x i;r + " ij ; " ij logistisk fordeling med E(" ij ) = 0 : Normalfordelte f" ij g giver en probit model. Ideen er nu at opstille en varianskomponentmodel for W og overfre den til logistisk skala. For data i eksempel 1 bliver der tale om en varianskomponent for marker. St W ij = r x i;r + A i + " ij ; hvor fa i g og f" ij g er uafhngige. For " ij antages som ovenfor en logistisk fordeling, hvorimod A i N(0; 2 A ). Givet A i = a i fas ved omskrivning til logits logit(p i ) = r x i;r + a i : 6

Likelihoodfunktionen kan opskrives og maximum likelihood estimation af modellens parametre (0; : : : ; ; 2 A) udfres. I modstning til modellen i foregaende afsnit er overspredningen modelleret pa logit-skalaen i stedet for den absolutte skala for p. Williams (1982) angiver, at for p-vrdier i intervallet 0.2 { 0.8 giver de to modeller praktisk taget samme datatilpasning. En klar fordel ved varianskomponentmodellen er, at den let kan generaliseres til mere komplicerede varianskomponentdesigns. Endelig kan nvnes den beslgtede og mere direkte metode at opstille en varianskomponentmodel for empiriske logits, dvs. logit(r i =n i ); hertil ma det dog forudsttes, at alle n i er store. References [1] Cox, D. R. and Snell, E. J. (1989). Analysis of Binary Data, Chapman and Hall. [2] Dean, C. B. (1992). Testing for overdispersion in Poisson and binomial regression models. J. Am. Statist. Assoc. 87, 451{457. [3] Im, S. and Gianola, D. (1988). Mixed models for binomial data with an application to lamb mortality. Appl. Statist. 37, 196{204. [4] McCullagh, P. and Nelder, J. A. (1989). Generalized Linear Models, Chapman and Hall. [5] Moore, D. F. (1987). Modeling the extraneous variance in the presence of extra{ binomial variation. Appl. Statist. 36, 8{14. [6] Williams, D. A. (1982). Extra{binomial variation in logistic linear models. Appl. Statist. 31, 144{148. 7