Flerniveau modeller. Individuelt studieforløb. Efterårssemesteret 2002. Folkesundhedsvidenskab ved Københavns Universitet



Relaterede dokumenter
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Reeksamen i Statistik for Biokemikere 6. april 2009

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Introduktion til GLIMMIX

Lineær og logistisk regression

Multipel Lineær Regression

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Synopsis til eksamen i Statistik

Statistik II 4. Lektion. Logistisk regression

To samhørende variable

Logistisk Regression - fortsat

k normalfordelte observationsrækker (ensidet variansanalyse)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

1 Hb SS Hb Sβ Hb SC = , (s = )

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Statistik Lektion 4. Variansanalyse Modelkontrol

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Skriftlig eksamen Science statistik- ST501

Modelkontrol i Faktor Modeller

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Eksamen i Statistik for biokemikere. Blok

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Løsning eksamen d. 15. december 2008

Reeksamen i Statistik for biokemikere. Blok

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Løsning til opgave i logistisk regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Generelle lineære modeller

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistiske Modeller 1: Kontingenstabeller i SAS

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Besvarelse af vitcap -opgaven

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Løsning til eksaminen d. 14. december 2009

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Uge 13 referat hold 4

Besvarelse af juul2 -opgaven

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Hver anden vil benytte øget åbningstid i dagtilbud

1 Regressionsproblemet 2

Eksamen i Statistik og skalavalidering

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Logistisk regression

To-sidet varians analyse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Reeksamen i Statistik for biokemikere. Blok

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Modul 6: Regression og kalibrering

Regressionsanalyse i SAS

Modul 11: Simpel lineær regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Fokus på Forsyning. Datagrundlag og metode

Appendiks Økonometrisk teori... II

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Bilag 12 Regressionsanalysens tabeller og forklaringer

Lineær regression i SAS. Lineær regression i SAS p.1/20

Eksamen i Statistik for Biokemikere, Blok januar 2009

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

MPH specialmodul Epidemiologi og Biostatistik

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Simpel Lineær Regression

Kapitel 12 Variansanalyse

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Transkript:

Individuelt studieforløb Efterårssemesteret 2002 Flerniveau modeller Folkesundhedsvidenskab ved Københavns Universitet Vejleder: Jørgen Holm Petersen Eksamensnummer 20

Indholdsfortegnelse 1. Indledning...3 2. Hierarkisk generel lineær model...5 2.1. Begrebsafklaring...5 2.2. Datasæt I...6 2.3. Ubetinget middelværdi-model...7 2.4. Model med tilfældig effekt...7 2.5. Inddragelse af fikseret effekt...10 2.6. Inddragelse af niveau 1 variabel...11 2.7. Inddragelse af både niveau-1 og 2 variable...14 2.8. Modelkontrol...16 2.9. Afslutning på første analyse...17 3. Gentagne målinger...18 3.1. Datasæt II...18 3.2. Model for gentagne målinger...18 3.3. Binær responsvariabel...21 3.4. Logistisk regression med fikseret effekt...22 3.5. Inddragelse af tilfældig effekt...23 3.6. Inddragelse af niveau 1 variabel...25 3.7. Afslutning på anden analyse...27 4. Konklusion...28 5. Litteraturliste...29 Bilag 1. SAS-procedurer til afsnit 2...30 Bilag 2. SAS-procedurer til afsnit 3...31 Bilag 3. Figurer...32 2

1. Indledning Det er et grundlæggende princip i statistik at variationen i data kan indeholde struktur og derfor at en analyse af disse skal tage højde for denne struktur. En almindelig datastruktur er at de enkelte observationer falder i grupper. Et eksempel er børn af samme forældre, hvor det vil være rimeligt at antage at disse børn er mere ens på deres fysiske og mentale karakteristika end børn udvalgt tilfældigt fra hele populationen. Konceptuelt kan en sådan struktur karakteriseres som et hierarkisk system af individer indlejret i grupper, hvor individer og grupper er defineret som separate niveauer i dette hierarkiske system. Man vil i eksemplet beskrive børnene som enheder på niveau 1 i en 2- niveau struktur, hvor niveau 2 er forældrene. Eksistensen af sådanne hierarkier er sjældent uden betydning og bør derfor ikke ignoreres. Nogle gange er grupperingerne en afspejling af sociale eller biologiske forhold, mens det i andre tilfælde er et udtryk for tilfældighed, f.eks. når børn placeres i klasser ved skolestart. Men i alle tilfælde risikerer man ved at ignorere disse forhold at overse forhold ved data og derved at resultaterne ikke vil være valide. Når man har data med en hierarkisk struktur er der i hvert fald to argumenter imod at benytte statistiske metoder, der ikke tager højde for denne struktur: Det første er konceptuelt, mens det andet er statistisk (Hox,2002,4). Det statistiske argument vil være det fremtrædende i opgaven: A. Konceptuelt. Hvis man i en analyse ikke tager højde for den hierarkiske struktur risikerer man at begå the fallacy of the wrong level. Der er to typer: The ecological fallacy er et velkendt problem inden for epidemiologien, hvor man opstiller fejlagtige sammenhænge på individ-niveau på baggrund af økologiske data (Rothman,1998,469). Men det gælder også i den modsatte retning, nemlig når man fejlagtigt konkluderer fra individuelle sammenhænge til et økologisk niveau (Hox,2002,5). Begge fejlslutninger er alvorlige, men vil ikke blive diskuteret yderligere i nærværende opgave. B. Statistisk. Som beskrevet oven for vil man i data med hierarkiske struktur forvente en vis afhængighed mellem observationer fra den samme gruppe. En central antagelse i standard statistiske modeller er uafhængighed mellem observationer. Hvis data med hierarkisk struktur inddrages i en standard analyse antager man altså uafhængighed mellem observationerne. Hvis denne antagelse ikke er opfyldt vil standardfejl-estimaterne være for små og derved vil risikoen for at begå type I fejl blive forhøjet. Barcikowski (1981) har vist at hvis man har grupper med 10 personer og en intra-gruppe korrelation på 0,05 vil det medføre at man reelt har et alpha-niveau på 0,11, når man arbejder med 5% som den kritiske 3

værdi. Og alpha-niveauet vil stige hurtigt med flere personer i grupperne og større intragruppe korrelation (Hox,1995,6). I princippet kunne man løse dette problem ved at korrigere standardfejlen, så den tog højde for korrelationen mellem observationerne. Det vil dog ofte ikke være nok, da man herved ikke tager højde for den organisatoriske struktur i data. Det er netop en af styrkerne ved flerniveau modellen, at den kan håndtere forklarende variable på flere niveauer med en statistisk model, der inkluderer de relevante afhængigheder. I denne opgave vil disse flerniveau modeller blive præsenteret i to situationer, der ofte er forekommende (Singer,1998,324): 1. En udvidelse af den lineære regressionsmodel, så den inddrager variable på flere niveauer og de passende afhængigheder mellem observationer fra samme gruppe. 2. Situationer hvor man har flere målinger på de samme individer, hvor det antages at den enkelte måling (niveau 1) er indlejret i individer (niveau 2). Her vil man forvente at målingerne på samme individ er mere korrelerede end målinger generelt. Opgaven deles i to hovedafsnit omhandlende de to situationer. Formålet vil være at opstille flerniveau modeller, der inddrager den hierarkiske datastruktur samt fortolke estimaterne fra modellerne. Jeg vil bruge mest plads på at opstille og diskutere de relevante modeller og i mindre grad dvæle ved fortolkningen af estimaterne. Jeg har dog vurderet at det vil være formålstjenstligt at applicere modellerne på konkrete datasæt. Et datasæt i hvert hovedafsnit. I afsnit 2 vil jeg begynde med visse teoretiske overvejelser om hvordan en flerniveau model opstilles ved at introducere et relevant begreb. Herefter startes den egentlig modelopbygning begyndende med den mest simple model: En model uden forklarende variable. Denne model vil trinvist blive udbygget. I afsnittet vil en generel lineær model blive benyttet, dvs. med en kontinuert afhængig variabel og både kontinuerte og kategori forklarende variable (Woodward,1999,416). Afsnit 3 vil omhandle gentagne målinger på f.eks. samme individ. Denne model er grundlæggende ens med modellen i afsnit 2 og jeg har derfor valgt at udvide begrebsapparatet til også en logistisk regressionsmodel, dvs. med en binær afhængig variabel. Opbygningen af afsnittet vil ligne første afsnit med stadig mere komplekse modeller, men jeg vil gå hurtigere frem, når der er gentagelser. I afsnittene opstilles en eller to hypoteser, som vil være omdrejningspunktet for modelopbygningen. 4

2. Hierarkisk generel lineær model I dette afsnit vil en hierarkisk generel lineær model blive opstillet og appliceret på et konkret datasæt. Men inden den egentlige analyse er det nødvendigt at introducere et centralt begreb. 2.1. Begrebsafklaring En normal generel lineær model med én forklarende variabel kan matematisk udtrykkes: y ij = α + β j *x j + ε ij (2a), hvor y ij er den afhængige kontinuerte variabel, α er et niveaumål, β j er effekten af en forklarende variabel j (den kan være såvel kategoriel som kontinuert) og ε ij er residualvariationen, som antages normalfordelt med middelværdi 0 og varians σ 2 (skrives ε ij ~ N(0,σ 2 )) (Woodward,1999,416). Denne model er som tidligere argumenteret for ikke tilfredsstillende, da den blandt andet antager uafhængighed mellem observationer. Modellen bør udvides med en tilfældig effekt. I normale analyser ønsker man ofte at bestemme fikserede effekter, dvs. man i modelbestemmelsen har valgt specifikke kategorier for den forklarende variabel. En fikseret effekt antages at blive målt uden fejl og man regner derfor med at en fikseret effekt i et studie vil være det samme som værdien på en fikseret effekt i et andet studie. I (2a) er β j en fikseret effekt. 1 En tilfældig variabel derimod er en stokastisk variabel, hvor værdierne antages at være udtrukket fra en større population af værdier. Man kan anse værdier fra en tilfældig variabel som et tilfældigt udtræk af alle mulige værdier for den variabel. En model med én tilfældig forklarende variabel kan matematisk skrives op således: y ij = α + u j + ε ij (2b), hvor y ij er den afhængige kontinuerte variabel, α er et niveaumål, ε ij ~ N(0,σ 2 ), mens u j er en tilfældig effekt, der antages at have middelværdi 0 og varians τ j. Det antages desuden at ε ij og u j er uafhængige (Leyland,2001,3). Hvad der skal estimeres i forbindelse med en tilfældig effekt er altså variansen. Det antages, at hvis variansen estimeres fra andre ensartede studier vil estimatet være det samme. For at vise hvorfor dette begreb er en nødvendig udvidelse af (2a) for at modellere de nødvendige afhængigheder, anskues kovariansen mellem to observationer (κ og ν) fra samme gruppe (j). I (2a) fås, at 5

cov(y jκ,y jν ) = cov(ε jκ,ε jν ) = 0, hvor κ ν Derfor er observationerne i samme gruppe ukorrelerede og dermed uafhængige (Conradsen, 1984 og Kreiner, 1999, 93). Modsat gælder for (2b) cov(y jκ,y jν ) = cov(u j + ε jκ,u j + ε jν ) = cov(u j,u j ) = τ j, hvor κ ν, dvs. at målinger fra samme gruppe er afhængige, hvis τ j > 0. Tilfældige effekter vil således spille en central rolle i den efterfølgende modelopbygning, da det kan udtrykke afhængigheden mellem observationer fra samme gruppe. Efter denne indledende begrebsafklaring, går jeg videre til at præsentere det første datasæt. 2.2. Datasæt I I et konstrueret datasæt har man testet intelligensen hos 2000 elever (SCORE) fra 100 skoler (SKOLE) 2. Intelligensen er målt på en skala med værdier fra 1 til 100. Der findes desuden information om elevernes køn (KON) og klasselærerens erfaring (ERFARING), der måles ved antal års ansættelse. Dvs. der er forklarende variable på både niveau-1 (KON) og niveau-2 (SKOLE OG ERFARING). Hypotesen der vil blive undersøgt: Er lærerens erfaring og elevens køn associeret med intelligenstesten, når man tager højde for at eleverne er indlejret i forskellige og tilfældigt udvalgte skoler. SCORE antages at være kontinuert, mens KON inddrages som en binær kategorivariabel. ERFARING inddrages som en kontinuert variabel. To figurer viser sammenhængen mellem SKOLE og ERFARING i forhold til SCORE. Middelværdien og spredningen af SCORE er også afrapporteret for henholdsvis drenge og piger. Se bilag 3. Der ses ingen umiddelbar sammenhæng mellem SKOLE og SCORE, mens der er en positiv sammenhæng mellem ERFARING og SCORE. Det fremgår også at piger har højere SCORE end drenge. 1 Kaldes på engelsk random effect modsat fixed effect. Jeg har valgt i denne opgave at kalde disse to begreber for henholdsvis tilfældig og fikseret effekt. 2 Det oprindelige datasæt er fra følgende hjemmeside (http://www.fss.uu.nl/ms/jh). Jeg har dog ændret SCORE, så den viser større variation end i det oprindelige datasæt. 6

2.3. Ubetinget middelværdi-model Den første model der opstilles er en ubetinget model til at bestemme middelværdien af intelligenstesten. Modellen er den mest simple, da den beskriver den enkelte observation hos elev i, y i, kun ved en generel middelværdi, µ, og en tilfældig variation omkring denne middelværdi, ε i. Denne model kan matematisk skrives: y i = α + ε i hvor ε i ~ N(0,σ 2 ) (2c) Denne model er en generel lineær model uden forklarende variable, hvor det antages at observationerne er uafhængige og at fejlleddet er normalfordelt med middelværdi 0 og varians σ 2. Modellen udsiger at intelligensen varierer tilfældigt omkring den fælles middelværdi for de 2000 elever. PROC GLM i SAS benyttes til estimere de relevante parametre (se output 1 for resultatet og bilag 1.1 for SAS-syntax): Output 1 The GLM Procedure Dependent Variable: score Intelligenstest Sum of Source DF Squares Mean Square F Value Pr > F Model 1 5773610.882 5773610.882 31462.2 <.0001 Error 1999 366835.118 183.509 Uncorrected Total 2000 6140446.000 R-Square Coeff Var Root MSE score Mean 0.000000 25.21275 13.54656 53.72900 Source DF Type III SS Mean Square F Value Pr > F Intercept 1 5773610.882 5773610.882 31462.2 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 53.72900000 0.30291031 177.38 <.0001 Resultatet af analysen er at gennemsnitsværdien er 53,7 for alle 2000 observationer, hvilket modellen finder til at være forskellig fra 0 (p < 0,0001). Desuden ses at fejlleddets varians, σ 2, er 183,5 og at R 2 er lig 0, hvilket ikke er overraskende, da der ikke er inddraget forklarende variable (Woodward,1999,424). 2.4. Model med tilfældig effekt Den tomme model er dog ikke tilfredsstillende. Jeg ved at de 2000 elever går på 100 forskellige skoler (mellem 16 og 26 elever på den enkelte skole). Det kunne derfor være interessant at se om de 100 skolers elever havde forskellige gennemsnitlige resultater af intelligenstesten. Det kunne gennemføres med en standard generel lineær model ved at inddrage en fikseret skoleeffekt. Som det fremgår af bilag 3.1 ser det ikke umiddelbart ud til at der er forskel mellem skolerne. Jævnfør hypotesen er interessen ikke rettet mod netop disse (tilfældigt udvalgte) skoler har samme 7

gennemsnitlige intelligenstests. Derimod kunne man forestille sig at skolerne er tilfældigt udtrukket fra en større population af skoler. Med en sådan antagelse vil det være muligt at besvare spørgsmål om hvilken gennemsnitlig højde man ville forvente hvis man udtrak en tilfældig skole fra populationen af skoler. Skolerne bliver altså inddraget for at repræsentere en vis variation. Når man anskuer skoler på den måde inddrages SKOLE-variablen som en tilfældig effekt, der vil bidrage til at beskrive en del af variationen i modellen (Armitage,2002,218). I eksemplet ønskes intelligenstesten, y ij, hos den enkelte elev i fra skole j beskrevet. Den umiddelbare model med en tilfældig effekt er at anse outcome som en lineær kombination af en generel middelværdi, α, en serie af afvigelser fra denne generelle middelværdi henført til skolerne, u j, og en tilfældig fejl ved den enkelte i ende observation i den j ende skole, ε ij. Det nye led i forhold til (2c) er altså en tilfældig skoleeffekt. Modellen vil ikke blive skrevet op som en enkelt ligning, men derimod delt op i de forskellige niveauer for så at samle den til sidst. Håbet er at det giver et bedre overblik ved de efterfølgende modeludvidelser. To modeller vil blive benyttet for at opstille modellen: En model for elev-niveauet (niveau 1) og en for skole-niveauet (niveau 2). På niveau 1 udtrykkes den individuelle SCORE, y ij, som en sum af skæringen for individets skole, β j, og en tilfældig residualvariation, ε ij, associeret med den i te observation i den j te skole. Det kan skrives op som følgende matematiske model: y ij = β j + ε ij hvor ε ij ~ N(0,σ 2 ) (2d) På niveau 2 (skole-niveauet) udtrykkes skoleniveauet som en sum af en generel middelværdi, γ MID, og en serie af tilfældige afvigelser fra denne middelværdi, u j : β j = γ MID + u j hvor u j ~ N(0,τ j ) (2e) γ MID er en fikseret effekt og u j er en tilfældig normalfordelt effekt med middelværdi 0 og varians τ j. Kombineres (2d) og (2e) fås følgende 2 niveau model: y ij = γ MID + u j + ε ij hvor u j ~ N(0,τ j ) og ε ij ~ N(0,σ 2 ) (2f), hvor det antages at u j og ε ij er normalfordelt og at de er uafhængige (Leyland,2001,3). I modellen er den generelle middelværdi repræsenteret ved γ MID, skole-effekten er repræsenteret ved u j og residualerne associeret ved den enkelte observation i den j te skole er ε ij. Denne model kan forstås som en kombination af en fikseret del, der indeholder γ MID og en tilfældig del, der indeholder 8

to tilfældige effekter, u j og ε ij. Modellen bliver estimeret så både den fikserede effekt (der fortæller noget om den gennemsnitlige SCORE blandt eleverne i datasættet) og de to tilfældige effekter, u j (der fortæller om variationen i skole-middelværdierne omkring middelværdien for intelligenstestene) og ε ij (der fortæller om variationen inden for skolerne) estimeres. Variansen til disse to sidste tilfældige effekter kaldes også for varianskomponenter (Armitage,2002,218). For at estimere denne model benyttes PROC MIXED. Syntaxen kan ses i bilag 1.2. Relevante dele af output kan ses i output 2. Output 2 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z Intercept skole 87.2540 13.1119 6.65 <.0001 Residual 97.9770 3.1789 30.82 <.0001 Fit Statistics 2 Res Log Likelihood 15135.4 AIC (smaller is better) 15139.4 AICC (smaller is better) 15139.4 BIC (smaller is better) 15144.7 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 53.6288 0.9602 99 55.85 <.0001 Ændringen i forhold til output 1 er at variansen i denne model er blevet delt op i det der kaldes intercept og residual. Disse to størrelser er henholdsvis τ j og σ 2. De skal forstås således at variansen i hele datasættet er delt i en varians, der kan knyttes til variationen mellem skolerne, τ j, og variationen mellem eleverne inden for skolerne, σ 2. Det bemærkes at begge varianser er forskellig fra 0, dvs. at de er større end nul 3. En anden måde at anskue denne variation er at estimere intra-skole korrelationen, ρ. Det er et mål for hvor stor en del af den samlede variation, der kan tilskrives skole-variationen: ρ = σ 2 j / ( σ 2 j + σ 2 ) (2g) = 87,25 / ( 87,25 + 97,98 ) = 0,47 3 Validiteten af dette asymptotiske Wald-test er dog problematisk, da det bygger på antagelserne om mange observationer og at variablen er normalfordelt. I dette tilfælde er der mange observationer, men et estimat for variansen vil ikke være normalfordelt, men højreskævt. En alternativ måde at teste størrelsen på er at benytte et restricted likelihood ratio test (restricted fordi kun varianskomponenter er inkluderet i likelihood funktionen (Hox, 2002)), hvor man sammenligner denne model med en model uden den tilfældige effekt. Resultatet af dette test bliver her: LL = 16099,8 15135,4 = 964,4, df = 1, p < 0,001. Altså igen et stærkt signifikant resultat. 9

Dette mål giver en fornemmelse af hvor stor gruppering, der er inden for skolerne. Hvis målet giver en høj værdi antyder det at en standard regressionsmodel risikerer at give fejlagtige resultater. Det ser således ud til at der er stærke gruppeeffekter i datasættet, hvilket understøtter valget af flerniveau modellen. 2.5. Inddragelse af fikseret effekt Den model der netop er gennemgået har dog ikke den umiddelbare interesse, men skal derimod bruges som en model de efterfølgende mere komplekse modeller kan sammenlignes med. Først vil klasselærerens erfaring målt som antal års ansættelse blive inddraget. Denne variabel vil blive inddraget som en fikseret effekt. (2d) benyttes igen som den grundlæggende model, men β j (niveau 2) defineres anderledes: β j = γ MID + γ CEN_ERFA * x CEN_ERFA + u j, hvor u j ~ N(0,τ j ) (2h) γ CEN_ERFA er regressionskoefficienten for lærerens erfaring 4, dvs. den ændring i SCORE hver gang ERFARING stiger med 1 år. γ MID er den gennemsnitlige SCORE ved en lærer med gennemsnitlig erfaring og u j er den tilfældige variation forbundet til SKOLE. Kombineret med (2d) giver det: y ij = γ MID + γ CEN_ERFA * x CEN_ERFA + u j + ε ij hvor u j ~ N(0,τ j ) og ε ij ~ N(0,σ 2 ) (2i) De to første led er altså fikserede effekter, mens de to sidste er tilfældige effekter. Resultatet af analysen kan ses i output 3 og syntaxen er gengivet i bilag 1.3. 4 Jeg har centreret ERFARING omkring den generelle middelværdi. Derfor har CEN_ERFA en middelværdi på 0. Grunden til centreringen er at det giver en lettere fortolkning af γ MID, da det vil være SCORE hos elever, der har en lærer med en gennemsnitlig erfaring. Et muligt problem ved centrering er dog at den centrerede variabel kan få en mere vanskelig fortolkning (Hox,1995,4). 10

Output 3 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z Intercept skole 50.1714 7.8877 6.36 <.0001 Residual 97.9827 3.1792 30.82 <.0001 Fit Statistics -2 Res Log Likelihood 15086.1 AIC (smaller is better) 15090.1 AICC (smaller is better) 15090.1 BIC (smaller is better) 15095.4 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 53.6021 0.7424 98 72.20 <.0001 cen_erfa 0.9277 0.1129 1900 8.21 <.0001 Det ses fra de fikserede effekter at der er en positiv sammenhæng mellem lærerens erfaring og resultatet af intelligenstesten, således at for hvert års lærererfaring bliver resultatet 0,9 bedre. Dette forudsætter selvfølgelig at der er en lineær sammenhæng mellem lærerens erfaring og resultatet af testen. I bilag 3.2 ser sammenhængen umiddelbart lineær ud, men en egentlig modelkontrol i flerniveau modeller vil blive diskuteret i afsnit 2.8. Det bemærkes at den tilfældige effekt associeret med skolerne er blevet mindre. Det skal forklares ved en del af den variation, der kan tilskrives niveau-2 (skolerne) bliver forklaret af lærernes erfaring. Residual variationen (σ 2 ) har derimod ikke ændret sig. Det bemærkes desuden at alle parametre i modellen er højsignifikante. 2.6. Inddragelse af niveau 1 variabel Modellen er endnu ikke tilfredsstillende, da hypotesen også inddrager køn hos de 2000 elever. Denne variabel er en niveau 1 variabel 5. Man kunne nøjes med at inddrage variablen som en fikseret effekt, dvs. at man antager at effekten af køn er den samme for alle skolerne. Det anser jeg umiddelbart som en forsimpling og effekten af køn antages derfor at kunne variere tilfældigt fra skole til skole. Det kan gøres ved også at inddrage køn som en tilfældig effekt 6. Modellen for intelligenstesten opstilles matematisk: y ij = β j + β KØN * x KØN + ε ij (2j) 5 Køn er en binær variabel der har værdien 0 for drenge og 1 for piger. I princippet er det en kategoriel variabel, men der er dog visse egenskaber ved netop binære variable, der medfører at de kan betragtes som kontinuerte variable (Kreiner,1999,28). Jeg inddrager derfor variablen som kontinuert variabel i SAS-syntaxen. 6 Jeg har valgt i denne model ikke at inddrage ERFARING (niveau-2 variabel), da det bliver lettere at fortolke resultaterne uden denne variabel. I afsnit 2.7 vil den dog igen blive inddraget sammen med KON. 11

For niveau 2 ser modellen således ud: β j = γ MID + u j (2k) Og for niveau 1: β KØN = γ KØN + u KØN (2l) De tilfældige effekter i modellen antages at have følgende egenskaber: ε ij ~ N(0,σ 2 ) og Dette er matrixnotation for fordelingsantagelsen af de to tilfældige effekter i modellerne. Det der er værd at bemærke er at man ud over variansen til både skæringen og hældning også får en kovarianskomponent, der repræsenterer korrelationen mellem hældningen og skæringen (τ co ). Hvis (2j), (2k) og (2l) kombineres fås følgende model: y ij = γ MID + γ KØN * x KØN + u j + u KØN * x KØN + ε ij (2m) Denne model afviger fra den simple model i (2d) på i hvert fald tre væsentlige områder: Det antages i modellen at der er korrelation mellem hældningen og skæringen, hvilket repræsenteres ved kovariansleddet. Ved inddragelse køn som både fikseret og tilfældig effekt postuleres det at testresultatet afhænger af elevernes køn, men også at effekten af køn kan variere fra skole til skole. Det antages således at variansen er forskellig for de to køn. Modellen har således inddraget heteroskedasticitet. Dette vil blive kommenteret i afsnit 2.8 omhandlende modelkontrol. Da køn er en binær variabel med værdierne 0 (drenge) og 1 (piger) kan modellen umiddelbart tolkes som om pigerne altid vil have ens eller højere varians end drengene, da leddet u KØN * x KØN kun vil have en effekt for pigerne og variansen aldrig kan være negativ 7. Der er dog ingen argument ud fra datasættet for at dette nødvendigvis skulle være korrekt. Man kan godt forestille sig at drengene har større varians end pigerne. Dette umiddelbare problem i modellen er dog kun tilsyneladende, da en 7 I den forbindelse skal det bemærkes, at variansen til en tilfældig effekt rent faktisk kan blive estimeret negativt. Grunden til dette skal findes i estimationsteknikken, hvor størrelsen findes ved at trække mean sum of squares mellem observationerne i grupperne (s 2 W) fra MSq mellem grupperne (s 2 B) og dividere med antallet af observatioer: τ j = (s 2 W - s 2 B)/n. Denne størrelse bliver således negativ, når s 2 B > s 2 W. dvs. når variationen internt i grupperne er større end variationen mellem grupperne. I sådanne tilfælde vil variansen i SAS blive sat til 0. 12

negativ kovarians (τ co ) kan medføre at pigerne har en lavere varians end drengene, hvis kovariansen er negativ. 8 Resultatet af analysen kan ses i output 4 og syntaxen kan ses i bilag 1.4. Output 4 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) skole 90.3901 13.9557 6.48 <.0001 UN(2,1) skole -12.2242 6.9834 1.75 0.0800 UN(2,2) skole 29.5918 6.4639 4.58 <.0001 Residual 73.9378 2.4650 30.00 <.0001 Fit Statistics -2 Res Log Likelihood 14702.0 AIC (smaller is better) 14710.0 AICC (smaller is better) 14710.0 BIC (smaller is better) 14720.4 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 49.5967 0.9895 99 50.12 <.0001 kon 8.1612 0.6723 1899 12.14 <.0001 Den største ændring i outputtet er variansestimaterne, der har fået en anden form. Varianskovarians-strukturen er angivet til at være ustruktureret, hvilket medfører at tre parametre bliver bestemt. Det er muligt at specificere hvordan kovariansstrukturen skal være i modellen, hvilket ikke vil blive yderligere udfoldet her, men gemt til afsnit 3. I dette afsnit er det tilfredsstillende ikke at antage en specifik struktur. De fikserede effekter viser at både skæringen og hældningen for sammenhængen mellem køn og intelligens er signifikant forskellig fra nul. Det er sandsynligt at piger gennemsnitligt har et højere testresultat end drenge. Varians og kovarians estimaterne fortæller os hvor meget skæringen og hældningen varierer fra skole til skole. UN(1,1) refererer til skæringens varians, UN(2,2) til hældningens varians og UN(2,1) til kovariansen mellem hældningen og skæringen. Det ses således at variansen omkring skæringen er høj i forhold til skæringens værdi. Skolernes gennemsnitlige SCORE varierer altså forholdsvis meget efter kontrol for køn. Hældningen har også en stor variation i forhold til estimatet, dvs. at sammenhængen mellem køn og intelligens varierer fra skole til skole. Det er 8 Dette umiddelbare problem kunne også løses ved at inddrage to tilfældige effekter; en for drengene og en for pigerne. Det ville modellere variansen mere eksplicit end model (2m). 13

muligt at opstille et 95% prædiktionsinterval omkring estimatet for kønseffekten, der er udtryk for hvor 95% af de forventede estimater for køn vil være. Ved at kvadrere variansen for den tilfældige kønseffekt (29,59 ½ = 5,44) findes standardafvigelsen og intervallet opstilles heraf til [-2,50;18,82]. Dette interval skal ikke forveksles med konfidensintervallet til estimatet for kønseffekten, der er væsentligt smallere [6,84;9,48]. Endelig kan man se at der er en negativ kovarians mellem hældning og skæring, hvilket kan forstås således at skoler, der generelt har en høj intelligens ikke vil have en stor kønsforskel, mens skoler der har en lav middelværdi har en større forskel mellem drenge og piger. Det skal dog bemærkes at dette estimat er insignifikant. Man kan derfor overveje om kovariansen burde inddrages i modellen. Det skal dog bemærkes at der kan være problemer ved at bruge Wald-testet ukritisk, da kovariansen afhænger af hvilke x-værdier observationerne har. Kovariansen er derfor nødvendigvis ikke normalfordelt. 2.7. Inddragelse af både niveau-1 og 2 variable For at besvare hypotesen er det nødvendigt også at inddrage ERFARING i modellen. Variablen er niveau 2 og inddrages som en fikseret effekt 9 : β j = γ MID + γ ERFARING + u j (2n) Niveau 1 modellen ændres derimod ikke og den endelige model bliver derfor: y ij = γ MID + γ KØN *x KØN + γ ERFAR *x ERFAR + γ KØN,ERFAR *X KØN,ERFAR + u j + u KØN *x KØN + ε ij (2m), hvor ε ij ~ N(0,σ 2 ) og Det skal bemærkes, at der er indført et interaktionsled mellem KON og ERFARING, hvilket vil blive diskuteret neden for. Se output 5 for resultatet og bilag 1.5. for syntax. 9 Det bør bemærkes, at der på hver af 100 skoler kun er inddraget en klasse. Dvs. at der ikke er flere lærere i hver skole, der er inddraget i modellen. Både ERFARING og SKOLE er altså ligeværdige niveau 2 variable. 14

Output 5 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) skole 40.3092 6.8520 5.88 <.0001 UN(2,1) skole 1.8190 4.5596 0.40 0.6899 UN(2,2) skole 26.3331 6.0039 4.39 <.0001 Residual 73.9193 2.4635 30.01 <.0001 Fit Statistics -2 Res Log Likelihood 14634.2 AIC (smaller is better) 14642.2 AICC (smaller is better) 14642.2 BIC (smaller is better) 14652.6 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 49.5574 0.6912 98 71.69 <.0001 kon 8.1651 0.6472 1898 12.62 <.0001 cen_erfa 1.0752 0.1053 98 10.21 <.0001 kon*cen_erfa -0.3013 0.09843 1898 3.06 0.0022 Hvis de fikserede effekter først tolkes ses det at begge hovedeffekter er højsignifikante, hvor pigerne og lærerens erfaring har en positiv effekt på intelligenstesten. Interaktionsleddet er også signifikant med et negativt estimat. Det ser således ud til at forskellen mellem drenge og piger bliver mindre des større lærerens erfaring er. Det er vigtigt at huske, at når man finder et signifikant interaktionsled skal det hierarkiske princip overholdes (Kreiner, 1999), hvilket betyder at insignifikante hovedeffekter skal beholdes i modellen. Det er ikke noget problem her, fordi begge hovedeffekter er signifikante. Hvad der desuden skal bemærkes er at tolkningen af modellen bliver anderledes, da variablene, der skaber interaktionen, nu skal tolkes i en sammenhæng. I dette tilfælde bliver hældningen mindre for pigerne end for drengene (fordi interaktionsleddet er negativt), hvilket betyder at den forskel man ser hos lærere med en lav erfaring bliver stadig mindre hos mere erfarne lærere. Fordi erfaringsvariablen er centreret og kønsvariablen har en letfortolkelig referencekategori (drenge har værdien 0) bliver fortolkningen af interaktionsleddet også entydig. Med hensyn til de tilfældige effekter ses at kovariansen ikke er signifikant forskellig fra 0. Estimatet er faldet betydeligt efter inddragelse af ERFARING. Det viser sig også, hvis man ikke inddrager kovariansen, at estimaterne på både de fikserede og de tilfældige effekter ændrer sig marginalt. Man 15

burde derfor ikke inddrage kovariansen i den endelige model, men jeg har af pladshensyn valgt at lade den endelige model indeholde kovariansestimatet. Den endelige model kommer til at se således ud: y ij = 49,6 + 8,2*x KØN + 1,1*x ERFARING - 0,3*x KØN,ERFARING + u j + u KØN *x KØN + ε ij, hvor εij ~ N(0,73.9) og Inden denne modeltype forlades skal modelantagelserne kort diskuteres og resultaterne opsamles. 2.8. Modelkontrol Ligesom i den normale generelle lineære model uden tilfældige effekter antages der normalfordelte residualer og linearitet, mens antagelsen om varianshomogenitet er anderledes. Som det blev fremhævet ved model (2m) kan der i en model med tilfældige effekter blive modelleret heteroskedasticitet, når den tilfældige effekt (i (2m) u KØN ) multipliceres med x KØN. Det medfører at den samlede varians kan være forskellig for forskellige værdier af køn. I en normal generel lineær model vil det være et brud på modelantagelserne, mens en generel lineær model med tilfældig effekt således kan modellere sig uden om antagelsen. Dette er endnu en grund til at en normal generel lineær model til hierarkiske data ikke er velegnet (Hox,2002,14). Man kan ligesom ved den normale generelle lineære model opstille histogrammer for residualerne og linearitet kan kontrolleres med plot mellem den forklarende kontinuerte variabel og de standardiserede residualer. Forskellen i forhold til normale modeller er dog, at en model med tilfældige effekter har flere residualer, nemlig en for hver tilfældig effekt plus en for residuelleddet. Derfor vil det være nødvendigt med plot for residualer til alle tilfældige effekter. Denne modelkontrol vil ikke blive præsenteret her i opgaven pga. pladshensyn. Det skal dog bemærkes, at modelkontrollen til det konkrete datasæt viste fin overensstemmelse med modelantagelserne. 16

2.9. Afslutning på første analyse I afsnit 2 er en model opstillet, der forklarer sammenhængen mellem køn og lærers erfaring i forhold til en intelligenstest. Analysen viste, at begge forklarende variable er associeret med intelligenstesten, men også at der var en betydelig variation mellem skolerne. Det skal dog fremhæves at datasættet benyttet i analysen var konstrueret således at modelantagelserne var opfyldt, der var mange observationer i alle grupperne og flerniveau effekterne var stærke. Sådan er det sjældent. Ved en tidligere analyse af et andet datasæt, der ikke er præsenteret i denne opgave, opstod der problemer med at modellen ikke konvergerede. Det var derfor ikke muligt at opstille en model. I sådanne tilfælde er der mulighed for at benytte andre mindre stærke metoder (se f.eks. Goldstein,1995,23 for forslag). Sådanne fundamentale problemer samt problemer med modelantagelserne medfører ofte at man må være kreativ i modelleringen. I næste afsnit vil en anden situation blive diskuteret: Gentagne målinger på samme individ. 17

3. Gentagne målinger En anden datatype modellen kan håndtere er gentagne målinger på samme individ. Når målinger er gentaget på det samme individ, kan det anskues som et 2-niveau hierarki med målinger som niveau 1 og individer som niveau 2. Man vil forvente at korrelationen mellem observationerne fra samme individ er større end korrelationen mellem observationer fra forskellige individer. Derfor kan gentagne målinger opfattes som en 2-niveaustruktur (Hox,2002,73). 3.1. Datasæt II Til at illustrere denne applikation benyttes et datasæt med 27 mænd i alderen 19,8 til 36,9 år ved indgang i studiet, der gennem halvandet år dagligt har noteret, hvor mange ejakulationer de har haft pågældende dag. Der er desuden målt koncentration af testosteron hos mændene på flere tidspunkter (mellem 12 og 18 målinger per mand; i alt 445 målinger). 10 Jeg vil undersøge to hypoteser i dette datasæt: Er der sammenhæng mellem alder og testosteronkoncentration? Er der sæsonvariation i ejakulationsfrekvensen, når der tages højde for alder ved indgang i studiet? Hypotese 1 kan analyseres inden for samme modeltype som afsnit 2, da den afhængige variabel er på et kontinuert skalaniveau. Derfor vil afsnittet starte med at anvise vejen for hvordan data med gentagne målinger kan benyttes med samme modeltype som i afsnit 2. Yderligere overvejelser vil dog være nødvendige. Hypotese 2 derimod vil blive analyseret ved logistisk regression, da ejakulation inddrages som en binær variabel. Tolkningen af resultaterne fra denne analyse vil kræve yderligere overvejelser. Men først hypotese 1. 3.2. Model for gentagne målinger Der findes forskellige modeller til gentagne målinger. Den traditionelle variansanalyse med dens restriktive antagelser om missing values over tid og antagelser om kovarians mellem målinger på samme individ. Alternativt findes den multivariate variansanalyse (MANOVA), der ikke gør antagelser om kovariansstruktur over tid, men som er sårbar overfor missing values. 10 Jeg vil gerne takke Elisabeth Carlsen, afdelingslæge, Cyto/histolaboratoriet, Rigshospitalet, for at stille datasættet til rådighed. 18

Begrænsningerne ved disse modeller fremføres ofte som begrundelse for at benytte en flerniveau model, hvor der inddrages en tilfældig individeffekt (Hedeker,2002, Goldstein,1998, Briggs,1999). En flerniveau model for en lineær sammenhæng mellem en kontinuert responsvariabel (her testosteron) og en kontinuert forklarende variabel (her alder) kan matematisk opskrives: y ij = β j + β ALDER * X ALDER + ε ij β j = γ MID + u j β ALDER = γ ALDER + u ALDER (3a) (3b) (3c), hvor ε ij ~ N(0,σ 2 ) og. Kombination af (3a)-(3c) giver et samlet matematisk udtryk: y ij = γ MID + γ ALDER * x ALDER + u j + u ALDER * x ALDER + ε ij (3d) Det ses at modellens struktur er lig (2m), hvor både skæringen og hældningen for alderseffekten kan variere fra person til person og at der er inkluderet en kovarians mellem hældningen og skæringen. Model (3d) er neden for estimeret. Syntaxen kan ses i bilag 2.1 og resultatet i output 6 11. Output 6 Dimensions Subjects 27 Max Obs Per Subject 547 Observations Used 445 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) PERSONID 17.3012 19.6068 0.88 0.1888 UN(2,1) PERSONID 0.02369 3.2478 0.01 0.9942 UN(2,2) PERSONID 0.2103 0.6207 0.34 0.3674 Residual 13.6721 0.9654 14.16 <.0001 Fit Statistics -2 Res Log Likelihood 2518.9 AIC (smaller is better) 2526.9 AICC (smaller is better) 2527.0 BIC (smaller is better) 2532.1 Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept 30.6237 1.6697 26 18.34 <.0001 age20-0.2794 0.2705 417-1.03 0.3022 11 Jeg har valgt at centrere aldersvariablen omkring alder=20. Variablen hedder age20. 19

Alder påvirker således testosteronkoncentration negativt, men dog insignifikant. Variansestimaterne er høje i forhold til estimaterne af de fikserede effekter, mens kovariansen er lav og stærkt insignifikant (p = 0,9942). Det ville altså være rimeligt at gennemføre analysen uden kovarians, hvilket ikke er gengivet her. Resultatet ændrer de øvrige estimater marginalt. Det skal bemærkes, at der kun er 445 observationer inddraget i analysen, fordi der ikke er flere målinger af testosteron. Det kan være en årsag til den insignifikante alderseffekt. Som nævnt er model (3d) i form lig de modeller, der blev opstillet i afsnit 2. Til forskel for de tidligere modeller vil variansen og kovariansen mellem forskellige tidspunkter dog have en central rolle i modeller for gentagne målinger (Hox,2002,96). Ofte vil man tillægge residualleddet en struktur for den korrelation, der er mellem de forskellige tidspunkter. Ideelt set skal denne struktur komme fra teoretiske overvejelser (Singer,1998,346). Et eksempel er tilfældet hvor alle varianser er ens og alle kovarianser er ens til alle tidspunkter, hvor strukturen kaldes compound symmetry (Hox,2002,97). Denne restriktive antagelse vil ofte ikke være rimelig. Hvor compound symmetry er meget restriktiv kan man som modpol sætte den fuldt mættede model, hvor alle varianser og kovarianser estimeres særskilt. Det kaldes en ustruktureret variansstruktur. Denne struktur vil dog give mange variansestimater 12 og man ønsker derfor ofte at specificere strukturen med færre parametre. En tredje mulig struktur er autokorrelation, hvor man antager at målinger målt tæt i tid ofte vil være mere korreleret end målinger længere fra hinanden (Kronborg,1990). Denne struktur kan skrives: ε t = k * ε t-1 + ε, hvor ε t er fejlleddet til tid t, k er en autokorrelationskonstant og ε er residualfejlen med varians σ 2. Disse kovarians-strukturer er blot tre blandt mange (se f.eks. SAS Institute Inc.,1999 og Jennrich,1986 for eksempler på andre strukturer). I stedet for at præsentere flere vil jeg i stedet vise hvordan man kan sammenligne strukturer for at finde den mest passende. En sammenligningsmetode er at sammenligne maximum likelihood-værdierne for en konkret kovariansstruktur med maximum likelihood-værdien for den fuldt mættede model. Herved udnyttes at den konkrete struktur er nested i den mættede model. Ratioen vil være χ 2 -fordelt med frihedsgrader lig forskellen i antal parametre. I forhold til den konkrete analyse, hvor den tilfældige individ-variation ikke er central men det derimod er den fikserede effekt der har primær interesse skal det bemærkes at det ikke vil være 12 Hvis der er k tidspunkter vil antallet af elementer i kovariansenmatricen være k(k+1)/2. 20

ligeså udslagsgivende hvilken kovariansstruktur, der specificeres, som hvis den tilfældige effekt havde primær interesse (Hox,2002,100). Konklusionen på analysen er derfor at alder har en negativ effekt på testosteronkoncentrationen, når man tager højde for at de gentagne målinger er indlejret i de samme personer. Sammenhængen er dog insignifikant. Desuden er der en betydelig variation omkring både skæringen og hældningen. Modellen er altså i grundstruktur lig den flerniveau model, der blev udviklet i afsnit 2. Jeg vil derfor ikke udvikle den yderligere, men gå videre med en modelgruppe, hvor responsvariablen er binær: Logistisk regression med tilfældig effekt. 3.3. Binær responsvariabel For at kunne teste hypotese 2 om ejakulationsfrekvensen påvirkes af årstiderne ved hjælp af den logistiske regression er det nødvendigt at dikotomisere ejakulationsfrekvens: 0 = ingen ejakulation og 1 = en eller flere ejakulationer. Hovedparten af observationerne har en frekvens på 0 og 1 ejakulation, hvilket støtter at omkodningen er rimelig. Se tabel 2. Tabel 2 Antal ejakulationer Antal observationer Valid procent 0 5.220 44,25 1 4.943 41,90 2 1.368 11,60 3 226 1,92 4 30 0,25 5 8 0,07 6 1 0,01 I alt 11.796 100,00 Missing 2.973 For at få et indtryk af hvordan observationerne fordeler sig blandt de 27 mænd er sammenhængen mellem det gennemsnitlige antal ejakulationer per måned tegnet. Observationer fra samme individ er desuden blevet forbundet med en linie. Se bilag 3.4. Umiddelbart ser der ikke ud til at være systematik i forhold til årstid. Det ser dog ud til at der er en vis systematik inden for individerne, da der er en tendens til at individerne bevarer det samme niveau gennem perioden. Jeg ønsker at undersøge om sandsynligheden for at have ejakulation er afhængig af årstid. Modellen skal samtidig tage højde for at oplysningerne er indlejret i 27 personer og endelig skal effekten af personernes alder ved indgang i studiet inddrages. Men inden modellen opstilles præsenteres den logistiske regressionsmodel kort: 21

p(y i = 1) = exp(η i / (1 + η i ), hvor η i = α + Σβi * xi (3e), hvor Y i er den binære afhængige variabel, η i er et lineært udtryk bestående af et konstantled, α, og en eller flere forklarende variable, x i, med de dertil hørende regressionskoefficienter, β i. De forklarende variable kan både være kategorielle og kontinuerte. Modellen kan også skrives således: logit(p(y i = 1 Xi = xi)) = α + Σβi xi, hvor logit(p) = ln (p / (1 p)) og p er sandsynligheden for udfaldet Y i = 1 (Kreiner,1999). Begrundelsen for logit-transformationen er at man derved ændrer en variabel begrænset fra 0 til 1 (sandsynlighedsskalaen) til hele den reelle akse (Kreiner,1999). Modellen kan udvides med tilfældige effekter: logit(p(y i = 1 x i, u i )) = α + Σβ i * x i + Σu i (3f), hvor u i er normalfordelte tilfældige effekter med middelværdi 0 og varians τ i (Larsen, 1998). Denne model vil ikke blive yderligere præsenteret her, men derimod udvidet og fortolket i de efterfølgende afsnit. 3.4. Logistisk regression med fikseret effekt (3e) og (3f) er de modeller, der i det følgende vil blive brugt. Den første model vil opstille sammenhængen mellem årstid og sandsynligheden for ejakulation uden hensyntagen til at observationerne er indlejret i 27 personer. Der vil altså ikke blive inddraget en tilfældig effekt: logit(p(y EJAKULATION =1 x ÅRSTID )) = α + β ÅRSTID * x ÅRSTID (3g), hvor α er logitværdien for referencekategorien (vinter), mens β ÅRSTID er logit-forskellene mellem årstiderne. Syntaxen kan ses i bilag 2.2 og output i output 7. 22

Output 7 The GENMOD Procedure Model Information Distribution Binomial Link Function Logit PROC GENMOD is modeling the probability that udlo_bin='1'. Analysis Of Parameter Estimates Standard Chi- Parameter DF Estimate Error Square Pr > ChiSq Intercept 1 0.1603 0.0417 14.77 0.0001 SEASON efterår 1 0.0145 0.0588 0.06 0.8054 SEASON forår 1 0.1688 0.0519 10.56 0.0012 SEASON sommer 1 0.0273 0.0562 0.24 0.6272 SEASON vinter 0 0.0000 0.0000.. Wald Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq SEASON 3 16.09 0.0011 Model informationerne fortæller os om fordelingen og linkfunktionen i den generaliserede lineære model (Woodward,1999,462). Her præciseres at det er en logistisk regressionsmodel. Nederst kan genfindes et generelt test af om sæson er associeret med sandsynligheden for ejakulation. Dette understøttes (p = 0,0011). Det ses desuden af estimaterne, at det er om foråret at sandsynligheden for ejakulation er højest, mens der ikke er signifikante forskelle mellem vinter og henholdsvis sommer og efterår. Umiddelbart et resultat, der underbygger hypotese 2. 3.5. Inddragelse af tilfældig effekt Men modellen udvides, så der tages højde for at observationer fra samme person kan være korreleret. Det gøres med følgende model: logit (p(y EJAKULATION =1 x ÅRSTID,u INDIVID )) = α + β ÅRSTID * x ÅRSTID + u INDIVID (3h), hvor u INDIVID ~ N(0,τ 0 ). α er logitværdien for referencekategorien og β i er logitforskellen mellem årstiderne. Det antages således at den tilfældige effekt er normalfordelt på logit-skalaen. Dette er en rimelig antagelse, da det er en skala defineret på hele den reelle skala (]- ; [), hvor den tilfældige effekt vil variere omkring en middelværdi af et lineært udtryk (her: α + β ÅRSTID * x ÅRSTID ). Der er altså i model (3h) blevet taget højde for at observationerne er indlejret i 27 mænd. I modellen antages det desuden at outcome (ejakulation eller ej) er binomialfordelt givet den tilfældige effekt: 23

Y EJAKULATION u INDIVID ~ binomial(n,p) (3i), hvor n er antal observationer for hver person til hvert tidspunkt og p er sandsynligheden for udfaldet 13. Denne models estimater kan ses i output 8 og syntaxen kan genfindes i bilag 2.3. Output 8 Specifications Dependent Variable Distribution for Dependent Variable Random Effects Distribution for Random Effects Subject Variable The NLMIXED Procedure udlo_bin Binary u Normal PERSONID Dimensions Observations Used 11796 Observations Not Used 2973 Total Observations 14769 Subjects 27 Max Obs Per Subject 485 Fit Statistics -2 Log Likelihood 15104 AIC (smaller is better) 15114 AICC (smaller is better) 15114 BIC (smaller is better) 15121 Parameter Estimates Standard Parameter Estimate Error DF t Value Pr > t beta0 0.1824 0.1420 26 1.28 0.2102 b_foraar 0.1937 0.05489 26 3.53 0.0016 b_sommer 0.05623 0.05930 26 0.95 0.3517 b_eftera 0.02920 0.06203 26 0.47 0.6418 s2u 0.4906 0.1378 26 3.56 0.0015 Øverst i output 8 ses model specifikationerne. UDLO_BIN er den afhængige variabel, som er antaget at være bernoullifordelt. PERSONID er inddraget som tilfældig effekt og er antaget normalfordelt. Parameterestimaterne ses nederst. Igen er der størst sandsynlighed for ejakulation om foråret og effekten er stadig signifikant. Desuden ses at variansestimatet for den tilfældige individeffekt er højt (0,4906) i forhold til de andre estimater og at det er højsignifikant. Der gælder igen de forbehold med hensyn til fortolkning af signifikanstestet, som er beskrevet i afsnit 2.4. Det konkluderes dog at 13 I dette tilfælde er binomialfordelingen lig med at variablene er binært fordelt (bernoullifordelt), da der for hver observation er en variabel, der enten er 0 eller 1. Hvis jeg inddrog denne variabel som en binomialfordelt variabel skulle jeg således blot specificere at n for alle observationer var 1. Jeg har derfor i SAS-syntaxen specificeret at Y EJAKULATION, betinget af den tilfældige effekt, er binært fordelt. 24

der er en stærk gruppeeffekt, således forstået at observationer på den samme person er korreleret og at der er væsentlig variation på de andre estimater fra person til person. Denne umiddelbare tolkning er dog ikke så ligetil som det først synes. Den lineære sammenhæng som er blevet opstillet er kun et lineært udtryk på logit-skalaen, der ikke har en umiddelbar fortolkning. I en normal logistisk regression med fikserede effekter vil man normalt omregne estimaterne til odds ratio (exp(β)) eller til sandsynligheder (p = exp(η i / (1 + η i )), da de har en pænere fortolkning. I den modelgruppe, der præsenteredes i afsnit 2, var det muligt at udtrykke både de fikserede og tilfældige effekter som estimater, hvor de andre effekter blev holdt konstant. En af de tiltalende egenskaber ved logistisk regression er odds ratio fortolkningen af parametrene, men det er mindre oplagt hvordan man tolker en tilfældig effekt på en odds ratio-skala. Larsen (1998) argumenterer for at fordelingsmæssige egenskaber ved den tilfældige effekt efter en eksponential-transformation (dvs. på odds ratio-skalaen) ikke fremstilles godt ved variansen, da den sædvanligvis vil være skæv. I stedet for argumenteres der for at median- og percentil-baseret mål er bedre til at indfange de fordelingsmæssige egenskaber. Disse mål kan udtrykke et prædiktionsinterval i stil med det, der præsenteredes i afsnit 2, dog med den væsentlige forskel at det baseres på percentiler og ikke på normalfordelingen. Denne dimension har i denne model og ved hypotese 2 dog ikke den centrale interesse, da interessen centrerer sig om der er sæsonvariation i ejakulationssandsynligheden. Den tilfældige effekt fra de 27 personer inddrages derimod for at tage højde for at der kan være betydelig korrelation mellem observationer på samme person. Man kunne dog vælge at afrapportere den fikserede sæsoneffekt med et passende prædiktionsinterval, hvilket ikke vil blive gennemført her. Det skal blot bemærkes at der er en betydelig variation ved sæsoneffekten. 3.6. Inddragelse af niveau 1 variabel Inden den endelige konklusion på hypotese 2 nås inddrages alder ved indgang i studiet, da alder kan påvirke sammenhængen mellem årstid og sandsynlighed for ejakulation. Modellen opskrives matematisk således: logit(p(y EJAKULATION =1 x ÅRSTID,x ALDER,u INDIVID )) = α + β ÅRST *x ÅRST + β ALD *x ALD + u IND (3j), hvor alder inddrages som kontinuert variabel, der er centreret omkring alder lig 20. Modellen estimeres med syntax i bilag 2.4 og resultatet kan ses i output 9. 25

Output 9 The NLMIXED Procedure Fit Statistics -2 Log Likelihood 15101 AIC (smaller is better) 15113 AICC (smaller is better) 15113 BIC (smaller is better) 15121 Parameter Estimates Standard Parameter Estimate Error DF t Value Pr > t beta0 0.5274 0.2384 26 2.21 0.0359 b_age20-0.05271 0.02957 26-1.78 0.0863 b_foraar 0.1834 0.05518 26 3.32 0.0026 b_sommer 0.03860 0.06011 26 0.64 0.5263 b_eftera 0.01682 0.06242 26 0.27 0.7897 s2u 0.4683 0.1320 26 3.55 0.0015 I output 9 er kun modellens tilpasning til data og parameterestimaterne medtaget. Det fremgår at alderseffekten ikke er signifikant, hvilket også understøttes af et likelihood-ratio test mellem model (3j) og (3h) (LR=15104-15101=3, df=1, p>0,05) 14. Der er altså en insignifikant negativ effekt af alder på sandsynligheden for ejakulation. Det ses desuden at sæsonvariablene følger samme mønster som i model (3h) og at estimatet for forår er signifikant højere end for vinter (referencekategori). Endelig ses det at variansen, der kan tilskrives den tilfældige individeffekt, er højsignifikant. Umiddelbart er denne model tilfredsstillende. Ofte vil det dog være passende at udvikle en mere kompleks flerniveau model med flere tilfældige og fikserede effekter. F.eks. vil en model med en tilfældig alderseffekt måske være bedre end model (3j). Denne model ville i grundstruktur være lig model (3d). Dette har jeg dog ikke gjort her, da en sådan udvidelse for det første læner sig op af den modelstruktur, som allerede er præsenteret i afsnit 2. Derfor vil jeg ikke vinde yderligere viden om flerniveau modellen ved en sådan udvidelse. For det andet er udvidelsen rent faktisk ikke umiddelbart mulig i den SAS-syntax, der er benyttet til den logistiske regression (PROC NLMIXED). (SAS Institute Inc.,1999,2454). 14 Hvis modellen kun med alder som fikseret effekt sammenlignes med model 3j ses også en signifikant forskel (LR=15101-15117=16, df=3, p<0,05), hvilket underbygger, at sæson taget under et har en signifikant effekt. 26