Flerniveau modeller. Individuelt studieforløb. Efterårssemesteret Folkesundhedsvidenskab ved Københavns Universitet

Størrelse: px
Starte visningen fra side:

Download "Flerniveau modeller. Individuelt studieforløb. Efterårssemesteret 2002. Folkesundhedsvidenskab ved Københavns Universitet"

Transkript

1 Individuelt studieforløb Efterårssemesteret 2002 Flerniveau modeller Folkesundhedsvidenskab ved Københavns Universitet Vejleder: Jørgen Holm Petersen Eksamensnummer 20

2 Indholdsfortegnelse 1. Indledning Hierarkisk generel lineær model Begrebsafklaring Datasæt I Ubetinget middelværdi-model Model med tilfældig effekt Inddragelse af fikseret effekt Inddragelse af niveau 1 variabel Inddragelse af både niveau-1 og 2 variable Modelkontrol Afslutning på første analyse Gentagne målinger Datasæt II Model for gentagne målinger Binær responsvariabel Logistisk regression med fikseret effekt Inddragelse af tilfældig effekt Inddragelse af niveau 1 variabel Afslutning på anden analyse Konklusion Litteraturliste...29 Bilag 1. SAS-procedurer til afsnit Bilag 2. SAS-procedurer til afsnit Bilag 3. Figurer

3 1. Indledning Det er et grundlæggende princip i statistik at variationen i data kan indeholde struktur og derfor at en analyse af disse skal tage højde for denne struktur. En almindelig datastruktur er at de enkelte observationer falder i grupper. Et eksempel er børn af samme forældre, hvor det vil være rimeligt at antage at disse børn er mere ens på deres fysiske og mentale karakteristika end børn udvalgt tilfældigt fra hele populationen. Konceptuelt kan en sådan struktur karakteriseres som et hierarkisk system af individer indlejret i grupper, hvor individer og grupper er defineret som separate niveauer i dette hierarkiske system. Man vil i eksemplet beskrive børnene som enheder på niveau 1 i en 2- niveau struktur, hvor niveau 2 er forældrene. Eksistensen af sådanne hierarkier er sjældent uden betydning og bør derfor ikke ignoreres. Nogle gange er grupperingerne en afspejling af sociale eller biologiske forhold, mens det i andre tilfælde er et udtryk for tilfældighed, f.eks. når børn placeres i klasser ved skolestart. Men i alle tilfælde risikerer man ved at ignorere disse forhold at overse forhold ved data og derved at resultaterne ikke vil være valide. Når man har data med en hierarkisk struktur er der i hvert fald to argumenter imod at benytte statistiske metoder, der ikke tager højde for denne struktur: Det første er konceptuelt, mens det andet er statistisk (Hox,2002,4). Det statistiske argument vil være det fremtrædende i opgaven: A. Konceptuelt. Hvis man i en analyse ikke tager højde for den hierarkiske struktur risikerer man at begå the fallacy of the wrong level. Der er to typer: The ecological fallacy er et velkendt problem inden for epidemiologien, hvor man opstiller fejlagtige sammenhænge på individ-niveau på baggrund af økologiske data (Rothman,1998,469). Men det gælder også i den modsatte retning, nemlig når man fejlagtigt konkluderer fra individuelle sammenhænge til et økologisk niveau (Hox,2002,5). Begge fejlslutninger er alvorlige, men vil ikke blive diskuteret yderligere i nærværende opgave. B. Statistisk. Som beskrevet oven for vil man i data med hierarkiske struktur forvente en vis afhængighed mellem observationer fra den samme gruppe. En central antagelse i standard statistiske modeller er uafhængighed mellem observationer. Hvis data med hierarkisk struktur inddrages i en standard analyse antager man altså uafhængighed mellem observationerne. Hvis denne antagelse ikke er opfyldt vil standardfejl-estimaterne være for små og derved vil risikoen for at begå type I fejl blive forhøjet. Barcikowski (1981) har vist at hvis man har grupper med 10 personer og en intra-gruppe korrelation på 0,05 vil det medføre at man reelt har et alpha-niveau på 0,11, når man arbejder med 5% som den kritiske 3

4 værdi. Og alpha-niveauet vil stige hurtigt med flere personer i grupperne og større intragruppe korrelation (Hox,1995,6). I princippet kunne man løse dette problem ved at korrigere standardfejlen, så den tog højde for korrelationen mellem observationerne. Det vil dog ofte ikke være nok, da man herved ikke tager højde for den organisatoriske struktur i data. Det er netop en af styrkerne ved flerniveau modellen, at den kan håndtere forklarende variable på flere niveauer med en statistisk model, der inkluderer de relevante afhængigheder. I denne opgave vil disse flerniveau modeller blive præsenteret i to situationer, der ofte er forekommende (Singer,1998,324): 1. En udvidelse af den lineære regressionsmodel, så den inddrager variable på flere niveauer og de passende afhængigheder mellem observationer fra samme gruppe. 2. Situationer hvor man har flere målinger på de samme individer, hvor det antages at den enkelte måling (niveau 1) er indlejret i individer (niveau 2). Her vil man forvente at målingerne på samme individ er mere korrelerede end målinger generelt. Opgaven deles i to hovedafsnit omhandlende de to situationer. Formålet vil være at opstille flerniveau modeller, der inddrager den hierarkiske datastruktur samt fortolke estimaterne fra modellerne. Jeg vil bruge mest plads på at opstille og diskutere de relevante modeller og i mindre grad dvæle ved fortolkningen af estimaterne. Jeg har dog vurderet at det vil være formålstjenstligt at applicere modellerne på konkrete datasæt. Et datasæt i hvert hovedafsnit. I afsnit 2 vil jeg begynde med visse teoretiske overvejelser om hvordan en flerniveau model opstilles ved at introducere et relevant begreb. Herefter startes den egentlig modelopbygning begyndende med den mest simple model: En model uden forklarende variable. Denne model vil trinvist blive udbygget. I afsnittet vil en generel lineær model blive benyttet, dvs. med en kontinuert afhængig variabel og både kontinuerte og kategori forklarende variable (Woodward,1999,416). Afsnit 3 vil omhandle gentagne målinger på f.eks. samme individ. Denne model er grundlæggende ens med modellen i afsnit 2 og jeg har derfor valgt at udvide begrebsapparatet til også en logistisk regressionsmodel, dvs. med en binær afhængig variabel. Opbygningen af afsnittet vil ligne første afsnit med stadig mere komplekse modeller, men jeg vil gå hurtigere frem, når der er gentagelser. I afsnittene opstilles en eller to hypoteser, som vil være omdrejningspunktet for modelopbygningen. 4

5 2. Hierarkisk generel lineær model I dette afsnit vil en hierarkisk generel lineær model blive opstillet og appliceret på et konkret datasæt. Men inden den egentlige analyse er det nødvendigt at introducere et centralt begreb Begrebsafklaring En normal generel lineær model med én forklarende variabel kan matematisk udtrykkes: y ij = α + β j *x j + ε ij (2a), hvor y ij er den afhængige kontinuerte variabel, α er et niveaumål, β j er effekten af en forklarende variabel j (den kan være såvel kategoriel som kontinuert) og ε ij er residualvariationen, som antages normalfordelt med middelværdi 0 og varians σ 2 (skrives ε ij ~ N(0,σ 2 )) (Woodward,1999,416). Denne model er som tidligere argumenteret for ikke tilfredsstillende, da den blandt andet antager uafhængighed mellem observationer. Modellen bør udvides med en tilfældig effekt. I normale analyser ønsker man ofte at bestemme fikserede effekter, dvs. man i modelbestemmelsen har valgt specifikke kategorier for den forklarende variabel. En fikseret effekt antages at blive målt uden fejl og man regner derfor med at en fikseret effekt i et studie vil være det samme som værdien på en fikseret effekt i et andet studie. I (2a) er β j en fikseret effekt. 1 En tilfældig variabel derimod er en stokastisk variabel, hvor værdierne antages at være udtrukket fra en større population af værdier. Man kan anse værdier fra en tilfældig variabel som et tilfældigt udtræk af alle mulige værdier for den variabel. En model med én tilfældig forklarende variabel kan matematisk skrives op således: y ij = α + u j + ε ij (2b), hvor y ij er den afhængige kontinuerte variabel, α er et niveaumål, ε ij ~ N(0,σ 2 ), mens u j er en tilfældig effekt, der antages at have middelværdi 0 og varians τ j. Det antages desuden at ε ij og u j er uafhængige (Leyland,2001,3). Hvad der skal estimeres i forbindelse med en tilfældig effekt er altså variansen. Det antages, at hvis variansen estimeres fra andre ensartede studier vil estimatet være det samme. For at vise hvorfor dette begreb er en nødvendig udvidelse af (2a) for at modellere de nødvendige afhængigheder, anskues kovariansen mellem to observationer (κ og ν) fra samme gruppe (j). I (2a) fås, at 5

6 cov(y jκ,y jν ) = cov(ε jκ,ε jν ) = 0, hvor κ ν Derfor er observationerne i samme gruppe ukorrelerede og dermed uafhængige (Conradsen, 1984 og Kreiner, 1999, 93). Modsat gælder for (2b) cov(y jκ,y jν ) = cov(u j + ε jκ,u j + ε jν ) = cov(u j,u j ) = τ j, hvor κ ν, dvs. at målinger fra samme gruppe er afhængige, hvis τ j > 0. Tilfældige effekter vil således spille en central rolle i den efterfølgende modelopbygning, da det kan udtrykke afhængigheden mellem observationer fra samme gruppe. Efter denne indledende begrebsafklaring, går jeg videre til at præsentere det første datasæt Datasæt I I et konstrueret datasæt har man testet intelligensen hos 2000 elever (SCORE) fra 100 skoler (SKOLE) 2. Intelligensen er målt på en skala med værdier fra 1 til 100. Der findes desuden information om elevernes køn (KON) og klasselærerens erfaring (ERFARING), der måles ved antal års ansættelse. Dvs. der er forklarende variable på både niveau-1 (KON) og niveau-2 (SKOLE OG ERFARING). Hypotesen der vil blive undersøgt: Er lærerens erfaring og elevens køn associeret med intelligenstesten, når man tager højde for at eleverne er indlejret i forskellige og tilfældigt udvalgte skoler. SCORE antages at være kontinuert, mens KON inddrages som en binær kategorivariabel. ERFARING inddrages som en kontinuert variabel. To figurer viser sammenhængen mellem SKOLE og ERFARING i forhold til SCORE. Middelværdien og spredningen af SCORE er også afrapporteret for henholdsvis drenge og piger. Se bilag 3. Der ses ingen umiddelbar sammenhæng mellem SKOLE og SCORE, mens der er en positiv sammenhæng mellem ERFARING og SCORE. Det fremgår også at piger har højere SCORE end drenge. 1 Kaldes på engelsk random effect modsat fixed effect. Jeg har valgt i denne opgave at kalde disse to begreber for henholdsvis tilfældig og fikseret effekt. 2 Det oprindelige datasæt er fra følgende hjemmeside ( Jeg har dog ændret SCORE, så den viser større variation end i det oprindelige datasæt. 6

7 2.3. Ubetinget middelværdi-model Den første model der opstilles er en ubetinget model til at bestemme middelværdien af intelligenstesten. Modellen er den mest simple, da den beskriver den enkelte observation hos elev i, y i, kun ved en generel middelværdi, µ, og en tilfældig variation omkring denne middelværdi, ε i. Denne model kan matematisk skrives: y i = α + ε i hvor ε i ~ N(0,σ 2 ) (2c) Denne model er en generel lineær model uden forklarende variable, hvor det antages at observationerne er uafhængige og at fejlleddet er normalfordelt med middelværdi 0 og varians σ 2. Modellen udsiger at intelligensen varierer tilfældigt omkring den fælles middelværdi for de 2000 elever. PROC GLM i SAS benyttes til estimere de relevante parametre (se output 1 for resultatet og bilag 1.1 for SAS-syntax): Output 1 The GLM Procedure Dependent Variable: score Intelligenstest Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Uncorrected Total R-Square Coeff Var Root MSE score Mean Source DF Type III SS Mean Square F Value Pr > F Intercept <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 Resultatet af analysen er at gennemsnitsværdien er 53,7 for alle 2000 observationer, hvilket modellen finder til at være forskellig fra 0 (p < 0,0001). Desuden ses at fejlleddets varians, σ 2, er 183,5 og at R 2 er lig 0, hvilket ikke er overraskende, da der ikke er inddraget forklarende variable (Woodward,1999,424) Model med tilfældig effekt Den tomme model er dog ikke tilfredsstillende. Jeg ved at de 2000 elever går på 100 forskellige skoler (mellem 16 og 26 elever på den enkelte skole). Det kunne derfor være interessant at se om de 100 skolers elever havde forskellige gennemsnitlige resultater af intelligenstesten. Det kunne gennemføres med en standard generel lineær model ved at inddrage en fikseret skoleeffekt. Som det fremgår af bilag 3.1 ser det ikke umiddelbart ud til at der er forskel mellem skolerne. Jævnfør hypotesen er interessen ikke rettet mod netop disse (tilfældigt udvalgte) skoler har samme 7

8 gennemsnitlige intelligenstests. Derimod kunne man forestille sig at skolerne er tilfældigt udtrukket fra en større population af skoler. Med en sådan antagelse vil det være muligt at besvare spørgsmål om hvilken gennemsnitlig højde man ville forvente hvis man udtrak en tilfældig skole fra populationen af skoler. Skolerne bliver altså inddraget for at repræsentere en vis variation. Når man anskuer skoler på den måde inddrages SKOLE-variablen som en tilfældig effekt, der vil bidrage til at beskrive en del af variationen i modellen (Armitage,2002,218). I eksemplet ønskes intelligenstesten, y ij, hos den enkelte elev i fra skole j beskrevet. Den umiddelbare model med en tilfældig effekt er at anse outcome som en lineær kombination af en generel middelværdi, α, en serie af afvigelser fra denne generelle middelværdi henført til skolerne, u j, og en tilfældig fejl ved den enkelte i ende observation i den j ende skole, ε ij. Det nye led i forhold til (2c) er altså en tilfældig skoleeffekt. Modellen vil ikke blive skrevet op som en enkelt ligning, men derimod delt op i de forskellige niveauer for så at samle den til sidst. Håbet er at det giver et bedre overblik ved de efterfølgende modeludvidelser. To modeller vil blive benyttet for at opstille modellen: En model for elev-niveauet (niveau 1) og en for skole-niveauet (niveau 2). På niveau 1 udtrykkes den individuelle SCORE, y ij, som en sum af skæringen for individets skole, β j, og en tilfældig residualvariation, ε ij, associeret med den i te observation i den j te skole. Det kan skrives op som følgende matematiske model: y ij = β j + ε ij hvor ε ij ~ N(0,σ 2 ) (2d) På niveau 2 (skole-niveauet) udtrykkes skoleniveauet som en sum af en generel middelværdi, γ MID, og en serie af tilfældige afvigelser fra denne middelværdi, u j : β j = γ MID + u j hvor u j ~ N(0,τ j ) (2e) γ MID er en fikseret effekt og u j er en tilfældig normalfordelt effekt med middelværdi 0 og varians τ j. Kombineres (2d) og (2e) fås følgende 2 niveau model: y ij = γ MID + u j + ε ij hvor u j ~ N(0,τ j ) og ε ij ~ N(0,σ 2 ) (2f), hvor det antages at u j og ε ij er normalfordelt og at de er uafhængige (Leyland,2001,3). I modellen er den generelle middelværdi repræsenteret ved γ MID, skole-effekten er repræsenteret ved u j og residualerne associeret ved den enkelte observation i den j te skole er ε ij. Denne model kan forstås som en kombination af en fikseret del, der indeholder γ MID og en tilfældig del, der indeholder 8

9 to tilfældige effekter, u j og ε ij. Modellen bliver estimeret så både den fikserede effekt (der fortæller noget om den gennemsnitlige SCORE blandt eleverne i datasættet) og de to tilfældige effekter, u j (der fortæller om variationen i skole-middelværdierne omkring middelværdien for intelligenstestene) og ε ij (der fortæller om variationen inden for skolerne) estimeres. Variansen til disse to sidste tilfældige effekter kaldes også for varianskomponenter (Armitage,2002,218). For at estimere denne model benyttes PROC MIXED. Syntaxen kan ses i bilag 1.2. Relevante dele af output kan ses i output 2. Output 2 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z Intercept skole <.0001 Residual <.0001 Fit Statistics 2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 Ændringen i forhold til output 1 er at variansen i denne model er blevet delt op i det der kaldes intercept og residual. Disse to størrelser er henholdsvis τ j og σ 2. De skal forstås således at variansen i hele datasættet er delt i en varians, der kan knyttes til variationen mellem skolerne, τ j, og variationen mellem eleverne inden for skolerne, σ 2. Det bemærkes at begge varianser er forskellig fra 0, dvs. at de er større end nul 3. En anden måde at anskue denne variation er at estimere intra-skole korrelationen, ρ. Det er et mål for hvor stor en del af den samlede variation, der kan tilskrives skole-variationen: ρ = σ 2 j / ( σ 2 j + σ 2 ) (2g) = 87,25 / ( 87, ,98 ) = 0,47 3 Validiteten af dette asymptotiske Wald-test er dog problematisk, da det bygger på antagelserne om mange observationer og at variablen er normalfordelt. I dette tilfælde er der mange observationer, men et estimat for variansen vil ikke være normalfordelt, men højreskævt. En alternativ måde at teste størrelsen på er at benytte et restricted likelihood ratio test (restricted fordi kun varianskomponenter er inkluderet i likelihood funktionen (Hox, 2002)), hvor man sammenligner denne model med en model uden den tilfældige effekt. Resultatet af dette test bliver her: LL = 16099, ,4 = 964,4, df = 1, p < 0,001. Altså igen et stærkt signifikant resultat. 9

10 Dette mål giver en fornemmelse af hvor stor gruppering, der er inden for skolerne. Hvis målet giver en høj værdi antyder det at en standard regressionsmodel risikerer at give fejlagtige resultater. Det ser således ud til at der er stærke gruppeeffekter i datasættet, hvilket understøtter valget af flerniveau modellen Inddragelse af fikseret effekt Den model der netop er gennemgået har dog ikke den umiddelbare interesse, men skal derimod bruges som en model de efterfølgende mere komplekse modeller kan sammenlignes med. Først vil klasselærerens erfaring målt som antal års ansættelse blive inddraget. Denne variabel vil blive inddraget som en fikseret effekt. (2d) benyttes igen som den grundlæggende model, men β j (niveau 2) defineres anderledes: β j = γ MID + γ CEN_ERFA * x CEN_ERFA + u j, hvor u j ~ N(0,τ j ) (2h) γ CEN_ERFA er regressionskoefficienten for lærerens erfaring 4, dvs. den ændring i SCORE hver gang ERFARING stiger med 1 år. γ MID er den gennemsnitlige SCORE ved en lærer med gennemsnitlig erfaring og u j er den tilfældige variation forbundet til SKOLE. Kombineret med (2d) giver det: y ij = γ MID + γ CEN_ERFA * x CEN_ERFA + u j + ε ij hvor u j ~ N(0,τ j ) og ε ij ~ N(0,σ 2 ) (2i) De to første led er altså fikserede effekter, mens de to sidste er tilfældige effekter. Resultatet af analysen kan ses i output 3 og syntaxen er gengivet i bilag Jeg har centreret ERFARING omkring den generelle middelværdi. Derfor har CEN_ERFA en middelværdi på 0. Grunden til centreringen er at det giver en lettere fortolkning af γ MID, da det vil være SCORE hos elever, der har en lærer med en gennemsnitlig erfaring. Et muligt problem ved centrering er dog at den centrerede variabel kan få en mere vanskelig fortolkning (Hox,1995,4). 10

11 Output 3 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z Intercept skole <.0001 Residual <.0001 Fit Statistics -2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 cen_erfa <.0001 Det ses fra de fikserede effekter at der er en positiv sammenhæng mellem lærerens erfaring og resultatet af intelligenstesten, således at for hvert års lærererfaring bliver resultatet 0,9 bedre. Dette forudsætter selvfølgelig at der er en lineær sammenhæng mellem lærerens erfaring og resultatet af testen. I bilag 3.2 ser sammenhængen umiddelbart lineær ud, men en egentlig modelkontrol i flerniveau modeller vil blive diskuteret i afsnit 2.8. Det bemærkes at den tilfældige effekt associeret med skolerne er blevet mindre. Det skal forklares ved en del af den variation, der kan tilskrives niveau-2 (skolerne) bliver forklaret af lærernes erfaring. Residual variationen (σ 2 ) har derimod ikke ændret sig. Det bemærkes desuden at alle parametre i modellen er højsignifikante Inddragelse af niveau 1 variabel Modellen er endnu ikke tilfredsstillende, da hypotesen også inddrager køn hos de 2000 elever. Denne variabel er en niveau 1 variabel 5. Man kunne nøjes med at inddrage variablen som en fikseret effekt, dvs. at man antager at effekten af køn er den samme for alle skolerne. Det anser jeg umiddelbart som en forsimpling og effekten af køn antages derfor at kunne variere tilfældigt fra skole til skole. Det kan gøres ved også at inddrage køn som en tilfældig effekt 6. Modellen for intelligenstesten opstilles matematisk: y ij = β j + β KØN * x KØN + ε ij (2j) 5 Køn er en binær variabel der har værdien 0 for drenge og 1 for piger. I princippet er det en kategoriel variabel, men der er dog visse egenskaber ved netop binære variable, der medfører at de kan betragtes som kontinuerte variable (Kreiner,1999,28). Jeg inddrager derfor variablen som kontinuert variabel i SAS-syntaxen. 6 Jeg har valgt i denne model ikke at inddrage ERFARING (niveau-2 variabel), da det bliver lettere at fortolke resultaterne uden denne variabel. I afsnit 2.7 vil den dog igen blive inddraget sammen med KON. 11

12 For niveau 2 ser modellen således ud: β j = γ MID + u j (2k) Og for niveau 1: β KØN = γ KØN + u KØN (2l) De tilfældige effekter i modellen antages at have følgende egenskaber: ε ij ~ N(0,σ 2 ) og Dette er matrixnotation for fordelingsantagelsen af de to tilfældige effekter i modellerne. Det der er værd at bemærke er at man ud over variansen til både skæringen og hældning også får en kovarianskomponent, der repræsenterer korrelationen mellem hældningen og skæringen (τ co ). Hvis (2j), (2k) og (2l) kombineres fås følgende model: y ij = γ MID + γ KØN * x KØN + u j + u KØN * x KØN + ε ij (2m) Denne model afviger fra den simple model i (2d) på i hvert fald tre væsentlige områder: Det antages i modellen at der er korrelation mellem hældningen og skæringen, hvilket repræsenteres ved kovariansleddet. Ved inddragelse køn som både fikseret og tilfældig effekt postuleres det at testresultatet afhænger af elevernes køn, men også at effekten af køn kan variere fra skole til skole. Det antages således at variansen er forskellig for de to køn. Modellen har således inddraget heteroskedasticitet. Dette vil blive kommenteret i afsnit 2.8 omhandlende modelkontrol. Da køn er en binær variabel med værdierne 0 (drenge) og 1 (piger) kan modellen umiddelbart tolkes som om pigerne altid vil have ens eller højere varians end drengene, da leddet u KØN * x KØN kun vil have en effekt for pigerne og variansen aldrig kan være negativ 7. Der er dog ingen argument ud fra datasættet for at dette nødvendigvis skulle være korrekt. Man kan godt forestille sig at drengene har større varians end pigerne. Dette umiddelbare problem i modellen er dog kun tilsyneladende, da en 7 I den forbindelse skal det bemærkes, at variansen til en tilfældig effekt rent faktisk kan blive estimeret negativt. Grunden til dette skal findes i estimationsteknikken, hvor størrelsen findes ved at trække mean sum of squares mellem observationerne i grupperne (s 2 W) fra MSq mellem grupperne (s 2 B) og dividere med antallet af observatioer: τ j = (s 2 W - s 2 B)/n. Denne størrelse bliver således negativ, når s 2 B > s 2 W. dvs. når variationen internt i grupperne er større end variationen mellem grupperne. I sådanne tilfælde vil variansen i SAS blive sat til 0. 12

13 negativ kovarians (τ co ) kan medføre at pigerne har en lavere varians end drengene, hvis kovariansen er negativ. 8 Resultatet af analysen kan ses i output 4 og syntaxen kan ses i bilag 1.4. Output 4 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) skole <.0001 UN(2,1) skole UN(2,2) skole <.0001 Residual <.0001 Fit Statistics -2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 kon <.0001 Den største ændring i outputtet er variansestimaterne, der har fået en anden form. Varianskovarians-strukturen er angivet til at være ustruktureret, hvilket medfører at tre parametre bliver bestemt. Det er muligt at specificere hvordan kovariansstrukturen skal være i modellen, hvilket ikke vil blive yderligere udfoldet her, men gemt til afsnit 3. I dette afsnit er det tilfredsstillende ikke at antage en specifik struktur. De fikserede effekter viser at både skæringen og hældningen for sammenhængen mellem køn og intelligens er signifikant forskellig fra nul. Det er sandsynligt at piger gennemsnitligt har et højere testresultat end drenge. Varians og kovarians estimaterne fortæller os hvor meget skæringen og hældningen varierer fra skole til skole. UN(1,1) refererer til skæringens varians, UN(2,2) til hældningens varians og UN(2,1) til kovariansen mellem hældningen og skæringen. Det ses således at variansen omkring skæringen er høj i forhold til skæringens værdi. Skolernes gennemsnitlige SCORE varierer altså forholdsvis meget efter kontrol for køn. Hældningen har også en stor variation i forhold til estimatet, dvs. at sammenhængen mellem køn og intelligens varierer fra skole til skole. Det er 8 Dette umiddelbare problem kunne også løses ved at inddrage to tilfældige effekter; en for drengene og en for pigerne. Det ville modellere variansen mere eksplicit end model (2m). 13

14 muligt at opstille et 95% prædiktionsinterval omkring estimatet for kønseffekten, der er udtryk for hvor 95% af de forventede estimater for køn vil være. Ved at kvadrere variansen for den tilfældige kønseffekt (29,59 ½ = 5,44) findes standardafvigelsen og intervallet opstilles heraf til [-2,50;18,82]. Dette interval skal ikke forveksles med konfidensintervallet til estimatet for kønseffekten, der er væsentligt smallere [6,84;9,48]. Endelig kan man se at der er en negativ kovarians mellem hældning og skæring, hvilket kan forstås således at skoler, der generelt har en høj intelligens ikke vil have en stor kønsforskel, mens skoler der har en lav middelværdi har en større forskel mellem drenge og piger. Det skal dog bemærkes at dette estimat er insignifikant. Man kan derfor overveje om kovariansen burde inddrages i modellen. Det skal dog bemærkes at der kan være problemer ved at bruge Wald-testet ukritisk, da kovariansen afhænger af hvilke x-værdier observationerne har. Kovariansen er derfor nødvendigvis ikke normalfordelt Inddragelse af både niveau-1 og 2 variable For at besvare hypotesen er det nødvendigt også at inddrage ERFARING i modellen. Variablen er niveau 2 og inddrages som en fikseret effekt 9 : β j = γ MID + γ ERFARING + u j (2n) Niveau 1 modellen ændres derimod ikke og den endelige model bliver derfor: y ij = γ MID + γ KØN *x KØN + γ ERFAR *x ERFAR + γ KØN,ERFAR *X KØN,ERFAR + u j + u KØN *x KØN + ε ij (2m), hvor ε ij ~ N(0,σ 2 ) og Det skal bemærkes, at der er indført et interaktionsled mellem KON og ERFARING, hvilket vil blive diskuteret neden for. Se output 5 for resultatet og bilag 1.5. for syntax. 9 Det bør bemærkes, at der på hver af 100 skoler kun er inddraget en klasse. Dvs. at der ikke er flere lærere i hver skole, der er inddraget i modellen. Både ERFARING og SKOLE er altså ligeværdige niveau 2 variable. 14

15 Output 5 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) skole <.0001 UN(2,1) skole UN(2,2) skole <.0001 Residual <.0001 Fit Statistics -2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 kon <.0001 cen_erfa <.0001 kon*cen_erfa Hvis de fikserede effekter først tolkes ses det at begge hovedeffekter er højsignifikante, hvor pigerne og lærerens erfaring har en positiv effekt på intelligenstesten. Interaktionsleddet er også signifikant med et negativt estimat. Det ser således ud til at forskellen mellem drenge og piger bliver mindre des større lærerens erfaring er. Det er vigtigt at huske, at når man finder et signifikant interaktionsled skal det hierarkiske princip overholdes (Kreiner, 1999), hvilket betyder at insignifikante hovedeffekter skal beholdes i modellen. Det er ikke noget problem her, fordi begge hovedeffekter er signifikante. Hvad der desuden skal bemærkes er at tolkningen af modellen bliver anderledes, da variablene, der skaber interaktionen, nu skal tolkes i en sammenhæng. I dette tilfælde bliver hældningen mindre for pigerne end for drengene (fordi interaktionsleddet er negativt), hvilket betyder at den forskel man ser hos lærere med en lav erfaring bliver stadig mindre hos mere erfarne lærere. Fordi erfaringsvariablen er centreret og kønsvariablen har en letfortolkelig referencekategori (drenge har værdien 0) bliver fortolkningen af interaktionsleddet også entydig. Med hensyn til de tilfældige effekter ses at kovariansen ikke er signifikant forskellig fra 0. Estimatet er faldet betydeligt efter inddragelse af ERFARING. Det viser sig også, hvis man ikke inddrager kovariansen, at estimaterne på både de fikserede og de tilfældige effekter ændrer sig marginalt. Man 15

16 burde derfor ikke inddrage kovariansen i den endelige model, men jeg har af pladshensyn valgt at lade den endelige model indeholde kovariansestimatet. Den endelige model kommer til at se således ud: y ij = 49,6 + 8,2*x KØN + 1,1*x ERFARING - 0,3*x KØN,ERFARING + u j + u KØN *x KØN + ε ij, hvor εij ~ N(0,73.9) og Inden denne modeltype forlades skal modelantagelserne kort diskuteres og resultaterne opsamles Modelkontrol Ligesom i den normale generelle lineære model uden tilfældige effekter antages der normalfordelte residualer og linearitet, mens antagelsen om varianshomogenitet er anderledes. Som det blev fremhævet ved model (2m) kan der i en model med tilfældige effekter blive modelleret heteroskedasticitet, når den tilfældige effekt (i (2m) u KØN ) multipliceres med x KØN. Det medfører at den samlede varians kan være forskellig for forskellige værdier af køn. I en normal generel lineær model vil det være et brud på modelantagelserne, mens en generel lineær model med tilfældig effekt således kan modellere sig uden om antagelsen. Dette er endnu en grund til at en normal generel lineær model til hierarkiske data ikke er velegnet (Hox,2002,14). Man kan ligesom ved den normale generelle lineære model opstille histogrammer for residualerne og linearitet kan kontrolleres med plot mellem den forklarende kontinuerte variabel og de standardiserede residualer. Forskellen i forhold til normale modeller er dog, at en model med tilfældige effekter har flere residualer, nemlig en for hver tilfældig effekt plus en for residuelleddet. Derfor vil det være nødvendigt med plot for residualer til alle tilfældige effekter. Denne modelkontrol vil ikke blive præsenteret her i opgaven pga. pladshensyn. Det skal dog bemærkes, at modelkontrollen til det konkrete datasæt viste fin overensstemmelse med modelantagelserne. 16

17 2.9. Afslutning på første analyse I afsnit 2 er en model opstillet, der forklarer sammenhængen mellem køn og lærers erfaring i forhold til en intelligenstest. Analysen viste, at begge forklarende variable er associeret med intelligenstesten, men også at der var en betydelig variation mellem skolerne. Det skal dog fremhæves at datasættet benyttet i analysen var konstrueret således at modelantagelserne var opfyldt, der var mange observationer i alle grupperne og flerniveau effekterne var stærke. Sådan er det sjældent. Ved en tidligere analyse af et andet datasæt, der ikke er præsenteret i denne opgave, opstod der problemer med at modellen ikke konvergerede. Det var derfor ikke muligt at opstille en model. I sådanne tilfælde er der mulighed for at benytte andre mindre stærke metoder (se f.eks. Goldstein,1995,23 for forslag). Sådanne fundamentale problemer samt problemer med modelantagelserne medfører ofte at man må være kreativ i modelleringen. I næste afsnit vil en anden situation blive diskuteret: Gentagne målinger på samme individ. 17

18 3. Gentagne målinger En anden datatype modellen kan håndtere er gentagne målinger på samme individ. Når målinger er gentaget på det samme individ, kan det anskues som et 2-niveau hierarki med målinger som niveau 1 og individer som niveau 2. Man vil forvente at korrelationen mellem observationerne fra samme individ er større end korrelationen mellem observationer fra forskellige individer. Derfor kan gentagne målinger opfattes som en 2-niveaustruktur (Hox,2002,73) Datasæt II Til at illustrere denne applikation benyttes et datasæt med 27 mænd i alderen 19,8 til 36,9 år ved indgang i studiet, der gennem halvandet år dagligt har noteret, hvor mange ejakulationer de har haft pågældende dag. Der er desuden målt koncentration af testosteron hos mændene på flere tidspunkter (mellem 12 og 18 målinger per mand; i alt 445 målinger). 10 Jeg vil undersøge to hypoteser i dette datasæt: Er der sammenhæng mellem alder og testosteronkoncentration? Er der sæsonvariation i ejakulationsfrekvensen, når der tages højde for alder ved indgang i studiet? Hypotese 1 kan analyseres inden for samme modeltype som afsnit 2, da den afhængige variabel er på et kontinuert skalaniveau. Derfor vil afsnittet starte med at anvise vejen for hvordan data med gentagne målinger kan benyttes med samme modeltype som i afsnit 2. Yderligere overvejelser vil dog være nødvendige. Hypotese 2 derimod vil blive analyseret ved logistisk regression, da ejakulation inddrages som en binær variabel. Tolkningen af resultaterne fra denne analyse vil kræve yderligere overvejelser. Men først hypotese Model for gentagne målinger Der findes forskellige modeller til gentagne målinger. Den traditionelle variansanalyse med dens restriktive antagelser om missing values over tid og antagelser om kovarians mellem målinger på samme individ. Alternativt findes den multivariate variansanalyse (MANOVA), der ikke gør antagelser om kovariansstruktur over tid, men som er sårbar overfor missing values. 10 Jeg vil gerne takke Elisabeth Carlsen, afdelingslæge, Cyto/histolaboratoriet, Rigshospitalet, for at stille datasættet til rådighed. 18

19 Begrænsningerne ved disse modeller fremføres ofte som begrundelse for at benytte en flerniveau model, hvor der inddrages en tilfældig individeffekt (Hedeker,2002, Goldstein,1998, Briggs,1999). En flerniveau model for en lineær sammenhæng mellem en kontinuert responsvariabel (her testosteron) og en kontinuert forklarende variabel (her alder) kan matematisk opskrives: y ij = β j + β ALDER * X ALDER + ε ij β j = γ MID + u j β ALDER = γ ALDER + u ALDER (3a) (3b) (3c), hvor ε ij ~ N(0,σ 2 ) og. Kombination af (3a)-(3c) giver et samlet matematisk udtryk: y ij = γ MID + γ ALDER * x ALDER + u j + u ALDER * x ALDER + ε ij (3d) Det ses at modellens struktur er lig (2m), hvor både skæringen og hældningen for alderseffekten kan variere fra person til person og at der er inkluderet en kovarians mellem hældningen og skæringen. Model (3d) er neden for estimeret. Syntaxen kan ses i bilag 2.1 og resultatet i output Output 6 Dimensions Subjects 27 Max Obs Per Subject 547 Observations Used 445 The Mixed Procedure Covariance Parameter Estimates Standard Z Cov Parm Subject Estimate Error Value Pr Z UN(1,1) PERSONID UN(2,1) PERSONID UN(2,2) PERSONID Residual <.0001 Fit Statistics -2 Res Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Solution for Fixed Effects Standard Effect Estimate Error DF t Value Pr > t Intercept <.0001 age Jeg har valgt at centrere aldersvariablen omkring alder=20. Variablen hedder age20. 19

20 Alder påvirker således testosteronkoncentration negativt, men dog insignifikant. Variansestimaterne er høje i forhold til estimaterne af de fikserede effekter, mens kovariansen er lav og stærkt insignifikant (p = 0,9942). Det ville altså være rimeligt at gennemføre analysen uden kovarians, hvilket ikke er gengivet her. Resultatet ændrer de øvrige estimater marginalt. Det skal bemærkes, at der kun er 445 observationer inddraget i analysen, fordi der ikke er flere målinger af testosteron. Det kan være en årsag til den insignifikante alderseffekt. Som nævnt er model (3d) i form lig de modeller, der blev opstillet i afsnit 2. Til forskel for de tidligere modeller vil variansen og kovariansen mellem forskellige tidspunkter dog have en central rolle i modeller for gentagne målinger (Hox,2002,96). Ofte vil man tillægge residualleddet en struktur for den korrelation, der er mellem de forskellige tidspunkter. Ideelt set skal denne struktur komme fra teoretiske overvejelser (Singer,1998,346). Et eksempel er tilfældet hvor alle varianser er ens og alle kovarianser er ens til alle tidspunkter, hvor strukturen kaldes compound symmetry (Hox,2002,97). Denne restriktive antagelse vil ofte ikke være rimelig. Hvor compound symmetry er meget restriktiv kan man som modpol sætte den fuldt mættede model, hvor alle varianser og kovarianser estimeres særskilt. Det kaldes en ustruktureret variansstruktur. Denne struktur vil dog give mange variansestimater 12 og man ønsker derfor ofte at specificere strukturen med færre parametre. En tredje mulig struktur er autokorrelation, hvor man antager at målinger målt tæt i tid ofte vil være mere korreleret end målinger længere fra hinanden (Kronborg,1990). Denne struktur kan skrives: ε t = k * ε t-1 + ε, hvor ε t er fejlleddet til tid t, k er en autokorrelationskonstant og ε er residualfejlen med varians σ 2. Disse kovarians-strukturer er blot tre blandt mange (se f.eks. SAS Institute Inc.,1999 og Jennrich,1986 for eksempler på andre strukturer). I stedet for at præsentere flere vil jeg i stedet vise hvordan man kan sammenligne strukturer for at finde den mest passende. En sammenligningsmetode er at sammenligne maximum likelihood-værdierne for en konkret kovariansstruktur med maximum likelihood-værdien for den fuldt mættede model. Herved udnyttes at den konkrete struktur er nested i den mættede model. Ratioen vil være χ 2 -fordelt med frihedsgrader lig forskellen i antal parametre. I forhold til den konkrete analyse, hvor den tilfældige individ-variation ikke er central men det derimod er den fikserede effekt der har primær interesse skal det bemærkes at det ikke vil være 12 Hvis der er k tidspunkter vil antallet af elementer i kovariansenmatricen være k(k+1)/2. 20

21 ligeså udslagsgivende hvilken kovariansstruktur, der specificeres, som hvis den tilfældige effekt havde primær interesse (Hox,2002,100). Konklusionen på analysen er derfor at alder har en negativ effekt på testosteronkoncentrationen, når man tager højde for at de gentagne målinger er indlejret i de samme personer. Sammenhængen er dog insignifikant. Desuden er der en betydelig variation omkring både skæringen og hældningen. Modellen er altså i grundstruktur lig den flerniveau model, der blev udviklet i afsnit 2. Jeg vil derfor ikke udvikle den yderligere, men gå videre med en modelgruppe, hvor responsvariablen er binær: Logistisk regression med tilfældig effekt Binær responsvariabel For at kunne teste hypotese 2 om ejakulationsfrekvensen påvirkes af årstiderne ved hjælp af den logistiske regression er det nødvendigt at dikotomisere ejakulationsfrekvens: 0 = ingen ejakulation og 1 = en eller flere ejakulationer. Hovedparten af observationerne har en frekvens på 0 og 1 ejakulation, hvilket støtter at omkodningen er rimelig. Se tabel 2. Tabel 2 Antal ejakulationer Antal observationer Valid procent , , , , , , ,01 I alt ,00 Missing For at få et indtryk af hvordan observationerne fordeler sig blandt de 27 mænd er sammenhængen mellem det gennemsnitlige antal ejakulationer per måned tegnet. Observationer fra samme individ er desuden blevet forbundet med en linie. Se bilag 3.4. Umiddelbart ser der ikke ud til at være systematik i forhold til årstid. Det ser dog ud til at der er en vis systematik inden for individerne, da der er en tendens til at individerne bevarer det samme niveau gennem perioden. Jeg ønsker at undersøge om sandsynligheden for at have ejakulation er afhængig af årstid. Modellen skal samtidig tage højde for at oplysningerne er indlejret i 27 personer og endelig skal effekten af personernes alder ved indgang i studiet inddrages. Men inden modellen opstilles præsenteres den logistiske regressionsmodel kort: 21

22 p(y i = 1) = exp(η i / (1 + η i ), hvor η i = α + Σβi * xi (3e), hvor Y i er den binære afhængige variabel, η i er et lineært udtryk bestående af et konstantled, α, og en eller flere forklarende variable, x i, med de dertil hørende regressionskoefficienter, β i. De forklarende variable kan både være kategorielle og kontinuerte. Modellen kan også skrives således: logit(p(y i = 1 Xi = xi)) = α + Σβi xi, hvor logit(p) = ln (p / (1 p)) og p er sandsynligheden for udfaldet Y i = 1 (Kreiner,1999). Begrundelsen for logit-transformationen er at man derved ændrer en variabel begrænset fra 0 til 1 (sandsynlighedsskalaen) til hele den reelle akse (Kreiner,1999). Modellen kan udvides med tilfældige effekter: logit(p(y i = 1 x i, u i )) = α + Σβ i * x i + Σu i (3f), hvor u i er normalfordelte tilfældige effekter med middelværdi 0 og varians τ i (Larsen, 1998). Denne model vil ikke blive yderligere præsenteret her, men derimod udvidet og fortolket i de efterfølgende afsnit Logistisk regression med fikseret effekt (3e) og (3f) er de modeller, der i det følgende vil blive brugt. Den første model vil opstille sammenhængen mellem årstid og sandsynligheden for ejakulation uden hensyntagen til at observationerne er indlejret i 27 personer. Der vil altså ikke blive inddraget en tilfældig effekt: logit(p(y EJAKULATION =1 x ÅRSTID )) = α + β ÅRSTID * x ÅRSTID (3g), hvor α er logitværdien for referencekategorien (vinter), mens β ÅRSTID er logit-forskellene mellem årstiderne. Syntaxen kan ses i bilag 2.2 og output i output 7. 22

23 Output 7 The GENMOD Procedure Model Information Distribution Binomial Link Function Logit PROC GENMOD is modeling the probability that udlo_bin='1'. Analysis Of Parameter Estimates Standard Chi- Parameter DF Estimate Error Square Pr > ChiSq Intercept SEASON efterår SEASON forår SEASON sommer SEASON vinter Wald Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq SEASON Model informationerne fortæller os om fordelingen og linkfunktionen i den generaliserede lineære model (Woodward,1999,462). Her præciseres at det er en logistisk regressionsmodel. Nederst kan genfindes et generelt test af om sæson er associeret med sandsynligheden for ejakulation. Dette understøttes (p = 0,0011). Det ses desuden af estimaterne, at det er om foråret at sandsynligheden for ejakulation er højest, mens der ikke er signifikante forskelle mellem vinter og henholdsvis sommer og efterår. Umiddelbart et resultat, der underbygger hypotese Inddragelse af tilfældig effekt Men modellen udvides, så der tages højde for at observationer fra samme person kan være korreleret. Det gøres med følgende model: logit (p(y EJAKULATION =1 x ÅRSTID,u INDIVID )) = α + β ÅRSTID * x ÅRSTID + u INDIVID (3h), hvor u INDIVID ~ N(0,τ 0 ). α er logitværdien for referencekategorien og β i er logitforskellen mellem årstiderne. Det antages således at den tilfældige effekt er normalfordelt på logit-skalaen. Dette er en rimelig antagelse, da det er en skala defineret på hele den reelle skala (]- ; [), hvor den tilfældige effekt vil variere omkring en middelværdi af et lineært udtryk (her: α + β ÅRSTID * x ÅRSTID ). Der er altså i model (3h) blevet taget højde for at observationerne er indlejret i 27 mænd. I modellen antages det desuden at outcome (ejakulation eller ej) er binomialfordelt givet den tilfældige effekt: 23

24 Y EJAKULATION u INDIVID ~ binomial(n,p) (3i), hvor n er antal observationer for hver person til hvert tidspunkt og p er sandsynligheden for udfaldet 13. Denne models estimater kan ses i output 8 og syntaxen kan genfindes i bilag 2.3. Output 8 Specifications Dependent Variable Distribution for Dependent Variable Random Effects Distribution for Random Effects Subject Variable The NLMIXED Procedure udlo_bin Binary u Normal PERSONID Dimensions Observations Used Observations Not Used 2973 Total Observations Subjects 27 Max Obs Per Subject 485 Fit Statistics -2 Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Parameter Estimates Standard Parameter Estimate Error DF t Value Pr > t beta b_foraar b_sommer b_eftera s2u Øverst i output 8 ses model specifikationerne. UDLO_BIN er den afhængige variabel, som er antaget at være bernoullifordelt. PERSONID er inddraget som tilfældig effekt og er antaget normalfordelt. Parameterestimaterne ses nederst. Igen er der størst sandsynlighed for ejakulation om foråret og effekten er stadig signifikant. Desuden ses at variansestimatet for den tilfældige individeffekt er højt (0,4906) i forhold til de andre estimater og at det er højsignifikant. Der gælder igen de forbehold med hensyn til fortolkning af signifikanstestet, som er beskrevet i afsnit 2.4. Det konkluderes dog at 13 I dette tilfælde er binomialfordelingen lig med at variablene er binært fordelt (bernoullifordelt), da der for hver observation er en variabel, der enten er 0 eller 1. Hvis jeg inddrog denne variabel som en binomialfordelt variabel skulle jeg således blot specificere at n for alle observationer var 1. Jeg har derfor i SAS-syntaxen specificeret at Y EJAKULATION, betinget af den tilfældige effekt, er binært fordelt. 24

25 der er en stærk gruppeeffekt, således forstået at observationer på den samme person er korreleret og at der er væsentlig variation på de andre estimater fra person til person. Denne umiddelbare tolkning er dog ikke så ligetil som det først synes. Den lineære sammenhæng som er blevet opstillet er kun et lineært udtryk på logit-skalaen, der ikke har en umiddelbar fortolkning. I en normal logistisk regression med fikserede effekter vil man normalt omregne estimaterne til odds ratio (exp(β)) eller til sandsynligheder (p = exp(η i / (1 + η i )), da de har en pænere fortolkning. I den modelgruppe, der præsenteredes i afsnit 2, var det muligt at udtrykke både de fikserede og tilfældige effekter som estimater, hvor de andre effekter blev holdt konstant. En af de tiltalende egenskaber ved logistisk regression er odds ratio fortolkningen af parametrene, men det er mindre oplagt hvordan man tolker en tilfældig effekt på en odds ratio-skala. Larsen (1998) argumenterer for at fordelingsmæssige egenskaber ved den tilfældige effekt efter en eksponential-transformation (dvs. på odds ratio-skalaen) ikke fremstilles godt ved variansen, da den sædvanligvis vil være skæv. I stedet for argumenteres der for at median- og percentil-baseret mål er bedre til at indfange de fordelingsmæssige egenskaber. Disse mål kan udtrykke et prædiktionsinterval i stil med det, der præsenteredes i afsnit 2, dog med den væsentlige forskel at det baseres på percentiler og ikke på normalfordelingen. Denne dimension har i denne model og ved hypotese 2 dog ikke den centrale interesse, da interessen centrerer sig om der er sæsonvariation i ejakulationssandsynligheden. Den tilfældige effekt fra de 27 personer inddrages derimod for at tage højde for at der kan være betydelig korrelation mellem observationer på samme person. Man kunne dog vælge at afrapportere den fikserede sæsoneffekt med et passende prædiktionsinterval, hvilket ikke vil blive gennemført her. Det skal blot bemærkes at der er en betydelig variation ved sæsoneffekten Inddragelse af niveau 1 variabel Inden den endelige konklusion på hypotese 2 nås inddrages alder ved indgang i studiet, da alder kan påvirke sammenhængen mellem årstid og sandsynlighed for ejakulation. Modellen opskrives matematisk således: logit(p(y EJAKULATION =1 x ÅRSTID,x ALDER,u INDIVID )) = α + β ÅRST *x ÅRST + β ALD *x ALD + u IND (3j), hvor alder inddrages som kontinuert variabel, der er centreret omkring alder lig 20. Modellen estimeres med syntax i bilag 2.4 og resultatet kan ses i output 9. 25

26 Output 9 The NLMIXED Procedure Fit Statistics -2 Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Parameter Estimates Standard Parameter Estimate Error DF t Value Pr > t beta b_age b_foraar b_sommer b_eftera s2u I output 9 er kun modellens tilpasning til data og parameterestimaterne medtaget. Det fremgår at alderseffekten ikke er signifikant, hvilket også understøttes af et likelihood-ratio test mellem model (3j) og (3h) (LR= =3, df=1, p>0,05) 14. Der er altså en insignifikant negativ effekt af alder på sandsynligheden for ejakulation. Det ses desuden at sæsonvariablene følger samme mønster som i model (3h) og at estimatet for forår er signifikant højere end for vinter (referencekategori). Endelig ses det at variansen, der kan tilskrives den tilfældige individeffekt, er højsignifikant. Umiddelbart er denne model tilfredsstillende. Ofte vil det dog være passende at udvikle en mere kompleks flerniveau model med flere tilfældige og fikserede effekter. F.eks. vil en model med en tilfældig alderseffekt måske være bedre end model (3j). Denne model ville i grundstruktur være lig model (3d). Dette har jeg dog ikke gjort her, da en sådan udvidelse for det første læner sig op af den modelstruktur, som allerede er præsenteret i afsnit 2. Derfor vil jeg ikke vinde yderligere viden om flerniveau modellen ved en sådan udvidelse. For det andet er udvidelsen rent faktisk ikke umiddelbart mulig i den SAS-syntax, der er benyttet til den logistiske regression (PROC NLMIXED). (SAS Institute Inc.,1999,2454). 14 Hvis modellen kun med alder som fikseret effekt sammenlignes med model 3j ses også en signifikant forskel (LR= =16, df=3, p<0,05), hvilket underbygger, at sæson taget under et har en signifikant effekt. 26

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Synopsis til eksamen i Statistik

Synopsis til eksamen i Statistik Synopsis til eksamen i Statistik Kandidatuddannelsen i Folkesundhedsvidenskab Københavns Universitet december 2010 Eksamensnummer: 12 Antal anslag: 23.839 (svarende til 9,9 normalsider) - 1 - Indholdsfortegnelse

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45 Statistik og skalavalidering Synopsis Københavns Universitet Folkesundhedsvidenskab, 7. semester Typografiske enheder: 22.615 December 2010 Indholdsfortegnelse 1.0 Indledning... 3 1.1 Karakteristika af

Læs mere

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. 1 Sammenfatning Der er en statistisk signifikant positiv sammenhæng mellem opnåelse af et godt testresultat og elevernes oplevede

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Demo af PROC GLIMMIX: Analyse af gentagne observationer Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Hver anden vil benytte øget åbningstid i dagtilbud

Hver anden vil benytte øget åbningstid i dagtilbud Børnefamiliers dagtilbud og arbejdsliv 17. maj 18 Hver anden vil benytte øget åbningstid i dagtilbud Halvdelen af alle lønmodtagere med børn mellem -13 år ville benytte sig af udvidede åbningstider i deres

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Eksamen i Statistik og skalavalidering

Eksamen i Statistik og skalavalidering Eksamen i Statistik og skalavalidering 2009-studieordning Til aflevering d. 22. december 2010 Efterårssemestret 2010, Kandidatuddannelsen i Folkesundhedsvidenskab Opgaven er udarbejdet af: Eksamensnummer

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1 Logistiske regressionsmodeller

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning. Datagrundlag og metode Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Bilag 12 Regressionsanalysens tabeller og forklaringer

Bilag 12 Regressionsanalysens tabeller og forklaringer Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem

Læs mere

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab Eksamensnummer: 16, 23

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4 Indholdsfortegnelse INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF OULATIONEN... 4 DELOGAVE 1...5 BEGREBSVALIDITET... 6 Differentiel item funktionsanalyser...7 Differentiel item effekt...10 Lokal

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1 Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere