Introduktion til Regneøvelser med SAS

Størrelse: px
Starte visningen fra side:

Download "Introduktion til Regneøvelser med SAS"

Transkript

1 MPH specialmodul i Epidemiologi og biostatistik Introduktion til Regneøvelser med SAS Forår 2006 Bendix Carstensen Steno Diabetes Center & Biostatistisk afdeling Institut for Folkesundhedsvidenskab Københavns Universitet bxc@steno.dk Per Kragh Andersen Biostatistisk afdeling Institut for Folkesundhedsvidenskab Københavns Universitet pka@biostat.ku.dk

2 Indhold

3

4 2 KALD AF SAS 1 Del I Introduktion til SAS 1 SAS i relation til andre programpakker Sammenlignes SAS med andre større kommercielle programpakker, som f.eks. Stata og SPSS, er der ikke væsentlige forskelle m.h.t. faciliteter, og begrundelsen for at anvende SAS her er mest, at dette program kender vi. Om SAS kan siges: Fordele: 1. Kan klare store datamængder. 2. Har meget alsidige datahåndteringsfaciliteter. 3. Kan give et højt niveau af dokumentation for datamanipulation og analyser med forholdvis begrænset indsats. 4. Kan udføre langt de fleste statistiske analyser. 5. Fungerer på mange platforme. 6. Fakultetet har en universallicens. Ulemper: 1. Kan virke tungt at anvende da det er omfattende. 2. Manualerne kan synes overvældene (manualen for data-steppet er alene på over 1000 sider!), og svære at finde rundt i. 3. Selv mådelig grafik kræver omfattende programmering. 2 Kald af SAS SAS kaldes fra Windows ved at klikke på SAS-ikonen. Derved får man tre vinduer frem på skærmen: program editor-vindue aktiveres med F5. Hvis flere editor-vinduer er åbne vil F5 skifte mellem de forskellige editor-vinduer. log-vindue aktiveres med F6 output-vindue aktiveres med F7 De øvrige funktionstasters funktion kan man får frem i et vindue på skærmen ved at trykke på F9. Man kan lukke et vindue ved at trykke Ctrl + F4. (Pas på: Alt + F4 vil lukke hele SAS).

5 2 Epidemiologisk analyse med SAS 2.1 Menu-styring: SAS Analyst Der er to mulige måder at anvende SAS: Menu-styret eller program-styret. Menuerne kan man få frem ved at trykke Solutions Analysis Analyst, hvorefter man får adgang til et spreadsheet lignende interface hvor man kan taste data ind. Samtidig får man muligheder for at hente data ind fra forskellige typer af filer, såvel sædvanlige tekstfiler som SAS-systemfiler. SAS Analyst indeholder en del peg-og-klik faciliteter til at lave forskellige statistiske analyser. Princippet er som i andre lignende systemer at man med diverse menuer får dannet et SAS-program som man så udfører. Dette vil være tilgængeligt således at man senere kan reproducere sine analyser. Øvelserne i dette kursus vil være baseret på programmering i SAS. 3 Programmering i SAS I program editor-vinduet kan man skrive et SAS-program. Vinduet opfører sig stort set som en hvilken som helst anden Windows-baseret editor hvad angår klip og klistring af tekst. Et program kan f.eks. være: data a ; input sex $ obese bp ; cards; male male female female ; som udføres ved at trykke på F8 eller F3. Hvis en del af program editorvinduet markeres ved at holde Shift nede mens piletasterne bruges (eller med musen), vil kun den markerede del af programmet blive udført. I log-vinduet vil en kopi af programmet flintre forbi sammen med noter om hvad der er blevet udført samt eventuelle fejlmeddelelser. Samtidig forsvinder teksten fra program editor-vinduet, og man ender i bunden af output-vinduet (hvis programmet producerer noget output). Når man har skrevet et program er det fornuftigt at gemme det på disken ved File Save as, eller Ctrl-S. Det er en god ide at gemme dem under et letgennemskueligt navn, f.eks. prj_name.sas det er en konvention at SAS-programmer har extension.sas. Så kan det senere kan hentes ind igen og evt. modificeres. Man kan dog altid hente det senest udførte program ind i program editor-vinduet ved at trykke på F4. (Pas på hvis man trykker flere gange på F4 bliver flere kopier af programmet hentet ind og sat efter hinanden). 4 Hvordan ser et SAS-program ud? SAS-programmer består groft sagt af et antal såkaldte step, som er af en af to typer:

6 5 DATAHÅNDTERING, DATA-STEP 3 Datahåndtering, i data-step. Her indlæser man sine tal, definerer nye variable, f.eks. ved logaritmetransformation eller sammenlægning. Et data-step er indrammet af: data a ;... Procedurekald, herunder grafik, proc-step. Når data foreligger på den rigtige facon, kan analyserne udføres ved hjælp af forskellige SAS-procedurer. (Der findes også SAS-procedurer til mere eksotiske former for datahåndtering). Et proc-step er indrammet af: proc xx data=a ;... 5 Datahåndtering, data-step Hvert statement i SAS afsluttes med et ;. Der kan være flere statements på hver linje, eller et statement kan strække sig over flere linjer, og der kan være et vilkårligt antal blanktegn hvorsomhelst. Det regnes for god tone højst at skrive et statement pr. linje, samt at afslutte alle data- og proc-step med run; og en blank linje. Derved muliggøres at programmet kan læses af andre samt af en selv en anden dag. Eksemplerne i SAS-manualerne følger disse konventioner. Nedenfor er vist nogle eksempler på definition af nye variable, som forhåbentligvis er selvforklarende. Bemærk, at den naturlige logaritme betegnes med log i SAS, medens 10-tals logaritmen benævnes log10, og potensopløftning med **. data b ; set a ; if ( sexnr eq 1 ) then sex = male ; if ( sexnr eq 2 ) then sex = fem ; logbp = log ( bp ) ; sqrtbp = sqrt ( bp ) ; chi2 = x ** 2 ; v8 = ( v3 gt 17 ) ; v9 = ( v3 gt 17 ) + ( v3 gt 24 ) ; data b ; betyder: Nu dannes SAS-datasættet b. set a ; betyder: Indlæs datasættet a og brug det som grundlag. Det vil sige at alle variable i a overføres til b. Når en variabel specificeres på venstre side af lighedstegnet bliver den automatisk tilføjet til datasættet b. Bemærk de relationelle operatorer: eq equal to, lig med, kan også skrives =. ne not equal to, kan også skrives ^= gt greater than, (skarpt) større end, kan også skrives >. ge greater than or equal to, større end eller lig med, kan også skrives >=.

7 4 Epidemiologisk analyse med SAS lt less than, (skarpt) mindre end, kan også skrives <. ge less than or equal to, mindre end eller lig med, kan også skrives <=. SAS har den konvention at et logisk udtryk som f.eks. ( v3 gt 17 ) er 1 hvis det er sandt, og 0 ellers. I eksemplet ovenfor er v8 0 hvis v3 er mindre end eller lig med 17, og 1 hvis den er større, mens v9 er 0 hvis v3 er mindre end eller lig med 17, 1 hvis v3 er større end 17 og mindre end eller lig med 24, og 2 hvis v3 er større end 24. Der er SAS adgang til et meget stort antal funktioner, der alle er nærmere beskrevet i manualen, og i help-menuen Help SAS System Help Contents Help on SAS Software products Base SAS Software Using Base SAS Software Working with the SAS Language SAS Functions. 6 Procedurekald, proc-step Når vi taler om de indbyggede SAS procedurer, er det bekvemt at skelne mellem 3 forskellige slags, nemlig 1. Basale procedurer til udskrivning, sortering og udregning af basale størrelser som gennemsnit og spredning mv. 2. Procedurer til egentlige statistiske analyser. 3. Procedurer til grafik. 7 De basale procedurer 7.1 Udskrivning, proc print proc print data = sasuser.bp ; var sex bp; run; I linierne ovenfor behøver man kun at skrive proc print;. Det senest dannede datasæt vil da blive udskrevet i sin helhed. Alle procedurer opfører sig på denne måde, men det er god programmeringsskik at skrive navnet på datasættet med hver gang, idet man derved undgår overraskelser når man laver lidt længere SAS-programmer hvor flere datasæt optræder imellem hinanden. Man kan som ovenfor angive hvilke variable, man vil have med (og i hvilken rækkefølge). Tilføjelsen run; i sidste linie er strengt taget heller ikke nødvendig, men kan stærkt anbefales efter hvert procedurekald, (og hvert data-step) da den såkaldte log-fil (indeholdende oplysninger om hvordan kørslen er forløbet, fejlmeddelelser mv.) herved bliver væsentlig lettere at læse.

8 7 DE BASALE PROCEDURER Oversigt over datasæt, proc contents Hvis man gerne vil have en summarisk oversigt over variabel navne, antal observationer mv. i et SAS-datasæt kan man skrive: proc contents data = sasuser.bp ; run; 7.3 Sortering, proc sort proc sort data=a1; by fedme; run; Herved sorteres datasættet a1 efter fedme. Hvis man i stedet ønkser at bevare datasættet a1 og putte den sorterede version over i a2, skal man skrive: proc sort data=a1 out=a2; by fedme; run; 7.4 Tabellering, proc freq Benyttes til at tabellere variable. proc freq data=a1; tables sex; run; Bør kun bruges til diskrete variable med forholdsvis få værdier. Kontinuerte variable som kan antage mange forskellige værdier kan give meget store mængder af output. Kan også benyttes til krydstabellering: proc freq data=a1; tables sex * agr / norow nocol nopercent ; run; 7.5 Udregning af basale stikprøvestørrelser, proc means og proc univariate For at se hvad denne procedure foretager sig, er det lettest at forsøge sig frem. Prøv f.eks. at skrive: proc sort data=a1; by sex; proc means data=a1; by sex; run; eller: proc means data=a1; class sex; run;

9 6 Epidemiologisk analyse med SAS Bemærk, at man ved at skrive som ovenfor by sex; får udført den angivne procedure for hvert køn for sig (konstruktionen virker for stort set alle SASprocedurer, men man er nødt til at sortere observationerne først, hvis de ikke allerede står i den rigtige rækkefølge). Ønsker man uddybende oplysninger om en variabels fordeling, kan man også benytte proc univariate, f.eks. således: proc univariate data = a plot normal ; by sex ; var fedme ; Dette vil give os uddybende viden om fordelingen af fedme i vores stikprøve, opdelt efter køn. De to options plot og normal frembringer hhv. et box-plot og et test for normalitet. 8 Sammenklistring af datasæt Det er kun nødvendigt at læse dette afsnit hvis man skal lave analyser med populations-baserede referencerater (SMR-analyser). 8.1 Datasæt i forlængelse af hinanden To datasætaogbkan lægges i forlængelse af hinanden til et nyt,cved at skrive: data c ; set a b ; 8.2 Datasæt ved siden af hinanden To datasæt a og b kan lægges ved siden af hinanden til et nyt, c, ved at skrive: data c ; merge a b ; Herved bliver observation nr. 1 i datasæt a lagt ved siden af 1. observation i datasæt b. Hvis de findes variable med samme navn i både a and b vil disse variable få deres værdi fra b (nemlig det datatsæt der er nævnt sidst). 8.3 Datasæt ved siden af hinanden matchet I kohorte-analyser er man interesseret i at tilordne observationer af risikotid en tilhørende referencerate. F.eks. vil man for et stykke follow-uptid i aldersklassen år i perioden gerne have tilordnet den tilsvarende mortalitetsrate for den danske befolkning. Til den ende kræves at kohorte datasættet indeholder variable, f.eks. ald og per, med koder for aldersklasse hhv. periode. I ovennævnte eksempel kunne de f.eks. have værdierne 45 hhv. 53. Endvidere kræves at der foreligger et datasæt med reference-rater fra befolkningen, hvor alder og periode har samme navn og er kodet på samme måde. Hvis man yderligere sørger for at datasættene er sorteret på samme måde efter alder og periode kan man sætte datasættene sammen:

10 8 SAMMENKLISTRING AF DATASÆT 7 proc sort data = koh ; by ald per ; proc sort data = rater ; by ald per ; data sammen ; merge koh rater ; by ald per ; Denne operation bevirker at selv om der er flere forekomster med samme værdier af ald og per i koh og kun én i rater vil værdien af de øvrige variable i rater blive tilordnet alle observationerne i det resulterende datasæt sammen. Man vil ofte opleve at ratefilen indeholder observationer (kombinationer af ald og per), som ikke forekommer i kohorte filen. Sådanne observationer vil være i det resulterende datasæt med alle variable fra kohortedatsættet sat til missing. Man kan udelukke disse fra det resulterende datasæt ved at lave en temporær variabel, f.eks. ok, som er 1 hvis koh bidrager med data og 0 ellers, og så bruge den til at selektere observationer med ok=1: data sammen ; merge koh (in = ok) rater ; by ald per ; if ok ;

11 8 Epidemiologisk analyse med SAS Del II Analyse af epidemiologiske data i SAS 9 proc freq Som omtalt ovenfor under de generelle procedurer bruges proc freq til at tabellere data. Proceduren optæller hvor mange observationer i datasættet der for hver kombination af de variable man tabellerer efter. Fra et case-kontrol-studie af malignt melanom, kan vi f.eks tabellere cases og kontroller efter øjenfarve ved: 10 proc freq data = melanom ; 11 table eyes * casecon ; 12 NOTE: There were 1400 observations read from the data set WORK.MELANOM. NOTE: The PROCEDURE FREQ printed page 1. NOTE: PROCEDURE FREQ used: real time 0.09 seconds cpu time 0.04 seconds The FREQ Procedure Table of eyes by casecon eyes casecon Frequency Percent Row Pct Col Pct 0 1 Total Total Frequency Missing = 6 Bemærk at den variabel der nævnes først kommer nedad, den der nævnes sidst henad. Man får altid procenter på begge leder og totalprocenter. Det kan undgås ved at skrive:

12 9 PROC FREQ 9 table eyes * casecon / norow nocol nopercent ; Proc freq kan udregne et sædvanligt χ 2 -test for uafhængighed samt de forventede værdier og de enkelte cellers bidrag til teststørrelsen ud: 14 proc freq data = melanom ; 15 table eyes * casecon / norow nocol nopercent 16 chisq cellchisq expected ; 17 NOTE: The PROCEDURE FREQ printed page 2. NOTE: PROCEDURE FREQ used: real time 0.08 seconds cpu time 0.04 seconds The FREQ Procedure Table of eyes by casecon eyes casecon Frequency Expected Cell Chi-Square 0 1 Total Total Frequency Missing = 6 Statistics for Table of eyes by casecon Statistic DF Value Prob Chi-Square Likelihood Ratio Chi-Square Mantel-Haenszel Chi-Square Phi Coefficient Contingency Coefficient Cramer s V Effective Sample Size = 1394 Frequency Missing = 6 Man ser at der ikke er nogen signifikant forskel på fordelingen af øjenfarver mellem cases og kontroller (p=0.22).

13 10 Epidemiologisk analyse med SAS 9.1 Tabellerede data Af og til har man data som på forhånd er tabellerede, dvs. man ikke har data for de enkelte individer, men kun en tabel som f.eks: Age 60 Age < 60 MI yes MI no MI yes MI no SBP SBP < Hvis man gerne vil tabellere disse tal og brugeproc freq til at regne på dem ville det være yderst upraktisk at skulle danne et datasæt med i dette tilfælde 2011 observationer. Derfor tillader proc freq at man lader hver observation i datasættet repræsentere flere personer. Antallet af personer for en given kombination af variablene skal være i en variabel som man nævner i et weight-statement: data KSTab55 ; input age $ sbp $ mi $ antal ; cards ; ge60 ge140 ja 9 ge60 lt140 ja 6 ge60 ge140 nej 115 ge60 lt140 nej 73 lt60 ge140 ja 20 lt60 lt140 ja 21 lt60 ge140 nej 596 lt60 lt140 nej 1171 ; proc freq data = KSTab55 ; 16 tables sbp * mi / chisq measures ; 17 weight antal ; 18 NOTE: There were 8 observations read from the data set WORK.KSTAB55. NOTE: The PROCEDURE FREQ printed page 1. NOTE: PROCEDURE FREQ used: real time 0.29 seconds cpu time 0.05 seconds The FREQ Procedure Table of sbp by mi sbp mi Frequency Percent Row Pct Col Pct ja nej Total ge

14 9 PROC FREQ lt Total Statistics for Table of sbp by mi Statistic DF Value Prob Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Mantel-Haenszel Chi-Square <slettet>--- Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) Cohort (Col2 Risk) Sample Size = 2011 Variablen antal indeholder antallet personer for hver kombination af de øvrige variable, og ved weight antal-angivelsen vil SAS ikke blot optælle antallet af observationer i datasættet (som i denne sammenhæng ville være 2 for alle celler), men summen af antal for de pågældene observationer i datasættet. Når man beder om measures får man udregnet det som SAS kalder relative risk, som for case-kontrolstudier er odds-ratio. Man kan let verificere at ( )/(27 711) = 1.879, og at konfidensintervallet er udregnet som exp(1.96 1/29 + 1/27 + 1/ /1244). I dette tilfælde er odds-ratio for myocardieinfarkt (MI) mellem personer med systolisk blodtryk over hhv. under 140 mmhg altså 1.88 med et 95% c.i. ( ). 9.2 Stratificeret analyse En analyse af melanomstudiet efter case-konstrol-status mod forekomsten af naevi giver: data melanom ; infile t:\melanom.txt firstobs=2 ; input casecon sex brevald agr hudfarve hair eyes fregner akutrea kronrea nvsmall nvlarge nvtot ant15 ; naevus = ( nvtot > 0 ) + nvtot - nvtot ; * Trick for at få missing for naevus hvis nvtot er missing ;

15 12 Epidemiologisk analyse med SAS 20 proc freq data = melanom ; 21 table naevus * casecon / norow nocol nopercent 22 chisq measures ; 23 NOTE: There were 1400 observations read from the data set WORK.MELANOM. NOTE: The PROCEDURE FREQ printed page 3. NOTE: PROCEDURE FREQ used: real time 0.16 seconds cpu time 0.04 seconds The FREQ Procedure Table of naevus by casecon naevus casecon Frequency 0 1 Total Total Frequency Missing = 7 Statistics for Table of naevus by casecon Statistic DF Value Prob Chi-Square < <slettet>--- Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) Cohort (Col2 Risk) Effective Sample Size = 1393 Frequency Missing = 7 Her får vi estimeret odds-ratio associeret med tilstedeværelsen af naevi til 2.31, med et 95% c.i. på ( ). Nu er melanom-studiet imidlertid aldersstratificeret, så hvis man ville udregne en odds-ratio for malignt melanom associeret med tilstedeværelsen af naevi bør man lave en stratificeret analyse, dvs. man skal opdele efter alder, se på odds-ratio i hvert aldersstatum, se efter om de ser ens ud, og endelig estimere en fælles odds-ratio. Man kan stratificere efter en (eller flere) variable i proc freq ved at stille disse foran i tabelspecifikationen samt specificere cmh efter skråstregen. cmh refererer til Cochran-Mantel-Haenszel-testet som er det stratificerede test for om odds-ratio er 1. Samtidig får man Breslow-Day-testet for hypotesen om at

16 9 PROC FREQ 13 odds-ratios er ens over strata. Output bliver temmelig voluminøst, idet man får en separat analyse for hvert aldersstratum, plus en samlet analyse til sidst. Nedenfor er passende uddrag: 25 proc freq data = melanom ; 26 table agr * naevus * casecon / norow nocol nopercent 27 cmh measures ; 28 NOTE: There were 1400 observations read from the data set WORK.MELANOM. NOTE: The PROCEDURE FREQ printed pages 4-9. NOTE: PROCEDURE FREQ used: real time 0.23 seconds cpu time 0.09 seconds The FREQ Procedure Table 1 of naevus by casecon Controlling for agr=20 naevus casecon Frequency 0 1 Total Total Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) Cohort (Col2 Risk) Table 2 of naevus by casecon Controlling for agr=30 naevus casecon Frequency 0 1 Total Total Frequency Missing = 1 Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) Cohort (Col2 Risk) Table 3 of naevus by casecon Controlling for agr=40 naevus casecon

17 14 Epidemiologisk analyse med SAS Frequency 0 1 Total Total Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) Cohort (Col2 Risk) Sample Size = <tabel 4-7 slettet>--- Summary Statistics for naevus by casecon Controlling for agr Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob Nonzero Correlation < Row Mean Scores Differ < General Association <.0001 Estimates of the Common Relative Risk (Row1/Row2) Type of Study Method Value 95% Confidence Limits Case-Control Mantel-Haenszel (Odds Ratio) Logit Cohort Mantel-Haenszel (Col1 Risk) Logit Cohort Mantel-Haenszel (Col2 Risk) Logit Breslow-Day Test for Homogeneity of the Odds Ratios Chi-Square DF 6 Pr > ChiSq Effective Sample Size = 1393 Frequency Missing = 7 Her får vi estimeret odds-ratio associeret med tilstedeværelsen af naevi til 2.31, med et 95% c.i. på ( ), præcis det samme som i analysen yuden stratifiketion. Der er altså tydeligvis ikke nogen confounding, hvilket skyldes at der ikke er nogen sammenhæng mellem naevus-forekomst (+/ ) og alder. Både Mantel-Haenszel og Logit estimatoren for den fælles odds-ratio udregnes under den antagelse at odds-ratio i alle strata kan antages at være den samme. Breslow-Day testet for homogenitet af odds-ratios tester netop denne hypotese. I dette tilfælde er der tydeligvis ens odds-ratios i alle aldersklasser.

18 10 PROC GENMOD proc genmod Denne SAS-procedure kan anvendes såvel til logistisk regression som til lineær regression Analyse af kohortestudier På s. 226 i Clayton & Hills er vist hvordan data ser ud som frequency records. Dette datasæt kan indlæses i SAS og analyseres med proc genmod med følgende program: data ihd ; input eksp alder pyrs cases ; lpyrs = log( pyrs ); cards; ; run; 16 proc genmod data = ihd ; 17 class alder eksp ; 18 model cases = alder eksp / dist = poisson 19 offset = lpyrs 20 type3 ; 21 run; NOTE: Algorithm converged. NOTE: The scale parameter was held fixed. NOTE: The PROCEDURE GENMOD printed page 1. NOTE: PROCEDURE GENMOD used: real time 0.43 seconds cpu time 0.09 seconds Bemærk at man for at få risikotiden ind i modellen skal bruge logaritmen af denne (og log er den naturlige logaritme), som s.k. offset-variabel, angivet med offset-option i proc genmod. Her er cases, antallet af events (D), Poisson-fordelt (dist=poisson) og logaritmen af raten (link=log) afhænger additivt af alder og eksp. classstatementet får SAS til at generere de relevante dummy-variable for hver af niveauerne af alder og eksp. The GENMOD Procedure Model Information Data Set WORK.IHD Distribution Poisson Link Function Log Dependent Variable cases Offset Variable lpyrs Observations Used 6 Class Level Information

19 16 Epidemiologisk analyse med SAS Class Levels Values alder eksp Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr Intercept alder alder alder eksp eksp Scale NOTE: The scale parameter was held fixed. LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq alder eksp Estimatet for corner-parameteren står ud for Intercept, og repræsenterer log(rate) for sidste nivaeu af alder og eksp. Hvad det er for et kan ses i Estimate-søjlen hvor der står 0, altså eksp=1 og alder=2. For tekst variable vil SAS sætte niveauerne af en class-variabel i alfabetisk orden. Hvis variablen er defineret som numerisk kommer niveauerne i numerisk orden. Bemærk at proc genmod udregner deviance pr. default, og at der udregnes 95% konfidensintervaller for log(rr). Endelige har type3 bevirket at der er lavet likelihood-ratio-tests for fjernelse af hver af de to klasse-variable. Individuelle records På s. 229 i Clayton & Hills bog bemærkes det at den samlede likelihood for alle bidrag fra hver af follow-up intervallerne fra alle personer i studiet er det samme som fra tabellerede data. Naturligvis under forudsætning af at de forklarende variable kun antager diskrete værdier som kan tabelleres efter. I praksis betyder det at det for kohorte-studier ikke er nødvendigt at tabellere %lexis-opdelte data inden analyse; man skal blot analysere sine 0/1 data (0 fra intervaller uden event, 1 fra intervaller med) som om de var Poisson-fordelte, og anvende logaritmen af follow-uptiden i hvert interval som offset-variabel. Den type af analyse vil typisk have et antal observationer i datasættet som er flere gange større end antallet af individer i kohorten.

20 10 PROC GENMOD 17 For sådanne data er den absolutte værdi af deviance dog uden mening, mens forskelle mellem deviance for forskellige modeller stadig vil have mening Analyse af case-kontrol studier Case-control studier kan analyseres med logistiske regressionsmodeller for binomialdata, dvs. man skal angive både tæller og nævner. Hvis man derfor indlæser data som antal cases og kontroller skal man udregne det totale antal inden man laver analysen. Nedenfor er vist hvordan tallene i tabel 23.2, p. 230 i Clayton & Hills lærebog Statistical Models in Epidemiology kan indlæses og analyseres. data bvac ; input bcg alder cases controls ; total = cases + controls ; cards; ; 24 proc genmod data = bvac ; 25 class alder bcg ; 26 model cases/total = alder bcg / dist = bin 27 link = logit ; 28 run; NOTE: Algorithm converged. NOTE: The scale parameter was held fixed. NOTE: The PROCEDURE GENMOD printed page 1. NOTE: PROCEDURE GENMOD used: real time 0.41 seconds cpu time 0.08 seconds Bemærk at man ved logistisk regression skal angive respons-variablen som en brøk. Dette er kun en syntaksmæssig konvention og venstresiden i model statementet kan ikke erstattes af en variabel hvor man har udregnet andelen af cases. The GENMOD Procedure Model Information Data Set WORK.BVAC Distribution Binomial Link Function Logit Response Variable (Events) cases Response Variable (Trials) total Observations Used 14

21 18 Epidemiologisk analyse med SAS Number Of Events 260 Number Of Trials Class Level Information Class Levels Values alder bcg Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Intercept <.0001 alder <.0001 alder <.0001 alder <.0001 alder <.0001 alder <.0001 alder alder bcg bcg Scale NOTE: The scale parameter was held fixed. Individuelle records I praktiske situationer hvor et case-kontrol-studie skal analyseres vil data foreligge som individuelle records, med et antal variable for hver person på hver linje, herunder en case-kontrol indikator typisk kodet 1 for cases og 0 for kontroller. Her kan man sige at hver linje repræsenterer en person, hvoraf der så er enten 1 eller 0 cases, så nævneren er altid 1. Det skulle så betyde det at man skal danne en variabel en, som antager værdien 1 for alle personer i studiet. Imidlertid er dette ikke nødvendigt når nævneren er 1; man kan godt tillade sig at udelade /en i eksemplet nedenfor, og skrive model casecon = hudfarve. data melanom ; infile t:\melanom.txt firstobs=2 ; input casecon sex brevald agr hudfarve hair eyes fregner akutrea kronrea nvsmall nvlarge nvtot ant15 ; proc genmod ; class hudfarve ; model casecon = hudfarve / dist = bin link = logit ;

22 10 PROC GENMOD 19 The GENMOD Procedure Model Information Data Set WORK.MELANOM Distribution Binomial Link Function Logit Dependent Variable casecon Observations Used 1390 Missing Values 10 Class Level Information Class Levels Values hudfarve Response Profile Ordered Total Value casecon Frequency PROC GENMOD is modeling the probability that casecon= 0. One way to change this to model the probability that casecon= 1 is to specify the DESCENDING option in the PROC statement. ---<slettet>--- Analysis Of Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Intercept <.0001 hudfarve hudfarve hudfarve Scale Bemærk at man med den sædvanlige kodning af responset 0/1 får estimeret den gale størrelse, nemlig sandsynligheden for at være en kontrol (givet inklusion i studiet). SAS er dog så venlig at give en anvisning på hvordan man får det gjort rigtigt. 36 proc genmod descending ; 37 class hudfarve ; 38 model casecon = hudfarve / dist = bin 39 link = logit ; 40 NOTE: PROC GENMOD is modeling the probability that casecon= 1. NOTE: Algorithm converged. NOTE: The scale parameter was held fixed. NOTE: The PROCEDURE GENMOD printed page 11. NOTE: PROCEDURE GENMOD used: real time 0.41 seconds cpu time 0.10 seconds The GENMOD Procedure Data Set Model Information WORK.MELANOM

23 20 Epidemiologisk analyse med SAS Distribution Binomial Link Function Logit Dependent Variable casecon Observations Used 1390 Missing Values 10 Class Level Information Class Levels Values hudfarve Response Profile Ordered Total Value casecon Frequency PROC GENMOD is modeling the probability that casecon= 1. Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Intercept <.0001 hudfarve hudfarve hudfarve Scale NOTE: The scale parameter was held fixed. Man ser at den eneste forskel fra før er at estimaterne har skiftet fortegn. Det vil sige at hudfarve 0 og 1 (mørk hhv. medium) har lavere risiko end 2 (lys). 11 Udregning af odds-ratio og konfidensintervaller I SAS findes et maskineri til at fiske diverse ting ud af analyser over i datasæt til videre processering, Output Delivery System, ODS. 30 proc genmod data = bvac ; 31 class alder bcg ; 32 model cases/total = alder bcg / dist = bin 33 link = logit ; 34 ods output ParameterEstimates = pe ; 35 run; NOTE: Algorithm converged. NOTE: The scale parameter was held fixed. NOTE: The data set WORK.PE has 11 observations and 9 variables. NOTE: The PROCEDURE GENMOD printed page 2. NOTE: PROCEDURE GENMOD used:

24 11 UDREGNING AF ODDS-RATIO OG KONFIDENSINTERVALLER 21 real time cpu time 0.32 seconds 0.05 seconds ods-statementet laver et SAS-datasæt, pe, der ligner den del af outputtet der står under Analysis of parameter estimates, med bl.a. variablene Estimate, LowerCL og UpperCL. I logistisk regression er Estimate jo log() så er exp(estimate), og konfidensintervallet for fås ved samme transformation: 37 data pe ; 38 set pe ; 39 or = exp( estimate ) ; 40 or_lo = exp( LowerCL ) ; 41 or_hi = exp( UpperCL ) ; 42 NOTE: There were 11 observations read from the data set WORK.PE. NOTE: The data set WORK.PE has 11 observations and 12 variables. NOTE: DATA statement used: real time 0.01 seconds cpu time 0.01 seconds proc print data = pe ; 45 var Parameter Level1 Estimate LowerCL UpperCL or or_lo or_hi ; 46 NOTE: There were 11 observations read from the data set WORK.PE. NOTE: The PROCEDURE PRINT printed page 3. NOTE: PROCEDURE PRINT used: real time 0.01 seconds cpu time 0.01 seconds Obs Parameter Level1 Estimate LowerCL UpperCL or or_lo or_hi 1 Intercept alder alder alder alder alder alder alder bcg bcg Scale En fuldstændig parallel til dette kan bruges ved udregning af rate ratio (relativ risiko) og tilhørende konfidensintervaller fra kohorte-studier estimate-statement i proc genmod En fleksibel måde at få estimaterne ud fra modellen med konfidensintervaller er at bruge estimate, som også muliggør at man kan få andre reference-grupper end den man oprindeligt havde i modellen. Prisen er lidt skrive-arbejde. I modellen for BCG-data havde vi 7 alders grupper, og altså seks egentlige parametere, samt en referencegruppe som SAS har sat til 0. Med estimate kan man få proc genmod til at udregne vilkårlige forskelle, f.eks kan forskellene i log-or mellem aldersgrupper 2 hhv. 3 og aldersgruppe 1 fås ved: proc genmod data = bvac ; class alder bcg ; model cases/total = alder bcg / dist = bin

25 22 Epidemiologisk analyse med SAS link = logit ; estimate "Agr 2 vs. 1" alder ; estimate "Agr 3 vs. 1" alder ; run; Det første efter estimate er blot en tekst så man selv kan huske hvad der er hvad. alder angiver at det alene er alderseffekterne man interesserer sig for. Da der er 7 aldersklasser skal der være 7 efterfølgende tal. Tallene angiver at man vil have 1 1. aldersparameter+1 2. aldersparameter aldersparameter+, altså = Det er jo ret trivielt selv at regne ud, men den tilhørende spredning er ikke. Nedenfor kan man se hvordan outputtet fra estimate ser ud, og sammenligne med det output man (også) får for parameterestimaterne. Analysis Of Parameter Estimates Intercept <.0001 alder <.0001 alder <.0001 alder < Contrast Estimate Results Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Standard Chi- Label Estimate Error Alpha Confidence Limits Square Pr > ChiSq Agr 2 vs Agr 3 vs Yderligere kan man få proc genmod til at udregne selve OR ved at tilføje / exp til estimate-statementet. Hvis man f.eks vil sammenligne de resultater men får ved at udregne odds-ratios med aldersgruppe 7 som reference med de man får ved at bruge aldersgruppe 4 som reference kan man bruge: 49 proc genmod data = bvac ; 50 class alder bcg ; 51 model cases/total = alder bcg / dist = bin 52 link = logit ; 55 estimate "Agr 1 vs. 7" alder / exp ; 56 estimate "Agr 2 vs. 7" alder / exp ; 57 estimate "Agr 3 vs. 7" alder / exp ; 58 estimate "Agr 4 vs. 7" alder / exp ; 59 estimate "Agr 5 vs. 7" alder / exp ; 60 estimate "Agr 6 vs. 7" alder / exp ; 61 estimate "Agr 1 vs. 4" alder / exp ; 62 estimate "Agr 2 vs. 4" alder / exp ; 63 estimate "Agr 3 vs. 4" alder / exp ; 64 estimate "Agr 5 vs. 4" alder / exp ; 65 estimate "Agr 6 vs. 4" alder / exp ; 66 estimate "Agr 7 vs. 4" alder / exp ; 67 run; NOTE: Algorithm converged. NOTE: The scale parameter was held fixed. NOTE: The PROCEDURE GENMOD printed pages 4-5. NOTE: PROCEDURE GENMOD used: real time 0.07 seconds

26 11 UDREGNING AF ODDS-RATIO OG KONFIDENSINTERVALLER 23 cpu time 0.03 seconds Contrast Estimate Results Standard Chi- Label Estimate Error Alpha Confidence Limits Square Pr > ChiSq Agr 1 vs <.0001 Exp(Agr 1 vs. 7) Agr 2 vs <.0001 Exp(Agr 2 vs. 7) Agr 3 vs <.0001 Exp(Agr 3 vs. 7) Agr 4 vs <.0001 Exp(Agr 4 vs. 7) Agr 5 vs <.0001 Exp(Agr 5 vs. 7) Agr 6 vs Exp(Agr 6 vs. 7) Agr 1 vs Exp(Agr 1 vs. 4) Agr 2 vs Exp(Agr 2 vs. 4) Agr 3 vs Exp(Agr 3 vs. 4) Agr 5 vs Exp(Agr 5 vs. 4) Agr 6 vs <.0001 Exp(Agr 6 vs. 4) Agr 7 vs <.0001 Exp(Agr 7 vs. 4) Her ser man bl.a. at spredningen på ln() er meget mindre når man bruger gruppe 4 som reference, idet der er mange flere cases og kontroller i denne end i aldersgruppe 7. Man skal ikke bruge standard error for OR, udelukkende estimatet og konfidensgrænserne, som er udregnet korrekt på log-skalaen og transformeret tilbage til OR-skalaen. Det er ikke alle talkombinationer af parameter-estimaterne det er tilladt at bede om, man kan kun få udregnet s.k. estimable funktioner. Populært sagt betyder det at summen af tallene skal være 0. Estimate kan også bruges hvis der er kontinuerte variable i modellen. Så vil man skulle angive hvilket blodtryk, højde (eller hvad det nu er) man vil have ganget på koefficienten.

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Introduktion til Regneøvelser i epidemiologi med SAS

Introduktion til Regneøvelser i epidemiologi med SAS PhD-kursus i Epidemiologi Institut for Folkesundhedsvidenskab Biostatistisk Afdeling Københavns Universitet Introduktion til Regneøvelser i epidemiologi med SAS www.biostat.ku.dk/~pka/epif07 Forår 2007

Læs mere

Introduktion til Regneøvelser i epidemiologi med SAS

Introduktion til Regneøvelser i epidemiologi med SAS PhD-kursus i Epidemiologi Institut for Folkesundhedsvidenskab Biostatistisk Afdeling Københavns Universitet Introduktion til Regneøvelser i epidemiologi med SAS www.biostat.ku.dk/~pka/epi06 Forår 2006

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Afdeling for Anvendt Matematik og Statistik December 2006

Afdeling for Anvendt Matematik og Statistik December 2006 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 i SAS (Zar kapitel 23) PROC FREQ PROC CATMOD

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Introduktion til SAS. Faculty of Health Sciences

Introduktion til SAS. Faculty of Health Sciences Faculty of Health Sciences Introduktion til SAS Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Eksempel: Blodtryk og fedme OBESE: vægt/idealvægt,

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom.

MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom. MPH specialmodul i biostatistik og epidemiologi SAS-øvelser vedr. case-control studie af malignt melanom. For at I skal kunne regne på tallene fra undersøgelsen har vi taget en delmængde af variablene

Læs mere

INTRODUKTION TIL dele af SAS

INTRODUKTION TIL dele af SAS INTRODUKTION TIL dele af SAS Der er flere forskellige angrebsvinkler ved statistiske analyser i SAS. Vi skal her kun beskæftige os med to af disse, nemlig Direkte programmering. Brug af SAS ANALYST Hvilken

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Opgavebesvarelse, logistisk regression

Opgavebesvarelse, logistisk regression Opgavebesvarelse, logistisk regression Data ligger i rop.xls på kursushjemmesiden: http://staff.pubhealth.ku.dk/ jufo/courses/logistic/ Når du har gemt data på din computer, kan det indlæses i SAS med

Læs mere

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018 Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

Analyse af binære responsvariable

Analyse af binære responsvariable Analyse af binære responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet 23. november 2012 Har mænd lettere ved at komme ind på Berkeley? UC Berkeley

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Kort intro til SAS. Efterår 2015. Janne Petersen Judith L Jacobsen Lene Theil Skovgaard

Kort intro til SAS. Efterår 2015. Janne Petersen Judith L Jacobsen Lene Theil Skovgaard Kort intro til SAS Efterår 2015 Janne Petersen Judith L Jacobsen Lene Theil Skovgaard 1 Hvorfor SAS Kan alt Alle ph.d. studerende har gratis adgang Fra universitetet eller hospitalerne Kode --- hjælp fra

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Træningsaktiviteter dag 3

Træningsaktiviteter dag 3 Træningsaktiviteter dag 3 I træningsaktiviteterne skal I arbejde videre med Framingham data og risikoen for hjertesygdom. I skal dels lave MH-analyser som vi gjorde i timerne og dels lave en multipel logistisk

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Hvorfor SAS Kort intro til SAS

Hvorfor SAS Kort intro til SAS Hvorfor SAS Kort intro til SAS Efterår 2015 Janne Petersen Judith L Jacobsen Lene Theil Skovgaard Kan alt Alle ph.d. studerende har gratis adgang Fra universitetet eller hospitalerne Kode --- hjælp fra

Læs mere

Basal Statistik Kategoriske Data

Basal Statistik Kategoriske Data Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1 Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal13_ jlj@statcon.dk Dagens Tekst Logistisk regression Binære data Logit transformation

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab Logistis regression Statisti Kandidatuddannelsen i Folesundhedsvidensab Multipel logistis regression Antagelser: Binære observationer (Y i, i=,.,n) f.es Ja/Nej Høj/Lav Død/Levende Kodet: / 0 Y i uafhængige

Læs mere

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE Økonomisk Kandidateksamen Teoretisk Statistik Eksamenstermin: Sommer 2004, dato: 3. juni 4 timers prøve med alle hjælpemidler, besvarelse på Dansk Opgave En simpel tilfældig stikprøve på 500 udtrukket

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved.

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved. PROC TRANSPOSE SAS-tabellen - hensigtsmæssig lagring af data Copyright 2011 SAS Institute Inc. All rights reserved. Transponerede tabeller Brede eller smalle? Hvad: Brede tabeller har mange kolonner med

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes 25. april 2. gang: Introduktion til Logistisk Regression Morten Frydenberg 22 Institut for Biostatistik, Århus Universitet MPH. studieår specialmodul Cand. San. uddannelsen. studieår Hvorfor logistisk

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Dag 6: Interaktion. Overlevelsesanalyse

Dag 6: Interaktion. Overlevelsesanalyse Dag 6: Interaktion. Overlevelsesanalyse How does CHD depend on gender and hypertension? Males: hypertension chd01 Females: Frequency Row Pct 0 1 Total ---------+--------+--------+ 0 352 95 447 78.75 21.25

Læs mere

Confounding og stratificeret analyse

Confounding og stratificeret analyse Faculty of Health Sciences Confounding og stratificeret analyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursets form Seks fredage

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/regression2012/

Læs mere

Morten Frydenberg 25. april 2006

Morten Frydenberg 25. april 2006 . gang: Introduktion til Logistisk Regression Morten Frydenberg 26 Afdeling for Biostatistik, Århus Universitet MPH. studieår specialmodul 4 Cand. San. uddannelsen. studieår Hvorfor logistisk regression

Læs mere

Peter Kellberg. Rundt om Danmarks Statistiks makroer. Design, Standardisering, Teknik

Peter Kellberg. Rundt om Danmarks Statistiks makroer. Design, Standardisering, Teknik Peter Kellberg Rundt om Danmarks Statistiks makroer Design, Standardisering, Teknik SAS Forum 2009 Ét makrobibliotek ca 50 makroer, vi selv har lavet mange andre fx CLAN Autocall makroer en makro er et

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

CLASS temp medie; MODEL rate=temp medie/solution; RUN; Ugeopgave 2.1 Bakterieprøver fra patienter transporteres ofte til laboratoriet ved stuetemperatur samt mere eller mindre udsat for luftens ilt. Dette er især uheldigt for prøver som indeholder anaerobe

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2015

Vejledende besvarelse af hjemmeopgave, efterår 2015 Vejledende besvarelse af hjemmeopgave, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder i Massachusetts (ref.) søger

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere