MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Relaterede dokumenter
MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Introduktion til SAS. Faculty of Health Sciences

Afdeling for Anvendt Matematik og Statistik December 2006

Postoperative komplikationer

Introduktion til Regneøvelser med SAS

Statistiske Modeller 1: Kontingenstabeller i SAS

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Løsning til opgave i logistisk regression

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Opgavebesvarelse, logistisk regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Opgavebesvarelse, Basalkursus, uge 3

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Morten Frydenberg 26. april 2004

Vejledende besvarelse af hjemmeopgave

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Lineær og logistisk regression

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Simpel og multipel logistisk regression

Morten Frydenberg 14. marts 2006

INTRODUKTION TIL dele af SAS

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Vejledende besvarelse af hjemmeopgave, forår 2015

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Besvarelse af vitcap -opgaven

Vejledende besvarelse af hjemmeopgave, efterår 2018

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Reeksamen i Statistik for biokemikere. Blok

Logistisk Regression - fortsat

Vejledende besvarelse af hjemmeopgave, forår 2017

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Confounding og stratificeret analyse

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

k normalfordelte observationsrækker (ensidet variansanalyse)

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Vejledende besvarelse af hjemmeopgave, efterår 2015

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Lineær regression i SAS. Lineær regression i SAS p.1/20

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Statistisk modellering af meldugangreb i vinterhvede. Analyse på baggrund af observationer i Registreringsnettet

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Opgavebesvarelse, brain weight

Reeksamen i Statistik for Biokemikere 6. april 2009

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Regressionsanalyse i SAS

Morten Frydenberg 25. april 2006

Træningsaktiviteter dag 3

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Besvarelse af opgave om Vital Capacity

Kort intro til SAS. Efterår Janne Petersen Judith L Jacobsen Lene Theil Skovgaard

Basal Statistik for medicinske PhD-studerende Oktober 2007

Besvarelse af juul2 -opgaven

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, forår 2016

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Generelle lineære modeller

Kategoriske data. Basal Statistik for medicinske PhD-studerende October 2008

Eksamen i Statistik for Biokemikere, Blok januar 2009

Ikke-parametriske tests

Reeksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, Basalkursus, uge 3

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved.

Basal statistik. 30. oktober 2007

Introduktion til Regneøvelser i epidemiologi med SAS

Introduktion til Regneøvelser i epidemiologi med SAS

Basal statistik. 30. oktober Den generelle lineære model

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Vejledende besvarelse af hjemmeopgave, efterår 2017

Uge 13 referat hold 4

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Hvorfor SAS Kort intro til SAS

Logistisk regression

Statistik for MPH: 7

Opgavebesvarelse, Basalkursus, uge 3

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Kausalitet. Introduktion til samfundsvidenskabelig metode. Samfundsvidenskabelig metode. Hvad er metode? Hvad er kausalitet.

Opgavebesvarelse, korrelerede målinger

Logistisk regression

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Basal Statistik for medicinske PhD-studerende November 2008

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Eksamen i Statistik for biokemikere. Blok

Logistisk regression og prædiktion

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Transkript:

MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes og eksakt den samme analyse kan reproduceres) enkelt at dokumentere. Per Kragh Andersen 1 2 SAS analyst menu/skema-orienteret overbygning skriver og kører programmer for en ingen udenadslære, ingen syntaksfejl let at importere filer med andre formater Men: man får ikke alt med det er tungt at bruge i længden reproducerbarheden mistes. OBESE: vgt/idealvgt, Eksempel: Blodtryk og fedme BP: systolisk blodtryk SEX OBESE BP...... male 1.31 130...... male 1.31 148 female 1.25 98 male 1.19 146 female 1.24 110 male 1.11 122 female 1.27 118 male 1.34 140 female 1.57 116 male 1.17 146 female 1.30 118 male 1.56 132 female 1.32 138 male 1.18 110 female 1.41 142 male 1.04 124 female 1.21 124 male 1.03 150 female 1.20 120...... female 2.20 136...... female 1.64 136...... female 1.73 208 3 4

Data ligger i tekst filen t:\bp.txt, som indeholder følgende variable SEX: karaktervariabel OBESE: fedmegrad, dvs. vægt/idealvægt BP: systolisk blodtryk Dvs.: 3 variable 102 observationer Indlæsning og udskrivning i SAS: infile t:\bp.txt firstobs=2; input sex $ obese bp; proc print data=bp; var sex obese bp; Her laves et midlertidigt datasæt bp, som kun eksisterer indenfor det program, der er tale om. Derefter skrives det ud, dvs. der kommer en liste i output-vinduet. 5 6 Direkte programmering Indlæsning og datamanipulationer: Datastep: data a; < evt. indlsning > < data manipulation > Procedurekald, proc xxx proc XXX data = a ; < procedure specifikationer > Datamanipulationer kun mellem data a; og. Eksempel: infile t:\bp.txt firstobs=2 ; input sex obese bp ; bp150 = (bp>=150); proc print data=bp; var sex obese bp bp150; proc freq data=bp; table sex * bp150 ; 7 8

Indtastning af program i Editor vinduet: Piletaster, backspace, delete, Home og End virker som de plejer. Kvajetast i kommandobjælken, eller Ctrl-Z. Gyldige SAS-ord bliver blå når de er korrekt stavet. Når programmet er kørt (Run Submit, den lille mand der løber eller F8 ) kommer der resultater i: Log-vindue: Her kan man se, hvordan kørslen er gået hvor mange observationer, man har hvor mange variable, der er om der var nogen fejl hvilke sider, der er skrevet af hvilke procedurer Output-vindue: selve resultaterne (hvis der er nogen). Graph-vindue (måske) Her gemmes evt. højopløselige plots i rækkefølge Der skiftes mellem vinduerne ved at klikke på Windows i kommandobjælken. 9 10 Ændringer i programmet: Når man kører programmet, bliver hele teksten i Editor-vinduet kørt. Hvis man kun ønsker at køre en del af programmet, skal man blot først markere den del, man vil køre. Bemærk: SAS-kørslerne (Log- Output- og Graph-vindue) kumulerer, dvs. alt bliver gemt fortløbende. Slet en gang imellem, vælg Edit Clear, eller Ctrl-E. Lad være med at printe ud! Det er god tone at specificere input-datasættet i alle procedurekald: infile t:\bp.txt firstobs=2 ; input sex obese bp ; proc univariate data = bp ; var obese bp ; Husk at gemme selve programmet ind imellem. 11 12

SAS-Datasæt Et SAS-datasæt er en fil hvor data ligger i et særligt format. Man skelner mellem at lave Permanente SAS-datasæt: data sasuser.bp; her, men måske noget andet hjemme Temporære (midlertidige) SAS-datasæt: forsvinder, når I lukker ned for SAS Ganske tilsvarende, når man skal anvende sådanne, men lige først skal modificere dem: Permanente SAS-datasæt: data ny ; set sasuser.bp ;... Temporære (midlertidige) SAS-datasæt: data ny ; set bp ;... 13 14 Brug af proc freq. infile t:\bp.txt firstobs=2; input sex $ obese bp; set bp; bp150 = (bp>150); fed=(obese>1.3); proc freq data=bp; table sex*bp150/nocol nopercent relrisk chisq; SEX Brug af proc freq. TABLE OF SEX BY BP150 BP150 Frequency Row Pct 0 1 Total female 54 4 58 93.10 6.90 male 42 2 44 95.45 4.55 Total 96 6 102 15 16

STATISTICS FOR TABLE OF SEX BY BP150 Statistic DF Value Prob Chi-Square 1 0.250 0.617 Likelihood Ratio Chi-Square 1 0.256 0.613 Continuity Adj. Chi-Square 1 0.006 0.940 Mantel-Haenszel Chi-Square 1 0.247 0.619 Fisher s Exact Test (Left) 0.478 (Right) 0.820 (2-Tail) 0.697 Phi Coefficient -0.049 Contingency Coefficient 0.049 Cramer s V -0.049 etc. etc. Estimates of the Relative Risk (Row1/Row2) 95% Type of Study Value Confidence Bounds Case-Control 0.643 0.112 3.680 Cohort (Col1 Risk) 0.975 0.887 1.073 Cohort (Col2 Risk) 1.517 0.291 7.912 Sample Size = 102 WARNING: 50% of the cells have expected counts less than 5. Chi-Square may not be a valid test. 17 18 Brug af proc freq: Mantel-Haenszel analyse. infile t:\bp.txt firstobs=2; input sex $ obese bp; set bp; bp150 = (bp>150); fed=(obese>1.3); proc freq data=bp; table fed*sex*bp150/nocol nopercent relrisk chisq cmh; sex The FREQ Procedure Table 1 of sex by bp150 Controlling for fed=0 bp150 Frequency Row Pct 0 1 Total female 21 1 22 95.45 4.55 male 33 1 34 97.06 2.94 Total 54 2 56 19 19-1

etc. etc. Statistics for Table 1 of sex by bp150 Controlling for fed=0 Statistic DF Value Prob Chi-Square 1 0.0998 0.7520 Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------- Case-Control (Odds Ratio) 0.6364 0.0377 10.7328 Cohort (Col1 Risk) 0.9835 0.8825 1.0960 Cohort (Col2 Risk) 1.5455 0.1019 23.4472 sex Table 2 of sex by bp150 Controlling for fed=1 bp150 Frequency Row Pct 0 1 Total female 33 3 36 91.67 8.33 male 9 1 10 90.00 10.00 Total 42 4 46 19-2 19-3 etc. etc. Statistics for Table 2 of sex by bp150 Controlling for fed=1 Statistic DF Value Prob Chi-Square 1 0.0274 0.8686 Estimates of the Relative Risk (Row1/Row2) Summary Statistics for sex by bp150 Controlling for fed Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob --------- 1 Nonzero Correlation 1 0.0064 0.9364 2 Row Mean Scores Differ 1 0.0064 0.9364 3 General Association 1 0.0064 0.9364 Type of Study Value 95% Confidence Limits ----------- Case-Control (Odds Ratio) 1.2222 0.1131 13.2082 Cohort (Col1 Risk) 1.0185 0.8102 1.2805 Cohort (Col2 Risk) 0.8333 0.0969 7.1684 19-4 19-5

Estimates of the Common Relative Risk (Row1/Row2) Type of Study Method Value ----------------------------------------------- Case-Control Mantel-Haenszel 0.9287 (Odds Ratio) Logit 0.9322 Cohort Mantel-Haenszel 0.9958 (Col1 Risk) Logit 0.9898 Cohort Mantel-Haenszel 1.0713 (Col2 Risk) Logit 1.0571 Type of Study Method 95% Confidence Limits ------- Case-Control Mantel-Haenszel 0.1463 5.8937 (Odds Ratio) Logit 0.1510 5.7549 Cohort Mantel-Haenszel 0.8945 1.1086 (Col1 Risk) Logit 0.8975 1.0916 Cohort Mantel-Haenszel 0.2017 5.6903 (Col2 Risk) Logit 0.1955 5.7147 Breslow-Day Test for Homogeneity of the Odds Ratios ------------------------------ Chi-Square 0.1209 DF 1 Pr > ChiSq 0.7280 19-6 19-7 Brug af proc freq: Mantel-Haenszel analyse. Af og til har man data som på forhånd er tabellerede, dvs. man ikke har data for de enkelte individer, men kun en tabel som f.eks: Age 60 Age < 60 MI yes MI no MI yes MI no SBP 140 9 115 20 596 SBP < 140 6 73 21 1171 Hvis man gerne vil tabellere disse tal og bruge proc freq til at regne på dem ville det være yderst upraktisk at skulle danne et datasæt med i dette tilfælde 2011 observationer. Derfor tillader proc freq at man lader hver observation i datasættet repræsentere flere personer. Antallet af personer for en given kombination af variablene skal være i en variabel som man nævner i et weight-statement: Brug af proc freq: Mantel-Haenszel analyse. data KSTab55; input age $ sbp $ mi $ antal; cards; ge60 ge140 ja 9 ge60 ge140 nej 115 ge60 lt140 ja 6 ge60 lt140 nej 73 lt60 ge140 ja 20 lt60 ge140 nej 596 lt60 lt140 ja 21 lt60 lt140 nej 1171 ; 20 21

TABLE 1 OF AGE BY MI CONTROLLING FOR SBP=ge140 proc freq; tables sbp*age*mi/nocol nopercent relrisk cmh; weight antal; /* Lg mrke til weight-kommandoen. Kommandoen cmh giver Mantel-Haenszel analysen. */ AGE MI Frequency Row Pct ja nej Total ge60 9 115 124 7.26 92.74 lt60 20 596 616 3.25 96.75 Total 29 711 740 22 23 etc. etc. Estimates of the Relative Risk (Row1/Row2) TABLE 2 OF AGE BY MI CONTROLLING FOR SBP=lt140 95% Type of Study Value Confidence Bounds Case-Control 2.332 1.036 5.251 Cohort (Col1 Risk) 2.235 1.043 4.793 Cohort (Col2 Risk) 0.959 0.911 1.009 Sample Size = 740 AGE MI Frequency Row Pct ja nej Total ge60 6 73 79 7.59 92.41 lt60 21 1171 1192 1.76 98.24 Total 27 1244 1271 24 25

... etc. Estimates of the Relative Risk (Row1/Row2) 95% Type of Study Value Confidence Bounds Case-Control 4.583 1.795 11.705 Cohort (Col1 Risk) 4.311 1.791 10.375 Cohort (Col2 Risk) 0.941 0.883 1.002 Sample Size = 1271 SUMMARY STATISTICS FOR AGE BY MI CONTROLLING FOR SBP Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Statistic Alternative Hypothesis DF Value Prob -------- 1 Nonzero Correlation 1 13.179 0.001 2 Row Mean Scores Differ 1 13.179 0.001 3 General Association 1 13.179 0.001 26 27 Estimates of the Common Relative Risk (Row1/Row2) 95% Type of Study Method Value Confidence Bounds -------- Case-Control Mantel-Haenszel 2.961 1.648 5.322 (Odds Ratio) Logit 3.115 1.686 5.754 Cohort Mantel-Haenszel 2.817 1.611 4.928 (Col1 Risk) Logit 2.965 1.667 5.273 Cohort Mantel-Haenszel 0.951 0.926 0.977 (Col2 Risk) Logit 0.951 0.914 0.990 The confidence bounds for the M-H estimates are test-based. Breslow-Day Test for Homogeneity of the Odds Ratios Chi-Square = 1.180 DF = 1 Prob = 0.277 Total Sample Size = 2011 Brug af proc genmod: Logistisk regression. infile t:\bp.txt firstobs=2; input sex $ obese bp; set bp; bp150 = (bp>150); proc genmod data=bp descending; class sex; model bp150=sex/dist=bin type3; estimate m vs. f sex -1 1 / exp; 28 29

The GENMOD Procedure Model Information Response Profile Ordered Total Value bp150 Frequency Data Set WORK.BP Distribution Binomial Link Function Logit Dependent Variable bp150 Observations Used 102 Class Level Information 1 1 6 2 0 96 PROC GENMOD is modeling the probability that bp150= 1. Parameter Information Parameter Effect sex Class Levels Values sex 2 female male Prm1 Intercept Prm2 sex female Prm3 sex male 30 31 Analysis Of Parameter Estimates Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 100 45.3826 0.4538 Scaled Deviance 100 45.3826 0.4538 Pearson Chi-Square 100 102.0000 1.0200 Scaled Pearson X2 100 102.0000 1.0200 Log Likelihood -22.6913 Algorithm converged. Standard Wald 95% Ch Parameter DF Estimate Error Confidence Limits Squa Intercept 1-3.0445 0.7237-4.4630-1.6260 17. sex female 1 0.4418 0.8901-1.3028 2.1865 0. sex male 0 0.0000 0.0000 0.0000 0.0000. Scale 0 1.0000 0.0000 1.0000 1.0000 Parameter Pr > ChiSq Intercept <.0001 sex female 0.6196 sex male. 32 33

LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq sex 1 0.26 0.6130 Contrast Estimate Results Standard Ch Label Estimate Error Alpha Confidence Limits Squar m vs. f -0.4418 0.8901 0.05-2.1865 1.3028 0.2 Exp(m vs. f) 0.6429 0.5722 0.05 0.1123 3.6795 Label Pr > ChiSq m vs. f 0.6196 Exp(m vs. f) 34