ØVELSE 2B. Formål Det primære formål med denne øvelse er at prøve nogle vigtige procedurer til statistisk og grafisk analyse.



Relaterede dokumenter
En Introduktion til SAS. Kapitel 5.

Kommentarer til øvelser i basalkursus, 2. uge

Regressionsanalyse i SAS

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

En Introduktion til SAS

Kort intro til SAS. Efterår Janne Petersen Judith L Jacobsen Lene Theil Skovgaard

SAS systemet SAS. SAS vinduer Janne Petersen

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Normalfordelingen og Stikprøvefordelinger

Kvantitative Metoder 1 - Forår Dagens program

Øvelser til basalkursus, 2. uge

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Hvorfor SAS Kort intro til SAS

Modelkontrol i Faktor Modeller

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Forelæsning 11: Kapitel 11: Regressionsanalyse

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

INTRODUKTION TIL dele af SAS

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Program dag 2 (11. april 2011)

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Statistik (deskriptiv)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Tips og tricks til Proc Means. Per Andersen

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

ØVELSE 2A. Ex_2a. Data-trin faciliteter: DATA sætningen INPUT sætningen CARDS sætningen INFILE sætningen LIST sætningen

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Basal statistik. 30. januar 2007

Postoperative komplikationer

Skriftlig eksamen Science statistik- ST501

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Introduktion til SPSS

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Statistiske modeller

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Tips og tricks til Proc Means. Per Andersen Senior IM Consultant Dong Energy, Group IT, Trading IT, Analytics

for gymnasiet og hf 2017 Karsten Juul

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Konfidensintervaller og Hypotesetest

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

SPSS introduktion Om at komme igang 1

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Basal Statistik - SPSS

Schweynoch, Se eventuelt

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Produkt og marked - matematiske og statistiske metoder

Reeksamen i Statistik for Biokemikere 6. april 2009

Matematik B. Højere handelseksamen. Vejledende opgave 1

ØVELSESGANG 1A EDB PROGRAMMER SAS SOM PROGRAMMERINGSSPROG

R / RStudio. Intro til R / RStudio

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Personlig stemmeafgivning

KURSUS I ANALYSEPORTALEN (AP) DANSK PALLIATIV DATABASE 3 1. ÅBNING AF ANALYSEPORTALEN 3 2. OPRETTELSE AF EN RAPPORT DVS. START AF DATAANALYSE 4

Analyse af en lineær regression med lav R 2 -værdi

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Undervisningsbeskrivelse

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Statistik II 1. Lektion. Analyse af kontingenstabeller

Opgavebesvarelse, Basalkursus, uge 3

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Deskriptiv statistik for hf-matc

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Løsning til eksaminen d. 14. december 2009

Transkript:

ØVELSE 2B I denne øvelse gennemgår vi: Udskrivning ved hjælp af PUT. Procedurerne FREQ, UNIVARIATE og CORR. Overførsel af procedure-uddata til et datasæt. Fremstilling af histogrammer og XY-plots. Formål Det primære formål med denne øvelse er at prøve nogle vigtige procedurer til statistisk og grafisk analyse. PUT og FILE sætningerne Til normal udskrift er det mest simpelt at bruge PROC PRINT, men med PUT kan man styre udskriften fuldstændigt. PUT-sætningen kan bruges til output af data fra et datatrin til log-filen, eller til en vilkårlig uddata-fil. PUT kan opfattes som det modsatte af INPUT, og der gælder for begge den samme formatterings-syntaks. FILE-sætningen kan anvendes til definition af uddatafilen. Fx fører følgende til en udskrift af variablerne VAR1 og VAR2 i log-filen: PUT VAR1 VAR2; medens vi med nedenstående dirigerer udskriften til outputvinduet: FILE PRINT; PUT VAR1 VAR2; I det følgende eksempel vil udskriften af VAR1 blive placeret i kolonne 10-20 og VAR2 i kolonne 30-40; VAR1 udskrives med 3 decimaler: FILE PRINT; PUT VAR1 10-20.3 VAR2 30-40; Der kan tilføjes en tekststreng (forklarende tekst) som et argument til PUT-sætningen: FILE PRINT; PUT 'Variabel 1 2 =' @25 VAR1 @45 VAR2; Tegnet @ fører til en forskydning af print-positionen til det pågældende kolonne-nummer inden udskrift af den efterfølgende variabel. Vi kan få en udskrift af de to variable på hver sin linie ved opsætningen: FILE PRINT; PUT 'Var 1 =' @20 VAR1 #2 'Var 2 =' @10 VAR2; Tegnet # bruges til at flytte skrivepositionen til det angivne linienummer (her linie 2). Samme resultat kan opnås ved: 1

FILE PRINT; PUT 'Var 1 =' @20 VAR1 / 'Var 2 =' @10 VAR2; idet tegnet / flytter skrivepositionen til næste linie i uddatafilen. Flere procedurer til dataanalyse I sidste øvelse arbejdede du med PROC MEANS, en procedure til univariat resumerende statistik. Nedenfor gennemgås nogle andre vigtige SAS-procedurer til simpel dataanalyse: PROC FREQ - fordeling af diskrete variable BASE SAS-proceduren PROC FREQ bruges til at at lave tabeller over den hyppighed (frekvens), hvormed de enkelte værdier forekommer inden for en eller flere variable (Frequency tables). Vi bruger datasættet MYSAS.DATA85 som eksempel: DATA TEMP; SET MYSAS.DATA85; PROC FREQ; TABLES ALDER KOEN; Programmet laver en tabel over hyppigheden (frekvensen) af de enkelte værdier for hver af de to variable ALDER og KOEN. Printfilen vises nedenfor i uddrag. Det fremgår af udskriften, at LABEL-sætningen har været anvendt ved oprettelse af dette datasæt (se overskrifterne Alder (år)' og Køn'). Alder (år) --------------------------------------------------------- Cumulative Cumulative ALDER Frequency Percent Frequency Percent --------------------------------------------------------- 31 5 13.9 5 13.9 32 4 11.1 9 25.0 33 3 8.3 12 33.3 (udskriftlinier udeladt) 41 1 2.8 32 88.9 42 4 11.1 36 100.0 Køn -------------------------------------------------------- Cumulative Cumulative KOEN Frequency Percent Frequency Percent -------------------------------------------------------- K 15 41.7 15 41.7 M 21 58.3 36 100.0 Tabellen viser, at der findes 5 personer med alderen 31 år (i 1985), 4 personer på 32 år etc. De to aldersklasser udgør hh. 13.9% og 11.1% af samtlige observationer. De to kolonner til højre viser de kumulative hyppigheder (antal personer med alder lig med eller mindre...). 2

Som det vises nedenfor et det også muligt at lade PROC FREQ lave en kryds-tabulering' (Crosstabulation.), hvilket opnås ved at placere tegnet * mellem variabelnavnene i TABLES-sætningen. Eksemplet viser også, at beregningerne kan foretages uden først at oprette det temporære datasæt TEMP: PROC FREQ DATA=MYSAS.DATA85; TABLES ALDER*KOEN; Et udsnit af printfilen produceret af dette program vises nedenfor: TABLE OF ALDER BY KOEN ALDER(Alder (år)) KOEN(Køn) Frequency Percent Row Pct Col Pct K M Total ---------+--------+--------+ 31 3 2 5 8.33 5.56 13.89 60.00 40.00 20.00 9.52 ---------+--------+--------+ 32 2 2 4 5.56 5.56 11.11 50.00 50.00 13.33 9.52 ---------+--------+--------+ 33 1 2 3 2.78 5.56 8.33 33.33 66.67 6.67 9.52 ---------+--------+--------+ (udskriften fortsætter) Det er muligt at bryde krydstabuleringen op i yderligere niveauer, fx PROC FREQ; TABLES ALDER*KOEN*HAIRCOLR; hvor variablen HAIRCOLR antages at rumme værdier for personens hårfarve. Det har kun mening af anvende PROC FREQ i forbindelse med diskrete variable, dvs. variable, der kun kan antage et begrænset antal værdier, da PROC FREQ laver output for hver eneste værdi. Diskrete variable kan være enten af typen numeric eller character. For kontinuerte numeriske variable, fx VAEGT og HOEJDE, må vi bruge andre metoder til resumering, fx PROC MEANS eller PROC UNIVARIATE, der omtales nedenfor. 3

PROC UNIVARIATE - analyse af kontinuerte variable PROC UNIVARIATE, der også hører til BASE SAS bruges til deskriptiv statistik i forbindelse med variable af typen numeric. Den minder meget om PROC MEANS, men giver på flere punkter lidt mere detaljeret information. Det er også muligt at få PROC UNIVARIATE til udføre en test til belysning af, om en given variabel er normalfordelt. I eksemplet nedenfor anvendes proceduren til undersøgelse af den beregnede variable HOVERV i datasættet MYSAS.DATA85: DATA TEMP; SET MYSAS.DATA85; PROC SORT; BY KOEN; PROC UNIVARIATE NORMAL; VAR HOVERV; BY KOEN; Der foretages en separat analyse for hvert af de to køn (sætningen BY KOEN). Option NORMAL til procedurekaldet fører til beregning af en test-størrelse til vurdering af, hvorvidt den pågældende variable (HOVERV) er normalfordelt. En af disse test-størrelser (Shapiro-Wilk test for normalitet), W norm, er et tal i intervallet 0 < W norm 1. Små værdier af W norm fører til forkastelse af hypotesen om normalfordeling. Nedenstående vises den ene halvdel af udskriften fra PROC UNIVARIATE, svarende til KOEN = K'. Her er kun vist Shapiro-Wilk test. I nyere SAS-udgaver kommer der også resultatet af andre test for normalfordeling. ------------------------------- KOEN=K ------------------------------ UNIVARIATE PROCEDURE Variable=HOVERV Moments N 15 Sum Wgts 15 Mean 2.728005 Sum 40.92008 Std Dev 0.325451 Variance 0.105919 Skewness -0.40194 Kurtosis 0.528845 USS 113.113 CSS 1.482859 CV 11.93001 Std Mean 0.084031 T:Mean=0 32.46421 Prob> T 0.0001 Sgn Rank 60 Prob> S 0.0001 Num ^= 0 15 W:Normal 0.962268 Prob<W 0.6975 4

Quantiles(Def=5) 100% Max 3.253012 99% 3.253012 75% Q3 3.063241 95% 3.253012 50% Med 2.75641 90% 3.129771 25% Q1 2.5 10% 2.409639 0% Min 1.993088 5% 1.993088 1% 1.993088 Range 1.259924 Q3-Q1 0.563241 Mode 2.5 Extremes Lowest Obs Highest Obs 1.993088 ( 5) 2.828619 ( 7) 2.409639 ( 9) 3.063241 ( 8) 2.5 ( 15) 3.079848 ( 3) 2.5 ( 4) 3.129771 ( 2) 2.541353 ( 14) 3.253012 ( 13) Det konkluderes, at variablen HOVERV må antages at være normalfordelt. Pladsen tillader ikke en detaljeret beskrivelse af PROC UNIVARIATE's mange muligheder. Oplysning om den statistiske baggrund må søges i lærebøger i statistik. De eksempler på statistiske procedurer, der vises i denne vejledning skal alene give et indtryk af de opgaver, der kan løses ved hjælp af SAS, men det er ikke hensigten at komme nærmere ind på statistisk teori. Omvendt kan du godt gennemføre øvelsesprogrammet uden at forstå de statistiske aspekter i detaljer. PROC CORR - korrelationsanalyse Korrelationsanalyse anvendes til at afgøre, hvor god sammenhængen er mellem to stokastiske variable. Hvis store værdier af den ene variable fortrinsvis optræder sammen med store værdier af den anden, taler man om en positiv korrelation. Hvis omvendt store værdier af den ene variable optræder sammen med små værdier af den anden, tales om negativ korrelation. Korrelationskoefficenten r er et tal i intervallet -1 r 1. Værdien r = 1 svarer til en perfekt positiv korrelation, r = -1 til en perfekt negativ korrelation. Værdier af r i nærheden af 0 betyder, at der er ingen eller ringe korrelation mellem de to variable. Korrelationsanalyse kan udføres ved hjælp af BASE SAS-proceduren PROC CORR. I nedenstående eksempel bruges PROC CORR til at undersøge korrelationen mellem højde og vægt i datasættet MYSAS.DATA85: PROC CORR DATA=MYSAS.DATA85; VAR HOEJDE VAEGT; PROC CORR udskriver den beregnede r (Pearson correlation coefficient), samt sandsynligheden for at finde en r af denne størrelse, såfremt der ingen korrelation findes mellem de variable. OUTPUT-sætningen Det er muligt ved hjælp af OUTPUT-sætningen at få SAS til at sende procedure-uddata til et datasæt i stedet for til en fil: 5

PROC MEANS; VAR X; OUTPUT OUT=DATASET MEAN=MEANX; I OUTPUT-sætningen skal der således stå navnet på det datasæt, man vil lave, og de variable, man vil have lagt ned i datasættet. Navnet på datasættet angives ved OUT = datasæt'. Hvis man fx vil have middelværdien - som i dette tilfælde - skrives 'MEAN=' efterfulgt af et variabelnavn, man selv finder på. I dette tilfælde kommer middelværdien i det nye datasæt til at hedde MEANX, men valget af variabelnavn er dit; du kunne lige så godt have kaldt den HUGO', hvis du synes, det er pænere: OUTPUT OUT=DATASET MEAN=HUGO; Datasættet i eksemplet kommer kun til at indholde en observation, nemlig middelværdien for alle X. Man kan dele analysen op i grupper vha. BY-sætningen, fx BY KOEN'. I så fald kommer det nye datasæt til at indeholde en observation for hvert køn. Et andet eksempel på anvendelse af OUTPUT-sætningen, denne gang med PROC UNIVARIATE: PROC UNIVARIATE DATA=MYSAS.DATA85; VAR HOVERV; OUTPUT OUT=B N=NX MEAN=MEANX STD=STDX MEDIAN=MEDX; OUTPUT-sætningen gør det muligt at bruge uddata fra en SAS-procedure som inddata for en efterfølgende analyse med et andet SAS-program. GRAFIK Data kan afbildes grafisk på mange forskellige måder ved hjælp af SAS. BASE SAS-modulet indeholder procedurer (fx CHART, PLOT), der muliggør grafiske afbildninger i en almindelig printfil (linieskrivergrafik). SAS GRAPH-modulet indeholder mere avancerede grafiske procedurer (fx GCHART, GPLOT), der kan fremstille grafiske afbildninger på mange forskellige uddataenheder (grafisk skærm, plotter, laserprinter mm.). Nedenfor vises nogle simple eksempler, der tager udgangspunkt i datasættet MYSAS.DATA85. Histogrammer Antal personer i MYSAS.DATA85 kan angives i histogram-form ( frequency chart') ved hjælp af PROC CHART. Der benyttes lodrette søjler (VBAR = vertical bars'), og der skelnes mellem de to køn (KOEN): OPTIONS PS=23; PROC CHART DATA=MYSAS.DATA85; VBAR KOEN; Histogramsøjler, akser mm. tegnes' af PROC CHART på skærm eller printer ved hjælp af de almindelige ASCII-tegn. Der er altså ikke tale om egentlig grafik. Options-sætningen medfører, at histogrammet kan være på et almindeligt skærmbillede (23 linier). 6

Ved at bruge PROC GCHART i stedet for PROC CHART fås et histogram, der udnytter den pågældende uddataenheds grafiske egenskaber. I gamle dage var det alt for tidskrævende at bruge PROC GCHART under bearbejdelsen af SAS-programmet. I dag foretrækker de fleste bare at bruge procedurerne GCHART og GPLOT i stedet for CHART og PLOT. I de følgende eksempler produceres således sand grafik på PC'ens skærm. PROC GCHART DATA=MYSAS.DATA85; VBAR KOEN; Afbildningen kan modificeres på utallige måder. I forrige eksempel blev histogrammet omgivet af en rektangulær ramme (FRAME). I nedenstående eksempel fjerner vi denne ramme og forsyner figuren med en overskrift (TITLE1): TITLE1 'Helbredsdata 1985'; PROC GCHART DATA=MYSAS.DATA85; VBAR KOEN / NOFRAME; Hvis man i stedet foretrækker et histogram med vandrette søjler (HBAR = horisontal bars'), skrives: PROC GCHART DATA=MYSAS.DATA85; HBAR KOEN; Ved at bruge HBAR får man lidt flere oplysninger på grafen ude til højre for de vandrette søjler end med VBAR. Såfremt man foretrækker en afbildning af den procentiske fordeling mellem mænd og kvinder, snarere end det absolutte antal personer af hvert køn, bruges et percentage bar chart': PROC GCHART DATA=MYSAS.DATA85; VBAR KOEN / TYPE=PERCENT; Hvis man ønsker en grafisk præsentation af den gennemsnitlige alder i undersøgelsesmaterialet for medlemmerne af de to køn, igen i histogram-form, skrives: PROC GCHART DATA=MYSAS.DATA85; VBAR KOEN / TYPE=MEAN SUMVAR=ALDER; Et grafisk overblik over aldersfordelingen i undersøgelses-materialet kan også fås med PROC GCHART, her ved anvendelse af vandrette søjler: DATA TEMP; SET MYSAS.DATA85; PROC SORT; BY KOEN; PROC GCHART; HBAR ALDER; BY KOEN; 7

XY-plots Et XY-plot kan anvendes til grafisk at undersøge en evt. korrelation mellem to variable. XY-plot fremstilles ved hjælp af PROC PLOT eller PROC GPLOT. Nedenstående eksempel afbilder personernes højde som funktion af deres vægt: PROC GPLOT; PLOT HOEJDE*VAEGT; PROC GPLOT vil anvende forskellige symboler for de to køn, såfremt man skriver: PROC GPLOT; PLOT HOEJDE*VAEGT=KOEN; Farve og punktudseende kan bestemmes således: PROC GPLOT; SYMBOL1 V=STAR C=RED; PLOT HOEJDE*VAEGT=1; Hvis man vil forbinde punkterne med en ret linje mellem hvert punkt (og ikke vil have at selve punktet skal vises) skrives: SYMBOL1 V=NONE I=JOIN C=RED; V står for Value, C for Color og I for Interpollation, altså hvordan man vil forbinde punkterne. Denne option egner sig dog ikke til ovenstående program, men f.eks. hvis man havde fulgt en persons vægt gennem en tidsperiode, kunne man havde brugt den. Senere i kurset ser du også, hvordan du kan forbinde punkterne med en blød linje. På tilsvarende måde kan man i PROC CHART bruge PATTERN (se hjælpesystemet). 3-D grafik Vi slutter med et lidt mere komplekst eksempel. Nedenstående program opretter et datasæt bestående af sammenhørende værdier af X, Y og Z, hvorefter materialet afbildes tredimensionalt ved hjælp af PROC G3D. DATA HAT; DO X=-5 TO 5 BY.25; DO Y=-5 TO 5 BY.25; Z=SIN(SQRT(X*X + Y*Y)); OUTPUT; END; END; TITLE1 f=swiss 'The Cowboy Hat'; PROC G3D DATA=HAT; PLOT Y*X=Z; 8

En cowboy-hat, fremstillet ved hjælp af SAS. Øvelse 2b 1. Grafik: Gennemprøv de forskellige former for grafisk afbildning, der er omtalt på side 6-8 idet MYSAS.DAT85TOT på K:\EDB-KURS\WEEK2 anvendes som materiale. Datasættet MYSAS.DAT85TOT svarer til dit datasæt MYSAS.DATA85(DATA85.SAS7BDAT), som du lavede sidst der er bare kommet nogle flere observationer og en enkelt variabel mere. Du vil senere i kurset lære, hvordan man tilføjer nye observationer og variable til et eksisterende datasæt. 2. PROC FREQ: Lav et program, der i tabelform giver en oversigt over antal personer af hh. hankøn og hunkøn for hver alder i MYSAS.DAT85TOT. I datasættet ALL.SSD findes to diskrete værdier for hver af de to variable ACCLSAL og TESTSAL (tilpasnings-salinitet resp. forsøgs-salinitet). Lav en tabel, der viser antal observationer for alle de mulige kombinationer af ACCLSAL og TESTSAL. 3. PROC UNIVARIATE: Lav et program, der analyserer de to variabler HOVERV og SYSDIA i MYSAS.DAT85TOT. Analysen skal omfatte en vurdering af, om de to variable er normalfordelte. I datasættet ALL.SAS7BDAT findes den numeriske variabel EALA. Undersøg, om denne variabel kan antages at være normalfordelt inden for hver af de fire grupper, der defineres af de mulige værdier for ACCLSAL og TESTSAL. 4. PROC CORR: Undersøg for både mænd og kvinder korrelationen mellem variablerne HOEJDE og VAEGT i det permanente datasæt MYSAS.DAT85TOT. Er der holdepunkt for en positiv korrelation mellem de to variable? 9

Vis også korrelationen mellem de to variable i grafisk form. 5. PUT og FILE: Udskriv initialer og personnummer (i formatet ddmmåå-nnnn) for samtlige personer i MYSAS.DAT85TOT. Udskriv initialer, personnummer og vægt for alle personer i undersøgelsesmaterialet med en vægt over 80 kg i 1985. 6. OUTPUT-sætningen, anvendt på MYSAS.DAT85TOT: Find ved hjælp af PROC UNIVARIATE den gennemsnitlige 1985-vægt (middelværdi og median) for hh. mænd og kvinder, og send resultatet til et permanent datasæt på H:-drevet. Prøv derefter PROC CONTENTS og PROC PRINT på det nyoprettede datasæt. Hvilke variable indeholder det, og hvad er deres værdi? 7. Programmet på side 8 frembringer et 3-dimensionalt plot. Prøv at køre programmet. Prøv at lave lidt om på programmet. Ved fx at skrive COS i stedet for SIN ændres figuren. Du kan få figuren til at dreje rundt ved f.eks. at tilføje ROTATE=0 T0 80 by 5 som option efter en / under PLOT, altså PLOT X*Y=Z / ROTATE=0 T0 90 by 5. Ligeledes kan du få figuren til at dreje op og ned ved samme sted at skrive TILT=0 TO 90 by 5. De to options kan kombineres. 10