Anders Milhøj. Hurtigt i gang med statistiske og økonometriske procedurer i SAS

Relaterede dokumenter
Anders Milhøj. Hurtigt i gang med statistiske og økonometriske procedurer i SAS

Hurtigt i gang med SAS University Edition Anders Milhøj

Indledning. På de følgende sider vises, primært i tegneserieform, lidt om mulighederne i PC-AXIS for Windows.

ASB signatur. Figur a: eksempel. og hent filen asb_signatur.zip.

Indhold. Jennie Mathiasen. Google Drev

Elektronisk spørgeskema Vejledning

Arbejd videre med statistik

Introduktion til CD ere og Arkivdeling Gammel Dok - September-oktober Jonas Christiansen Voss

Vejledning, teknik, tips and tricks

MICROSOFT ONLINE KURSER

Google Apps. Lær at oprette, organisere, dele og slette dokumenter. Udarbejdet af PLC, version 2013!!!!!!! Side 1 af 9

Hvordan starter man ActivBoard op og tilslutter PC mv... 3 Hvordan tilslutter jeg min bærbare PC til ActivBoard?... 4

Advanced Word Template Brugermanual

Login-tiden, Første gang tager det måske 1 ½ - 2 min. Andet gang ½ - 1 ½ min...9

Seniorklubben TDC Jylland Cloud Computing Kursus 2011_5: Rev

elib Aleph, ver.18 Introduktion til GUI FUJITSU SERVICES A/S

SÅDAN BRUGER DU REGNEARK INTRODUKTION

18/ Version 2.0 Side 1 af 36

Fable Kom godt i gang

Table of Contents. konverter fil til PDF... 3 Konverter Wordfil til PDF... 4 Konvertere Pages fil til PDF (mac)... 8.

Adobe Digital Editions

Kort intro til SAS. Efterår Janne Petersen Judith L Jacobsen Lene Theil Skovgaard

Søgning på patienter med kræft

Hvorfor SAS Kort intro til SAS

Kom godt igang med Inventar registrering

ASB signatur. ASB signatur. Vejledning til opsætning af signatur IKT - Februar 2008

Kom i gang med DANBRO

Windows 7. Windows 7. Øvelse 1: Genveje. Øvelse 2: Installer en printer. Øvelse 3: Diverse små programmer

Vejledning til datatræk i Novax på ICPC-koder

Langeskov IT Online Backup Guide

Fable Kom godt i gang

I denne manual kan du finde en hurtig introduktion til hvordan du:

Modul 2 - Computerens drev og tekstbehandling. Computerens netværksdrev og mappen dokumenter

Kom godt i gang med DLBR Webdyr

Velkommen til IT for let øvede

Velkommen til IT for let øvede

Kom godt igang med OpenMeetings

xgalleri Mulige filtyper Installation web-version

Vejledning i offentliggørelse af referater på Ekstranettet

Manual Version 2. til oprettelse af hjemmesider for landsbyer i Rebild kommune

Kom godt igang med Inventar registrering

Brugervejledning til KasseRapporten LIGHT

Stifinder er et program til navigere rundt med i dine mapper (biblioteker) på din computers Harddisk.

Gem dine dokumenter i BON s Content Management System (CMS)

Velkommen til denne korte vejledning i hvordan du kan oprette dine egne sider på foreningens hjemmeside.

Filupload LEJERBO.DK FILARKIV UNDER MØDER OSV. Upload filer til et eksisterende filupload-komponent

ViTre - Opdatering version fra ScanDis A/S. Nyheder og instruktion TAL

Dit personlige SkoleKom

Vejledning til datatræk i Novax på ICPC-koder (eksempel stress)

Sikkerhedskopiering. Sikkerhedskopiering til harddisk.

Daglig brug af JitBesked 2.0

Manual til at arbejde med POI på Garmin GPS.

5.0 Velkommen til manualen for kanalen HTML-grab Introduktion til kanalen HTML-grab kanalside Hvad er et spot?

Tegneserien - Kom godt i gang. Mikro Værkstedet A/S

Generelt Windows tidligere versioner... 1 Windows Apple Mac Log på... 2 Rediger dokumentet Tilføj et tillægsdokument...

DE FRIE SKOLERS EDB-BRUGS a.m.b.a. Side 1. Nyinstallation flerbruger (ny bruger på en flerbruger/netværksinstallation)

VUC IT Niveau G. Drev Mapper Filer

VDI Manual v. 5 Indhold

Indledning. MIO er optimeret til Internet Explorer. Læs endvidere under Ofte stillede spørgsmål.

DE FRIE SKOLERS EDB-BRUGS a.m.b.a. Side 1. Ny server flerbruger (bestående bruger på en flerbruger/netværksinstallation)

5. OPSÆTNING DOKUMENTSKABELONER 5.1 TRIN

09/ Version 1.4 Side 1 af 37

MountainSite Guide: Kom godt i gang

Vejledning til udtræk fra UNIK (Version: UNIK Bolig 4)

Adobe Acrobat Connect brugergrænsefladen

BESTILLING AF NEMID. For at bestille ny NemID vælger du Vælg Bestil NemID medarbejdersignatur.

Den Talende Bog. version 4.0. Mikro Værkstedet A/S

Installationen af Designskabelonerne gøres ved at installere henholdsvis et lille program samt en række skrifttyper som bruges af skabelonerne.

Vejledning i brug af dli dokumenthåndteringssystemet til virksomheder

PID2000 Archive Service

Velkommen til 1. omgang af IT for let øvede

Mwsnap. Snup et skærmbillede. Version: August 2012

Hvordan opretter jeg MultiUser med en access-database?

November SSZ brugervejledning

Brug af Office365 med Onedrive, nyeste Officepakke mv

FC-intranet: FC-intranet er et fælles mail- og konferencesystem, hvor lærere og elever kan kommunikere.

Det anbefales at læse vejledningen igennem inden der foretages nogen installation!

Redigering af Nyheder

EVALUERING I SURVEYXACT TRIN FOR TRIN

Skrifttype og størrelse

Vejledning. Indhold. 1. Kryptering. 2. Vigtig information

EVALUERING I SURVEYXACT TRIN FOR TRIN

WEB-DIRECT Brugerguide Eksportfunktion i WEB-DIRECT

IT håndbog for Bygaden (elev) Indhold

portal.microsoftonline.com

Få det bedste fra Windows 10

Vejledning til opgraderet version af Danmarks Arealinformation

Opsætningsvejledning efter opdatering (ghostning) af hybriderne

VEJLEDNING I DOWNLOAD I ANALYSEPORTAL 9.2

Norddjurs hjemmefra. Vejledning. Få adgang til Citrix hjemmefra på en Norddjurs Kommune PC IT-AFDELINGEN

Kom godt i gang med Fable-robotten

idata Side 1/6 Indholdsfortegnelse

Coloris. Programmet fungere på den måde at man vælger det billede man ønsker at arbejde med ved at klikke på det under menupunktet Projekter.

Word-1: Tag fat på Microsoft Word (XP)

Beskyt dig mod nedbrud i Windows 10

Rapport generator til Microsoft C5

Brugervejledning til KasseRapporten

KMD Brugeradministration til Navision og LDV

Hvordan bruger jeg WebMail?

Transkript:

Anders Milhøj Hurtigt i gang med statistiske og økonometriske procedurer i SAS Juni 2011 Denne note omhandler hvordan man kan komme i gang med statistiske øg økonometriske datasæt ved hjælp af de mange procedurer i SAS uden at kende mere end højst nødvendigt til SAS's database- og programmeringsfaciliteter. Udgangspunktet er at analytikeren får et datasæt og eventuelt et formatbibliotek stukket i hånden - og hvad så? I første omgang er noten tænkt som en kort introduktion i SAS for deltagere i Sommerskolen i Videregående Statistik med intet eller kun begrænset forhåndskendskab Til sidst i noten findes en del vigtige oplysninger om de problemer, der kan opstå i grænsefladerne mellem forskellige SAS versioner og 32/64 bits maskiner. Med noten følger to små datasæt og et formatkatalog i to versioner. Start af SAS programmet Ved en ny SAS installation skal man finde SAS-programmet i listen over alle programmer ved at klikke på Windows-ikonet i nederste venstre hjørne på skærmen. I listen over programmer skal man så selvfølgelig finde SAS og blandt de mange muligheder, der melder sig, når der klikkes på programmet SAS, skal man vælge SAS 9.2(English). Det kan selvfølgelig være SAS.9.1 eller endnu ældre versioner, men fremgangsmåden er den samme. At sproget "English" er anført skyldes, at SAS kan installeres på Russisk, Japansk etc. men Dansk er ikke på listen, så de fleste vil køre på en engelsk installation. 1

Når SAS-sessionen er startet vises SAS-vinduet på følgende måde Her vises tre vinduer. Nederst er Editor vinduet, hvor SAS koden skal skrives eller hentes ind. Når koden er skrevet kan den afvikles ved klik på den løbende mand eller ved tryk på genvejstasten F8. Øverst i det samlede SAS vindue er Log vinduet, hvor diverse meddelelser om afvikling af programmet vises, fx er det her der skal ledes efter fejlmeddelelser, når noget går galt. På et faneblad for neden ses outputvinduet. Det er dog tomt, når der endnu ikke er genereret output. Grafisk output dannes i separate vinduer, når det bliver aktuelt. Til venstre er det høje slanke "Contents of SAS Enviroment", hvor ikonet "Libraries" på det det synlige faneblad Explorer behandles i afsnittet om biblioteksstrukturen, da det viser, hvor de forskellige datasæt ligger. Fanebladet Results vil, efterhånden som der genereres output i SAS sessionen, indeholde en indholdsfortegnelse over de frembragte outputelementer. Gemte SAS-programmer hentes ind i editoren ved hjælp af den sædvanlige mulighed for at åbne filer, dokumenter etc i Windows, dvs ved at klikke på det lille ikon til åbne filer Derved åbnes en sædvanlig Windows dialogboks hvor mappen og det ønskede SAS-prgram kan findes. Bemærk at SAS-programmer har filtypen sas som standard extension. 2

Biblioteksstrukturen i SAS I SAS er datasæt (og visse andre objekter) organiseret i biblioteker (library på engelsk). På Edb-maskinen svarer disse biblioteker til mapper i et Windows filsystem, til arealer på virksomheders fællesdrev eller til eksterne harddiske som fx USB sticks. I større sammenhænge kan det være magnetbånd eller andet. Ideen er, at SAS er ligeglad med den fysiske placering, blot SAS ved, at et biblioteksnavn svarer til en konkret fysisk placering. Det samme SAS program kan afvikles på studentens egen PC, på kærestens PC, på universitets PC-ere eller på PC'erne på studiejobbet ud fra data på en USB stick, blot ved at ændre en enkelt linie i SAS koden, om hvor den fysiske placering af data er. SAS's datasæt er i et filformat med filtypen SAS7BDAT. I det følgende betragtes et datasæt med navnet "karakterer", dvs en fil med navnet karakterer.sas7bdat, og det beskrives, hvorledes det kan lægges i et bibliotek med navnet "hurtigt", som anvendes igennem denne note. En mulighed er at tilføje en linie til SAS programmet med en libname ordre - altså angive et library name. Hvis datafilen ligger på en USB stick, der er tilordnet PC-en med bogstavet G (Det hitter man ud af ved at se i Windows "Denne Computer" ) skal man skrive libname hurtigt 'G:\'; husk semikolon til sidst. Imellem apostroferne kan mere specifikke stinavne anføres. Hvis data er lagret på harddisken, bliver stinavnet langt med angivelse af bruger osv, fx libname hurtigt 'C:\Users\USIAM\Documents\AndersG2\Hurtigt i gang'; Stinavnet finder man ved hjælp af Windows stifinder, hvorefter det er enkelt at copy-paste den lange sti ind i SAS programmet. I Log-vinduet anføres, om det er gået efter hensigten 3

En anden måde er at tilordne biblioteksnavnet permanent, hvilket jo især er en god idé, hvis man arbejder meget ved samme computer. Det gør man ved at klikke på fanebladet Explorer og dernæst på ikonet Libraries (et skuffedarium) i vinduet til venstre. Ved en nyinstallation er der kun de fire viste standardbiblioteker. Det nederste med navnet "Work" er et midlertidigt bibliotek, hvis indhold slettes, når SAS lukker ned. Dette bibliotek er altså velegnet til alle midlertidige datasæt, fx mellemresultater og testdatasæt. I denne menu kan der klikkes på File i øverste venstre hjørne. 4

Den næste formular skal så udfyldes med det ønskede navn på det nye bibliotek og på den Windows mappe, data ligger i. Et tjekmærke i "Enable at startup" sikrer, at biblioteket tilordnes permanent, så proceduren ikke skal gentages hver gang SAS startes, som det skal ske, hvis biblioteksnavnet tilordnes ved en libname sætning. 5

Når der klikkes på OK burde det være i orden, og det nye bibliotek ses i oversigten over libraries ude til venstre. Hvis der klikkes på biblioteksnavnet, dukker en oversigt over datasæt mv i biblioteket op. Eksempel Når datasættene er downloaded, og biblioteksnavnet "hurtigt" er tilordnet, kan følgende program køres. proc univariate data=hurtigt.sports_minutter; var sports_minutter; histogram sports_minutter/lognormal midpoints=30 to 1230 by 60; Resultatet er en række statistiske mål for det antal minutter de 1053 personer i en fritidsundersøgelse bruger pr uge på sport - fx at gennemsnittet er hele 255 minutter! Det høje gennemsnit skyldes, at alle, der ikke dyrker sport, er udeladt af datasættet. 6

I programmet tegnes også et histogram over fordelingen. På histogrammet er en tilpasset logaritmisk normalfordelingskurve også indtegnet, hvilket giver et nogenlunde fit. En hurtig oversigt over et datasæt kan dannes ved at hjælp af Proc Contents og Proc Print. Proc contents data=hurtigt.sports_minutter; Proc Print data=hurtigt.sports_minutter(obs=10); Proc Contents giver en oversigt over datasættets mere tekniske specifikationer herunder en liste over de variable, der findes i datasættet. Proc Print printer alle observationer i datasættet, men da der kan være mange observationer i et datasæt, man ikke kender, er der i programmet specificeret, at kun de ti første skal printes ud. 7

Formatkataloger I større datasæt er oplysningerne ofte kodet, så et tal optræder som en forkortelse for en længere tekstdefinition. Fx kan tallet 1 betyde Hovedstadsregionen, tallet 2 Region Sjælland etc. Et tilsvarende eksempel er, at kommunedata kan være lagret med kommunenummeret, der jo entydigt svarer til kommunens normale navn. I disse tilfælde kan man oversætte tallene til teksterne ved hjælp af formater. Det er et større arbejde at udarbejde formaterne, men i denne sammenhæng antages blot, at de er lavet. Sammen med datasættet, der indeholder alle tallene, er der så opbygget et formatkatalog, der er en fil med filtypen sas7bcat. Ofte hedder de blot formats.sas7bcat. Et formatkatalog kan med fordel placeres i samme Windows mappe som det datasæt, det knytter sig til, fordi mappen i forvejen vil være tilordnet som et bibliotek, fx med en libname statement. I SAS programmet skal man så fortælle, at der skal ledes efter programmer i netop det bibliotek. Det gøres for biblioteksnavnet "hurtigt"og formatkatologet "formatkatalognavn" ved options fmtsearch=(hurtigt.formatkatalognavn); Når der er knyttet formater til de variable i datasættet, giver det en fejlmeddelelse, når der regnes på tallene uden at formatkataloget er tilordnet, og programmet går i fejl. SAS ordren options nofmterr; bevirker imidlertid at denne fejl slås fra, så der kan ses på datasættets indhold og regnes på tallene alligevel,. Denne mulighed er nyttig, hvis man ikke helt kan overskue, hvad formatet skulle være, for med fejlmeddelelsen slået fra, kan der ses på variabelnavne etc og regnes på de bagvedliggende tal dog selvfølgelig uden at have formaterne til rådighed Et yderligere problem er, at formater er blevet afhængige af om der anvendes 32 eller 64 bits PC-er. Der er muligheder for at konvertere mellem de to format-formater (undskyld jeg stammer), men sådanne løsninger virker unaturlige for brugere, der blot skal hurtigt i gang. I praksis kan formater ofte dannes ved at afvikle format definitionen ved begyndelsen af den SAS session, hvor formatet skal bruges. Det gøres ved at danne formaterne som et formatkatalog i det midlertidige bibliotek work ved at afvikle et SAS-program, der for ukyndige vil virke som det rene volapyk. 8

Eksempel Datasættet biografvisit er dannet med et format, så programmet proc freq data=hurtigt.bigrafvisit; tables v6*v338/chisq; vil, hvis det afvikles uden at tage hensyn til formater, gå i fejl, hvilket fremgår af log-vinduet Slås formatfejl fra med options nofmterr i programmet options nofmterr; proc freq data=hurtigt.bigrafvisit; tables v6*v338/chisq; får man outputtet baseret på tal, men uden formaterne til at forbedre layoutet 9

Nu specificeres, hvor formaterne skal findes options fmtsearch=(hurtigt.formats_1_64); /*På 32 bits PC-er skal der bruges formats_1_32, jf sidste afsnit*/ proc freq data=hurtigt.bigrafvisit; tables v6*v338/chisq; Derved bliver tallene 1 og 2 oversat til teksten Mand og Kvinde på udskriften, og grupperingen for antal biografbesøg fremstår klart. I datasættet er der anvendt labels, der bevirker at variabelnavnene, fx v6, ikke skrives, men der i stedet skrives labelen KØN. disse labels er en del af det konstruerede datasæt og kan anvendes uden videre af brugeren. 10

Versionsproblemer Desværre er der for tiden forskellige typer computere, forskellige versioner af Windows, forskellige versioner as SAS i brug samtidigt. Der kan derfor opstå uforudsete konverteringsproblemer. I dette afsnit vil de vigtigste blive beskrevet. SAS-versioner - 32/64 bits maskiner I praksis anvendes version 9.1.3, 9.2 og 9.22 sideløbende. Når det gælder SAS's egne filformater, er der ingen forskel, så længe SAS afvikles på 32 bits maskiner. Imidlertid er visse systemarkitekturer anderledes på 64 bits maskiner, hvilket gør, at mange ting i omegnen af en SAS kørsel bliver anderledes. SAS datasæt Når et SAS datasæt, der er dannet på en 32 bits maskine, anvendes på en 64 bits maskine, kommer der en advarsel i logvinduet om, at datasættet er "native to another host", hvilket kan forringe performance. Det er uden tvivl rigtigt, men har absolut ingen betydning i praksis. Advarslen er blot et irritationsmoment, som kan få skylden, hvis andet går galt i SAS sessionen. Problemet (hvis det altså er et problem) kan løses ved en konvertering, men det virker meningsløst til studiebrug, så det vil ikke blive gennemgået. Der er (heldigvis) ikke problemer, når et datasæt dannet på en 64 bits maskine åbnes på en 32 bits maskine. SAS formater SAS formatkataloger, som er dannet på en 32 bits maskine, kan ikke anvendes på en 64 bits maskine. Problemet skal løses ved en konvertering - en såkaldt katalogeksport. Det er ikke noget, som studerende burde bruge tid på. Formatkataloger vil derfor blive udleveret med klar angivelse af, om de er til 32 bits eller til 64 bits maskiner. En anden mulighed er, at formaterne dannes med et SAS program i begyndelsen af den SAS session, hvor formatet skal anvendes. Dette program virker for ikke format-kyndige som rent volapyk, men metoden virker ens for alle maskintyper. Output i word format Output fra en SAS procedure kan let overføres til tekstbehandlingsprogrammer ved hjælp af ODS (Output Delivery System). Output destinationen RTF danner en fil, der er helt kompatibel med Microsoft word. Det forgår ved at omslutte, de procedurer, hvis output man ønsker i word format, med ods rtf; og ods rtf close; som i følgende: ods rtf; proc univariate data=hurtigt.sports_minutter; var sports_minutter; histogram sports_minutter/lognormal midpoints=30 to 1230 by 60; ods rtf close; I SAS 9.2 åbner det dannede dokument automatisk i Word, mens der i 9.1.3 spørges, om man ønsker at se det, hvilket skal bekræftes. Fra dette dokument kan tabeller og grafer let copy-pastes over i opgaver/specialer etc. 11

For 64 bits maskiner virker det ikke umiddelbart og giver en fejlmeddelelse midt på skærmen om serverfejl og meget andet. Dette klares ved optionen option helpbrowser=sas; før ods rtf kaldes. Grafikoutput fra statistikprocedurer. Mange statistikprocedurer danner en række grafikker, der kan anvendes til modelkontrol etc. Disse diagrammer dannes af et "Statistical Graphics" system. I SAS 9.2 skal man blot slå grafikken til og fra, som i følgende eksempel, hvor antal biografbesøg forklares med personens fødselsår. Her er det med formaterne er ligegyldigt, så de slås fra med options nofmterr. options nofmterr; ods graphics on; proc reg data=hurtigt.bigrafvisit plots=all; model v338=v8; ods graphics off; I Resultsvinduet ude til venstre kan outputtet ses som i følgende billede, hvor alle underpunkter er pakket ud. Grafikken er dannet som en række PNG billeder, som kan ses, når man klikker på dem i resultsvinduet. Herfra kan de copy_pastes ind i rapporter, der skrives i fx word. 12

Billedfilerne ligger helt ude i brugerens rod på PC-en, altså fx i " C:\Users\Anders ", så de kan være svære at finde. Men når de først er fundet, kan de let indsættes som figurer i en rapport, der skrives i fx word. I SAS version 9.1.3 dannes grafikoutputtet ikke som PNG billeder men det dannes som en del af fx et output i RTF format til indlæsning i word. Denne output destination skal derfor slås til, så der skal skrives options nofmterr; ods rtf; ods graphics on; proc reg data=hurtigt.bigrafvisit plots=all; model v338=v8; ods graphics off; ods rtf close; En anden mulighed er skrive i et HTML format, hvor grafikken dannes i JPG format. options nofmterr; ods html; ods graphics on; proc reg data=hurtigt.bigrafvisit plots=all; model v338=v8; ods graphics off; ods html close; Fra disse outputfiler, der åbnes automatisk, kan man så copy-paste figurerne ind i rapporter, der skrives i fx word. Denne metode kan også med fordel anvendes i SAS version 9.2. Så vidt vides vil outputtet fra SAS i version 9.3, der forventes udgivet ved årsskiftet 2011/2012, som default blive dannet i HTML med grafik i PNG format, så de præcise filtformater ændrer sig altså hastigt. Der er enkelte ændringer i den grafik, der dannes mellem version 9.1.3 og 9.2 og 9.22, men ændringerne er så små, at de ikke betyder noget i praksis. Danske bogstaver på SAS-grafik For at opnå, at danske bogstaver - æøåæøå - samt en del andre specialtegn bliver skrevet korrekt på grafisk output, skal der ændres i en tegntabel. Det gøres ved optionen goption devmap=winansi keymap=winansi; Ved visse installationer udføres denne option installeret som standard i begyndelsen af hver SAS-session. Det ses tydeligt på figurerne, om optionen er nødvendig! Import/Eksport af data fra Excel På en 64 bits maskine virker standardmetoderne til import/eksport fra Excel ikke umiddelbart. Der er også problemer med i det hele taget at importere/eksportere fra Office 2007 pakken og selvfølgelig også fra Office 2010 pakken. Problemerne kan løses ved installation af add-ons til både Officepakken og SAS, men problemerne forventes løst i SAS 9.3 versionen omring årsskiftet 2011/2012. 13