Projekt DATA step view

Relaterede dokumenter
Sortering fra A-Z. Henrik Dorf Chefkonsulent SAS Institute

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved.

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU

Project Step 7. Behavioral modeling of a dual ported register set. 1/8/ L11 Project Step 5 Copyright Joanne DeGroat, ECE, OSU 1

Statistik for MPH: 7

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

Hvor er mine runde hjørner?

Privat-, statslig- eller regional institution m.v. Andet Added Bekaempelsesudfoerende: string No Label: Bekæmpelsesudførende

Basic statistics for experimental medical researchers

Aktivering af Survey funktionalitet

CHAPTER 8: USING OBJECTS

Portal Registration. Check Junk Mail for activation . 1 Click the hyperlink to take you back to the portal to confirm your registration

Design til digitale kommunikationsplatforme-f2013

Vina Nguyen HSSP July 13, 2008

StarWars-videointro. Start din video på den nørdede måde! Version: August 2012

Heuristics for Improving

Mænd, Mus og Metadata

Bilag. Resume. Side 1 af 12

IPTV Box (MAG250/254) Bruger Manual

Opsætning af Backup. Hvis programmet registreres korrekt vises nedenstående skærmbillede. Genstart herefter programmet.

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Backup Applikation. Microsoft Dynamics C5 Version Sikkerhedskopiering

Hudevad P5 Easy Clean

IBM Network Station Manager. esuite 1.5 / NSM Integration. IBM Network Computer Division. tdc - 02/08/99 lotusnsm.prz Page 1

Sider og segmenter. dopsys 1

ATEX direktivet. Vedligeholdelse af ATEX certifikater mv. Steen Christensen

Website review groweasy.dk

Help / Hjælp

Tips og tricks til Proc Means. Per Andersen

how to save excel as pdf

Implementing SNOMED CT in a Danish region. Making sharable and comparable nursing documentation

Deep Learning og Computer Vision. C h r i s H o l m b e r g B a h n s e n

Appelsiner, bananer og citroner

Projektdatabaser på Forskermaskinen

\ \ Computerens Anatomi / /

Informationsteknologi Åben distribueret databehandling Referencemodel: Arkitektonisk semantik Tillæg 1: Computerbaserede formler

User Manual for LTC IGNOU

Unitel EDI MT940 June Based on: SWIFT Standards - Category 9 MT940 Customer Statement Message (January 2004)

Hudevad P200. Technical datasheet

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

Informationteknologi Generisk kodning af levende billeder og tilknyttet lydinformation Del 6: Udvidelser til DSM-CC

Appendices. Appendix 2: Questionnaire in StudSurvey. Appendix 3: Text presenting the electronic questionnaire. Appendix 4: Outputs from regressions

Engelsk. Niveau C. De Merkantile Erhvervsuddannelser September Casebaseret eksamen. og

DIVAR VIGTIGT! / IMPORTANT! MÅL / DIMENSIONS. The DIVAR wall lamp comes standard. with 2.4 m braided cord and a plug in power supply (EU or UK).

Tips og tricks til Proc Means. Per Andersen Senior IM Consultant Dong Energy, Group IT, Trading IT, Analytics

Teknologispredning i sundhedsvæsenet DK ITEK: Sundhedsteknologi som grundlag for samarbejde og forretningsudvikling

User guide - For testing SFTP and HTTP/S data communication

Vores mange brugere på musskema.dk er rigtig gode til at komme med kvalificerede ønsker og behov.

Views etc. Databaser

SPØRGSMÅL TIL UDBUD AF SYSTEMUNDERSTØTTELSE AF GEODANMARK PRÆKVALIFIKATIONSFASEN

Den nye Eurocode EC Geotenikerdagen Morten S. Rasmussen

Besvarelse af juul2 -opgaven

Financial Literacy among 5-7 years old children

Øvelse 9. Klasser, objekter og sql-tabeller insert code here

Velkommen til IFF QA erfa møde d. 15. marts Erfaringer med miljømonitorering og tolkning af nyt anneks 1.

Forslag til implementering af ResearcherID og ORCID på SCIENCE

Overfør fritvalgskonto til pension

Titel: Hungry - Fedtbjerget

UNISONIC TECHNOLOGIES CO.,

Effekter af eksportfremme for danske virksomheder. Jakob Munch University of Copenhagen Georg Schaur University of Tennessee

Klog på SAS seminar, december 2013 Hvordan skjules password i loggen ved brug af macro, Svend Bang, Københavns Universitet

DST SIKKERHED OG ANVENDELSE

Autoload i Visual Analytics. Torben Skov, Chefkonsulent, SAS Institute

GREEN KEY GREEN DREAMS

2013 SP1. Konfiguration af koncernindblik. Configuration Guide

Projektledelse i praksis

Fremtidens Danmark. Teknologisk Institut, Center for Arbejdsliv - Projektchef Birgit Lübker

High-Performance Data Mining med SAS Enterprise Miner 14.1

PUT og INPUT funktionerne

Tips og Tricks. Erik Wendelboe Nielsen Christian Woergaard. econocap. PTC/USER Fredericia

Peter Kellberg. Rundt om Danmarks Statistiks makroer. Design, Standardisering, Teknik

DIVAR VIGTIGT! / IMPORTANT! MÅL / DIMENSIONS

Splunk Cookbook Lab Workshop

web concept tema 4 Hvordan kan man motivere børn til at spise mere frugt?

Healthcare Apps. OUH Odense University Hospital & Svendborg Hospital. Kiel, Germany, November /12/13

Richter 2013 Presentation Mentor: Professor Evans Philosophy Department Taylor Henderson May 31, 2013

RentCalC V Soft-Solutions

SAS Corporate Program Website

BACK-END OG DATA: ADMINISTRATION HVAD ER DE NYE MULIGHEDER MED VERSION 7.1? STEFFEN BILLE RANNES, 4. FEBRUAR 2015

Statistical information form the Danish EPC database - use for the building stock model in Denmark

Microsoft Dynamics C5. version 2012 Service Pack 01 Hot fix Fix list - Payroll

SEPA Direct Debit. Mandat Vejledning Nets Lautrupbjerg 10 DK-2750 Ballerup

Opsætning af Backup. Dette er en guide til opsætning af backup med Octopus File Synchronizer.

Engelsk. Niveau D. De Merkantile Erhvervsuddannelser September Casebaseret eksamen. og

DANSK INSTALLATIONSVEJLEDNING VLMT500 ADVARSEL!

Lovkrav vs. udvikling af sundhedsapps

Vi ska ha det vand vi kan drikke

Terese B. Thomsen 1.semester Formidling, projektarbejde og webdesign ITU DMD d. 02/

SAS formater i Danmarks Statistik

Resource types R 1 1, R 2 2,..., R m CPU cycles, memory space, files, I/O devices Each resource type R i has W i instances.

South Baileygate Retail Park Pontefract

Undervisning Fiskeribetjente, 6/6-2012, Hirtshals. Oskar. Discard- data. Marie Storr-Paulsen, Jørgen Dalskov. DTU Aqua. Moniteringssektion

k normalfordelte observationsrækker (ensidet variansanalyse)

Kommentarer til øvelser i basalkursus, 2. uge

Sikkerhed & Revision 2013

Trolling Master Bornholm 2016 Nyhedsbrev nr. 6

Morten Juul Nielsen Produktchef Microsoft Danmark

3D NASAL VISTA TEMPORAL

DET KONGELIGE BIBLIOTEK NATIONALBIBLIOTEK OG KØBENHAVNS UNIVERSITETS- BIBLIOTEK. Index

Learnings from the implementation of Epic

Transkript:

Projekt DATA step view Af Louise Beuchert Formål Formålet med dette projekt, er at sammenligne tid/ressourcekonsekvenser ved at køre SASjobs på data hentet som henholdsvis en fysisk kopi af data filen og som SAS Views i datastep. Dette for at besvare spørgsmålet: Kan det undgås at alle forskere udtrækker hver deres kopier af filer, og derved spare disk-plads? Og hvordan fungerer det at køre SAS-jobs fra SAS Views? Fremgangsmåde Der benyttes to multiyear-dataset; multiyearperson og multiyearansat, der består af henholdsvis rådatasættene personxxxx og ansatxxxx for år 1980 til 2007. - Multiyearperson består af 105.645.851 observationer og 87 variable. Herfra udvælges et subsample på 9 variable. - Multiyearansat består af 66.684.073 observationer og 6 variable. De to multiyear-datasæt merges by personnummer( prn ) og årstal( aar ). Dette giver et samlet datasæt af 10-15 variable for alle personer, for alle år 1980-2007, i alt 66.684.073 observationer. Testkørslerne baseres på dette samlede datasæt, da det type- og størrelsesmæssigt ligner datasæt der benyttes af LMDG. Sammenligner: a) 1. Udtræk: fysisk datasæt, SAS data file b) 2. Udtræk: SAS views, SAS DATA step view Testkørsel 1: - Hvorlænge om at åbne fysisk datasæt vs. åbne i data step View Testkørsel 2: - Merge multiyearperson og multiyearansat via data step views - Proc freq mål tid Testkørsel 3: - Som testkørsel 2, men gem det merged datasæt som et fysisk data file. Giver det nogen forskel i tid når der derefter køres en proc freq? Ja, væsentlig forbedring i tid. Testkørsel 4: - Lave et færdigt merged datasæt i det første View - Proc freq mål tid 1

Om SAS data step views A SAS view contains only descriptor information (data types, length etc.) and information that is required for retrieving data values from other SAS datasets. From the perspective of the research group of LMDG the benefit of using SAS Views is mainly that - We can save disk place by storing a SAS view definition, which stores only the instructions for where to find the data and how it is formatted, not the actual data. - The input datasets are always current because data is derived from SAS views at execution time. But using SAS views instead of Data files is a trade-off between saving disk space or saving processing time. Thus the purpose of this project is to measure the extra processing time when using SAS Views. Summary af Testkørsler Testkørsel 2 1 : Merge data step views af to datasæt og gem som et nyt data step view Her benyttes data step view i STEP 1, hvor der dannes et data step view af hvert multiyear-datasæt. Fordelen ved dette er, at man undgår at hver forsker gemmer fysiske udtræk/kopier af de store multiyear-datasæt. Dernæst merges multiyear-datasættene og gemmes i et data step view. Testkørsel 2 DATA FILE DATA STEP VIEW STEP 1 Set multiyearperson med 9 variable 2:09.49 0:00.00 Set multiyearansat med 6 variable 0:33.70 0:00.03 STEP 2 Merge multiyearperson multiyearansat by pnr aar 1:55.09 0:00.02 STEP 4 Proc contents 0:00.04 0:00.04 Proc means 0:25.84 06:22.13 Proc freq 2 0:50.70 07:27.10 TOTAL CPU TIME 10:44.03 13:49.23 - Fordelen ved denne metode er, at man undgår at hver forsker gemmer fysiske udtræk/kopier af de store multiyear-datasæt. - Eventuelle ændringer i multiyear-datasættene opdateres automatisk hver gang data step view køres. Dog tager det derfor lidt længere tid at køre SAS jobs, da flere views skal læses. For sammenligning se Testkørsel 3. - Datasæt skal i forvejen være sorteret i den relevante orden, da man ikke kan køre proc sort efter et data step view er oprettet 3. - Hver gang et SAS jobs køres, læses views af de to oprindelige multiyear-datasæt, hvilket øger CPU tid. 1 SAS kode: Testrun 2a og 1b. 2 For alle testkørsler: Proc freq 5 variable nlevels / missing 3 SAS kode: Testrun 3b-7b forsøger at løse dette ved brug af output view (First, s. 3). Spørgsmål: Hvis hvert af multiyear-datasættene er sorteret i forvejen, da burde data step view et af hvet datasæt også være sorteret??! Men når man kører proc content på data step view, kan aflæses Sorted: NO. Får det betydning? 2

Testkørsel 3 4 : Merge data step views af to datasæt og gem som en fysisk data file Her benyttes data step view i STEP 1, hvor der dannes et data step view af hvert multiyear-datasæt. Dernæst merges multiyear-datasættene og gemmes som en fysisk data file. Først derefter dannes et data step view af det merged datasæt. Dette er for at undgå at data views af multiyear-datasættene skal læses hver gang et nyt SAS jobs køres på det merged datasæt (se ulempe Testkørsel 2). Testkørsel 3 DATA FILE DATA STEP VIEW STEP 1 Set multiyearperson med 9 variable, sort by pnr aar 04:46.36 0:00.00 Set multiyearansat med 6 variable, sort by pnr aar 02:06.33 0:00.00 STEP 2 Merge multiyearperson multiyearansat by pnr aar 01:46.33 08:25.36 STEP 3 Sort by pnr aar, Save as data step view - 2:17.41 STEP 4 Proc contents 0:00.06 0:00.03 Proc means 00:28.13 01:36.17 Proc freq 00:53.19 02:48.32 TOTAL CPU TIME 10:01.20 15:08.09 - Fordelen ved denne metode er, at man undgår at hver forsker gemmer fysiske udtræk/kopier af de store multiyear-datasæt. - Væsentlig hurtigere at køre SASjobs, sammenlignet med Testkørsel 2 - Multiyear-datasæt skal være sorteret I den relevante orden i forvejen, da man ikke kan køre proc sort efter et data step view er oprettet. - Eventuelle ændringer i multiyear-datasættene opdateres ikke automatisk, som ved Testkørsel 2. 4 SASkode: Testrun 8a og 9b. 3

Testkøresl 4 5 : Lave et færdigt merged datasæt i det første View STEP 1) STEP 2) STEP 3) Hvert multiyear-datasæt defineres, sorteres efter pnr aar, og gemmes i temporary library som fysiske data filer Merge de to multiyear-datasæt by pnr aar som henholdsvis Data file og Data step view Proc contents, means, freq Det vil sige her benyttes data step view først i STEP 2. Denne metode kan f.eks. være nødvendig at benytte hvis datasæt ikke er sorteret. Testkørsel 4 DATA FILE DATA STEP VIEW STEP 1 Set multiyearperson med 9 variable, sort by pnr aar 04:56.44 Same Set multiyearansat med 6 variable, sort by pnr aar 02:06.12 Same STEP 2 Merge multiyearperson multiyearansat by pnr aar 1:41.10 0:00.00 STEP3 Proc contents 0:00.04 0:14.51 Proc means 0:29.28 03:37.54 Proc freq 0:53.68 04:25.11 TOTAL TIME 10:07.46 15:20.52 File size of the merged dataset 6,52 Gb 9,00 KB - Et data step view af et merged datasæt fylder kun 9,00 KB mod 6,52 GB - Når multiyearperson og multiyearansat slettes i det temporary libray, kan data step view ikke længere læses. Dvs. der skal ligge en fysisk kopi af multiyear-datasættene på serveren, for at man kan køre SAS jobs på et data step view af et merged datasæt. Derved undgås ikke at hver forsker gemmer egne kopier på deres drev. - Pladsmæssigt spares derved kun størrelsen af det merged datasæt. - Tidsmæssigt tab ved at køre proc freq på et data step view I forhold til på en data file. Konklusion Testkørslerne viser en forlænget processing CPU tid på 3-6 minutter, men en stor pladsbesparelse. På længere sigt vil man kunne spare diskplads ved at benytte data step view istedet for fysiske udtræk af datasæt. Det kræver dog en rutine omkring hvilke multiyear-datasæt der ligger tilgængelige og deres opbygning, primært hvordan de er sorteret. Hvis det er nødvendigt for den enkelte forsker selv at gå ind og sortere datasæt før de merges, letter det ikke arbejdsgangen at benytte data step views. Hvis man kan skaffe en SAS udgave der støtter OUTPUT data step views vil det være relevant at teste den metode. 5 I SAS kode: Testrun7a og 7b 4

Technical The VIEW=libname.datasetname option tells SAS to compile, but not to execute, the source program and to store the compiled code in the input DATA step view that is named in the option. Angående DATA step view type: Benytter INPUT DATA step view, da OUTPUT DATA step view ikke finds i vores udgave af SAS. Ved brug af OUTPUT DATA step view type kan man løse problemet omkring sortering af datasæt når der oprettes et data step view 6. Referencer First, S. (u.d.). Faster SAS Jobs and Fewer Passes Via DATA Step Views. Hentede 12. 08. 2010 fra http://www2.sas.com/proceedings/sugi22/sysarch/paper312.pdf SAS Documentation. (u.d.). SAS 9.2 Laguage Reference Concepts, Chapter 28. Hentede 12. 08. 2010 fra http://support.sas.com/documentation/cdl/en/lrcon/62955/pdf/default/lrcon.pdf 6 (First, s. 3) 5