High-Performance Data Mining med SAS Enterprise Miner 14.1

Relaterede dokumenter
Præsentation og praktisk anvendelse af PROC GLMSELECT

Kursuskalender Savner du et kursus på listen, er du meget velkommen til at kontakte os på mail:

SAS Scalable Performance Data Server

HVAD ER VÆRDIEN AF ANALYTICS FOR DIN VIRKSOMHED

Intelligent kontrol med SAS

make connections share ideas be inspired

Introduktion til Microsoft R. Steen Dybboe, Pragmatic BI MsBIP 2017 Aarhus

Online kursus: Data Science

SAS GRID MANAGER THOMAS DAMGAARD, CHEFKONSULENT, SAS INSTITUTE Copyr i g ht 2016, SAS Ins titut e Inc. All rights res er ve d.

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

Løsning til opgave i logistisk regression

Hvordan bekæmper Alm. Brand forsikringssvindel med SAS Fraud Framework for Insurance?

Interconnect. Front end interface

Text mining hos MAN Diesel

Data Mining. Competing on Analytics seminar D. 12. december 2007 Kristina Birch. Copyright 2006, SAS Institute Inc. All rights reserved.

Introduktion til Visual Data Mining and Machine Learning

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved.

Sortering fra A-Z. Henrik Dorf Chefkonsulent SAS Institute

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU

Machine Learning til forudsigelser af central KPI

GIS Is Advancing Rapidly Integrating and Leveraging Many Innovations

Slip fantasien løs big data og high-performance computing er kreativitetens bedste venner

Hvad kommer ITIL V3 og Cobit til at betyde for IT-supporten? Ole Westergaard Westergaard CSM

SAS Grid Manager få en dirigent til dit SAS-orkester

Vejledning til validator test af metadata

SAS Data Governance Hvad er det, og hvordan kommer man i gang? Frans Holm, Advisor Data Management/SAS Platform

Velkommen SAS Forum 2010

Den Danske Esri Brugerkonference 2019 Nyheder I ArcGIS Online

Mænd, Mus og Metadata

Kvalitetsseminar. At sætte en standard, der skaber værdi. Copyright 2006, SAS Institute Inc. All rights reserved.

Autoload i Visual Analytics. Torben Skov, Chefkonsulent, SAS Institute

SAS Event Stream Processing

SAS USER FORUM DENMARK 2017 USER FORUM. Rune Nordtorp

Public Analytics Tema: Effektmåling

Net Lift Modelling. Peter Steffensen, Senior Principal Consultant. Copyright 2011 SAS Institute Inc. All rights reserved.

Cloud computing. Hvad er fordelene ved Microsoft løsninger - og hvad er begrænsningerne

Projekt DATA step view

Fart på SAP HANA. Sådan laver du analyser direkte på dine data i realtid. Copyright 2012 FUJITSU. Fujitsu IT Future, København, den 16.

CISM COURSE COMPUTATIONAL ACOUSTICS

Sensorer på de kritiske styringspunkter i produktionen - sensorvalg, implementering og udbytter

Grundtvigs Sandkasse

Moderne SAS-programmering på webben med SAS Studio. Georg Morsing SAS Institute

Dell Cloud Client Computing Hvordan virtualisere vi de tunge grafisk applikationer?

Kursusoversigt for juli 2007 januar 2008

Besvarelse af vitcap -opgaven

Velkommen. Backup & Snapshot v. Jørgen Weinreich / Arrow ECS Technical Specialist

Valg af Automationsplatform

Basic Design Flow. Logic Design Logic synthesis Logic optimization Technology mapping Physical design. Floorplanning Placement Fabrication

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Reeksamen i Statistik for Biokemikere 6. april 2009

En introduktion til SAS Risk Dimensions 5.2

Grow. With the Leader. IBM Storwize v7000. v/lars Kok

Hvordan sætter jeg Analytics på min radar?

Project Step 7. Behavioral modeling of a dual ported register set. 1/8/ L11 Project Step 5 Copyright Joanne DeGroat, ECE, OSU 1

Escape velocity: Slashing deployment times with Docker

Hardware og software på forskermaskinerne

VPN VEJLEDNING TIL MAC

SAS Digital Intelligence

Tips og tricks til Proc Means. Per Andersen Senior IM Consultant Dong Energy, Group IT, Trading IT, Analytics

En Bayesiansk tilgang til Credit Scoring

Den Danske Esri Brugerkonference 2019 What's new in ArcGIS Enterprise og Administration af ArcGIS Enterprise

Best Practices: I/O-konfiguration. Thomas Damgaard, Chefkonsulent, SAS Institute

Micusto Cloud v2. Micusto Cloud er et fleksibelt, brugervenligt cloudsystem til CMS er, webshop- og intranetsystemer.

Velkommen til GeekNight

2016 SAS Education. Grow With Us saskurser.dk

Klog på SAS seminar, december 2013 Hvordan skjules password i loggen ved brug af macro, Svend Bang, Københavns Universitet

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

General setup. Udvidet konfiguration. Rasmus Elmholt V1.0

Statistiske Modeller 1: Kontingenstabeller i SAS

Serverteknologi I Project task list

HYBRID TAKEOFF REDEFINED JOURNEY TO THE CLOUD BY EMC Søren Holm, Proact

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Hardware og software på forskermaskinerne

APPLIKATIONSARKITEKTUR ERP INFRASTRUKTUR. EG Copyright

Kender du det? Kim Mortensen (IBM) Torben Christensen (edgemo)

Using SAS Macros to Simplify Preparation of SDTM Data, Annotated CRFs and Define.xml. PhUse 2009, Basel. Niels Both Principal Consultant S-Cubed

Sporbarhed og Rapportering i Quality Center. Kim Stenbo Nielsen NNIT Application Management Services

Oversigt over ønskede ændringer på cand.merc.-linjer. Innovation Management udbudt af Institut for Virksomhedsledelse. Optag 2015: Optag 2016:

Større loyalitet og kundeoplevelse ved brugen af analyser og digitalisering

The SourceOne Family Today and Tomorrow. Michael Søriis Business Development Manager, EMC FUJITSU

Agenda. Kort om YouSee. Udfordringer & Vision. Setup & Dataflow. Dynamikken i løsningen. Resultater og femtiden

Økonometri 1 Forår 2006 Ugeseddel 11

I denne guide vil jeg prøve at give en beskrivelse af hvad man skal gøre for at få adgang til Microsoft Azure via Dreamspark når man går på Easj.

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

IP version 6. Kapitel 3: IPv6 in Depth Baseret på bogen: Cisco Self-study: Implementing Cisco IPv6 Networks Henrik Thomsen V1.0.

Harvard Forest Schoolyard LTER

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125

Hitachi Data Systems. The Hitachi Way!

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Management Information System, MIS

Webside score akcpdistributor.de.cutestatvalue.com

What s Our Current Position? Uddannelsesstruktur i AUE. What Can You Choose After DE5? Uddannelsesstruktur i AUE

MOC On-Demand Identity with Windows Server 2016 [20742]

Programmeringseksempel til CX/IPC

Lagerstyring i Microsoft Dynamics 365 for Finance and Operations

Henrik Bulskov Styltsvig

VMware VMmark V1.1.1 Results

Transkript:

High-Performance Data Mining med SAS Enterprise Miner 14.1 nye procedurer til en mere effektiv modeludviklingsproces Kristina Birch, Advisory Analytical Consultant, SAS Institute

Indhold Hvad er High-Performance Data Mining? Hvorfor High-Performance Data Mining? Muligheder i SAS Enterprise Miner 13.2 og 14.1 Lidt af det med småt Eksempel

Berører ikke Statistikken bag de enkelte procedurer Andre teknologier knyttet til SAS High-Performance Analytics SAS Embedded Process SAS LASR Andre SAS High-Performance Analytics-procedurer SAS High-Performance Statistics SAS High-Performance Text Mining SAS High-Performance Econometrics SAS High-Performance Optimization SAS High-Performance Forecasting

Hvad er High-Performance Data Mining (HPDM)? HPDM er en samling procedurer, der er optimeret til at blive eksekveret ved anvendelse af parallel processering (Massively Parallel Processing (MPP)) Dette kræver dedikeret hardware, da procedurerne anvender den tilhørende database memory (f.eks. Hadoop) Omkodning af de gamle procedurer Hvis dette ikke er muligt, kan disse procedurer sagtens anvendes, men vil så blive eksekveret ved anvendelse af symmetrisk multiprocessering (Symmetric Multi Processing (SMP)) Her anvendes det delte fysiske lager som sædvanlig

SAS Threaded Kernel (TKgrid) SAS High-Performance Data Mining TK TK TK TK SAS Server Name Node Data Node Data Node Data Node

Hvorfor High-Performance Data Mining (HPDM)? Samme måde at arbejde med analytics på den analytiske livscyklus Fordele med HPDM Analyse af større datamængder Hurtigere estimationsprocesser Flere analyser på én gang Anvendelse af mere avancerede metoder Bedre modeller (?)

Muligheder i SAS Enterprise Miner 13.2 HP CLUSTER HP DATA PARTITION HP EXPLORE HP FOREST HP GLM HP IMPUTE HP NEURAL HP PRINCIPAL COMPONENT HP REGRESSION HP SVM HP TEXT MINER HP TRANSFORM HP TREE HP VARIABLE SELECTION

Muligheder i SAS Enterprise Miner 14.1 HP 4SCORE creates the score model from HP FOREST HP BNET performs Bayesian networks HP CLUS cluster analysis covering either numeric or nominal/ordinal variables HP DECIDE can create optimal decision or perform sensitivity analysis HP FOREST estimates several decision trees and combines them HP NEURAL high-performance neural network estimation HP REDUCE variable selection, correlation and covariance matrices HP SVM supports vector machines in a high-performance environment

Lidt af det med småt (1) I MPP-mode er traditionelle HPDM-noder ikke kompatible Dette gælder dog ikke: Metadata, Model Comparison, Start Group, End Group, SAS Code, Report, Control Point, Ext Demo og Score-noderne, som er kompatible med HPDM-noder i MPP-mode Hvis der er behov for den gamle REPLACEMENT -node, anbefales det at anvende SASkodedelen af HP TRANSFORM. Denne kan generere rene data steps, der kan omdannes til DS2-kode SAS Code-noden giver analytikeren mulighed for at anvende andre high-performance analytics-procedurer i SAS Enterprise Miner. Hvis denne kode er nødvendig til scoring, skal den (som tidligere) også skrives i score code-fanen i SAS Code-node. Denne kode dannes ikke altid automatisk i den optimerede SAS Code i SAS Score-noden og skal muligvis indskrives manuelt I et distribueret miljø kan resultater fra HP DATA PARTITION-noden ikke altid reproduceres

Lidt af det med småt (2) Big data + high-performance data mining = powerful analytics Giver din analyse mening? Hvordan findes nålen i høstakken? Too much information? Kan du stole på dine P-værdier, når du regner på 10 mia. observationer? Parametrisering og optimeringsalgoritmer er ikke nødvendigvis de samme for de almindelige noder og HP-noderne

Eksempel A Dan et libname til data i Hadoop Definér target- og inputvariable Estimér en model i MPP*-mode Dan en modelpakke til scoring B Dan et libname til SAS-datasæt Definér target- og inputvariable Estimér en model i SMP*-mode Dan en modelpakke til scoring *Massively parallel processing (using the memory of the database) **Symmetric multiprocessing (using the shared physical storage)

Log fra HPLOGISTIC (1) sashdat The HPLOGISTIC Procedure Performance Information Host Node eecgr200.demo.sas.com Execution Mode Distributed Number of Compute Nodes 14 Number of Threads per Node 8 Data Access Information Data Engine Role Path DHDAT.HPPART_HPDMPART_956060 SASHDAT Input Parallel, Symmetric DHDAT.HPREG_SCORE_694D066679 SASHDAT Output Parallel, Symmetric

Log fra HPLOGISTIC (2) sashdat Model Information Data Source DHDAT.HPPART_HPDMPART_956060 Response Variable Has_Desired_Product_Now Class Parameterization GLM Distribution Binary Link Function Logit Optimization Technique Newton-Raphson with Ridging

Log fra HPLOGISTIC (1) V9 The HPLOGISTIC Procedure Performance Information Execution Mode Single-Machine Number of Threads 4 Data Access Information Data Engine Role Path WORK.HPREG2_TRAINDATA V9 Input On Client

Log fra HPLOGISTIC (2) V9 Model Information Data Source WORK.HPREG2_TRAINDATA Response Variable BAD Class Parameterization GLM Distribution Binary Link Function Logit Optimization Technique Newton-Raphson with Ridging

Mange tak! Kristina.Birch@sas.com