High-Performance Data Mining med SAS Enterprise Miner 14.1 nye procedurer til en mere effektiv modeludviklingsproces Kristina Birch, Advisory Analytical Consultant, SAS Institute
Indhold Hvad er High-Performance Data Mining? Hvorfor High-Performance Data Mining? Muligheder i SAS Enterprise Miner 13.2 og 14.1 Lidt af det med småt Eksempel
Berører ikke Statistikken bag de enkelte procedurer Andre teknologier knyttet til SAS High-Performance Analytics SAS Embedded Process SAS LASR Andre SAS High-Performance Analytics-procedurer SAS High-Performance Statistics SAS High-Performance Text Mining SAS High-Performance Econometrics SAS High-Performance Optimization SAS High-Performance Forecasting
Hvad er High-Performance Data Mining (HPDM)? HPDM er en samling procedurer, der er optimeret til at blive eksekveret ved anvendelse af parallel processering (Massively Parallel Processing (MPP)) Dette kræver dedikeret hardware, da procedurerne anvender den tilhørende database memory (f.eks. Hadoop) Omkodning af de gamle procedurer Hvis dette ikke er muligt, kan disse procedurer sagtens anvendes, men vil så blive eksekveret ved anvendelse af symmetrisk multiprocessering (Symmetric Multi Processing (SMP)) Her anvendes det delte fysiske lager som sædvanlig
SAS Threaded Kernel (TKgrid) SAS High-Performance Data Mining TK TK TK TK SAS Server Name Node Data Node Data Node Data Node
Hvorfor High-Performance Data Mining (HPDM)? Samme måde at arbejde med analytics på den analytiske livscyklus Fordele med HPDM Analyse af større datamængder Hurtigere estimationsprocesser Flere analyser på én gang Anvendelse af mere avancerede metoder Bedre modeller (?)
Muligheder i SAS Enterprise Miner 13.2 HP CLUSTER HP DATA PARTITION HP EXPLORE HP FOREST HP GLM HP IMPUTE HP NEURAL HP PRINCIPAL COMPONENT HP REGRESSION HP SVM HP TEXT MINER HP TRANSFORM HP TREE HP VARIABLE SELECTION
Muligheder i SAS Enterprise Miner 14.1 HP 4SCORE creates the score model from HP FOREST HP BNET performs Bayesian networks HP CLUS cluster analysis covering either numeric or nominal/ordinal variables HP DECIDE can create optimal decision or perform sensitivity analysis HP FOREST estimates several decision trees and combines them HP NEURAL high-performance neural network estimation HP REDUCE variable selection, correlation and covariance matrices HP SVM supports vector machines in a high-performance environment
Lidt af det med småt (1) I MPP-mode er traditionelle HPDM-noder ikke kompatible Dette gælder dog ikke: Metadata, Model Comparison, Start Group, End Group, SAS Code, Report, Control Point, Ext Demo og Score-noderne, som er kompatible med HPDM-noder i MPP-mode Hvis der er behov for den gamle REPLACEMENT -node, anbefales det at anvende SASkodedelen af HP TRANSFORM. Denne kan generere rene data steps, der kan omdannes til DS2-kode SAS Code-noden giver analytikeren mulighed for at anvende andre high-performance analytics-procedurer i SAS Enterprise Miner. Hvis denne kode er nødvendig til scoring, skal den (som tidligere) også skrives i score code-fanen i SAS Code-node. Denne kode dannes ikke altid automatisk i den optimerede SAS Code i SAS Score-noden og skal muligvis indskrives manuelt I et distribueret miljø kan resultater fra HP DATA PARTITION-noden ikke altid reproduceres
Lidt af det med småt (2) Big data + high-performance data mining = powerful analytics Giver din analyse mening? Hvordan findes nålen i høstakken? Too much information? Kan du stole på dine P-værdier, når du regner på 10 mia. observationer? Parametrisering og optimeringsalgoritmer er ikke nødvendigvis de samme for de almindelige noder og HP-noderne
Eksempel A Dan et libname til data i Hadoop Definér target- og inputvariable Estimér en model i MPP*-mode Dan en modelpakke til scoring B Dan et libname til SAS-datasæt Definér target- og inputvariable Estimér en model i SMP*-mode Dan en modelpakke til scoring *Massively parallel processing (using the memory of the database) **Symmetric multiprocessing (using the shared physical storage)
Log fra HPLOGISTIC (1) sashdat The HPLOGISTIC Procedure Performance Information Host Node eecgr200.demo.sas.com Execution Mode Distributed Number of Compute Nodes 14 Number of Threads per Node 8 Data Access Information Data Engine Role Path DHDAT.HPPART_HPDMPART_956060 SASHDAT Input Parallel, Symmetric DHDAT.HPREG_SCORE_694D066679 SASHDAT Output Parallel, Symmetric
Log fra HPLOGISTIC (2) sashdat Model Information Data Source DHDAT.HPPART_HPDMPART_956060 Response Variable Has_Desired_Product_Now Class Parameterization GLM Distribution Binary Link Function Logit Optimization Technique Newton-Raphson with Ridging
Log fra HPLOGISTIC (1) V9 The HPLOGISTIC Procedure Performance Information Execution Mode Single-Machine Number of Threads 4 Data Access Information Data Engine Role Path WORK.HPREG2_TRAINDATA V9 Input On Client
Log fra HPLOGISTIC (2) V9 Model Information Data Source WORK.HPREG2_TRAINDATA Response Variable BAD Class Parameterization GLM Distribution Binary Link Function Logit Optimization Technique Newton-Raphson with Ridging
Mange tak! Kristina.Birch@sas.com