make connections share ideas be inspired Slip fantasien løs big data og high-performance computing er kreativitetens bedste venner Jens Helsted Kristensen, SAS Institute
Hvad handler dette indlæg om? Hvis big data udelukkende betragtes som et problem (eller fraværet af et problem), afskærer man sig for muligheden for at høste den værdi, som big data potentielt indeholder. High-performance computing gør det nu både teknisk muligt og økonomisk overkommeligt at nå ind til dette værdipotentiale, og uden disse begrænsninger er det kun fantasien, der sætter grænser for innovative måder at anvende informationen fra big data på. I løbet af indlægget får du en oversigt over de forskellige teknologier, som gør big data overkommelige, og du kan høre om, hvordan forskellige organisationer har fundet innovative måder at anvende indsigten fra big data på.
Agenda Har jeg big data? Analytikerens arbejdssituation SAS High-Performance Analytics Det nye analytiske landskab Cases
UDFORDRINGER FORUDE? Source: IDC Digital Universe Study, sponsored by EMC, May 2010
OUR PERSPECTIVE Big data are RELATIVE, not ABSOLUTE Big data When volume, velocity, and variety of data exceeds an organization s storage or compute capacity for accurate and timely decision making
Har jeg big data? Det handler ikke bare om Google og Facebook: Et fly opsamler 1 Tb data på en transatlantisk flyvning pr. motor! På en tur til eller fra London bliver en bil i gennemsnit filmet af omkring 100 trafikkameraer. Der er 5 mia. mobiltelefoner i verden. Din mekaniker ved mere om, hvordan du kører, end du selv gør. Hver gang du klikker på en internetside, bliver det skrevet i en log. For mange organisationer er det ikke et spørgsmål, om de har big data, men om de vælger at have big data!
THRIVING IN THE BIG DATA ERA DATA SIZE VOLUME VARIETY VELOCITY VALUE TODAY THE FUTURE
Data mining i big data-æraen skifter karakter
Hvordan laver man analyse? THE ANALYTICS LIFE CYCLE IDENTIFY / BUSINESS MANAGER Domain Expert EVALUATE / MONITOR RESULTS FORMULATE PROBLEM DATA PREPARATION BUSINESS ANALYST Data Exploration Makes Decisions Evaluates Processes and ROI DEPLOY MODEL DATA EXPLORATION Data Visualization Report Creation IT SYSTEMS / MANAGEMENT Model Validation VALIDATE MODEL BUILD TRANSFORM & SELECT DATA MINER / STATISTICIAN Exploratory Analysis Model Deployment MODEL Descriptive Segmentation Model Monitoring Predictive Modeling Data Preparation
Analytikerens udfordringer De tekniske 80-90 % af tiden går med at finde og fremskaffe data og til at kvalitetssikre disse Datamængderne eksploderer, når man går fra transaktioner til interaktioner Analyser kan ikke køre i normal arbejdstid af hensyn til transaktionelle behov Tankeprocesserne afbrydes, fordi analyserne tager meget lang tid at køre Man er tvunget til at arbejde med stikprøver, samtidig med at fokusområder udgør en stadig mindre del af populationen
Analytikerens udfordringer og de organisatoriske Vished vs. sandsynlighed Transaktionelle (it-) driftsparadigmer med udvikling/test/produktion, der ikke passer med analytikernes iterative arbejdsproces og en kort time-to-value Analyseinfrastrukturen kræver stigende indsigt i it-teknik Højtuddannede analytikere er ved at blive en mangelvare
Men så er det jo godt, at vi har high-performance-værktøjer
SAS HIGH- PERFORMANCE ANALYTICS SAS GRID COMPUTING
Hvad leverer SAS Grid Manager? Funktionalitet Hvad er fidusen ved det? Workload management Høj oppetid Effektiv styring af job, brugere, licenser og servere Undgår, at SAS ikke kan bruges Distribueret processering Bedre performance Udnyttelse af standardhardware Reducerede omkostninger
SAS HIGH- PERFORMANCE ANALYTICS SAS IN-DATABASE
SAS IN- DATABASE Funktionalitet Hvad er fidusen ved det? Afvikle SAS-funktioner inde i databasen Bedre data governance Strømline modelimplementeringsproces Hurtigere time-to-results Udnytte eksisterende databasearkitektur Afvikle eksisterende SAS-kode uden modifikationer Bedre udnyttelse af it-infrastruktur Højere efficiens
SAS HIGH- PERFORMANCE ANALYTICS SAS IN-MEMORY ANALYTICS
SAS IN- MEMORY ANALYTICS DATAVISUALISERING OG RAPPORTERING Funktionalitet Hvad er fidusen ved det? Tilgå alle dine data uden at være tvunget til at bygge datamarter Beslutninger kan træffes her og nu, uden at it skal involveres Peg og klik-analyser, eksempelvis for korrelationens rapporter, på big data Visualisering af dine data gennem et fælles interface til både web og ipad Brugen af analyser kan udbredes til en bredere brugerskare i organisationen med større effektivitet og udnyttelse af spidskompetencer til følge Information er til rådighed, når og hvor der er behov for den
SAS IN- MEMORY ANALYTICS ANALYSE Funktionalitet In-memory-arkitektur til data og analytisk processering Hvad er fidusen ved det? Løs dine mest komplekse analytiske udfordringer i near-real time High-Performance Analytics er indarbejdet i udvalgte SAS-produkter og løsninger Distribueret miljø med lille formfaktor Mere nøjagtige resultater ved bedre modellering Horisontalt skalerbar og pålidelig analytisk infrastruktur
SAS HIGH- PEFORMANCE ANALYTICS
SAS HIGH- PEFORMANCE ANALYTICS
SAS HIGH- PEFORMANCE ANALYTICS
Paradigmeskift i det analytiske landskab FRA Lede efter data, der besvarer kendte spørgsmål Transaktioner Raffinement Statisk siloarkitektur Kapacitetsreserve Perfekt til alle formål TIL Svarene gemmes, før spørgsmålet er kendt Interaktioner Rå regnekraft Agil platformsarkitektur Capacity-on-demand og cloud Godt nok til det specifikke formål
Analytics med big data udfordrer it-funktionen De analytiske arbejdsprocesser er meget eksperimenterende, iterative og kræver en voldsom beregningskapacitet. Det betyder markant anderledes krav til analytiske it-systemer i forhold til operationelle og business intelligence-systemer. Det er uomtvisteligt it-funktionens ansvar at tilvejebringe en robust og fleksibel analytisk infrastruktur, der performer. (Analytikerne har ikke kompetencen!) Analytics og data warehouse er ikke et spørgsmål om enten/eller men derimod om både/og. Infrastrukturerne er komplementære og både organisation, arbejdsprocesser og den tekniske arkitektur bør reflektere denne sammenhæng.
Kravene til det nye analytiske landskab Behov for (ubegrænset) analytisk kapacitet inden for normal arbejdstid Specialdesignede tekniske løsninger til særligt krævende analytiske opgaver (HPA) Mulighed for at tilgå og arbejde analytisk med meget store datamængder på ad hoc-basis; opbevaring/samkøring af eksterne og interne produktionsdata Værktøjer til analytisk arbejdsdeling og styring af metadata; behov for data wikis, der nedbringer analytikerens søgetid efter de bedste data Indarbejdning af analytiske komponenter i operationelle systemer (real-time decision management)
INFORMATION MANAGEMENT SUPERIOR DECISIONS ENABLED BY RICH ANALYTIC & INFORMATION SERVICES INFORMATION MANAGEMENT ENTERPRISE DECISIONS / ACTIONS / DATA LOW COST STORAGE RAW RELEVANT DATA
Hvad er værdien af at have det rette analytiske landskab? Bedre udnyttelse af analytikernes kapacitet Flere simulationer/iterationer, slut med stikprøver, afprøvning af flere statistiske metoder => bedre analytiske modeller Hurtigere leverancer af analyser, så der bliver mulighed for at agere, mens det stadig er relevant
CUSTOMER CASE STUDY GRID-ENABLED ANALYTICS PROCESS 11 HRS MODEL DEPLOYMENT MODEL DEVELOPMENT DATA EXPLORATION 15% improvements in marketing campaigns 10 SECONDS
CUSTOMER CASE STUDY SAS IN-DATABASE ANALYTICS PROCESS 4.5 HRS MODEL DEPLOYMENT MODEL DEVELOPMENT DATA EXPLORATION 60 SECONDS
SAS HIGH- PERFORMANCE ANALYTICS SAS IN-MEMORY ANALYTICS PROCESS 167 Hours EXPLORATION DATA DEVELOPMENT MODEL DEPLOYMENT MODEL Bottom-line impact: Tens of millions of dollars 84 SECONDS
Centrale budskaber Big data er en realitet og et valg SAS High-Performance Analytics er nøglen til at adressere big data It og analytikerne er nødt til at samarbejde, hvis det nye analytiske landskab skal realiseres
make connections share ideas be inspired Spørgsmål?