Hvis dine data var vand, ville du så drikke det? Datakvalitet Michael Nielsen Business Advisor Information Management Division SAS Institute A/S Copyright 2007, SAS Institute Inc. All rights reserved.
Agenda 09.30-10.00 Registrering og morgenmad 10.00-10.30 Data Governance Fra udisciplineret til styret. Hvordan kommer man fra en tilfældig omgang med data til data som et styret aktiv? 10.30-11.30 Datakvalitet i praksis 1 Demonstration med udgangspunkt i kundedata af, hvordan software til understøttelse af datakvalitetsprocessen virker 11.30-11.45 Pause / forplejning, receptionen på 3. sal 11.45-12.15 Datakvalitet i praksis 2 Datakvalitet på ikke-kundedata, f.eks. produktdata eller materialestyring og analyse af indkøbsmønstre 12.15-12.30 Opsamling sådan kommer du i gang 12.30- Frokost i kantinen på 2. sal
Is your data a corporate asset? A simple test to get data quality in focus Are you giving it resources comparable to your other corporate assets? Yes No Do not know 2 0-1 Are you dedicating technology comparable to your other corporate assets? Are you allocating funding relative to your other corporate assets? 2 0-1 2 0-1 Do you measure the cost of poor missing or inaccurate data? 2 0-1 Do you understand the cost of not delivering timely and relevant data to the business? 2 0-1 Copyright 2007, SAS Institute Inc. All rights reserved.
Why Data Governance? The parent of Data Quality Data Governance is usually the most frequently mentioned and biggest challenge in the context of business analytics projects Policies Technology People IDC: Henry D. Morris, The Case for Investing in Business Analytics Technology
The definition of Data Governance
The definition of Data Governance
The definition of Data Governance
The definition of Data Governance
The definition of Data Governance
The definition*s* of Data Quality
Måske Hvad er Datakvalitet? måling af datakvalitet den bedste definition af datakvalitet?
Data Governance Maturity Model Sales Force Data Warehouse Customer MDM Business Process Automation ERP Automation Database Marketing CRM Product MDM MDM IT-driven projects Duplicate, inconsistent data Line of business influences IT projects Little cross-functional collaboration IT and business groups collaborate Enterprise view of certain domains Business requirements drive IT projects Repeatable, automated business processes Inability to adapt to business changes High cost to maintain multiple applications Data are a corporate asset Personalized customer relationships and optimized operations
How do we govern our data? People, policies and technology Think locally Act locally Reactive Think globally Act locally Think globally Act collective Governed Think globally Act globally Undisciplined Proactive Technology Policies People
BICC Data Governance Is a governance body the same as a Business Intelligence Competency Center? Technology Policies People
The Data Governance Maturity Model Stage one Undisciplined (think locally, act locally)
The Data Governance Maturity Model Stage two Reactive (think globally, act locally)
The Data Governance Maturity Model Stage three Proactive (think globally, act collectively)
The Data Governance Maturity Model Stage four Governed (think globally, act globally)
Data Governance organisering Sponsorskab er kritisk Commitment skal være strategisk Det skal koordineres med forretningen Data stewardship skal være defineret
Data Stewardship Datadefinitioner og -standarder Metadata og forretningsregler Impact analysis og data tracking Data quality Kommunikation af standarder 20
Data Stewardship Hvem, hvad, hvor? The Myth of the Purebred Data Steward Jill Dyché, Baseline Consulting http://www.b-eye-network.com/view/3971
Copyright 2007, SAS Institute Inc. All rights reserved. Datakvalitet i praksis
Datakvalitet i praksis Kort om DataFlux Datakvalitet Datakvalitetsprocessen Demonstration af DataFlux Profilering Architect Lidt om teknisk set-up og muligheder SAS -datakvalitet og SAS Data Integration
DataFlux - et SAS-selskab Opkøbt af SAS i 2000, drives som selvstændigt datterselskab Over 1000 kunder over hele verden DataFlux mission er at hjælpe firmaer med at forbedre kvaliteten af deres data DataFlux platform inkluderer best in classteknologi, som omfatter dataprofilering, datakvalitet, dataintegration, databerigelse og datamonitorering Anerkendt af Gartner som Leader i datakvalitet
Gartner Magic Quadrant - DataFlux Data Quality Tools Source: Magic Quadrant for Data Quality Tools, 2008, June, Ted Friedman, Andy Bitterer.
Copyright 2007, SAS Institute Inc. All rights reserved. Datakvalitet
Vi har ikke noget datakvalitetsproblem! Datakonvertering Systemkonsolidering Manuel dataindtastning Batchdataoverførsel Real-time interface Eksperter, der forlader virksomheden Systemopgraderinger Sletning af data Nye datakilder Databearbejdelse Procesautomatisering Datarens Copyright 2007, SAS Institute Inc. All rights reserved.
Survey: Over 50% har problemer med datakvaliteten inden for flere områder I hvilket omfang har din afdeling konkretiseret specifikke problemer med datakvaliteten? Hvilke udfordringer står din afdeling/projekt over for? Dataintegration på tværs af systemer Inden for flere områder Manglende fælles datadefinitioner Dubletdata Kun sporadiske problemer eller i forbindelse med udveksling af data. Inden for enkelte områder. Mangel på datastandarder Andet: Manglende præcision/anvendelighed i data Manglende verifikation af adresser 0% 20% 40% 60% 80% 0% 10% 20% 30% 40% 50% Copyright 2007, SAS Institute Inc. All rights reserved.
Survey: Årsager til dårlig datakvalitet Voksende datamængder Virksomhedssammenlægninger og opkøb Mange datakilder Data, der forældes over tid Legacy-systemer Data er fejlbehæftede Mangel på fælles datastandarder i organisationen Duplikater Manglende data i databasefelter Indtastnings- og stavefejl Datamigration eller konverteringsprojekter Hvad er de primære årsager til fejl i data Fejl i data indtastet af medarbejdere Datamigration Systemfejl Eksterne data Andet: Fejl i data indtastet af kunder Ved ikke 0% 20% 40% 60% 80% Copyright 2007, SAS Institute Inc. All rights reserved.
Best practice Håndtering af datakvalitet Best-practice data quality programs are not a one-shot measure (clean up and move on) To achieve results, successful programs identify the organizational processes behind data quality Much like regular IT housekeeping, from virus scanning or performance monitoring to data backup, the data quality program becomes part of daily IT routine Source: Organizing for Data Quality. Research note from Gartner Inc., June 1, 2007.
Behov for fælles overblik og håndtering af datakvalitet
SAS -datakvalitet Analyze, improve and control Copyright 2007, SAS Institute Inc. All rights reserved.
Datakvalitetsprocessen Finde mønstre i data og afdække problemstillinger Standardisere og rense data ved brug af lokalsprogskendskab Integrere og verificere data Monitorere data ved brug af foruddefinerede forretningsregler Fordele Få et bedre datagrundlag for beslutninger Se tendenser i data, der giver mulighed for at reagere tidligere i forretningen Mere effektive forretningsgange som følge af højere kvalitet i dataprocesser Forretning får tillid til data
SAS Quality Knowledge Base Locales (QKB) Geografiske og sprogspecifikke datakvalitetsregler og standardiseringskonventioner Datakvalitetsalgoritmer for typiske datatyper F.eks. navne- og adressekonventioner eller telefonstandarder Ordlister over kendte navne og stedord Genkender betydningen af ord ved klassifikation Parsing-hierarki Kan parse en sætning i relevante elementer Lingvistiske regler Viden om lokalsprogets grammatik og fonetik
Måling af datakvalitet Profilrapport for datakvalitet Overblik over data Profilering Mønster i data Redundans Identificering af relevante problemstillinger
Standardisering Generelle egenskaber Brugervenlighed: Ikke programmeringstilgang Designet til forretningsbrugere, som forstår data Regelbaseret Systemet kan lære, som man lærer i de fleste situationer Genbrugelighed Viden om data kan bruges proaktivt efterfølgende til at holde alle data standardiserede og rene Holistisk tilgang: Fuzzy matching, fonetik og standardisering
Integration Match og link af data Når kolonnerne er profilerede og standardiserede, vurderes hvilke match-kriterier der skal bruges for at identificere unikke records Dernæst genereres matchkoder på alle kunder Matchkoderne laves på navn og adresse og skal bruges til at matche kunder (deduplikere) og til unik identifikation Best practice er at generere to (evt. tre) matchkoder for hver række En matchkode med en høj kompleksitet (følsomhed), som identificerer kunden temmelig præcist på navn og adresse En matchkode med en lavere kompleksitet, hvor matchkoden kan dække bredere Eksempler: Adresse + navn Adresse + postnummer Adresse + telefonnummer Postnummer + navn + telefonnummer
Integration Match og link af dataeksempel KR Gammel Navn og adresse 2. system Christian Vesterman Gl.gaardsvej 122 3520 Farum U KRSTN USTRMN GMLGRV 122 3520 Farum
Integration Match og link af dataeksempel General account U N Bankfuldmægtig Kristian Søren Westermann Gammelgårdsvej 122 3520 Farum KRSTN USTRMN GMLGRV 122 3520 Farum
Integration Match og link af dataeksempel General account Bankfuldmægtig Kristian Søren Westermann Gammelgårdsvej 122 3520 Farum Navn og adresse 2. system KRSTN USTRMN GMLGRV 122 3520 Farum Christian Vesterman Gl.gaardsvej 122 3520 Farum KRSTN USTRMN GMLGRV 122 3520 Farum
Integration Match og link af dataeksempel General account KRSTN USTRMN GMLGRV 122 3520 Farum Navn og adresse 2. system KRSTN USTRMN GMLGRV 122 3520 Farum Matchkode (Navn og adresse): 3Y4$$$$$$$#4~YBP$$$$ = Matchkode (Navn og adresse): 3Y4$$$$$$$#4~YBP$$$$
Berigelse Validering og berigelse af records Data er nu i en entydig form, hvor de kan valideres imod 3. parts service Data kan yderligere beriges: Geokodning længde og breddegrad Identificere køn Identificere organisation/individ Bagefter har man fine og rene data
Datamonitorering Kontrol Sikre informationskvalitet Validere data mod forretningsregler DataFlux Demo Automatisk identificere invalide data Trendanalyse Undtagelsesadvisering (e-mail) Publicere analyser til webportal
Copyright 2007, SAS Institute Inc. All rights reserved. Lidt om teknisk set-up og muligheder
SAS -datakvalitet Løsningsarkitektur Legacy systems
User interfaces real-time batch Data Quality Hub Shared rules and reuse in multiple areas Data warehouse Web services real-time Enterprise application integration ERP DataFlux quality knowledge base Master Data Management real-time Developer analysts, administrator
Copyright 2007, SAS Institute Inc. All rights reserved. SAS -datakvalitet og SAS Data Integration
SAS Data Integration Studio 4.2
SAS Data Integration Egenskaber Forene en lang række systemer samt validere og rense med henblik på at analysere information og skabe viden Dokumentere og vedligeholde DI- og BIprocesser fra rådata til rapportstrukturer, så der skabes transparens Et kontaktpunkt til dataintegration og -kvalitet Fordele Hurtigere anvendelse af kritiske data og færre ressourcer anvendt ved at automatisere processen Færre ressourcer til dataindsamling og validering ved øget genbrug og standardisering Bedre grundlag for at træffe beslutninger ved at forbedre datakvalitet og datastyring
Pause
Copyright 2007, SAS Institute Inc. All rights reserved. Datakvalitet på ikke-kundedata
Hvad er produkt- og materialedata i din organisation? Informationer om, hvilke dele / materialer der indgår i produktion af et bestemt produkt? Informationer om ydelser og delydelser Overblik over, hvilke serviceydelser der indgår i en kundeaftale? Eller? Commodity coding, sourcing UNSPSC (The United Nations Standard Products and Services Code ) ecl@ss BoM (Bills of Material)
Industry applications of data quality Public Sector (identity resolution and matching) Financial Services Drive compliance and risk management with real-time data monitoring Actively monitor for embezzlement or fraudulent activity Telco (Billing) Manufacturing (spend analysis) Life Sciences (anonymize patient data, 3 rd party data collection/sharing) Insurance (fraud/abuse in claims) Retail (marketing, fraud) Transportation (logistics)
Kunder vs. produkter Hvad er kendetegnet ved kundedata? Navne Adresse Alder Kundenummer Etc. Der er visse regler for at kunne identificere og dermed håndtere data Er der regler for, hvordan du håndterer dine produktdata? Hvis ikke burde der være det?
Commodity coding Eksempel:
Copyright 2007, SAS Institute Inc. All rights reserved. DataFlux Accelerators & Adapters
Accelerators MDM solution for Product Data Accelerator for Commodity Coding offers a faster way to enhance product and item data with ecl@ss and UNSPSC classification codes, providing a standardized way to organize and segment information on spending patterns. MDM Solution for Customer Data Accelerator for Customer Data Analysis allows you to discover exactly what data problems exist in your company s customer data repositories, and then helps you turn this knowledge into a detailed plan to fix those issues. Accelerator for Customer Data Improvement gives you a powerful set of tools to correct data quality problems and unlock the real value of your customer information. Accelerator for Customer Data Control is a web-based dashboard builder that includes over 175 pre-built business rules and routines, simplifying the process of monitoring and maintaining highquality customer data.
The most critical factor to master data management success is data quality. Adapters DataFlux SOA Integration Support the ability to run dfpower Studio jobs in a client/server mode by allowing users to offload dfpower Studio jobs onto higher performance server. Support the ability to create data quality and integration processes visually instead of locking the logic into native code. Support an SOA framework, enabling complete reuse of data quality and integration business logic. allows you to discover exactly what data problems exist in your company s customer data repositories, and then helps you turn this knowledge into a detailed plan to fix those issues. DataFlux Adapter for SAP Validate, format and complete address information in real time according to postal authority standards. Automatically identify duplicate records within SAP using domestic and international fuzzy matching logic. Present duplicates to SAP users in real time for record consolidation. Search Business Address Services using robust fuzzy matching technology. DataFlux Adapter for SAS Share information between SAS and DataFlux products with a common Quality Knowledge Base (QKB). Leverage SAS software s powerful data integration and data access capabilities. Apply data quality to all SAS supported data sources and platforms, which ensures enterprise scalability.
Accelerator for Commodity Coding Features Improve inventory and item data for better internal and supply chain management Append standardized product codes such as UNSPSC and ecl@ss Simplify spend analysis by correctly and universally coding inventory Foundation for MDM efforts
Data kvalitet som fundament for indkøbsanalyse i den offentlige sektor Thomas Schultz Copyright 2007, SAS Institute Inc. All rights reserved.
Afrunding
A starting point Assess your data quality and build a business case Assess data quality Determine business impact Estimate effort needed to cleanse data Business case One shot batch On-going program realtime/batch Business case Sponsor Roles Technology Change management Organization
The Quality Culture - Process Data Management Lifecycle Establish Policy Guidelines 1. Determine data assets to focus on 2. Understand relationship of data assets 3. Create standard data definitions and business rules, deploy data standards to improve business needs 4. Monitor adherence to policy and communicate 5. Re-evaluate usefulness of data 6. Maintain, optimize or retire
Best practice Håndtering af datakvalitet Fleksibel identitetshåndtering Forstå og løse duplikatposteringer på tværs af datakilder Bygge et samlet overblik over kundebasen ved at udnytte eksisterende applikationer Integreret Data Management Standardisere, verificere og forbedre kundedata, som modtages fra forskellige systemer Forretningsregler sikrer, at data af høj kvalitet forbliver af høj kvalitet Service-Oriented Architecture (SOA) Web services er fundament for realtidsdatamanagement og muliggør hurtigt svar til et foranderligt it-landskab
Gartner recommendation: BI Summit 2009 Organizations should refrain from trying to cleanse data using their own development efforts. Instead, they should redeploy and train developers to capitalize on commercially available toolsets. These toolsets are mature and typically uncover more data issues than custom applications can.
Opfølgende spørgsmål til jer?
Ikke kun teknologi Mennesker Teknologi Processer
Afrunding: Datakvalitetsstrategien 1. Planlægning og vision Profilering af data 2. Prioritering af områder og business case Udvælg et afgrænset område 3. Initiering af kvalitetsprocessen Fokus på Data Stewardship Monitorering og opfølgning på Business Case
Spørgsmål: Michael Nielsen Business Advisor Information Management Division T: +45 70 28 27 01 M: +45 51 38 77 01 Michael.Nielsen@sdk.sas.com SAS Institute Købmagergade 7-9 1150 København K