Dataintegrationsseminar Metadata og dokumentation af ETL-processen v/ Bjørn Lange SDC Udvikling A/S Borupvang 1A 2750 Ballerup
Dataintegrationsseminar Hvem er SDC? SDC er serviceleverandør for en lang række danske og norske pengeinstitutter. Der er p.t. 155 pengeinstitutter tilknyttet. SDC Udvikling A/S er udviklingspartner for SDC s kundegruppe. SDC Udvikling A/S udvikler betalingssystemer og administrative banksystemer for SDCs kunder. Der er p.t. ansat ca. 350 personer i SDC Udvikling A/S. Lidt økonomi: 2004 mio kr. Omsætning Egenkapital SDC Holding (Koncernen) 576,3 472,4 SDC Udvikling 487,2 SDC Drift 311,5
Dataintegrationsseminar SAS 9: Dokumentation og ETL Studio 1. Roller og metadata i applikationsudviklingsprocessen 2. Metadatatyper: Tekniske (hårde) og procesorienterede (bløde) 3. Tekniske detaljer og noter i metadata 4. Integration med datamodelleringsværktøj 5. Impact og lineage analyser
Dataintegrationsseminar Applikationsudvikling: Processen Analyse Arkitektur Programmering Hvorfor? Identificerer forretningsmæssige mål og bindinger Udtænker løsningsmodel og relaterer denne til teknisk praksis Hvordan? Koder system efter gældende praksis, arkitektur/design og analysens krav/mål Hvordan? Primært informationsflow Primært Feedbackflow Rolleindehaverne dokumenterer tanker og anvisninger i forskellige værktøjer til tekstbehandling, flowchart-optegning, datamodellering og programmering
Dataintegrationsseminar Informationsflow i traditionel applikationsudvikling Analyse Arkitektur Programmering SAS-kode, datadefinitioner jobflow og driftsdokumentation Programmer og driftsinstruktioner Design og modeller ERwin-modeller, flowdiagrammer og mails Forretningsmæssige informationer Afviklingsplatform Mails, regneark og tekstdokumenter SAS-kode og jobscripts Metadata Metadata skal skabe sammenhæng mellem tekniske og procesrettede informationer
Dataintegrationsseminar Hvad bruger SDC SAS ETL Studio til? SDC anvender SAS ETL Studio til opdatering af et altomfattende stærkt normaliseret datavarehus (et EDW ) og opdatering af forretningsrettede datamarter (stjernemodeller). SDC s EDW baserer sig på Banking Datawarehouse Model fra IBM SDC er i disse dage ved at lægge sidste hånd på Proof of Concept, for BDW som model med SAS 9 som ETL-værktøj (og SAS 9 klienter som brugeradgang) Vi mangler stadig konkrete erfaringer med SAS 9 som stabil driftsplatform for et EDW og datamarter. Vi har dog erfaringer med SAS 9 som udviklingsplatform, og derigennem med SAS 9s Metadata Repository som container af såvel tekniske som procesrettede metadata.
Tekniske metadata SAS ETL Studio indeholder gode metoder til dokumentation af tekniske metadata. I eksemplet til højre ses beskrivelse af recordlayout på en ekstern fil. Man kan også dokumentere tekniske informationer, som hvor data befinder sig, indlæsningsparametre, recordlængde og andet. Desuden kan man gennem noter skabe adgang til procesdokumentationen.
Eksempler på noter Noter kan være ren tekst, som her, hvor udvikleren har kopieret ordlyden fra et mødereferat.
Eksempler på noter Noter i SAS 9 kan knyttes til multiple strukturerer (filer, tabeller, kolonner processer), fordi noter er defineret som selvstændige entiteter. Det betyder, at den samme note kan knyttes til forskellige tekniske metadata, men kun skrives 1 gang, og evt. senere ændringer slår igennem alle steder. Jeg har endnu ikke fundet en oversigt over, i hvilke strukturer den enkelte note findes. (måske har jeg blot ikke ledt ihærdigt nok)
Eksempler på noter Vi kan f.eks. knytte noter til en specifik kolonne i filen DW05071 Noten åbnes ved højreklik på papir+pensymbolet. Noten indeholder her et link til et Worddokument. Dokumentet kan åbnes ved (dobbelt)klik på linket
Her kigger vi nærmere på en note til en af DB2 - tabellerne i SDC s datavarehus. Bemærk, at noten både kan indeholde tekst (som den mail der er kopieret ind) og link til andre metadata. SDC s procesorienterede og tekniske metadata er bundet sammen, ved at indlejre link til en HTML-version af vores datamodel (ERwin). MEN Fysisk afhængighed sker gennem import af datamodellen til SAS ETL studio. Notelink kan kun binde dokumentation sammen!
Når man dobbeltklikker på linket i ETL-noten, vil man åbne det linkede dokument i et vindue, som vist her: Vi har valgt at lægge ERwin datamodellerne ud på nettet, så alle udviklere altid har adgang til datamodellen.
Her ses datamodellen som ER-diagram Man skal kende datamodellering på udviklerniveau, for at kunne høste et fornuftigt fra HTML-versionerne af de modeller som vi p.t. har adgang til. Man kan også klikke videre ind på den enkelte tabel
Her har vi klikket os ind på BDW_IDV tabellen, og ser en oversigt over kolonner. Denne oversigt skulle gerne matche den fysiske repræsentation og den dokumentation vi har i vores metadata repository. Koblingen er dog administrativ, og ikke fysisk, så det er op til den ansvarlige person i forvaltningsgruppen at dette også fremover holder stik.
Der findes også en browser-baseret indgang til, SAS 9 s metadata Denne indgang kan benyttes af enhver som har adgang til SDC s metadata (altså også ansatte ude i vores pengeinstitutter) Adgangen leveres som del af SAS 9-pakken og hedder Metadata Explorer. Bemærk dog, at man altid skal logge sig ind til metadataserveren, uanset om man benytter SAS ETL Studio eller Metadata Explorer.
I dette eksempel har vi åbnet en søgefacilitet, søgt efter metadataelementer som indeholder teksten BDW_IDV, og klikket videre til metadata for tabellen BDW_IDV.... BDW_IDV er et meget centralt element i SDC s datavarehus.
Her foretager vi en kombineret impact- og lineage- analyse. Vi ønsker at se hvilke elementer som henter information fra BDW_IDV, og hvor informationer i BDW_IDV stammer fra. For centrale elementer (som BDW_IDV) kan resultatet i browservinduet blive ganske overvældene. Tegningen er så altomfattende, at den reelt er ubrugelig! Der savnes mulighed for at zoome på tegningen eller for at pakke stierne sammen til f.eks. joboversigter. Anbefaling: Benyt SAS ETL Studio til impact- og lineage - analyser.
SAS klienten ETL Studio giver os en anden (og enklere) måde at se afhængighederne til centrale elementer. SAS ETL Studio organiserer afhængighederne i jobs, og brugeren kan selv pakke jobbene for at skabe overblik. I eksemplet her har vi kun et enkelt job udpakket, og inde i dette job er det kun en tråd vi har pakket helt ud, frem til den resulterende tabel (BDW_IP_ID).
Dataintegrationsseminar Det har SAS 9 givet os: 1. Vi kan binde tekniske og procesorienterede metadata sammen 2. Koblingen til procesorienterede metadata kan genbruges 3. Alle brugere af metadata kan se disse via en Internet Browser 4. Vi kan se afhængighederne til såvel data som processer Det savner vi i SAS 9: 1. En fælles (logisk og fysisk) binding til datamodeller (ERwin) 2. Oversigt over alle elementer som har en note tilknyttet 3. Metadata Explorer (browser) skal håndtere afhængigheder bedre 4. Versionsstyring der sammenknytter metadata data og programmer
Dataintegrationsseminar Bjørn Lange SDC Udvikling A/S Borupvang 1A 2750 Ballerup