Data Warehouse Knowledge is Power - Sir Francis Bacon -



Relaterede dokumenter
Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125

DM08115 DATABASE

Information Integration

"A subject-oriented, integrated, time-variant, and non-volatile collection of data in support of managements dicision-making process.

DM08114 Database: OLAP

Best practice. Forudsætninger for et godt data warehouse SAS Data Integration Studio

Kursusoversigt for juli 2007 januar 2008

Database optimering - Indeks

SOL - et Statistik Og Ledelsesrapporteringssystem til TDC Mobil Analyse og Økonomi

Procesbeskrivelse - Webprogrammering

Databaser Obligatorisk opgave 1

Object-Relational Mapping

Database "opbygning"

Virksomhedens informationssystem. Det elektroniske kontor. Elektronisk dokumenthåndtering Samfundet. Systembeskrivelse II IT og økonomi

Modernisering af BI miljø i Codan v.h.a. SAS V9

Klargør dine data til business intelligence og forretningsanalyse med Master Data Management

Microsoft Dynamics CRM 2013

Business Intelligence brug data til at gøre din virksomhed smart

Praktisk information Tilmelding Du tilmelder dig telefonisk på eller på:

! Kia Dahlen. Kamilla Klein, Pia Jensen og Maria Korshøj Andersen.

Kursuskalender Savner du et kursus på listen, er du meget velkommen til at kontakte os på mail:

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

Hvorfor starte fra bunden?

Database. lv/

Databasesystemer. Databaser, efterår Troels Andreasen. Efterår 2002

I Windows fil struktur er der følgende ting Drev, Mapper, Filer og Genveje.

Appendiks - Speciale ITU 2002 Offline XML Datavarehus. Figuroversigt. Afsnit 1 Figur 1.1 Fiktiva s nuværende datastruktur

Hjælp mig med at arbejde med mine kundedata (Customer Intelligence)

Gruppe 1 Cand. merc. økonomistyring og informatik

OLAP and SAS Tøger G. Nørgaard Cand.scient.dat, Consultant SAS Institute, PS Public Division. Copyright 2003, SAS Institute Inc. All rights reserved.

Business intelligence til it-medarbejdere

SAS øger værdien af dit SAP-system

Vejledning udvidelse af datagrundlag i LDV og Power BI

Database. Pr jekt. Hold CLmul-a14e Gruppe 3 3. semester Vejledere: Tue Becher Ivan R. Frederiksen

Re-tail Retail. Data-driven retail 6. februar 2014 Thomas Black-Petersen // 1

Skriftlig Eksamen Diskret Matematik (DM528)

Ernst Kuburovic 3 STEP IT

Fordele og ulemper ved ERP-systemer

! Kia Dahlen. Kamilla Klein, Pia Jensen og Maria Korshøj Andersen.

Region Nordjylland. Hvordan skaber et datavarehus værdi i en regional forvaltning? Juni 2015

INDHOLDSFORTEGNELSE. INDLEDNING... 7 Kristian Langborg-Hansen. KAPITEL ET... 9 I gang med App Inventor. KAPITEL TO...

WEBINAR OM DREAM WEBINAR OM DREAM

Workshoppens indhold. 1. Hvad kommer vi fra? Og hvor skal vi hen?

Fang Prikkerne. Introduktion. Scratch

Vejledning: Anvendelse af kuber på SLS-data fra LDV i Excel Målgruppe: Slutbruger

Finn Gilling The Human Decision/ Gilling September Insights Danmark 2012 Hotel Scandic Aarhus City

ProMark workforce management ProJob

Indstillinger af ØS LDV

PHP 3 UGERS FORLØB PHP, MYSQL & SQL

DEN GODE MODEL: OPSAMLING PÅ MODELLERINGSOPGAVER OG INTRO TIL MODELLERINGSALTERNATIVER

Database kursus Forår 2013

Views etc. Databaser

DYNAMICS AX 2012 FÅ OVERBLIK OG SE NYE MULIGHEDER BUSINESS PRODUCTIVITY

Hvad er fremtiden for internettet?

Business Intelligence

Visualisering. Kan opdeles i 2 dele Præsentations værktøj Portal

Softwareløsninger til dit netværk

Positionssystemet, 2 3 uger (7 lektioner), 2. klasse.

Ydelseskatalog. Tak fordi du downloadede dette dokument vores ydelseskatalog. Vi hjælper dig helt i mål! Ydelseskatalog. Indhold

Demonstration af SAS Activity-Based Management v7.1

MICROSOFT C5 LIGHT MICROSOFT C5. FÅ ET lettilgængeligt ØKONOMISYSTEM, DER KAN VOKSE MED DIN VIRKSOMHED

Erfaringer med Information Management. Charlottehaven Jens Nørgaard, NNIT A/S

Skriftlig opgave. Designtanker i database-nære systemer

Curriculum Vitae: Jeg kan hurtigt overskue komplekse systemer og finde brugbare løsninger på selv vanskelige problemer.

Business Case for Business Intelligence. Motivation. Trin 1 Den brændende platform eller det udækkede forretningsbehov

Dokumentering af umbraco artikeleksport:

Din digitale samarbejdsplatform

Kreditscoring og kryds/opsalg - hurtig og fair kundebehandling. SAS Forum 3. juni 2010

Kort sagt: succes med netdating.

Delphi og Databaser for begyndere

Forskningsnetkonference

Curriculum Vitae: Jeg kan hurtigt overskue forretningers ønsker samt komplekse systemer og finde overskuelige løsninger på selv vanskelige problemer.

Indholdsfortegnelse for kapitel 1

Databasesystemer fra forskellige synsvinkler

Database for udviklere. Jan Lund Madsen PBS10107

BLACK FRIDAY Årets største handelsdag

Data lagring. 2. iteration (implement backend)

IT OG LOGISTIK. It som salgsværktøj i butikken 2. It som forretningsunderstøttelse 3. Hjemmesiden 4. HTH er ordreproducerende 5

Langtved Data A/S Nyhedsbrev

Vejledning: Anvendelse af kuber på NS-data fra LDV i Excel Målgruppe: Slutbruger

Optimer værdien af dine analystiske instrumenter. Lone Vejgaard, Q-Interline

BLACK FRIDAY Årets største handelsdag

15 Online Marketingtips i Martin Skøtt, Online Marketingchef,

ECCO. Informationsteknologi Niveau: C. Casebaseret eksamen juni 2012

Etablering af et Ledelsescockpit... og som understøtter forretningsplatformen!

Læringsprogram. Christian Hjortshøj, Bjarke Sørensen og Asger Hansen Vejleder: Karl G Bjarnason Fag: Programmering Klasse 3.4

IMADAs Fagråd. Evalueringsrapport. Matematik & Datalogi. 2. juni Kontaktpersoner

Transkript:

Data Warehouse 4. sem. datamatiker uddannelse Tietgen Skolen Odense Skrevet af Troels Markvard Andersen (DM08228) Knowledge is Power - Sir Francis Bacon - Troels Markvard Andersen Side 1 af 8

Forord / Indledning Information er en utrolig værdifuld vare for alle virksomhed. Derfor bør disse informationer opbevares korrekt og let tilgængeligt. Men når mængden af data bliver stor, bliver det mere svært at udvinding brugbare informationer. Med opfindelsen af computer og særdeles databaser, er mængden af data at virksomheder gemmer eksploderet. Hvilket har givet fødsel til Data Warehouses, men: 1. Hvad er Data Warehouses? 2. Hvordan fungere Data Warehouses? 3. Hvad kan Data Warehouses bruges til? Dette er hvad jeg vil prøve at besvare i denne opgave. Denne opgave er opdelt i fire dele. Den først del handler om hvad Data Warehouses er, med en beskrivelse af de to mest kendte typer. Anden del handler om hvordan de fungere, med lidt ekstra fokus på Kimballs tilgang til Datamarts Data Design. Den 3. del vil omhandle hvad de kan bruges til. Den sidste del vil afrunde rapporten. Hvad er Data Warehouses? Den nemmest og bedste beskrivelse er, at tage udgangspunkt i hvad en normal database er, og sammenligne den med Data Warehouses. En almindelig database bruger OnLine Transaction Processing (OLTP), mens et Data Warehouse bruger OnLine Analytical Processing (OLAP). Forskellen ligger i at OLTP er lavet til dataindtastning og transaktion forarbejdning, mens OLAP er lavet til analytisk forarbejdning af dataene. Det vil sige i en almindelig database laver man Create, Read, Update og Delete (CRUD) operationer, mens i et Data Warehouse er der næsten kun CR operationer. Skal dog forstås med det forbehold, at der også sker OD operationer, men næsten aldrig i stam dataene. En anden vigtig ting til forståelsen af hvad et Data Warehouse er, er hvad det bruges til. Databaser bruges til at lager data og arbejde med dem. Data Warehouse bruges til at analysere data. Data Warehouses opsamler sine dataene fra andre databaser, mens databaser opsamler data fra Input kilder (bruger, målere, scanner og med flere). Mere om dette under Hvad bruges de til?. Troels Markvard Andersen Side 2 af 8

Data Warehouses omtales også nogle gange som Enterprise Data Warehouse. Dette skyldes at navnet Warehouse kan virke misvisende. Enterprise giver en bedre forståelse af at det er hele virksomhedens data man snakker om der gemmes samme sted, og måske endda at det skal bruges til noget vigtig forretningsmæssigt, og der ikke bare er tale om et data depot. Hvordan fungere Data Warehouses? Data Warehouses funger på den måde, at de indsamler data fra alle de andre data kilder i virksomheden. Derefter bearbejdes de, så at man nemt kan lave analyse på dataene. Herefter kan man lave OLAP eller Data Mining. Når man hører dette første gang, kan man nemt komme til at tror at det er en nem opgave. Dette er dog langt fra virkeligheden. Hvis man kigger på denne proces kan det ses at den er delt op i flere trin. Først er indsamling af data til Databaserne og liggende. Derefter kommer Extract, Transform og Load (ETL) som sørger for at dataene har sammen Ganularity. Til sidst kan man lave OLAP og Data Mining. Før man kan alt dette, skal dog selve Data Warehouse et og dets Datamarts bygges. Datamarts er en delmængde af Data Warehouse ets data, der skal bruges til en analyse. Der findes dog to tilgangsvikler på hvordan man laver disse. I Bill Inmons tilgang bygger man selve Data Troels Markvard Andersen Side 3 af 8

Warehouse et først, og efter dens Datamarts til de forskellige analyser. I Ralph Kimballs tilgang bygger man Datamarts først, som så tilsammen udgør Data Warehouse et. Bill Inmon: Top-Down tilgang Database strukturen er den relationelle model (tredje normal form: 3NF) Nemmere at lave nye og ændre Datamarts Ralph Kimball: Botton-Up tilgang Database strukturen er den multi-dimension model (Star-schema og Snowflakes) Er iterative, og derfor kan del elementerne hurtigere tages i brug Det ser ud til at Kimballs tilgang er ved at udkæmpe Inmons, selvom de begge stadig har stærke tilhængere. Inmons data struktur kendes fra også almindelige databaser. Star-schema og Snowflakes Star-schema Snowflakes-schema I Kimballs tilgang bruger man en data struktur der kaldes den dimensionale model. I denne kan data mønsteret ses som vist i Star-schema. Den består af både Fact Tables og Dimension Tables. Fra de indsamlet data, erstattes nøglerne fra OLTP systemerne, med naturlige nøgler. Herved opnås at Data Warehouse et er uafhængighed af OLTP databaserne. Dimensional modellen består altid af Fact Tables (measures) og Dimension Tables (context). Facts er næsten altid numeriske, mens dimensionerne er hierarkier eller ting der beskriver Facts. For eksempel er omsætning et Fact, og Store#, Time# og Region# er dimensioner der fortæller noget om dette Fact. Der er meget Troels Markvard Andersen Side 4 af 8

almindeligt at dimensioner kan genbruges til andre Datamarts og derved andre analyser. Dimensioner i Star-schemas er ikke normaliseret, hvilket de er i Snowflakes-schemas. At normalisere gør data strukturen mere kompleks, hastigheden kan blive langsommer pga. de mange joins og plads besparelsen er ofte minimal. For mange aspekter i Data Warehouses er plads ikke fokus, men ydeevne. Når man skal designe Datamarts ved hjælp af dimensions modellen, bruges Kimball tilgang 4 trin til dette: 1 Choose the business process 2 Declare the Grain 3 Identity the dimensions 4 Identify the Fact Der findes også en hybrid model mellem Inmon og Kimballs tilgange. Den har ikke nogle af de tos ulemper i så stor grad, men heller ikke deres fordele i samme omfang. Hvad bruges Data Warehouses til? Data Warehouses funktion er at skabe brugbare vide til virksomheden, hvilket de gør på to måder. Den ene er OLAP som der bruges på at kigge bagud og på nuet. Data Mining er den anden gruppe, som bruges til at prøve at kigge fremad. OLAP er igen delt op i flere typer. OLAP og Data Mining tilsammen udgør Business Intelligence Technologies. Troels Markvard Andersen Side 5 af 8

OLAP OLAP kan også beskrives som et Slicing and Dicing værktøj, som er godt til at svare på hvem og hvad, men det er dens evne til at kunne svare på hvorfor, som gør den speciel. Nogle af de ting OLAP bruges til er: Budgetter, rapportering, salgs analyse, produktions planlægning, løn og mange andre ting. OLAP opdeles efter deres arkitektur. MOLAP - Multidimensional OLAP Give en rigtig god performance, på bekostning af kompleksitet og fleksibelt. Den bruger den Dimensionale Model, i et Multi Dimensional Database Management Systems, til at bearbejde dataene og analysere dem. Den adskiller sig meget fra den relationelle måde. Er meget afhængig af sin sammenføring med brugerprogrammerne. ROLAP Relationel OLAP Giver knap så god performance på grund af brugen af den relationelle model. På den anden side tager den mindre plads, og minder mere om normale relationelle databaser. Kan bruges sammen med SQL. Troels Markvard Andersen Side 6 af 8

HOLAP Hybrid OLAP Er en sammenblanding af ROLAP og MOLAP, hvor man har noget data i relationelle tabeller og noget i Multi Dimensional Tables. DOLAP Desktop OLAP I stedet for at OLAP serveren laver beregningerne, sender man dataene ud til brugerne. Denne metode er bedst hvis data mængden brugeren anvender ikke er for stor, og brugeren skal bruge det samme data flere gange. Data Mining Kunsten at kunne spå om fremtiden, har altid været højt værdsat. Data Minings funktion er at prøve at spå om fremtiden, ved hjælp af de data der er allerede indsamlet. Dette gøres ved at bruge en masse forskellige matematiske algoritmer til at analyse dataene. Disse forsøger at finde mønster og tendenser i dataene. Man er dog nød til at hjælpe/træne programmet til at lære at finde dem, og hvordan det bliver bedre til at spå. Troels Markvard Andersen Side 7 af 8

Afrunding Data Warehouses er ikke nogen billige eller nemt redskab for en virksomhed at anskaffe, men belønning kan være stor, særdeles ved hjælp af Data Mining. Data Warehouses indeholder nemt milliarder af tupler. Disse kommer sandsynligt fra forskellige lande, med forskellige arbejdsgange. Så alene processen af at få lavet ETL, er ikke nogen nem opgave. Det er et af de mange område man kunne skrive mere om i forhold til Data Warehouses. Alle disse data kan parres på utroligt mange måder, så at man kan få en masse viden. Denne viden er dog ikke meget værd, uden at den omsættes til brugbare viden. Det er Data Warehouses opgave, at levere den vide, men der er dog stadig brug for mennesker, til at omsætte det til brugbare viden, og derved penge tilbage til virksomheden. Jeg har valgt at bruge Kimballs data struktur som udgangs punkt til den mundtlige eksame, da jeg mener at den både nemt kan relateres til resten af vores pensum, og at det er et af hovedområderne indenfor Data Warehouses. Skrevet af Troels Markvard Andersen Troels Markvard Andersen Side 8 af 8