DM08114 Database: OLAP 8.6.2010



Relaterede dokumenter
DM08115 DATABASE

Tietgenskolen - Nørrehus. Data warehouse. Database for udviklere. Thor Harloff Lynggaard DM08125

Data Warehouse Knowledge is Power - Sir Francis Bacon -

Information Integration

SOL - et Statistik Og Ledelsesrapporteringssystem til TDC Mobil Analyse og Økonomi

Vejledning: Anvendelse af kuber på NS-data fra LDV i Excel Målgruppe: Slutbruger

Kursuskalender Savner du et kursus på listen, er du meget velkommen til at kontakte os på mail:

"A subject-oriented, integrated, time-variant, and non-volatile collection of data in support of managements dicision-making process.

Virksomhedens informationssystem. Det elektroniske kontor. Elektronisk dokumenthåndtering Samfundet. Systembeskrivelse II IT og økonomi

SQL ny front-end

Delphi og Databaser for begyndere

Vejledning: Anvendelse af kuber på SLS data fra ØS LDV. Målgruppe: Slutbruger

Vejledning: Anvendelse af kuber på SLS-data fra LDV i Excel Målgruppe: Slutbruger

Diagrammer visualiser dine tal

DYNAMICS AX 2012 FÅ OVERBLIK OG SE NYE MULIGHEDER BUSINESS PRODUCTIVITY

Langtved Data A/S Nyhedsbrev

Region Nordjylland. Hvordan skaber et datavarehus værdi i en regional forvaltning? Juni 2015

SharePoint Business Intelligence

Forecasting - MED SIKKER GRUND UNDER FØDDERNE

Appendiks - Speciale ITU 2002 Offline XML Datavarehus. Figuroversigt. Afsnit 1 Figur 1.1 Fiktiva s nuværende datastruktur

Microsoft Executive Circle Arken 25 marts 2004 Økonomi & ledelsesrapportering hos Rambøll Danmark

Best practice. Forudsætninger for et godt data warehouse SAS Data Integration Studio

Business Intelligence brug data til at gøre din virksomhed smart

Anvend dine SAS -programmer som SAS Stored Processes

Fig. 1 Billede af de 60 terninger på mit skrivebord

Agenda. Typiske udfordringer. Begreber omkring recovery. Forretningens krav. Metoder/muligheder. Recovery med TSM. Nye teknologier

Kvalitetsseminar. At sætte en standard, der skaber værdi. Copyright 2006, SAS Institute Inc. All rights reserved.

Den digitale virkelighed

Import af rekursivt (parent-child) hierarki i Palo

Data repository løsningsbeskrivelse

Database optimering - Indeks

1:1 Kampagne-evaluering i Danske Bank

Velkommen SAS Forum 2010

Kursusoversigt for juli 2007 januar 2008

MAPINFO PROFESSIONAL V11.5

Hassansalem.dk/delpin User: admin Pass: admin BACKEND

PBAS V.9 Brugervejledning i indmelding

Computerens - Anatomi

Softwareløsninger til dit netværk

Simulering af stokastiske fænomener med Excel

Hvorfor starte fra bunden?

PHP Quick Teknisk Ordbog

APEX i Praksis Martin B. Nielsen. Navn. MBNDATA Emne

Dansk CMS sendt op i skyen med Windows Azure på kun en uge Vidste ikke om C1 ville virke på Azure

Visualisering. Kan opdeles i 2 dele Præsentations værktøj Portal

AARHUS UNIVERSITET. Økonomi 17. maj 2016

Vejledning udvidelse af datagrundlag i LDV og Power BI

\ \ Computerens Anatomi / /

Business Intelligence

Skaber nemt og hurtigt overblik over data fra automatiserede anlæg

Måske kender du nogle af de tips og tricks, guiden indeholder, men så bliver du blot bekræftet i, at du gør det rigtige.

HVAD ER VÆRDIEN AF ANALYTICS FOR DIN VIRKSOMHED

Praktisk information Tilmelding Du tilmelder dig telefonisk på eller på:

Hvorfor skal vi bruge objekt orienteret databaser?

Informationsteknologi D Gruppe 16 Opgaver. Gruppe 16. Informationsteknologi D

Opret ODBC datakilde Vejledning

BI FOR NEWBIES. Bliv Business Intelligent med Accobats BI-opslagsværk

De 5 Benspænd. Prophix viser vejen til effektiv økonomistyring

Vejledning i udtræk af input-output data fra Statistikbanken

Hvad er InfoPath? Et program i Microsoft Office System En desktop applikation Platformen for en ny generation af elektroniske formularer

Har det en værdi og hvordan kommer du i gang?

EA3 eller EA Cube rammeværktøjet fremstilles visuelt som en 3-dimensionel terning:

Dynamics AX 2012 (og AX 7) v. Benny Jepsen, Chief Solution Architect, EG A/S

Er du på udkig efter en effektiv, sikker og overkommelig server til en mindre virksomhed?

UC Effektiviseringsprogrammet. Projektgrundlag. Business Intelligence. version 1.2

BILAG. til. Kommissionens delegerede forordning

DETALJERET TRIN-FOR-TRIN GUIDE TIL AT OPDATERE DIN VERSION AF MAMUT BUSINESS SOFTWARE FRA VERSION 8.0 ELLER NYERE

Filer og Mapper. Filer. Mapper

DYNATEAM COURSE MANAGEMENT

Hvorledes kan Business Intelligence påvirke organisationen. København d. 20. november 2013 TDC

Karens lille vejledning til Access

Styr på processerne med Business Intelligence

IT-drift konferencen Big Data know. act. grow.

Mamut Enterprise Status/Analyse

Sådan anvender man Straticator-funktionen Copy Trader Master

4 sekunder. 20 sekunder. 1-3 timer. 14% hurtigere. 5-6% bagud. 30/70 split. Vejen til succes med Hybrid Cloud v/cso, Poul Bærentsen, Atea

Matematik og samfundsfag Gini-koefficienten

HVEM ER JEG? Una Consulting

10 grunde til hvorfor din hjemmeside ikke giver nok kunder!

Side 1. Databaser og SQL. Dagens gang. Databasebegreber. Introduktion til SQL Kap 1-5

1.TILBUD NYT TILBUD 1.1 TRIN FORUDSÆTNINGER

Introduktion til SQL

Vistemmernu. Et webbaseret værktøj udviklet af Programdatateket i Skive. programdatateket@viauc.dk Web:

Sådan logger du ind... 2 Hvilke mapper kan du tilgå... 3 Visning af eksempel af en fil... 5 Sådan deler du en fil... 7 Se hvad du deler med andre...

CRM-system markedet i overblik. April 2011 Peter Ulka, partner HerbertNathan & Co. A/S

SAS Grid Manager få en dirigent til dit SAS-orkester

Mød Microsoft Dynamics 365 for Finance and Operations

Edbassistent, merkonom i regnskab og it.

Forstå brugbarheden af Google Analytics på 10 minutter

Besvarelse af spørgsmål

Velkommen til den nye og forbedrede Dynamicweb 9

Indstillinger af ØS LDV

KURSER INDENFOR SOA, WEB SERVICES OG SEMANTIC WEB

What s Hot 2018 Survey

ER DIT ØKONOMITEAM MED PÅ DEN DIGITALE BØLGE?

Guide til opsætning af Google Analytics Eksisterende kunder Visiolab introduction

Microsoft Dynamics CRM 2013

Microsoft Office 2007 Inspirationsseminar

Hente tabeller til Excel fra ØS LDV

Transkript:

Indhold OLAP... 2 Hvad er OLAP?... 2 Indledning... 2 BusinessIntelligence... 2 DataWareHouse... 2 OLAP Ideologi... 2 Teknologier... 4 ROLAP, MOLAP og HOLAP... 4 Multidimensional DB, DataCubes... 5 Hvad kan OLAP?... 6 Stærke sider... 6 Forskel fra DataWarehouse... 7 Forskel fra Data Mining... 7 What if Hvordan gør OLAP det?... 7 Indeksering... 7 Reducering af redundans... 7 Ikke kun Business Intelligence... 7 Svage sider... 8 OLAP værktøj... 9 Litteraturliste... 10 1 af 1

OLAP Hvad er OLAP? Indledning I overgangen mellem 60 erne og 70 erne startede man i det små med at med at bruge computeren som værktøj til at træffe forretningsbeslutninger. Forretningsanalytikere brugte kategorier som tidsrammer, varer og markeder, hvilket fik systemudviklere til at udvikle platforme hvis elementer svarede til disse kategorier. Igennem tiden har den eksplosive udvikling både samfundsmæssigt og teknologisk ført til det vi i dag kender som Business Intelligence (BI). BI er almen kendt og bliver anset for værende af største betydning for en virksomheds overlevelse. BusinessIntelligence For nogle er BI det sammen som DataWarehouse (DW), for andre er det kontrolpanelet på deres desktop. En generel definition for BI kunne være: alle processer og teknologier der kan hjælpe forretningsfolk til at træffe bedre beslutninger. BI omfatter en bred vifte af tilgange og nye måder at vise og interagere med data på. Enterprise performance management (EPM) Data warehousing (DW) Business reporting, inkl. dashboards og scorecards Predictive analytics og data mining OLAP Hvis man skal definere kernen i BI, så må det være det at arbejde med multidimensionale data (data cubes), og udvinde analytiske svar på hypoteser formuleret som forespørgsler. Det er lige netop dette OLAP gør og er dermed en uundværlig komponent i BI. DataWareHouse Til forskel fra et OLTP system (Online Transaction Processing), som kan producere snapshots af nutidige data ála Hvilke ordre bliver afviklet lige nu, så er Data Warehouse en samling historiske data. DW kan svare på spørgsmål som Hvor mange ordrer kunne vi effektuere i sidste måned, Hvilken måned havde vi den største omsætning eller Hvornår kunne vi effektuere ordre hurtigst. OLAP Ideologi OLAP står for OnLine Analytical Processing, men forkortelsen siger desværre ikke meget om hvad OLAP er. Business Application Research Center BARC et førende uafhængigt software analyse institut har lavet er rapport på nettet om OLAP: BI Verdict. De opdagede temmelig hurtigt at det ikke var alt der var OLAP indeni, selvom der stod OLAP udenpå. For at kunne vurdere forskellige OLAP produkter ved at måle dem op mod et fælles mål, lavede folkene bag BI Verdict deres eget akronym for OLAP som de kalder FASMI, hvilket står for: Fast Analysis of Shared Multidimensional Information. Denne definition beskriver hvad produkterne bør kunne leve op til for at gå under betegnelsen OLAP: 2 af 2

FAST: Langt de fleste analyser bør ikke tage mere end 5 sekunder. De lette ikke mere end 1 sekund og meget få op til 20 sekunder. Et studie i Holland har vist at brugeren formodede forespørgslen ugennemførlig hvis svartiden oversteg 30 sekunder. Også selvom brugeren er blevet advaret om at en forespørgsel vil tage længere tid end normalt, forstyrre det tankegangen og kvaliteten af analysen lider under det. Det er ikke let at nå disse mål specielt ikke hvis der er mange on the fly og ad hoc kalkulationer, men det er her der bliver meldt om det største behov fra brugerne. ANALYSIS: Det skal være muligt at bruge produktet på en intuitiv måde for slutbrugeren. Enten ved hjælp af et regneark eller i producentens eget værktøj. Det er ikke acceptabelt at slutbrugeren skal kunne programmere for at kunne lave nye ad hoc kalkulationer. Der er ikke alle produkter der lever op til dette krav. SHARED: Det bør være muligt at lave sikkerhedsrestriktioner helt ned på celle niveau. Og hvor det er relevant opdaterings låsning på et passende niveau. Det er ikke alle systemer der har behov for at kunne skrive tilbage i en multibruger verden, men det er et stigende behov, så produktet bør kunne håndtere dette på en tidsnær og sikker måde. Dette er en svaghed hos mange OLAP produkter som tit forudsætter at der kun er behov for read only. Endda nogle OLAP produkter der tillader multi brugere og read write har kun grovmaskede sikkerhedsrestriktioner. MULTIDIMENSIONAL: Dette er nøglebehovet i et OLAP produkt. Skal man fortælle hvad OLAP er så er det multidimensionalitet. Der er behov for fuld understøttelse af et multidimensionalt syn på data inklusiv hierarkier og multiple hierarkier, da det er den mest logiske måde man kan analyserer forretninger og organisationer på. Det er ikke nødvendigt at fastlægge en grænse hvor mange dimensioner der bør være i det enkelte produkt fordi det ikke lader til at være her der er indskrænkninger. Der lader til at være mere end nok i de forskellige produkter. Det er ikke vigtigt at specificere hvilken underliggende databaseteknologi der bliver brugt til at stille den multidimesionale database til rådighed med, da det ikke er af signifikant betydning for ydelsen. INFORMATION: er alle data og deraf afledte data der er brug for, lige meget hvor det ligger og hvor relevant det er for applikationen. De forskellige produkter bliver målt på hvor meget data de kan håndterer ikke hvor meget det fylder. Der er store forskelle mellem produkterne. De største OLAP produkter kan håndtere ca. tusinde gange mere data end de mindste. Der bør ligge mange overvejelser omkring anskaffelse til dette punkt. 3 af 3

Teknologier Et OLAP system består af 4 dele: Server: Indeholder databasen og kører beregningsmotoren. Database: OLAP data gemmes multidimensionalt i hvad tit betegnes som cubes (terninger). Beregningsmotor: Styrer aggregeringen af data og optimerer forretningskalkulationer. Kalkulationerne bliver lagret i metadata for systemet og ikke i applikationer eller analyser. Frontend analyse og rapporteringsværktøj: Præsenterer de multidimensionale data for slutbrugeren. Det kan være med brugervenlige værktøjer til analyse som regneark i Excell, webbaserede kontrolpaneler eller interaktive rapporter. ROLAP, MOLAP og HOLAP OLAP kan implementeres på flere måder, nemlig som MOLAP, ROLAP og HOLAP. Forskellen mellem dem går på hvordan data bliver lagret. indeholder en værdi. Med MOLAP bliver data lagret i en multidimensional database. MOLAP Cubes bliver automatisk indekseret baseret på dimensionen og data bliver fundet ved at bruge offset adressering. For at finde en given værdi i en multidimensional database er det kun nødvendigt at bruge addition og multiplikation hvilket er meget hurtige operationer for en computer. MOLAP er bedst til meget tætte data hvor de fleste celler i en terning ROLAP er egnet for data med en lav tæthedsgrad. De lagres i et traditionelt stjerne eller snefnugskema. Data bliver hverken aggregeret eller manipuleret. Man kan bruge SQL for at tilgå dem. ROLAP giver automatisk alle de kendte fordele ved den relationale database såsom høj tilgængelighed, konsistente data, backup og recovery, parallel behandling, og job planlægning. HOLAP er en blanding af de to teknologier, hvor detaildata bliver lagret i den relationale del og aggregeringerne i den multidimensionale del. Man kan så bore sig igennem fra den multidimensionale database til den relationale hvis man har brug for at få fat i detailværdierne. I dag understøtter mange produkter denne form for implementering. 4 af 4

Multidimensional DB, DataCubes I multidimensionale databaser er data organiseret i dimensioner. Disse dimensioner kan refererer til de allerede i indledningen nævnte, nemlig vare, markeder og tid som bruges af forretningsanalytikere. Dimensioner kan defineres som en karakteristik af et dataset. En dimension indeholder medlemmer som deler den samme karakteristik. Medlemmerne bliver ofte opdelt hierarkisk indenfor dimensionen. Dimensionen tid kan repræsentere et år og opdeles i kvartaler som yderligere opdeles i måneder. Vare kan inddeles i varegrupper og markeder i regioner, lande og landsdele. Den hierarkiske inddeling af medlemmerne giver mulighed for at danne aggregater. Dvs. opsummering indenfor fx vare i varegrupper, måneder i kvartaler eller år, og landsdele i lande eller regioner. Hirakierne kaldes parent medlemmer hvis de underopdeles og underopdelingen child medlemmer. Dimensionen tid indeholder således parent hirakiet år, som indeholder child hirakier kvartal, som selv er parent hiraki for child medlemmerne måned. Aggregeringerne er medfødte i hierarkierne. Metadataene (fx kvartal) i et OLAP system indeholder aggregeringsreglerne. Derved er applikationen fri for at holde styr på disse og det sikre at reglerne er konsistente for alle rapporter og analyser. En terning forklarer multidimensionsbegrebet godt. De tre kanter fra et givet hjørne udgør dimensionerne: vare, tid og region. Linjerne der udgår fra kanterne er medlemmer af en dimension og krydser hinanden inden i terningen og kan potentielt indeholde en værdi som kunne være antallet af en bestemt vare, solgt til en bestemt tid, i en bestemt region. 5 af 5

Hvad kan OLAP? OLAP bruges til at gøre dataene i DW tilgængelige på en overskuelig måde for dem der skal bruge disse. Det er ikke nødvendigt med en speciel programmør uddannelse for at kunne bruge OLAP. Derimod skal man fx have indsigt i og forståelse omkring virksomhedens salg, marketing eller hvad der er ens indgangsvinkel til data. Som før nævnt er OLAP en af kerneydelserne i BI og kan bidrage med mange forskellige statistiske ydelser som fx: Analysering af financielle data Budgeting og planlægning Forecasting Afløsning af manuelle regneark Øge hastigheden på data warehousing Forstærke ERP systemet Erstatte brugerdefinerede SQL rapporter Analyse kan ikke blive bedre end data Stærke sider Et nøgleord i OLAP er pålidelige data. Før i tiden brugte analytikere timer på at putte data ind i regneark og få dem i en form så de kunne lave rapporter der kunne bruges. De lavede dusinvis, ja, hundredvis af disse regneark og organisationerne var dybt afhængige af dem. Problemet var bare at der var lige så mange definitioner på noget så simpelt som salg eller profit som der var analytikere. Dette resulterede i det fænomen der blev kendt som regnearkshelvede. For at forstå dybden af dette problem kan forsøge at forestille sig ti analytikere hver med deres regneark med selvudtænkte tabeller og funktioner for forskellige tal. Ingen af disse regneark indeholder de samme data. Dette gør det meget svært for ikke at sige umuligt for ledelsen at finde en fornuftig beslutning som følger tallene, når ingen kan blive enige om de tilgrundliggende tal. Problemet er ikke begrænset til regnearkene. Mange organisationer har flere rapporteringssystemer med hver deres database bag. Når data formerer sig ved knopskydning er det meget svært at afgøre om de er pålidelige. OLAP centraliserer data og kalkulationer og sikre derved at der kun er en kilde til data for alle slutbrugere. Nogle OLAP systemer gemmer alle data i en multidimensional database andre gemmer kun nogen og linker til andre data i en relationel database. Andre OLAP systemer er indlejret i DW systemer og gemmer data multidimensionalt i databasen. Uanset hvordan OLAP er blevet implementeret, det der er vigtigt er at slutbrugeren har tilgang til pålidelige data og kalkulationer som understøtter BI. Tankens hastighed (Speed of tought) også kaldet ad hoc analyser er den alt dominerende styrke ved OLAPsystemer. Fordi der er så mange prækalkulerede resultater kan en analytiker hurtigt følge sine intuitioner og se resultatet af forskellige senarier. Det er her systemet virkelig beviser sin værdi for kunden. En af grundene til et OLAP system er så hurtigt er at, de hierarkiske aggregater er prækalkulerede. Dvs. mange af de værdier, der i en RDB skulle kalkuleres for hver forespørgsel, ligger forkalkuleret i et OLAPsystem. 6 af 6

Forskel fra DataWarehouse DW er en subjekt orienteret relational DB der indeholder historiske data. Den er ReadOnly bortset fra tilføjelse af data fra OLTP systemet. OLAP er også orienteret omkring subjekter som er det der er noteret og opsummeret i cellerne, men hierarkisk og multidimensionalt. MDDB en indeholder historiske + hypotetiske data, som er forskellige projektioner på trenden. Derfor er DB en RW. Forskel fra Data Mining Data Mining er en mere sofistikeret måde at forsøge at aflæse en trend på. Data Minings styrke ligger i at den kan sammenligne udviklinger og komme med mere nuancerede bud på en mulig udvikling/trend. What if Hvordan gør OLAP det? I OLAP DB en kan man bygge en kalkulationsmodel, som er en projektion på fx profit og tab i de næste 5 år. Derpå bygger man forskellige senarier alt efter hvilket behov man har. Senarierne indeholder fx inddata som: Indtægt i år 0 Forventet indtægtsvækstrate CAGR (cumulative average growth rate) Bruttooverskudsmargin i % Ikke driftsomkostninger Skatteprocent på indkomst Dividenderaten Output herfra kan være: Indtægt Brutto margin Operations margin Profit før skat Profit efter skat Tildeling til reserver Indeksering Aggregaterne, altså summerne bliver prekompileret og derefter indekseret. Dimensionerne bliver indekseret (RDB). Redundans Redundans i en MOLAP findes i aggregaterne fordi de alle er beregnede data. Information om dimensionerne ligger i metadata, her er der ingen redundans. Der er meget mere redundans i en ROLAP netop pga. dimensionerne som her ikke ligger i metadata, men den er bevidst og skal ikke vedligeholdes. Ikke kun Business Intelligence Det er muligt at nedfælde alt hvad man kan fatte i tal i OLAP. Fx kan man gemme og analysere på vejrdata, militær data, kriminal data, medicinske data. Mulighederne er uendelige. 7 af 7

Svage sider De prækalkulerede data i et OLAP system er samtidig dets akilleshæl. Jo mere spredte de data er man lægger ind i systemet jo flere værdier skal systemet selv kalkulere. Det kan i ugunstige tilfælde føre til det man kalder Eksploderende databaser De tre typer af multidimensionale data man finder i et OLAP system. Data fra eksterne kilder (den blå cylinder) bliver kopieret til den røde marmorterning, som repræsenterer multidimensionale data; afledt derfra gemte prækalkulerede resultater vist som murstenskassen omkring marmorterningen; og den store trækasse er kalkulerede data pr. forespørgsel, disse bliver kalkulerede ved runtime og ikke gemt i databasen. Man kunne fristes til at tro at forholdet er lidt overdrevet mellem mængden af tilført og beregnet data. Det er IKKE tilfældet, faktisk er det tit modsat, idet det kommer an på hvordan de data man tilfører systemet er. Er det tætte data, forholder de sig nogenlunde som på billedet, men tilfører man mere spredte data over mange dimensioner kan man opleve en til tider underlig, overraskende og ødelæggende opførsel mht. DBvækst. Kurven til højre viser forholdet mellem vækstfaktor og datatætheden. Hvis antallet af dimensioner er over 6 er det ikke svært at komme over en vækstrate på 2 og så kan størrelsen af databasen begynde at tippe og blive ustabil. Imod mange formodninger har fænomenet ikke noget at gøre med databasentypen. Fænomenet forekommer i alle databasetyper. 8 af 8

OLAP værktøj For at visualisere hvordan et værktøj til OLAP kan se ud har jeg valgt et lille et af slagsen på nettet. Det hedder OlapCube og med det kan man fremstille Cuber. Jeg har brugt den sammen med MS AdventureWorks DB Her skal man beslutte hvilke tabeller fra DB en der skal med for at man kan få de ønskede dimensioner. Dernæst skal man oprette dimensionerne. De værdier man ønsker der skal aggregeres på er dem der kommer med i Measures Når det er gjort kan man lave Cuben, som så kan vendes og drejes i et grafisk miljø. Her er det en grafisk repræsentation på salgstallene fra Europa, i året 2003 i produktgruppen Beklædning Det er også muligt at vælge andre grafiske repræsentationer. Her er det et søjlediagram i faldene orden. Man kan også vælge at se sine tal i et excell regneark, hvor man selv kan bruge pivotering og alle de værktøjer der ligger der og på den måde få vist tallene på flere måder. 9 af 9

Litteraturliste The Multidimensional Data Modeling Toolkit: Making Your Business Intelligence Applications Smart with Oracle OLAP (Paperback)by John Paredes Oracle Essbase & Oracle OLAP: The guide to Oracle s Multidimensional Solution ORACLE PRESS Michael Schrader, Dan Vlamis, Mike Nader, Chris Claterbos, Dave Collins, Floyd Conrad, Mitch Campbell http://blogs.technet.com/b/andrew/archive/2007/08/22/olap cubes and multidimensional analysis.aspx http://www.bi verdict.com http://www.executionmih.com/business intelligence/olap data analysis.php http://www.olapcube.com 10 af 10