Avancerede analysemetoder i den offentlige sektor



Relaterede dokumenter
SEMINAR OM COMPLIANCE OG SOCIALT BEDRAGERI Mads Krogh Nielsen, cand.polit., BA Fraud Framework, SAS Institute A/S

Erhvervscase Fur Bryghus

FLIS - FAQ. Indholdsfortegnelse. Senest opdateret oktober 2013

Business Planning & Management software

Intelligent kontrol med SAS

Data mining er ikke længere nice to have men need to have

ØVELSER Statistik, Logistikøkonom Lektion 6: Hypotesetest 1

Agenda. Kort om YouSee. Udfordringer & Vision. Setup & Dataflow. Dynamikken i løsningen. Resultater og femtiden

Afklaringsnotat udbud af hjemmehjælpsydelser i Horsens Kommune

SURVEY. Årsregnskaberne Korrektioner af skattebetaling i forbindelse med revisionen.

Tryghed Under Tag-projekt Fritidsjob i Boligselskabet Fruehøjgaard i Brændgårdsparken, på Fruehøj eller i Fællesbo,

Den nye personaleomsætningsstatistik

Kanalstrategi

TAP-undersøgelsen 2014 Efterskoleforeningens undersøgelse af løn- og pensionsvilkår for efterskolernes teknisk-administrative personale

HØJESTERETS KENDELSE afsagt onsdag den 13. januar 2016

HVAD ER VÆRDIEN AF ANALYTICS FOR DIN VIRKSOMHED

Udsigt til billigere mode på nettet

Børne- og Undervisningsudvalget BUU Alm.del Bilag 51 Offentligt. De socioøkonomiske referencer for grundskolekarakterer 2014

Metoderne sætter fokus på forskellige aspekter af det indsamlede materiale.

Flygtninge er oftere selvstændige end danskere

Helle Ib: Skattesagen kan blive en fuser. Byggeri. Typehuskonge vil bygge sommerhuse

Snak penge med dit barn

Denne artikel tager dig igennem de grundliggende teorier bag ABC Analyzer og introducerer dig til 80/20 Analytics.

Konsekvenser af fedtafgiften

CERTIFICERET SALGSLEDELSE I PRAKSIS (CSP)

SCALING BY DESIGN FUNDAMENTET

Hvordan sætter jeg Analytics på min radar?

FP10. 1 Kan Charlotte få råd til at bo i. 2 Patienter med forbrændinger 3 Antal personer indlagt på. 4 Figurfølger 5 Diofantiske trekanter. lejlighed?

Supply Chain. i små og mellemstore virksomheder. Morten Nyvang Voss


Jobcentrets VITAS business case

Repræsentative undersøgelser før og nu. Peter Linde, Interviewservice

Velkommen til ABC Analyzer! Grundkursusmanual 2 vil introducere dig til ABC Analyzers mere avancerede funktioner, bl.a.:

Til direktionen KFF. Sagsnr Kommissorium for Borgerkontakt og Digital Innovation. Dokumentnr.

Kort om Eksponentielle Sammenhænge

Indhold. Vejledning til import af regneark til Outlook 2010

ISO27001 som ledelsesværktøj en pragmatisk tilgang. Lars Boye, Søborg, den 6. november 2014

Microsoft Dynamics AX 360º Health Check

Casebaseret eksamen Informationsteknologi Niveau E

Erhvervsøkonomi 3. delprøve

Sammendrag af seminaret

KOM-GODT-I-GANG-MED-OFFENTLIG SALG

SWAPS. Af advokat (L) Bodil Christiansen og advokat (H), cand. merc. (R) Tommy V. Christiansen.

Statistik og beregningsudredning

Fremtidens bestyrelsesarbejde

Forord. Annette Nordstrøm Hansen Fmd. for Gymnasieskolernes Lærerforening

Rentefølsomhed og lånefordelingen - Parcelhuse vs ejerlejligheder og København vs Aarhus

Vi er specialister i at afgifte farligt affald

Brancheanalyse Automobilforhandlere august 2011

Vejledning i opsætning af NemHandelsprogrammet

Effekter af studiejob, udveksling og projektorienterede forløb

CONTENT MARKETING. video facebook sociale medier artikler linkedin mål pinterest animation content strategi instagram hjemmeside WEMAKEGRAPHICS

Virksomheder høster de lavthængende digitale frugter

Fleksibilitet i arbejdslivet

DET NYE VÆKSTMARKED BEDSTEFORÆLDREKØB TIL BØRNEBØRN BLIV FIRST MOVER OG FÅ DANMARKS FØRSTE ANALYSE AF BEDSTEFORÆLDREMARKEDET!

IPW eformular Pro. brugervenligt værktøj til udvikling af elektroniske registreringer

Machine Learning til forudsigelser af central KPI

Sådan forhandler du din egen løn. Start-kit til den årlige lønsamtale - eller ansættelsessamtalen

Transkript:

Avancerede analysemetoder i den offentlige sektor

IT Historisk betydning for SKAT Data Warehouse Side 2

Big data i SKAT i dag Elektronisk borgerkontakt Udarbejdelse af standardrapporter til skattemedarbejdere Segmentering af virksomheder efter Business Rules modeller BO, Standardrapporter Automatiserede lister ud fra Data Warehouse Så hvad er egentlig Vores problem? Side 3

Produktionsdata Side 4

Et datawarehouse baseret alene på produktionsdata, og ikke historik Ulemperne Analyser begrænses til, hvilke data vi har her og nu Individuelle erfaringer/fordomme vs. viden Erfaringsbaseret model -> svært at opdage nye mønstre Fordelene Relativt hurtigt at opstille Det er en let beslutningsproces når den på forhånd er godkendt af fagfolk - Men man kan ikke lave forecasting analyser uden tidsrækker

At sætte strøm til eksisterende processer Udfordringen: Vi har hidtil tænkt som en skattemedarbejder Vil det hjælpe denne medarbejder at få en PC? Eller er det hele arbejdsflowet der skal gentænkes? Det er ikke State of the art, kun at spørge kontrolfolkene hvad de plejer at gøre - og så sætte strøm til Side 6

Big Data i 50 år hvorfor ikke Advanced analytics før nu? Data er ordnet som produktionsdata Vi skal bruge tidsrækkedata En Datawarehouse reform Side 7

Hvis Hvad business skal vi rules bidrage baserede med i modeller SKAT? er Vidensbaseret so last year, effektivitet hvad er så det nye sort? Datamining Metode: Omvendt hypotesetestning. Hvad kendetegnede populationen i 2011? Trawler 2011 for forklaringer på adfærden Univariat analyse, Weight of Evidence Modellering af de forklarende variable Least Angle Regression Upscoring fx månedligt, så modellen er frisk Det kræver et stort regneark, en ABT. Og at man kan stille det rigtige spørgsmål

Kom så med benefits.. Med den rette datastruktur kan vi lave: Forescasting forudse hændelser, fx Konkurser Scoringsmodeller rangere / segmentere, fx dårlige betalere Next best products se mønstre i adfærd, fx kanalstrategien SNA analysere sociale netværk, fx uheldige revisionsfirmaer Side 9

Forecasting analysens formål: At lave data om til information At målrette services til kunderne og forbedre deres efterrettelighed At gøre projekterne i stand til at gøre bedre brug af sine data og at levere en forbedret forståelse af skatteyderne Vidensbaserede projekter, forudsigelsesmodeller, segmentering, vejrudsigter, etc. med data fra SKAT eller andre kilder.

Eksempel på en forecasting analyse i SKAT Kan vi forudse konkurser? Side 11

Målet Side 12

Regler Side 13

..ikke en and Side 14

Side 15

Ikke en and Side 16

Det er bedre når man kombinerer reglerne + + = Side 17

Men hvor er ænderne? Side 18

Nogle af udfordringerne: Målene er vigtige Er det konkursen vi skal forudsige, eller er det betalingsstandsningen? Det tager lang tid at finde frem til de rigtige variable vi skal kigge på. Forretningsforståelse er vigtigt. Regler der virker/ ikke virker. Datakvalitet! Vores data er lavet til produktionssystemer. Ikke til statistik. Side 19

Hjælp til at finde ænderne Side 20

Som i en bank: Sandsynligheden for at et lån ikke bliver betalt, baseret på kundens profil og profilerne på sager der er fejlet i fortiden. I vores case var det sandsynligheden for at selskabet gik konkurs givet profilen og profilerne på de selskaber der allerede var gået konkurs tidligere Side 21

Direktøren er tidligere gået konkurs 0,7 0,6 0,5 0,4 0,3 0,2 Direktøren er aldrig gået konkurs Direktøren er tidligere gået konkurs 0,1 0-0,1-0,2 Direktøren er aldrig gået konkurs Direktøren er tidligere gået konkurs KONKURSRYTTER_DIREKT n set1 set0 perc woe iv cumiv Direktøren er aldrig gået konkurs 197616 1800 195816 0,8751-0,1163 0,011187 0,011187 Direktøren er tidligere gået konkurs 28205 508 27697 0,1249 0,57449 0,055259 0,066445

Stigning i gældstrend over de sidste 4 år 5 woe 4 3 2 1 woe 0-1 1 Gældtrend4år < 5407.5 2 Gældtrend4år >= 5407 and < 31070 3 Gældtrend4år >= 31070 and < 71873 4 Gældtrend4år >= 71873 and < 163610 5 Gældtrend4år >= 163610-2 variable GAELDTREND_4_AAR_GRU n set1 set0 perc woe iv cumiv GAELDTREND_4_AAR_GRU 1 Gældtrend4år < 5407.5 210018 799 209219 0,93002-0,99469 0,586728 0,586728 GAELDTREND_4_AAR_GRU 2 Gældtrend4år >= 5407 and < 31070 9757 429 9328 0,043207 1,493769 0,215314 0,802042 GAELDTREND_4_AAR_GRU 3 Gældtrend4år >= 31070 and < 71873 3174 318 2856 0,014055 2,377962 0,297254 1,099297 GAELDTREND_4_AAR_GRU 4 Gældtrend4år >= 71873 and < 163610 1629 358 1271 0,007214 3,306062 0,494012 1,593309 GAELDTREND_4_AAR_GRU 5 Gældtrend4år >= 163610 1243 404 839 0,005504 3,842292 0,658145 2,251454

Revisorforheholdskombinationer over de sidste 3 år. 1,4 1,2 1 0,8 0,6 0,4 Series1 0,2 0-0,2-0-0-0 -0-0-1-0-1-0 -0-1-1-1-0-0 -1-0-1-1-1-0 -1-1-1-0,4-0,6 REVISORFORBEHOLDSMON n set1 set0 perc woe iv cumiv -0-0-0 171145 1208 169937 0,757879-0,37337 0,088453 0,088453-0-0-1 17385 347 17038 0,076986 0,679212 0,050342 0,138796-0-1-0 6065 142 5923 0,026858 0,842317 0,029503 0,168298-0-1-1 11273 200 11073 0,04992 0,559141 0,020752 0,18905-1-0-0 4772 71 4701 0,021132 0,380238 0,0037 0,19275-1-0-1 2073 40 2033 0,00918 0,6447 0,005309 0,198059-1-1-0 3384 117 3267 0,014985 1,243635 0,044866 0,242926-1-1-1 9724 183 9541 0,043061 0,619221 0,022665 0,265591

Procent konkurser i de 20 risikogrupper 80 % Bankrupt 70 60 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Så træner vi assistenten Side 26

Modellens lift chart selskaber i 2009 Side 27

Konkursscoringens variable Vidensbaseret metode! Side 28

??? Side 29

Hvilke resultater har vi oplevet? Når vores model har sorteret bunken af selskaber fra 2009.. 70% 96%..Finder den 96 % af konkurserne i de 16 % der ligger øverst.. og den finder hele 70 % af konkurserne i de øverste 4 % af sorteringsbunken.. Side 30

Lovgivning And Model En skatterevisor i marken.. Side 31

Avanceret analyse i SKAT 1. EFI scoringsmodel til scoring af dårlige betalere 2. Konkursmodellen forecaste konkurser 3. FF model Forecaste manglende angivelser 4. Segmenteringsscore baseret på compliance 5. Understøtte kanalstrategien igennem forecasts på kundekontakten både I telefonslusen og brevskrivningen. 6. Text mining til identifikation af nordisk arbejdskraft I DK

Erkendte udfordringer med implementering af avancerede analyser Dataanalysefasen tager 85% af tidsforbruget kan næsten ikke overvurderes Husk ETL folk i data warehouse gruppen. Hvis man kan forbedre datakvaliteten med 30%, vil man forbedre modellens forklaringsevne med 30% Target (anden) skal vælges meget omhyggeligt, og det skal gøres sammen med forretningen. En model der sigter efter forkert mål vil aldrig opleves som en succes. Vær meget omhyggelig med at afstemme forventningerne til produktet med forretningen og ledelsen. Et sammensat team af statistikere og forretningsfagfolk helst med datakendskab er meget effektivt. Multivariat modellering: Meget værdifuldt at bruge (eksterne) eksperter første gang. Denne fase er meget erfaringsbaseret. Sørg for at det er en del af projektbeskrivelsen, at viden overleveres til organisationen. Implementering: Fra starten skal ejerne med i projektet Opstille validerings- og monitorierings procedurer af modellen Side 33

..og så mangler vi nogle stærkere software pakker med bedre grafisk præsentation ;) Side 34

Avancerede analysemetoder i den offentlige sektor mads.krogh.nielsen@skat.dk