Avancerede analysemetoder i den offentlige sektor
IT Historisk betydning for SKAT Data Warehouse Side 2
Big data i SKAT i dag Elektronisk borgerkontakt Udarbejdelse af standardrapporter til skattemedarbejdere Segmentering af virksomheder efter Business Rules modeller BO, Standardrapporter Automatiserede lister ud fra Data Warehouse Så hvad er egentlig Vores problem? Side 3
Produktionsdata Side 4
Et datawarehouse baseret alene på produktionsdata, og ikke historik Ulemperne Analyser begrænses til, hvilke data vi har her og nu Individuelle erfaringer/fordomme vs. viden Erfaringsbaseret model -> svært at opdage nye mønstre Fordelene Relativt hurtigt at opstille Det er en let beslutningsproces når den på forhånd er godkendt af fagfolk - Men man kan ikke lave forecasting analyser uden tidsrækker
At sætte strøm til eksisterende processer Udfordringen: Vi har hidtil tænkt som en skattemedarbejder Vil det hjælpe denne medarbejder at få en PC? Eller er det hele arbejdsflowet der skal gentænkes? Det er ikke State of the art, kun at spørge kontrolfolkene hvad de plejer at gøre - og så sætte strøm til Side 6
Big Data i 50 år hvorfor ikke Advanced analytics før nu? Data er ordnet som produktionsdata Vi skal bruge tidsrækkedata En Datawarehouse reform Side 7
Hvis Hvad business skal vi rules bidrage baserede med i modeller SKAT? er Vidensbaseret so last year, effektivitet hvad er så det nye sort? Datamining Metode: Omvendt hypotesetestning. Hvad kendetegnede populationen i 2011? Trawler 2011 for forklaringer på adfærden Univariat analyse, Weight of Evidence Modellering af de forklarende variable Least Angle Regression Upscoring fx månedligt, så modellen er frisk Det kræver et stort regneark, en ABT. Og at man kan stille det rigtige spørgsmål
Kom så med benefits.. Med den rette datastruktur kan vi lave: Forescasting forudse hændelser, fx Konkurser Scoringsmodeller rangere / segmentere, fx dårlige betalere Next best products se mønstre i adfærd, fx kanalstrategien SNA analysere sociale netværk, fx uheldige revisionsfirmaer Side 9
Forecasting analysens formål: At lave data om til information At målrette services til kunderne og forbedre deres efterrettelighed At gøre projekterne i stand til at gøre bedre brug af sine data og at levere en forbedret forståelse af skatteyderne Vidensbaserede projekter, forudsigelsesmodeller, segmentering, vejrudsigter, etc. med data fra SKAT eller andre kilder.
Eksempel på en forecasting analyse i SKAT Kan vi forudse konkurser? Side 11
Målet Side 12
Regler Side 13
..ikke en and Side 14
Side 15
Ikke en and Side 16
Det er bedre når man kombinerer reglerne + + = Side 17
Men hvor er ænderne? Side 18
Nogle af udfordringerne: Målene er vigtige Er det konkursen vi skal forudsige, eller er det betalingsstandsningen? Det tager lang tid at finde frem til de rigtige variable vi skal kigge på. Forretningsforståelse er vigtigt. Regler der virker/ ikke virker. Datakvalitet! Vores data er lavet til produktionssystemer. Ikke til statistik. Side 19
Hjælp til at finde ænderne Side 20
Som i en bank: Sandsynligheden for at et lån ikke bliver betalt, baseret på kundens profil og profilerne på sager der er fejlet i fortiden. I vores case var det sandsynligheden for at selskabet gik konkurs givet profilen og profilerne på de selskaber der allerede var gået konkurs tidligere Side 21
Direktøren er tidligere gået konkurs 0,7 0,6 0,5 0,4 0,3 0,2 Direktøren er aldrig gået konkurs Direktøren er tidligere gået konkurs 0,1 0-0,1-0,2 Direktøren er aldrig gået konkurs Direktøren er tidligere gået konkurs KONKURSRYTTER_DIREKT n set1 set0 perc woe iv cumiv Direktøren er aldrig gået konkurs 197616 1800 195816 0,8751-0,1163 0,011187 0,011187 Direktøren er tidligere gået konkurs 28205 508 27697 0,1249 0,57449 0,055259 0,066445
Stigning i gældstrend over de sidste 4 år 5 woe 4 3 2 1 woe 0-1 1 Gældtrend4år < 5407.5 2 Gældtrend4år >= 5407 and < 31070 3 Gældtrend4år >= 31070 and < 71873 4 Gældtrend4år >= 71873 and < 163610 5 Gældtrend4år >= 163610-2 variable GAELDTREND_4_AAR_GRU n set1 set0 perc woe iv cumiv GAELDTREND_4_AAR_GRU 1 Gældtrend4år < 5407.5 210018 799 209219 0,93002-0,99469 0,586728 0,586728 GAELDTREND_4_AAR_GRU 2 Gældtrend4år >= 5407 and < 31070 9757 429 9328 0,043207 1,493769 0,215314 0,802042 GAELDTREND_4_AAR_GRU 3 Gældtrend4år >= 31070 and < 71873 3174 318 2856 0,014055 2,377962 0,297254 1,099297 GAELDTREND_4_AAR_GRU 4 Gældtrend4år >= 71873 and < 163610 1629 358 1271 0,007214 3,306062 0,494012 1,593309 GAELDTREND_4_AAR_GRU 5 Gældtrend4år >= 163610 1243 404 839 0,005504 3,842292 0,658145 2,251454
Revisorforheholdskombinationer over de sidste 3 år. 1,4 1,2 1 0,8 0,6 0,4 Series1 0,2 0-0,2-0-0-0 -0-0-1-0-1-0 -0-1-1-1-0-0 -1-0-1-1-1-0 -1-1-1-0,4-0,6 REVISORFORBEHOLDSMON n set1 set0 perc woe iv cumiv -0-0-0 171145 1208 169937 0,757879-0,37337 0,088453 0,088453-0-0-1 17385 347 17038 0,076986 0,679212 0,050342 0,138796-0-1-0 6065 142 5923 0,026858 0,842317 0,029503 0,168298-0-1-1 11273 200 11073 0,04992 0,559141 0,020752 0,18905-1-0-0 4772 71 4701 0,021132 0,380238 0,0037 0,19275-1-0-1 2073 40 2033 0,00918 0,6447 0,005309 0,198059-1-1-0 3384 117 3267 0,014985 1,243635 0,044866 0,242926-1-1-1 9724 183 9541 0,043061 0,619221 0,022665 0,265591
Procent konkurser i de 20 risikogrupper 80 % Bankrupt 70 60 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Så træner vi assistenten Side 26
Modellens lift chart selskaber i 2009 Side 27
Konkursscoringens variable Vidensbaseret metode! Side 28
??? Side 29
Hvilke resultater har vi oplevet? Når vores model har sorteret bunken af selskaber fra 2009.. 70% 96%..Finder den 96 % af konkurserne i de 16 % der ligger øverst.. og den finder hele 70 % af konkurserne i de øverste 4 % af sorteringsbunken.. Side 30
Lovgivning And Model En skatterevisor i marken.. Side 31
Avanceret analyse i SKAT 1. EFI scoringsmodel til scoring af dårlige betalere 2. Konkursmodellen forecaste konkurser 3. FF model Forecaste manglende angivelser 4. Segmenteringsscore baseret på compliance 5. Understøtte kanalstrategien igennem forecasts på kundekontakten både I telefonslusen og brevskrivningen. 6. Text mining til identifikation af nordisk arbejdskraft I DK
Erkendte udfordringer med implementering af avancerede analyser Dataanalysefasen tager 85% af tidsforbruget kan næsten ikke overvurderes Husk ETL folk i data warehouse gruppen. Hvis man kan forbedre datakvaliteten med 30%, vil man forbedre modellens forklaringsevne med 30% Target (anden) skal vælges meget omhyggeligt, og det skal gøres sammen med forretningen. En model der sigter efter forkert mål vil aldrig opleves som en succes. Vær meget omhyggelig med at afstemme forventningerne til produktet med forretningen og ledelsen. Et sammensat team af statistikere og forretningsfagfolk helst med datakendskab er meget effektivt. Multivariat modellering: Meget værdifuldt at bruge (eksterne) eksperter første gang. Denne fase er meget erfaringsbaseret. Sørg for at det er en del af projektbeskrivelsen, at viden overleveres til organisationen. Implementering: Fra starten skal ejerne med i projektet Opstille validerings- og monitorierings procedurer af modellen Side 33
..og så mangler vi nogle stærkere software pakker med bedre grafisk præsentation ;) Side 34
Avancerede analysemetoder i den offentlige sektor mads.krogh.nielsen@skat.dk