SAS USER FORUM DENMARK 2017 Statistisk dataanalyse af EFI-gælden Kaare Brandt Petersen, SAS, June 15 2017
Indrivelse af borgernes gæld til det offentlige, f.eks.: Restskat Underholdningsbidrag Kontrolafgifter Biblioteksbøder Ordbog: Fordring Retskraftig Introduktion Skatteministeriet og Indrivelse
EFI, Et Fælles Indrivelsessystem Introduktion Tidslinje op til projektets start Bonnerup udvalget om IT projekter i det offentlige (2001) Generel moderingsering af IT systemerne i SKAT (Start 2004) Modernisering omkring EFI (2006) EFI i drift 7-9-13 Ti skatteministre fra fire partier 2015 Undersøgelser ved Kammeradvokaten, SIR, Accenture og SAS
Introduktion SKAT s vanskelige situation Lovgivningen er ekstremt kompliceret Grundet forsinkelsen har håndteringen af fordringerne været uens Hvis en given fordring ikke er retskraftig, er det ulovligt at indrive den Hvis en given fordring er retskraftig, er det ulovligt ikke at indrive den Kombinationen af den komplicerede lovgivning og den uens håndtering gør, at det ikke er muligt at vurdere retskraftighed uden at gennemgå den enkelte sag. Der er i sommeren 2015 omkring 35 millioner fordringer
Introduktion SKAT kontakter SAS med et forretningsproblem SKAT s interne revision (SIR) undersøgte ca 400 udvalgte sager erfaringerne peger på flere uafklarede forhold og der er tvivl om den anvendte metode. Accenture implementerer data profilering ud fra anbefalinger fra Kammeradvokaten Overordnet set i kategorierne Hvid, Grå og Sort efter retskraft. Men det grå segment er væsentligt større end ønskeligt Skatteministeriet spørger SAS Spg 1: Hvordan kan vi konkludere (statistisk validt) omkring alle 35 mio fordringer ud fra en praktisk håndterbar stikprøve? Spg 2: Kan man bygge en statistisk model, der estimerer retskraftighed og som derved supplerer den regel-baserede model fra Accenture og Kammeradvokaten?
Hvor stor skal stikprøven være? Data Filtrering Stikprøve N=35 mio N=20 mio N=3.000
Hvor stor skal stikprøven være? Traditionel statistik - populationsandel ud fra endelig stikprøve Stikprøve af størrelsen N tilfældigt udvalgt af uafhængige observationer P = andel af stikprøve. Det antages at N*P>10 og N*(1-P)>10. Conf Int 95%. Populationens andel er da P* = P ± 1.96*SQRT[ P(1-P)/N ]
Hvor stor skal stikprøven være? Traditionel statistik N for fastholdt andel og halv-bredde
Hvor stor skal stikprøven være? Fordele ved at have en behersket data mængde Erfarne sagsbehandlere hentet fra andre opgaver Hal i Aarhus Ca 35 fuld tid omkring 50 involverede Ca 2 måneder Strikt proces for gennemgang Kammeradvokaten som juridisk supervisor Juridisk introduktion, bistand og kvalitetssikring
Hvor stor skal stikprøven være? Hvad er svaret for en supervised model? Så meget data har vi Hvad tror vi at der vil ske hvis vi havde lidt mere? Støjniveau
Kort fortalt.. Hvor stor skal stikprøven være? Hvad er svaret for en supervised model? For en supervised model, er det ikke muligt på forhånd at sige hvor stor stikprøven (datagrundlaget) skal være (for at opnå en given præcision). Men.. Med learning curves kan man løbende monitorere/estimere værdien af at skaffe mere data.
Resultater Supervised Model (DecTree) Fejlrate ~9%
Resultater Learning Curves Har vi data nok?
Resultater Opsummering Statistisk analyse: Stikprøven (N=3.000) gav mulighed for valide konklusioner om andele i hele populationen (N 20.000.000) gennem traditionel statistik. Supervised model: Stikprøven (N=3.000) gav mulighed for at estimere sandsynligheden for retskraft for hele populationen (N 20.000.000). Beslutningstræet viste at Fordringstype og Forældelsesdato er de to vigtigste variable ift vurdering af retskraft (vha dataanalyse). Learning Curves viste undervejs at man kunne have nøjedes med en stikprøve på N=1000 ift fejlraten på den supervised model. Modellen fandt fordringer for 7 mia, som med meget stor sikkerhed er retskraftige og som ikke var fundet ved tidligere regel-baserede analyser.
SAS FORUM COUNTRY/CITY YEAR Kaare Brandt Petersen kaare.brandt@sas.com +45 51387884 Martin Sørensen martin.soerensen@sas.com +45 51387547