Statistisk dataanalyse af EFI-gælden

Relaterede dokumenter
Jeg vil i det følgende besvare de 3 spørgsmål samlet. Samrådsspørgsmål Z, Æ og Ø. - Tale til besvarelse af spørgsmål Z, Æ og Ø den 7.

Redegørelse om Ét Fælles Inddrivelsessystem

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Additiv model teori og praktiske erfaringer

Udbud af juridisk bistand til Onboarding af fordringshavere og oprydning af deres fordringsmasse til det nye inddrivelsessystem

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

ca. 5 min. STATISTISKE TEGN

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Offentlige restancer status pr. december 2015 samt særlig orientering om aktiviteter til genopretning af inddrivelsen

Introduktion til Visual Data Mining and Machine Learning

Normalfordelingen og Stikprøvefordelinger

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Offentlige restancer status pr. marts 2017 samt særlig orientering om aktiviteter til genopretning af inddrivelsen

Kvantitative Metoder 1 - Forår Dagens program

Forbedring af ejendomsvurderingen. Resultater og anbefalinger fra regeringens eksterne ekspertudvalg, september 2014

Gældsstyrelsen Teglgårdsparken Middelfart SKATs begrundelse for afgørelser om modregning

Konfidensintervaller og Hypotesetest

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Tema. Dagens tema: Indfør centrale statistiske begreber.

Erfaringer med gennemførelse af store IT-projekter. Fagdirektør Thomas Monefeldt, Udvikling og Forenklingsstyrelsen Skatteministeriet

Kvantitative Metoder 1 - Efterår Dagens program

J E T T E V E S T E R G A A R D

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Public Analytics Tema: Effektmåling

Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Estimation af ejendomsværdi for ejerboliger. Søren Leth, Københavns Universitet Kaare Brandt Petersen, SAS Institute

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Automatisk Guitartuner. Der skal foretages desk research såvel som field research.

DATA I GLADSAXE. - fra indsigt til nye indsatser. v/ børne- og kulturdirektør Thomas Berlin Hovmand

Notat til Statsrevisorerne om tilrettelæggelsen af en større undersøgelse af Skatteministeriets økonomistyring. September 2014

Gallup om SKAT. Gallup om SKAT. TNS Dato: 27. august 2013 Projekt: 59451

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Danmarks Skatteadvokater 15. maj 2014 Domstolsprøvelse i skattesager sagsstatistik, retssikkerhed og retsanvendelse

Indblik i statistik - for samfundsvidenskab

Produkt og marked - matematiske og statistiske metoder

Notat om SKATs anvendelse af Ét Fælles Inddrivelsessystem

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Perspektiver på datadreven og risikobaseret kontrol

Rockwool Fondens Forskningsenhed. Prisen på hjemløshed. Martin Junge, Centre for Economic and Business Research

Planlægningsværktøj for terrænnært grundvand projekt med machine learning

Den nye klagestruktur hvordan kan vi forbedre den offentlige vurdering?

Datamateriale til udlevering i advokatundersøgelse af forholdene vedrørende SKATs udbetaling af refusion af udbytteskat skematisk oversigt

Kundernes tilfredshed med skadesforsikringsselskaberne i Danmark

Betragtes det samlede antal modtagere (inkl. herboende), har der været følgende tendenser:

Kvantitative Metoder 1 - Forår 2007

Skatteministeriets planer for fremtidige Intelligente alarmklokker. Andreas Berggreen, Afdelingschef 22. april 2013

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Det sorte danmarkskort:

StyringsAgenda 2015 Programchef Kristian Hertz. Implementering af nye ejendomsvurderinger

Transkript:

SAS USER FORUM DENMARK 2017 Statistisk dataanalyse af EFI-gælden Kaare Brandt Petersen, SAS, June 15 2017

Indrivelse af borgernes gæld til det offentlige, f.eks.: Restskat Underholdningsbidrag Kontrolafgifter Biblioteksbøder Ordbog: Fordring Retskraftig Introduktion Skatteministeriet og Indrivelse

EFI, Et Fælles Indrivelsessystem Introduktion Tidslinje op til projektets start Bonnerup udvalget om IT projekter i det offentlige (2001) Generel moderingsering af IT systemerne i SKAT (Start 2004) Modernisering omkring EFI (2006) EFI i drift 7-9-13 Ti skatteministre fra fire partier 2015 Undersøgelser ved Kammeradvokaten, SIR, Accenture og SAS

Introduktion SKAT s vanskelige situation Lovgivningen er ekstremt kompliceret Grundet forsinkelsen har håndteringen af fordringerne været uens Hvis en given fordring ikke er retskraftig, er det ulovligt at indrive den Hvis en given fordring er retskraftig, er det ulovligt ikke at indrive den Kombinationen af den komplicerede lovgivning og den uens håndtering gør, at det ikke er muligt at vurdere retskraftighed uden at gennemgå den enkelte sag. Der er i sommeren 2015 omkring 35 millioner fordringer

Introduktion SKAT kontakter SAS med et forretningsproblem SKAT s interne revision (SIR) undersøgte ca 400 udvalgte sager erfaringerne peger på flere uafklarede forhold og der er tvivl om den anvendte metode. Accenture implementerer data profilering ud fra anbefalinger fra Kammeradvokaten Overordnet set i kategorierne Hvid, Grå og Sort efter retskraft. Men det grå segment er væsentligt større end ønskeligt Skatteministeriet spørger SAS Spg 1: Hvordan kan vi konkludere (statistisk validt) omkring alle 35 mio fordringer ud fra en praktisk håndterbar stikprøve? Spg 2: Kan man bygge en statistisk model, der estimerer retskraftighed og som derved supplerer den regel-baserede model fra Accenture og Kammeradvokaten?

Hvor stor skal stikprøven være? Data Filtrering Stikprøve N=35 mio N=20 mio N=3.000

Hvor stor skal stikprøven være? Traditionel statistik - populationsandel ud fra endelig stikprøve Stikprøve af størrelsen N tilfældigt udvalgt af uafhængige observationer P = andel af stikprøve. Det antages at N*P>10 og N*(1-P)>10. Conf Int 95%. Populationens andel er da P* = P ± 1.96*SQRT[ P(1-P)/N ]

Hvor stor skal stikprøven være? Traditionel statistik N for fastholdt andel og halv-bredde

Hvor stor skal stikprøven være? Fordele ved at have en behersket data mængde Erfarne sagsbehandlere hentet fra andre opgaver Hal i Aarhus Ca 35 fuld tid omkring 50 involverede Ca 2 måneder Strikt proces for gennemgang Kammeradvokaten som juridisk supervisor Juridisk introduktion, bistand og kvalitetssikring

Hvor stor skal stikprøven være? Hvad er svaret for en supervised model? Så meget data har vi Hvad tror vi at der vil ske hvis vi havde lidt mere? Støjniveau

Kort fortalt.. Hvor stor skal stikprøven være? Hvad er svaret for en supervised model? For en supervised model, er det ikke muligt på forhånd at sige hvor stor stikprøven (datagrundlaget) skal være (for at opnå en given præcision). Men.. Med learning curves kan man løbende monitorere/estimere værdien af at skaffe mere data.

Resultater Supervised Model (DecTree) Fejlrate ~9%

Resultater Learning Curves Har vi data nok?

Resultater Opsummering Statistisk analyse: Stikprøven (N=3.000) gav mulighed for valide konklusioner om andele i hele populationen (N 20.000.000) gennem traditionel statistik. Supervised model: Stikprøven (N=3.000) gav mulighed for at estimere sandsynligheden for retskraft for hele populationen (N 20.000.000). Beslutningstræet viste at Fordringstype og Forældelsesdato er de to vigtigste variable ift vurdering af retskraft (vha dataanalyse). Learning Curves viste undervejs at man kunne have nøjedes med en stikprøve på N=1000 ift fejlraten på den supervised model. Modellen fandt fordringer for 7 mia, som med meget stor sikkerhed er retskraftige og som ikke var fundet ved tidligere regel-baserede analyser.

SAS FORUM COUNTRY/CITY YEAR Kaare Brandt Petersen kaare.brandt@sas.com +45 51387884 Martin Sørensen martin.soerensen@sas.com +45 51387547