KUNSTEN AT FORUDSIGE KONKURSER

Relaterede dokumenter
Introduktion til Visual Data Mining and Machine Learning

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard

Bidragssatser for heltidsbedrifter 2014 Niveau og spredning

Machine Learning til forudsigelser af central KPI

High-Performance Data Mining med SAS Enterprise Miner 14.1

En intro til radiologisk statistik

Kursus (stokastisk simulering) Øvelsesmanual

NYETABLEREDE SVINEPRODUCENTER

Avancerede analysemetoder i den offentlige sektor

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Afholdt d. 4. december 2018

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

En intro til radiologisk statistik. Erik Morre Pedersen

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

DANMARKS NATIONALBANK

Økonomiske prognoser. Økonomikongres Comwell Kolding 6. december v/ Klaus Kaiser Erhvervsøkonomisk chef Videncentret for Landbrug

Satellitdata til landbruget Skaber det værdi eller er det varm luft?

Bidragssatser for heltidsbedrifter 2015 Niveau og spredning

Normalfordelingen og Stikprøvefordelinger

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Efterspørgselsforecasting og Leveringsoptimering

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Public Analytics Tema: Effektmåling

AKTIVERNES SAMMENSÆTNING HAR BETYDNING FOR DE ØKONOMISKE NØGLETAL

Epidemiologi og Biostatistik

Konkursanalyse Antallet af konkurser fortsætter op i andet kvartal 2018

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Hver anden vil benytte øget åbningstid i dagtilbud

Arealanvendelse, husdyrproduktion og økologisk areal i 2003 til brug ved slutevaluering

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Overvejelser vedr. outcomes i (farmako)epidemiologiske studier Kursus i basal farmakoepidemiologi 2018 Maja Hellfritzsch Poulsen

Online Prediction of Exacerbation in Patients with Chronic Obstructive Pulmonary Disease Using Linear Discriminant Pattern Classification

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Sådan styrker du din bundlinje

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Konkursanalyse Konkurstal på ret kurs 33 procent færre konkurser i første kvartal 2017

Er krisen i landbruget slut?

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Deep Learning. Muligheder og faldgruber. Glenn Gunner Brink Nielsen, Teknologisk Institut

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Estimation og usikkerhed

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Konkursanalyse procent færre konkurser i andet kvartal 2017

Reeksamen i Statistik for Biokemikere 6. april 2009

Forelæsning 11: Kapitel 11: Regressionsanalyse

Data-analyse og datalogi

Kvantitative metoder 2

Konkursanalyse pct. færre konkurser i 1. kvartal 2017

Konkursanalyse Figur 1: Udvikling i antal konkurser og sæsonkorrigeret antal konkurser, 2007K1-2016K4*

Metode til vurdering af proportionalitet i relation til implementering af BAT teknologi Jacobsen, Brian H.

Landbrugets foreløbige økonomiske resultater 2014

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Logistisk regression og prædiktion

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

En Bayesiansk tilgang til Credit Scoring

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Landbrugets foreløbige økonomiske resultater 2015

Simpel Lineær Regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Prognose for landbrugets økonomiske resultater September 2010

Multipel Lineær Regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Konkursanalyse Rekordmange konkurser i 2016

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Kvantitative metoder 2

Kapitel 11 Lineær regression

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.

Økonomisk analyse af forskellige strategier for drægtighedsundersøgelser

FREMSTILLINGSPRISEN PÅ KORN

Net Lift Modelling. Peter Steffensen, Senior Principal Consultant. Copyright 2011 SAS Institute Inc. All rights reserved.

Notat. Testrapport - metode. Deep learning algoritme i billeddannende måleudstyr til måle- og klassificeringsanvendelser

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Landbrugets økonomi. 1. marts Østdansk Landbrugsrådgivning Rønnede 26. februar 2013

Statistik og skalavalidering. Opgave 1

Additiv model teori og praktiske erfaringer

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

- og kan rådgivningssystemet levere

Danske virksomheders kreditværdighed

Perspektiver for økonomi i planteproduktionen de næste 5-10 år

Risiko-regneark Planteproduktionen

Forpagtning af nød og lyst

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Skriftlig eksamen Science statistik- ST501

Årets regnskabstal. fra årsrapport ved. Driftsøkonomikonsulent Ulrik Simonsen. Hovedtrends

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Deep Learning og Computer Vision. C h r i s H o l m b e r g B a h n s e n

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

LANDBRUGETS STRUKTURUDVIKLING

Transkript:

Økonomikonference 7. oktober 2016 v/ Philipp Trénel, DTI og Klaus Kaiser, SEGES P/S KUNSTEN AT FORUDSIGE KONKURSER

LANDBRUGET ER MEGET KONJUNKTURFØLSOM Svineproducenter 600 Mælkeproducenter 1.000 kr. 400-100 -600 1.000 kr. 200-200 -600-1.100-1.000-1.600-1.400 600 Planteproducenter 400 200 1.000 kr. 0-200 -400-600

250 200 150 100 50 928 KONKURSER I LANDBRUGET SIDEN FINANSKRISENS START I 2008 Konkurser løbende 12 måneder En del bliver stærkere De fleste landmænd får dog aktiveret overlevelsesinstinktet, bl.a. hjulpet af kreditgiverne Nogle kommer svækkede igennem - Gældsopbygning - Investeringsefterslæb KRISE Andre giver op eller tvinges ud - Konkurs - Frivillig/tvunget salg Landmænd tvinges ud, andre giver selv op 0 1994:01:00 1994:06:00 1994:11:00 1995:04:00 1995:09:00 1996:02:00 1996:07:00 1996:12:00 1997:05:00 1997:10:00 1998:03:00 1998:08:00 1999:01:00 1999:06:00 1999:11:00 2000:04:00 2000:09:00 2001:02:00 2001:07:00 2001:12:00 2002:05:00 2002:10:00 2003:03:00 2003:08:00 2004:01:00 2004:06:00 2004:11:00 2005:04:00 2005:09:00 2006:02:00 2006:07:00 2006:12:00 2007:05:00 2007:10:00 2008:03:00 2008:08:00 2009:01:00 2009:06:00 2009:11:00 2010:04:00 2010:09:00 2011:02:00 2011:07:00 2011:12:00 2012:05:00 2012:10:00 2013:03:00 2013:08:00 2014:01:00 2014:06:00 2014:11:00 2015:04:00 2015:09:00 2016:02:00 2016:07:00

KONKURSER OPDELT PÅ DRIFTSGRENE Kvægbedrifter er særligt hårdt ramt Men også høje konkurstal blandt svineproducenter og øvrige 160 140 Antal konkurser 120 100 80 60 40 20 0 2009 2010 2011 2012 2013 2014 2015 2016 indtil juli Planteproducenter Kvægbedrifter Svineproducenter Øvrige landbrug Landbrug i alt

KONKURSRAMT OMSÆTNING Konkursramte svineproducenter er gns. større 14.000 12.000 Gns. omsætning på konkursramte bedrifter 10.000 1.000 kr. 8.000 6.000 4.000 2.000 0 2009 2010 2011 2012 2013 2014 2015 Planteproducenter Kvægbedrifter Svineproducenter Øvrige landbrug Landbrug i alt

FORTSAT HØJT KONKURSNIVEAU FORVENTES, MEN HVILKE BEDRIFTER? Konkurser løbende 12 måneder 250 200 150 100 50 0 1994:01:00 1994:07:00 1995:01:00 1995:07:00 1996:01:00 1996:07:00 1997:01:00 1997:07:00 1998:01:00 1998:07:00 1999:01:00 1999:07:00 2000:01:00 2000:07:00 2001:01:00 2001:07:00 2002:01:00 2002:07:00 2003:01:00 2003:07:00 2004:01:00 2004:07:00 2005:01:00 2005:07:00 2006:01:00 2006:07:00 2007:01:00 2007:07:00 2008:01:00 2008:07:00 2009:01:00 2009:07:00 2010:01:00 2010:07:00 2011:01:00 2011:07:00 2012:01:00 2012:07:00 2013:01:00 2013:07:00 2014:01:00 2014:07:00 2015:01:00 2015:07:00 2016:01:00 2016:07:00 2017:01:00 2017:07:00 2018:01:00 2018:07:00

Konkursmodeller for de danske landbrugserhverv Philipp Trénel, ph.d., seniorkonsulent Teknologisk Institut division AgroTech

Formål Økonomidata At udvikle konkursmodeller til prædiktion af konkurssandsynlighed indenfor fem af det danske landbrugserhvervs sektorer (søer, slagtesvin, planteavl, kvægdrift) på baggrund af data fra DLBRs økonomi-database (ØDB) og konkursdata indhentet af SEGES. Konkursmodellerne skal levere både en høj prædiktionsnøjagtighed (accuracy) og en nem faglig tolkning mhp. en senere anvendelse i rådgivningen. ØDB Konkurssandsynlighed for bedrift i Pr(Y i = 1) Konkursdata Konkursmodellerne udvikles med henblik på opbygning af et early-warning system.

Udfordring 1 Det er svært at spå især om fremtiden og i særdeleshed om sjældne hændelser i fremtiden. >50ha Konkurser i landbruget i DK: lav prævalens (1.2% i 2015, Danmarks Statistik) Dette afspejler sig i Ø90 data brugt her (prævalens ~ 0.8%) Mange control-observationer (n = 6034 bedrifter) Få case-observationer (n = 110 bedrifter) mindsket statistisk power og reliability (generaliserbarhed)

Udfordring 2 Der er mange mulige forklarende variabler i Ø90, + deres features, til at bygge modellen på. (70 variabler, i alt 2.960 features) Få af dem forventes at have en høj forklaringsværdi Behov for variable selection/model reduktion i et høj-dimensionelt parameterrum The curse of dimensionality

Udfordring 3 Feature Niveau Hældning, 1 o difference Acceleration, 2 o difference Acronym lag d dd Konkurssandsynligheden er en funktion af hændelser igennem tid Input-variabler til modellen skal derfor indeholde de features/egenskaber i økonomi-nøgletallenes historik, som har en sammenhæng til en fremtidig konkurshændelse. Dette gælder både korttids- og langtids- memory-processer omitted variable bias (OVB) Løbende variation i 3 års tidsvindue SD

Udfordring 4 Datakvalitet i ØDB Støj i data manuelle indtastninger personafhængige vurderinger manglende oplysninger varierende præcision af oplysninger, m.m. ikke-reducerbar støj mindsket power Missing data En stor andel af bedrifter viser store andele af manglende oplysninger (36.6% missing data i datasættet) Kan missing data antages at være missing at random (MAR)? Missing not at random (MNAR) sampling bias

Black box Udfordring 5 Høj prædiktionsnøjagtighed opnås typisk med black-box modeller (machine learning, e.g. random forest, deep learning neurale netværk, boosting, m.m.) Identificering af højrisiko bedrifter (early warning) En høj grad af menneskelig fortolkbarhed opnås typisk ved (ofte urealistisk) simple modeller (e.g., lineær regression, logistisk regression, m.m.) The complexity monster (Pedro Domingos) Individuel rådgivning på baggrund af bedriftsspecifikke økonomital

Datamodel/strategi Data Datahåndtering Model Prædiktion og modelperformance Økonomidata for m = 70 variabler (n m ) Konkursdata (0/1) (n 1 ) flet Feature ekstraktion for hver af de m variabler - lag 1, lag 2,, lag 6 - Ændring (1 o difference, d) - Acceleration (dd) - Løbende variance (SD), 3- års tidsvindue Case-Control up-/downsampling indenfor år - Generering af N=10 dataset for hver af de 5 definerede driftsgrene D Søer, Slagtesvin Planter, Kvæg, Øvrig ved at: - Bootstrap-sample caseobservationer vægtet efter prop. af cases indenfor år Missing Data Imputering - Unsupervised random forest (2 ntree = 200) Variable pre-selection på baggrund af eksterne kriterier - NA% < cutoff (50%) - Lineære kombinationer - Gns. korrelation < cutoff (75%) For hver af D N - Tilfældigt sample controlobservationer vægtet efter cases indenfor år og omvendt vægtet efter prop. af missing data (MAR) Split data i testog trainset - testset: 5% af case-, og 5% af controlobservationer Random forest klassifikationsmodel - Case-weights omvendt propor. med prævalensen - Sampling stratificeret efter år - ntree = 1000 For hver af D N OOB validering Ekstern testset validering ROC-curve til vurdering af sensitivitet og specificitet Per D over alle N Samlet vurdering for hver driftsgren Konkurssandsynlighed for bedrift i Pr(Y i = 1)

Decision tree Overskudsgrad < 14% Gældsprocent > 80% Driftsresultat > 1.2 mill. kr. Gældsprocent > 97% Y = 0 Y = 1 Y = 1 Y = 0 Y = 1 Hypotetisk eksempel Hvad er en random forest? Breiman 2001 Et af de mest populære og succesfulde machine learning teknikker Bygger et stort antal (derfor forest ) næruafhængige (derfor random ) decision-tree modeller. Hver decision-tree prædikterer outputtet på baggrund af split-regler i inputparametrene. Den endelige prædiktion er majority-voten over alle træer i skoven. Nær-uafhængighed opnås vha. resampling-teknikker vedr. både observationer og inputvariabler. Metoden inkorporerer automatisk variableselection/model reduktion og validering (out-of-bag, OOB).

Input-variabler: ØDB historik 2006-2015, Konkurs-historik 2012-2015 m inputvariabler = 70 k = features pr. m = 19 m k = 1330 variabler i alt

Eksempel på Feature ekstraktion Konkurs

Resultater - model performance og prædiktionsnøjagtighed (1 år frem) Driftsgren Statistic estimate s.e. N Driftsgren Statistic estimate s.e. N Kvægbedrifter Y=0 2687,6 1,6 20 Slagtesvinsproduktion Y=0 994,7 8,0 20 Y=1 73,0 2,2 20 Y=1 14,0 0,0 20 Prevalence (%) 2,64 0,08 20 Prevalence (%) 1,39 0,01 20 Accuracy (OOB) 0,869 0,012 20 Accuracy (OOB) 0,858 0,021 20 Sensitivity 1 (OOB) 0,879 0,031 20 Sensitivity 1 (OOB) 0,819 0,098 20 Specificity 1 (OOB) 0,869 0,012 20 Specificity 1 (OOB) 0,859 0,021 20 Accuracy (test set) 0,874 0,023 20 Accuracy (test set) 0,853 0,045 20 Sensitivity 1 (test set) 0,882 0,098 20 Sensitivity 1 (test set) 0,95 0,224 20 Specificity 1 (test set) 0,873 0,025 20 Specificity 1 (test set) 0,85 0,045 20 So-besætninger Y=0 1015,0 3,9 20 Planteavl Y=0 1207,7 1,9 20 Y=1 19,0 0,0 20 Y=1 8,0 0,0 20 Prevalence (%) 1,84 0,01 20 Prevalence (%) 0,66 0,00 20 Accuracy (OOB) 0,84 0,024 20 Accuracy (OOB) 0,871 0,035 20 Sensitivity 1 (OOB) 0,865 0,081 20 Sensitivity 1 (OOB) 0,853 0,101 20 Specificity 1 (OOB) 0,839 0,025 20 Specificity 1 (OOB) 0,871 0,036 20 Accuracy (test set) 0,852 0,045 20 Accuracy (test set) 0,9 0,031 4 Sensitivity 1 (test set) 0,948 0,112 20 Sensitivity 1 (test set) 1 0 4 Specificity 1 (test set) 0,848 0,047 20 Specificity 1 (test set) 0,899 0,032 4 1 :cutoff-sandsynlighed= 0.5

Kvæg, model 1a Sensitivitet og specificitet 84.2% specificity 85.0% sensitivity En sensitiv model har få falske negative. En specifik model har få falske positive. Den ønskede balance mellem sensitivitet og specificitet er bruger/case-afhængig og opnås vha. den cutoff-prædiktionssandsynlighed, som klassificerer observationerne i kategorierne Y = 1 (konkurs) eller Y = 0 (ikke-konkurs). cutoff = 0.5

Sensitivitet vs. Positive Predicted Value (PPV) Hvad er sandsynligheden for konkurs for en bedrift, der af modellen forudsiges til at gå konkurs? Dette afhænger af prævalensen! PPV er en prævalens-korrigeret analog til sensitivitet; NPV til Specificitet. Kvæg, model 1a Prævalens = 2.7% Ex1 Ex2 Ex3 cutoff 0.5 0.74 0.82 Sensitivity 0.840 0.509 0.310 Specificity 0.858 0.986 0.997 PPV 0.122 0.520 0.750 NPV 0.995 0.988 0.983 Høj-risiko bedrifter n= 21

Resultater - prædiktionsnøjagtighed som funktion af forecast-tidsvinduet

Kvægbedrifter Viser klar ranking. Gældsprocent er den mest betydende variabel, der står for gns. 10.2% af variansreduktionen. Der er stor variation i den fundne variable importance mellem de N=20 modelreplikater. multipath Resultater - variable importance

Resultater - marginale effekter af de mest betydende variabler (1/2) Hændelse Y = 0 Y = 1

Konklusioner Random Forest modeller kan med rimelig høj nøjagtighed (accuracy = [0.84, 0.87]) prædiktere en bedrifts konkurssandsynlighed på baggrund af DLBRs ØDB data. Den lave prævalens af konkurser er en udfordring. PPV en kan øges på bekostning af sensitiviteten til en identifikation af højrisiko-bedrifter (f.eks. PPV ~ 0.75 og sensitivitet ~ 0.3 for kvægbedrifter). Der er mange udfordringer forbundet med en Big Data analyse. En succesfuld/brugbar model skal imødekomme udfordringer: Prævalens Data kvalitet og missing data Features extraction Variable selection Honest test set based validation Tæmning af the complexity monster modellen skal være let at fortolke Den faglige tolkning er først begyndt.

250 200 150 100 50 0 KUNSTEN AT FORUDSIGE KONKURSER Konkurser løbende 12 måneder SEGES har en operationel anvendelig Bankruptcy Prediction Model klar i løbet af 2017 Stærkt early warning og rådgivningsværktøj! Spørgsmål? 1994:01:00 1994:07:00 1995:01:00 1995:07:00 1996:01:00 1996:07:00 1997:01:00 1997:07:00 1998:01:00 1998:07:00 1999:01:00 1999:07:00 2000:01:00 2000:07:00 2001:01:00 2001:07:00 2002:01:00 2002:07:00 2003:01:00 2003:07:00 2004:01:00 2004:07:00 2005:01:00 2005:07:00 2006:01:00 2006:07:00 2007:01:00 2007:07:00 2008:01:00 2008:07:00 2009:01:00 2009:07:00 2010:01:00 2010:07:00 2011:01:00 2011:07:00 2012:01:00 2012:07:00 2013:01:00 2013:07:00 2014:01:00 2014:07:00 2015:01:00 2015:07:00 2016:01:00 2016:07:00 2017:01:00 2017:07:00 2018:01:00 2018:07:00