Machine Learning til forudsigelser af central KPI En case fra Banedanmark 07-05-2019 Konferencen Big Data, AI & Analytics Hvad skal vi med al den data? 1
Navn: Dorte-Lene Bacher Projektchef: Datadrevne beslutninger Ansat: Banedanmark, Trafik Erfaring: 25 år med matematisk modellering (AI/ML) 2
Tog og passagerer til tiden Banedanmark måles på togenes punktlighed 84,0% 82,0% 80,0% 78,0% 76,0% 74,0% 72,0% 70,0% 2015 2016 2017 2018 Krav Realiseret hvordan kan man fastsætte et realistisk, men ambitiøst krav til punktligheden? 3
Fremtidig punktlighed Banedanmark beregner prognose med Machine Learning model 90,0% 88,0% 86,0% 84,0% 82,0% 80,0% 78,0% 76,0% 74,0% 72,0% 70,0% 2019 2020 2021 2022 2023 2024 Kontraktkrav Prognose Baseret på forudsigelser af styringsparametre 4
5
Viden og erfaring om togforsinkelser Banedanmarks Machine Learning model er baseret på hypoteser Anlægselementerne er gamle og fejler derfor ofte Storm, sne, frost og hurtige skift i vejret påvirker punktligheden Personaleforhold hos DSB har betydning for punktligheden Afgang fra København H er det mest kritiske Tidspunkt, ugedag og årstid har betydning Projekterne bliver ikke færdige til tiden Køreplanen er god giver ikke forsinkelser DSB s materielforhold Det sted, hvor der sker en hændelse, har betydning 6
Data Banedanmark anvender interne og eksterne datakilder Volume Stort antal datakilder fra forskellige organisationer Forretningsmæssig værdi Value BIG DATA Velocity Ikke relevant Taktisk og strategisk niveau Høj troværdighed (accept af datakvalitet) Veracity Variety Strukturerede og ustrukturerede data 7
IT Banedanmark benytter eksisterende systemer Integration Data processering Machine Learning Produktion Kildesystemer Data fra SAP, RDS, osv. udtrækkes ved håndholdt SQL queries. Blob Storage Filer uploades manuelt i vilkårlige formater SQL Server Relationel database til modelleret lag VS Code Træner modellen gennem Azure SDK Docker Image Pakker model og scoring i et image Azure Container Services Udstiller docker image Azure Web Apps Indeholder ML model og modtager manuelt input Logning PowerBI Dashboards Python Script Samler tabeller og standardiserer dem i en endelig input tabel Azure Compute Bruges til compute target eller virtuelle maskiner Azure DevOps Versionskontrol af Punktlighdesmodel, mm. Indsigt Feature importance og SHAP visualiseringer Input ark Manuel indtastning af variable Azure Machine Learning Services Udvikling og håndtering af ML Manuel proces som kan automatiseres 8
Machine Learning model Banedanmark har udviklet en neural netværksmodel med fem lag Input Neuralt netværk Output 46 forhold som Banedanmark har direkte indflydelse på 19 forhold som Banedanmark har indirekte indflydelse på DSB forhold tilføjes i 2019 Punktlighed Andre forhold tilføjes i 2020 9
Validering Banedanmark tester ved at sammenligne med historiske data 2013 2014 2015 2016 2017 Realiseret 86,2% 87,7% 85,1% 82,7% 85,0% Prognosemodel 86,0% 86,1% 84,3% 83,0% 85,7% Afvigelse -0,2-1,6-0,8 +0,3 +0,7 10
Bekræfter og udfordrer Banedanmark får ny indsigt og ændrer arbejdsgange En rangordning af styringsparametrene Angivelse af hvert forholds betydning Nye tærskelværdier 11
Banedanmark i dag: - Forretningsviden - Data - IT - Model for central KPI - Fokus på styringsparametre - Initiale erfaringer 12
Næste skidt Banedanmark satser på Machine Learning Bedre forudsigelser Automatisering Bedre prognoser Bedre modeller Mere data Kvartalsvise prognoser 2019-2020 Bedre analyser Evaluering Organisering Opbygning af kompetencer 13
Spørgsmål? Yderligere information Dorte-Lene Bacher Tlf: 2684 5134 Linkedin.com: dorte-lene-bacher 14