Kontrol af IT kriser Peter Rechnagel, Arla Foods Amba, Nov2017
Lidt om Arla Foods & Mig selv 2
Arla Foods Amba Vision 3 December 4, 2017
Arla har ejere i 7 lande i2016 producerede de12.3mia. kg mælk = mælkeindvejning (mio. kg) = ejere = 4,728 = 2,877 = 1,909 = 2,972 = 3.210 = 2,485 = 56 = 57 = 1,758 = 2,461 = 515 = 852 = 144 = 218 4
Arla i verden 5
Arla Foods hjulet Daglig forretnings cyklus Dette 24 timers hjul gennemføres 362 lande om året I alle lande. Hver dag indhentes mælk fra 13000 farmere og mælkeprodukter leveres til 25000 forretninger. Produktion 00:00 03:00 Planlægning Leverance 08:00 17:00 03:00 12:00 Salg Indsamling 07:00 20:00 05:00 12:00 Der er plads til at miste maksimum 2 timer til IT nedbrud. Længere nedbrud vil betyde overarbejde, mistede ordrer eller mangelfulde leverancer. 6
Peter Rechnagel Lidt om mig 47 år gammel, Gift med Charlotte Rechnagel. Arbejdet i IT Operations siden 1994. Arbejdet for Sonofon, DM-data, IBM, Vestas, Danske Bank. Og nu på fjerde år Arla Foods Amba. Certificeret ITIL Expert v3 og ITIL Service Manager v2. Fokus for mig har altid været driftsstabilitet. 7 17-12-04
Hvorfor dannede Arla IT et dedikeret team og proces til Major Incident håndtering? 8
Dedikation Fjerne snakken om ansvar Arla IT har valgt at multisource. IT driften ligger i dag i +100 leverandørers hænder. Selvom disse leverandører er dygtige og dedikerede, viste det sig umuligt at skille teknisk fejlretning af et major incident, fra en snak om hvem som har ansvar. Et nedbrud efterlod altid en diskussion om ansvar. Leverandørerne fejlede i at lede tværfagligt og tvær leverandør samarbejde. Fokus var ikke fastholdt på sagens kerne. 9
Konsekvens Hvad betød det for Arla? Kørende major incidents blev skubbet imellem leverandører. Der kunne være tvivl om status. Status udsendt var leverandør afhængig og leverandør farvet. Resultat = MTTR blev unødig lang i mange tilfælde. 10
Hvad nu Vi kunne ikke blive hvor vi var Og underligt nok er der ikke meget hjælp at hente i IT proces verdenen. APQQ, Cobit, ITIL beskriver major incident processen overfladisk. Gartner, ISG og lignende har ingen whitepapers på IT major incident management. ITIL v3 skriver: 11
Vores løsning! 12
Tydeligt ansvar Dannelsen af Arla SiMa Entydigt ansvar Beslutningen var at danne et 24/7/365 team, som ville have det endelige ansvar for løsning af samtlige major incidents. Teamet skulle være Arla ansatte, fordi de udelukkende skulle fokusere på Arlas interesser. SiMa tager ansvar for alle kritiske IT problemer som rammer Arla, uanset kontrakt ansvar eller lokale aftaler. 13 17-12-04
Team sammensætning Hvem er gode kandidater? Gode kandidater til et Major incident manager job (SiMa) er: Erfarne servicedesk medarbejdere. De er vant til at emnerne skifter mellem hvert telefon opkald. De er generalister. De taler hver dag med forretningen (slutbrugerne). De er vant til at blive skældt ud. Ikke så gode kandidater er: Teknisk tunge personer. De er primært fokuseret på deres eget kompetence område. Specialister er i risiko for at tænke snævert i stedet for bredt. Vil forsøge at løse sagen selv. 14
Mandat En nødvendighed for resultat Et helt fundamentalt punkt for succes, er mandatet som gives til teamet. Et svagt eller utydeligt mandat, ville med al sandsynlighed betyde at, vores teams (interne og eksterne) ville nægte at leverer ressources når det kræves. (dvs. NU) Arla SiMa s mandat i dag dækker: Alle leverandører efterlever fix now-settlelater princip. Det er accepteret at SiMa s behov for ressourcer kan forsinke projekter. Beslutning om at hæve incident til severity 1. Tage beslutning om at gå i war room. 15 17-12-04
Go-live Vi gik live 16 juni 2014 16
Vores mantra Hvordan kan en medarbejder måle sig selv? 17 17-12-04
Major Incident Process flow 18
High Severity Hvornår er noget kritisk? 19 17-12-04
Typer af sager Hvad regnes som kritisk? Der er det klassiske scenarie, hvor der ikke er tvivl Kritisk service 100% utilgængelig. Men der er også grænseområderne: Dårlig performance. Gentagne incidents. Incident med mange reassigments. Legale problemer. (typisk HR/Payroll systemer) Men intet slår erfaring!!! 20 17-12-04
Arla SiMa s arbejdsgange 21
Eskalationsflow Hvordan kommer sagerne til SiMa s radar? 22
Multisourcing Hvordan styrer man +100 leverandører i en krise? Ortec SPOC NNIT SPOC Atea SPOC TCS SPOC MSA SPOC IBM SPOC Arla SiMa BT SPOC Minor Vendors Local Sites 23 17-12-04
Kontrol pr sag Tool Whiteboard. (Introduced with Lync Server 2013) Alle stakeholders deltager i chatten. SiMa sikre opsamling af milepæle. 24
Involvering af brugerne De ved det godt? SiMa vil altidtilføje forretningen med i fejlsøgning. Vi viser vores snavsede undertøj. De får lov at se vores mangler og succeser. Denne praksis har minimeret top management eskalationer. De kan se indsatsen og ved at deres eskalation til IT er blevet hørt. 25
Kommunikation under major incidents Brug af alle kanaler 26
Forskellen på severity 1 og 2 War room Både et fysisk rum og et eskalationsbegreb. Hvorfor gå i warroom: Business killing incident. (10 dage = død) Genskabe kontrol i fremdrift. Hvis SiMa mener det vil reducerer varighed. Udskift ressourcer hver 12. time. Hold high management ude. 27 17-12-04
KPI Hvordan måler man SiMa værdi? 28
Hvordan måler man succes? Relevante KPI Standard KPI for Incident Management. 500 450 400 350 300 250 200 150 100 50 0 120,00 100,00 80,00 60,00 40,00 20,00 0,00 Resolution of SEV 1 and 2 within SLA JAN 17 FEB 17 MAR 17 APR 17 MAY 17 JUN 17 JUL 17 AUG 17 SEP 17 OCT 17 MTTR (Average all incidents) Last 12 month average 29
Hvordan måler man succes? Relevante KPI Måling af forbedringsmuligheder for SiMa. Hjemmeudviklet KPI MTRR. (Meantime to find Right Resolver) Time to find Resolver 01:04 01:00 00:57 00:50 00:43 00:36 00:28 00:21 00:14 00:07 00:08 00:06 00:15 00:17 00:12 00:10 00:10 00:19 00:22 00:00 JAN 17 FEB 17 MAR 17 APR 17 MAY 17 JUN 17 JUL 17 AUG 17 SEP 17 OCT 17 30
Resultat 31
Resultat Succes? Mange færre eskalationer fra forretningen til IT high management. Ros fra forretningen for dedikationen vi viser i præcist deres sag. 500 450 400 350 300 250 200 150 100 50 0 MTTR (Average all incidents) 32 17-12-04
Fremtiden 33
Whats next? Kørendeinitiativer Subscription baseret driftsinformation. IT Service playbook. Udnytte robotics til autogeneringaf IT Service rapport til brug i fejlretning. Nyeste incidents og deres løsning. Nyeste root cause analyser med findings. Nyeste changes udført på servicen. Nyeste alarmer. Arkitektur tegninger. 34
Recap 35
Opsummering Nøglepunkter Placer ansvaret for løsning af major incident et sted. IT top management skal være parat til at vise ægte support. Sikre at SiMa har mandat til at kræve ressourcer nu. Hold forretningen tæt på. Informer og inkluder. Byg et war room koncept. 36 17-12-04
Mange takfor opmærksomheden. Kontakt Peter Rechnagel, IT Senior Manager Arla Foods Amba +45 8938 1822 peter.rechnagel@arlafoods.com 37