Data Mining Competing on Analytics seminar D. 12. december 2007 Kristina Birch
Agenda Præsentation Hvad er data mining? - og hvorfor taler vi om det? Fra data til analyse til viden Business Drivers for data mining Data Mining i kundens livscyklus Succesfuld data mining Customer Relationship management (CRM) eksempel Cases
Præsentation Kristina Birch, cand.merc.(mat.), PhD Statistical Modelling in Marketing brug af statistiske metoder til beskrivelse af effekterne på kundeniveau af forskellige marketingtiltag. Konsulent i SAS Analytics Team Projekter indenfor Pharma-industrien (effekter af medicin / placebo) Shipping-industrien (priser, efterspørgsel) Teleindustrien (marketing - kundeniveau) Banker og realkredit (risikovurdering - Basel II) Fulde projekter, pilotprojekter, sparring, undervisning, workshops, præsentationer osv.
Hvad er data mining? Data mining is the process of selecting, exploring and modeling large amounts of data to uncover previously unknown information for a business advantage. Information Mining? Business Value Mining?
Hvorfor taler vi om data mining? Vi ønsker, at gå fra sporadisk (subjektiv?) viden om kunderne / maskiner / data til systematisk organisering, analyse og anvendelse af denne (objektive) viden
Hvorfor taler vi om data mining? Postbank N.V. 50% response on first mailing paid for DM investment US West Reducing customer churn by any amount is 10 times cheaper than gaining a new customer Bon A Parte Nøglen til kundeloyalitet og mersalg ligger i kendskabet til dine kunder $ / kr. / / /
Anden anvendelse Computerworld juni 2007
Fra data til analyse til viden Datakilder Struktur Data Mining Adfærdsforudsigelser Segmentering Demografiske data Adfærdsdata Produktionsdata Emnegenerering
Grundlæggende mening med data mining Forudsige fremtidig adfærd baseret på historiske facts
Business Drivers for data mining Churn Management Segmentation Cross-sell / Up-sell Consumer Basket Analyse Life-time-value models Behavioural models Target Marketing Loyalty analysis Fraud Detection Credit Scoring Pattern recognitions Production breakdown Employee predictions Research
Data Mining i kundens livscyklus Acquisition Activation Relationship Management Prospect New Customer Established Customer Former Customer High Value Voluntary Churn Target Market New Customer Initial Customer High Potential Rest of World Low Value Forced Churn Winback
Customer Lifetime Value Better cross-selling PROFIT Better retention LOSS TIME
Nødvendig ekspertise Data Analytiske metoder Forretningsviden
Successful Data Mining Integration of People, Processes, and Technology Data Manager Data Preparation Deployment Services Report Administration Monitor Results Start Formulate Problem Data Miner Exploratory Analysis Descriptive Segmentation Predictive Modeling Deploy Model Accumulate Data Business Manager Manages Campaigns Domain Expert Evaluates Processes & ROI Evaluate Model Data Quality Analysis Predictive Modeling Transform and Select
Data Mining Methodology - SEMMA Sample Sampling? Explore Visual Exploration Data Reduction Modify Grouping, Subsetting Transform Model Neural Networks Decision Trees Statistical Techniques Associations, Sequences Assess Model Comparison, New Questions
Analytisk Base Tabel (ABT) til prediktiv modellering Cases Inputs......................................... Target
Modelleringsmetoder Generaliserede Lineære Modeller (m.fl.) Neurale Netværk Beslutningstræer
Eksempel: Data Mining tildeler hver kunde en score ID Navn Post.. Score Rank 0102 Lise 8763.. 0.314 6 0104 Grethe 8000.. 0.159 8 0105 John 8500.. 0.265 7 0110 Bente 2600.. 0.358 4 0111 Dorte 9000.. 0.979 1 0112 Bente 1311.. 0.328 5 0116 Tina 5014.. 0.446 3 0117 Frank 6000.. 0.897 2 0118 Britta 5014.. 0.446 3 En scoring (eller sandsynlighed) kan bruges til at rangere kunderne og give dem en rang To kunder kan godt opnå samme score
Scoring kan bruges til udvælgelse af kunder Vi har et budget på kr. 500.000 for en direct mail kampagne Vi ved: Hver mailing koster 5 kr. Vi har i alt 500.000 kunder Hvis vi skulle sende til alle kunder koster det 2.5 mill. Vi har kun råd til at kontakte 100.000 kunder, men hvem skal vi kontakte?
Scoring kan bruges til udvælgelse af kunder Vi benytter scoring til at udvælge de 100.000 kunder, så vi rammer dem med størst sandsynlighed for respons Uden data mining model: Alle kunder har gennemsnitlig sandsynlighed for respons Kunderne kontaktes efter en subjektiv vurdering Med data mining model: Kunderne scores ved brug af modellen Kunderne ordnes efter score, og dem med højst sandsynlighed for respons kontaktes
Brug af lift charts Ved brug af model får vi 100% fat i 65% af de sandsynlige 90% respondenter frem for 80% kun 30%. Et lift på 2.17. 70% 60% 50% 40% 30% 20% 10% Response Model No Model 0% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Beregning af profit for en kampagne DECILE GAINS CUM LIFT SIZE SIZE(Y) SIZE(N) PROFIT 0 0 0 0,000 0 - - -20000 10 30 30 3,000 50000 1500 48500 255000 20 20 50 2,500 100000 2500 97500 355000 30 15 65 2,167 150000 3250 146750 367500 40 13 78 1,950 200000 3900 196100 345000 50 7 85 1,700 250000 4250 245750 217500 60 5 90 1,500 300000 4500 295500 55000 70 4 94 1,343 350000 4700 345300-125000 80 4 98 1,225 400000 4900 395100-305000 90 2 100 1,111 450000 5000 445000-520000 100 0 100 1,000 500000 5000 495000-770000 Antagelser: 350 kr. omsætning pr. respons 5 kr. omkostning pr. mailing 20.000 kr. i startomkostninger 1 % gennemsnitlig responsrate
Typisk profit kurve PROFIT per Decile 400000 200000 0-200000 -400000-600000 -800000 0 10 20 30 40 50 60 70 80 90 100 PROFIT
Brug af scoring til at optimere CRM De fleste virksomheder har flere produkter De fleste virksomheder har flere kampagner/tilbud Vi kan bruge data mining modeller til scoring således: At vi vælger de bedste kunder for hver kampagne (optimering af kampagne) At vi vælger den bedste kampagne til hver enkelt kunde (optimering af kunderelationer)
Bedste kunder for hver kampagne ID Name KamA KamB KamC 0102 Lars 3 4 2 0104 Susan 1 2 4 0105 Erik 2 1 1 0110 Lene 5 7 6 0111 Bettina 9 3 8 0112 Poul 4 5 2 0116 David 6 5 7 0117 Frank 8 9 8 0118 Elise 6 8 5
Bedste kampagne for hver kunde ID Name KamA KamB KamC 0102 Lars 3 4 2 0104 Susan 1 2 4 0105 Erik 2 1 1 0110 Lene 5 7 6 0111 Bettina 9 3 8 0112 Poul 4 5 2 0116 David 6 5 7 0117 Frank 8 9 8 0118 Elise 6 8 5 Optimering af samtlige kampagner, givet at 1 kunde maksimalt må modtage 2 breve i kvartalet!
HVEM GØR DET I VIRKELIGHEDEN?
Cases
Case om BASEL II Credit Risiko Vurdere / kvantificere risikoen for tab på den enkelte kunde (PD) Kvantificere forventet tab på den enkelte kunde (LGD) Kunderne inddeles i ratingklasser efter risiko Forretningsværdi på flere niveauer Internt kan kunderådgiverne bruge ratingklasserne som en del af beslutningsgrundlaget for bevilling af lån til den enkelte kunde. Eksternt kan banken dokumentere en eventuel lavere risiko på kundeporteføljen og dermed hensætte færre penge til tab. Dette frigiver kapital til f.eks. investeringer
Competing on Analytics Result: Cut issue detection time by 50%, saving 90 days Reduced warranty costs by 17% We can detect and resolve issues much quicker before a large number of products ever reach customers' homes. Corporate Director of Reliability
Text Mining Definition The process of discovering and extracting meaningful patterns and relationships from text collections Text Mining = Data Mining + Natural Language Processing
Visualization: Concept Links
Cluster Profiles The airbag cluster
Copyright 2007, SAS Institute Inc. All rights reserved.
Copyright 2007, SAS Institute Inc. All rights reserved.