Introduktion til Visual Data Mining and Machine Learning

Relaterede dokumenter
Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Additiv model teori og praktiske erfaringer

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

PUT og INPUT funktionerne

Normalfordelingen og Stikprøvefordelinger

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved.

High-Performance Data Mining med SAS Enterprise Miner 14.1

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Public Analytics Tema: Effektmåling

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Multipel Lineær Regression

En Introduktion til SAS. Kapitel 5.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Henrik Bulskov Styltsvig

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Afdeling for Anvendt Matematik og Statistik December 2006

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute

Regressionsanalyse i SAS

Opgavebesvarelse, Basalkursus, uge 3

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Besvarelse af juul2 -opgaven

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Reeksamen i Statistik for biokemikere. Blok

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Lineær regression i SAS. Lineær regression i SAS p.1/20

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistisk dataanalyse af EFI-gælden

k normalfordelte observationsrækker (ensidet variansanalyse)

Lineær og logistisk regression

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Text mining hos MAN Diesel

Appendiks A Anvendte test statistikker

Basal Statistik - SPSS

Morten Frydenberg 14. marts 2006

Opgavebesvarelse, Basalkursus, uge 3

Survey i en digital tidsalder

Økonometri 1 Efterår 2006 Ugeseddel 11

Løsning til eksaminen d. 14. december 2009

Logistisk regression og prædiktion

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Hvordan bekæmper Alm. Brand forsikringssvindel med SAS Fraud Framework for Insurance?

Net Lift Modelling. Peter Steffensen, Senior Principal Consultant. Copyright 2011 SAS Institute Inc. All rights reserved.

Statistik for MPH: 7

Kvantitative Metoder 1 - Forår Dagens program

Analyse af binære responsvariable

Statistik Lektion 16 Multipel Lineær Regression

Morten Frydenberg 26. april 2004

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Intelligent kontrol med SAS

How consumers attributions of firm motives for engaging in CSR affects their willingness to pay

Økonometri 1 Forår 2006 Ugeseddel 11

Design Visual Analytics-rapporter for bedst mulig performance

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Postoperative komplikationer

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

1:1 Kampagne-evaluering i Danske Bank

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Notat. Testrapport - metode. Deep learning algoritme i billeddannende måleudstyr til måle- og klassificeringsanvendelser

Opgavebesvarelse, Basalkursus, uge 3

Machine Learning til forudsigelser af central KPI

Løsning til øvelsesopgaver dag 4 spg 5-9

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Løsning eksamen d. 15. december 2008

Repræsentative undersøgelser før og nu. Peter Linde, Interviewservice

Løsning til opgave i logistisk regression

Reeksamen i Statistik for biokemikere. Blok

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Basal Statistik - SPSS

Basal Statistik - SPSS

Opgavebesvarelse, brain weight

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

KUNSTEN AT FORUDSIGE KONKURSER

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

De Skjulte Helte. Kasper Johansen, konsulent Center for Analyse og Erhvervsfremme Teknologisk Institut Tlf ,

Data mining er ikke længere nice to have men need to have

Transkript:

SAS USER FORUM Introduktion til Visual Data Mining and Machine Learning Astrid Enslev Vestergård, SAS Institute

Agenda Introduktion til et par machine learningmodeller Case-introduktion Demo SWEDEN 2017

Beslutningstræ 1 X2 < 0.63 X2 >= 0.63 2 3 X1 < 0.50 X1 >= 0.50 X1 < 0.50 X1 >= 0.50 4 5 6 7 X1 < 0.54 X1 >= 0.54 X2 >=0.69 8 9 10 11

Beslutningstræ Split populationen op i to sub-populationer A Splitter populationen op i to sub-populationer ved en vilkårlig variabel x her med værdien 42 N = 39544 P=0.52 N = 64104 P = 0.65 x <= 42 x > 42 N = 24560 P = 0.86 B Variable Value Split strength* Gender M vs F 0.017 Age 42 0.002 Etnicity {DK,EU} vs {noneu} 0.005 Insurance {A,C} vs {D,E,F} 0.776 Municipality Find ud af, hvilken variabel x er, og for hvilken værdi splittet skal ske ved. Næsten alle muligheder bliver afprøvet {Aarhus,Aalborg, } vs {Odense, Esbjerg, } Business type {Bakery, Farming,..} vs {Banking, Insurance, } 0.546 0.443 Salary 123.456 0.022 Number of children X=0 vs 0<X 0.086 Company size 18 0.321 * = Small means strong relation C Måle splitstyrken Mand Kvinde T = 1 123 443 T = 0 143 12 Traditionel Chi2-test for uafhængighed giver en P-værdi for hypotesen, at køn og target er uafhængige (ikke-relaterede). Små P-værdier betyder derfor, at vi kan afvise hypotesen med stor sikkerhed.

Beslutningstræ Opdel inputrummet i kasser (bladnoder) X2 < 0.63 1 X2 >= 0.63 6 11 2 3 10 X1 < 0.50 X1 >= 0.50 X1 < 0.50 X1 >= 0.50 x 2 4 5 X1 < 0.54 X1 >= 0.54 6 7 X2 >=0.69 4 8 9 8 9 10 11 x 1

Beslutningstræ Kompleksitet af beslutningstræsmodeller Fejl L=2 L=3 L=4 L=5 Valideringsfejl Træningsfejl Antal slutnoder Simple modeller Komplekse modeller

Overbygning på beslutningstræet Bagging aka bootstrap aggregation Laver stikprøver af observationerne Laver flere modeller Laver en gennemsnitsmodel Sørger for, at outliers ikke får for meget vægt

Random forest Bagging begge veje Random forests er en ensemblemetode, der bruger flere beslutningstræer baseret på tilfældigt udvalgte subsæt af data. Fuldt datasæt Tilfældige stikprøvedata Træ på stikprøvedata

Overbygning på beslutningstræet Boosting fokus på problemerne

Læring Adaptiv boosting Boosting fokus på problemerne Klassificering Data set Subset Tree Error Weight Upweight errors Upweight errors Source: Machine Perception and Robotics Group, Dept. of Robotics Science and Technology, Chubu University

Neurale netværk Hvad er det egentlig, det er? Neurale netværker var oprindeligt inspireret af den biologiske analogi af et neuron i hjernen. Det er imidlertid bare en matematisk model. I det neurale netværk er inputtet sendt fremad i netværket, transformeres og sendt videre frem, indtil det når outputnoden, som er estimatet af targetvariablen. Output Hidden layer variables Definition of the hidden layer variables Input values Weights (to be estimated) More weights

Overfitting Datapartitionering Tilfældig permutering af datapunkter Alt data Træningsdata Valideringsdata Testdata Data brugt til at estimere modelparametrene. Data brugt til at finde den optimale kompleksitet (fleksibilitet). Data brugt til at estimere performance af modellen.?

Case Organics Hvem skal modtage tilbud om økologiske varer? Finde den bedste model til klassifiering i SAS Viya VDMML

Organics Datasættet Variabelnavn Type Label Antal kategorier ID Char Customer Loyalty ID 22,223 DemAffl Num Affluence Grade DemAge Num Age DemGender Char Gender 3 DemReg Char Geographic Region 5 DemTVReg Char Television Region 13 PromClass Char Loyalty Status 4 PromSpend Num Total Spend PromTime Num Loyalty Card Tenure TargetBuy Char Organics Purchase Indicator 2 TargetAmt Num Organics Purchase Count

Proc Surveyselect Simple sampling method Organics Datapartionering 60% er træningsdata, og 40% er valideringsdata

Demo

SAS USER FORUM Astrid Enslev Vestergård M: +45 51 38 76 44 E: Astrid.Vestergaard@sas.com