Introduktion til Visual Data Mining and Machine Learning

Størrelse: px
Starte visningen fra side:

Download "Introduktion til Visual Data Mining and Machine Learning"

Transkript

1 SAS USER FORUM Introduktion til Visual Data Mining and Machine Learning Astrid Enslev Vestergård, SAS Institute

2 Agenda Introduktion til et par machine learningmodeller Case-introduktion Demo SWEDEN 2017

3 Beslutningstræ 1 X2 < 0.63 X2 >= X1 < 0.50 X1 >= 0.50 X1 < 0.50 X1 >= X1 < 0.54 X1 >= 0.54 X2 >=

4 Beslutningstræ Split populationen op i to sub-populationer A Splitter populationen op i to sub-populationer ved en vilkårlig variabel x her med værdien 42 N = P=0.52 N = P = 0.65 x <= 42 x > 42 N = P = 0.86 B Variable Value Split strength* Gender M vs F Age Etnicity {DK,EU} vs {noneu} Insurance {A,C} vs {D,E,F} Municipality Find ud af, hvilken variabel x er, og for hvilken værdi splittet skal ske ved. Næsten alle muligheder bliver afprøvet {Aarhus,Aalborg, } vs {Odense, Esbjerg, } Business type {Bakery, Farming,..} vs {Banking, Insurance, } Salary Number of children X=0 vs 0<X Company size * = Small means strong relation C Måle splitstyrken Mand Kvinde T = T = Traditionel Chi2-test for uafhængighed giver en P-værdi for hypotesen, at køn og target er uafhængige (ikke-relaterede). Små P-værdier betyder derfor, at vi kan afvise hypotesen med stor sikkerhed.

5 Beslutningstræ Opdel inputrummet i kasser (bladnoder) X2 < X2 >= X1 < 0.50 X1 >= 0.50 X1 < 0.50 X1 >= 0.50 x X1 < 0.54 X1 >= X2 >= x 1

6 Beslutningstræ Kompleksitet af beslutningstræsmodeller Fejl L=2 L=3 L=4 L=5 Valideringsfejl Træningsfejl Antal slutnoder Simple modeller Komplekse modeller

7 Overbygning på beslutningstræet Bagging aka bootstrap aggregation Laver stikprøver af observationerne Laver flere modeller Laver en gennemsnitsmodel Sørger for, at outliers ikke får for meget vægt

8 Random forest Bagging begge veje Random forests er en ensemblemetode, der bruger flere beslutningstræer baseret på tilfældigt udvalgte subsæt af data. Fuldt datasæt Tilfældige stikprøvedata Træ på stikprøvedata

9 Overbygning på beslutningstræet Boosting fokus på problemerne

10 Læring Adaptiv boosting Boosting fokus på problemerne Klassificering Data set Subset Tree Error Weight Upweight errors Upweight errors Source: Machine Perception and Robotics Group, Dept. of Robotics Science and Technology, Chubu University

11 Neurale netværk Hvad er det egentlig, det er? Neurale netværker var oprindeligt inspireret af den biologiske analogi af et neuron i hjernen. Det er imidlertid bare en matematisk model. I det neurale netværk er inputtet sendt fremad i netværket, transformeres og sendt videre frem, indtil det når outputnoden, som er estimatet af targetvariablen. Output Hidden layer variables Definition of the hidden layer variables Input values Weights (to be estimated) More weights

12 Overfitting Datapartitionering Tilfældig permutering af datapunkter Alt data Træningsdata Valideringsdata Testdata Data brugt til at estimere modelparametrene. Data brugt til at finde den optimale kompleksitet (fleksibilitet). Data brugt til at estimere performance af modellen.?

13 Case Organics Hvem skal modtage tilbud om økologiske varer? Finde den bedste model til klassifiering i SAS Viya VDMML

14 Organics Datasættet Variabelnavn Type Label Antal kategorier ID Char Customer Loyalty ID 22,223 DemAffl Num Affluence Grade DemAge Num Age DemGender Char Gender 3 DemReg Char Geographic Region 5 DemTVReg Char Television Region 13 PromClass Char Loyalty Status 4 PromSpend Num Total Spend PromTime Num Loyalty Card Tenure TargetBuy Char Organics Purchase Indicator 2 TargetAmt Num Organics Purchase Count

15 Proc Surveyselect Simple sampling method Organics Datapartionering 60% er træningsdata, og 40% er valideringsdata

16 Demo

17 SAS USER FORUM Astrid Enslev Vestergård M: E:

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Additiv model teori og praktiske erfaringer

Additiv model teori og praktiske erfaringer make connections share ideas be inspired Additiv model teori og praktiske erfaringer Kaare Brandt Petersen Forretningschef, ph.d., SAS Institute Agenda Hvad er en additiv model? Forudsætninger Fortolkning

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

PUT og INPUT funktionerne

PUT og INPUT funktionerne PUT og INPUT funktionerne Af: Peter Kellberg Danmarks Statistik Sejrøgade 11 DK-2100 København Ø pke@dst.dk PUT og INPUT-funktionerne Denne artikel er foranlediget af en henvendelse til vores interne SAS

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved.

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved. PROC TRANSPOSE SAS-tabellen - hensigtsmæssig lagring af data Copyright 2011 SAS Institute Inc. All rights reserved. Transponerede tabeller Brede eller smalle? Hvad: Brede tabeller har mange kolonner med

Læs mere

High-Performance Data Mining med SAS Enterprise Miner 14.1

High-Performance Data Mining med SAS Enterprise Miner 14.1 High-Performance Data Mining med SAS Enterprise Miner 14.1 nye procedurer til en mere effektiv modeludviklingsproces Kristina Birch, Advisory Analytical Consultant, SAS Institute Indhold Hvad er High-Performance

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Public Analytics Tema: Effektmåling

Public Analytics Tema: Effektmåling Public Analytics Tema: Effektmåling Tirsdag den 19. marts 2013 1 22 MARCH 2013 2012 COPYRIGHT SAS INSTITUTE Public Analytics Tema: Effektmåling Tirsdag den 19. marts 2013 2 22 MARCH 2013 2012 COPYRIGHT

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2 Jon K. Bjerregaard Dag 2 09.00 12.00 Opfriskning fra sidst Gennemgang af artikler Sammenligning af en eller flere grupper Overlevelsesanalyse

Læs mere

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018 Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære

Læs mere

Henrik Bulskov Styltsvig

Henrik Bulskov Styltsvig Data Mining Henrik Bulskov Styltsvig Datalogiafdelingen, hus 42.1 Roskilde Universitetscenter Universitetsvej 1 Postboks 260 4000 Roskilde Telefon: 4674 2000 Fax: 4674 3072 www.dat.ruc.dk Målsætning Data

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Afdeling for Anvendt Matematik og Statistik December 2006

Afdeling for Anvendt Matematik og Statistik December 2006 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 i SAS (Zar kapitel 23) PROC FREQ PROC CATMOD

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute

Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute make connections share ideas be inspired Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute Hvem bliver langtidsledige? Hvad er sandsynligheden for at komme tilbage i

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Demo af PROC GLIMMIX: Analyse af gentagne observationer Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Statistisk dataanalyse af EFI-gælden

Statistisk dataanalyse af EFI-gælden SAS USER FORUM DENMARK 2017 Statistisk dataanalyse af EFI-gælden Kaare Brandt Petersen, SAS, June 15 2017 Indrivelse af borgernes gæld til det offentlige, f.eks.: Restskat Underholdningsbidrag Kontrolafgifter

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse 1. Hvor stor en andel af deltagerne var mænd? Var der samme andel i de tre randomiseringsgrupper?.

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Text mining hos MAN Diesel

Text mining hos MAN Diesel Text mining hos MAN Diesel Stine Fangel, SAS Institute COPYRIGHT 2009, SAS INSTITUTE INC ALL RIGHTS RESERVED Hvad får du med fra dette indlæg? Eksempel på anvendelse af text og data mining Viden om, hvordan

Læs mere

Appendiks A Anvendte test statistikker

Appendiks A Anvendte test statistikker Appendiks A Anvendte test statistikker Afhandlingen opdeler testene i henholdsvis parametriske og ikke-parametriske test. De første fire test er parametriske test, mens de ikke-parametriske test udgør

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Begreber. Parrede sammenligninger. Lene Theil Skovgaard 5. september 2017 1 / 16 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Survey i en digital tidsalder

Survey i en digital tidsalder Survey i en digital tidsalder Facebook som sampling frame og datakilde Jonas Toubøl, postdoc, Sociologisk Institut, Selskab for Surveyforskning, 24.4.2019 25-04-2019 2 Surveyens tredje æra: Survey + big

Læs mere

Økonometri 1 Efterår 2006 Ugeseddel 11

Økonometri 1 Efterår 2006 Ugeseddel 11 Økonometri 1 Efterår 2006 Ugeseddel 11 Program for øvelserne: Gruppearbejde og plenumdiskussion Introduktion til SAS øvelser SAS øvelser Øvelsesopgave: Paneldata estimation Sammenhængen mellem alder og

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Logistisk regression og prædiktion

Logistisk regression og prædiktion Faculty of Health Sciences Introduktion Logistisk regression og prædiktion 16. Maj 2012 Julie Forman Biostatistisk Afdeling, Københavns Universitet Hvad er en god diagnostisk model? En model med god overensstemmelse

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Hvordan bekæmper Alm. Brand forsikringssvindel med SAS Fraud Framework for Insurance?

Hvordan bekæmper Alm. Brand forsikringssvindel med SAS Fraud Framework for Insurance? SAS USER FORUM SAS USER FORUM Hvordan bekæmper Alm. Brand forsikringssvindel med SAS Fraud Framework for Insurance? Brian Egested, Afdelingschef, Alm. Brand Søren Olsen, Senior Consultant, Risk & Fraud,

Læs mere

Net Lift Modelling. Peter Steffensen, Senior Principal Consultant. Copyright 2011 SAS Institute Inc. All rights reserved.

Net Lift Modelling. Peter Steffensen, Senior Principal Consultant. Copyright 2011 SAS Institute Inc. All rights reserved. Net Lift Modelling Peter Steffensen, Senior Principal Consultant Copyright 2011 SAS Institute Inc. All rights reserved. Net Lift Baggrund Customer Intelligence-modellering Kampagne: Påvirkning af kunde

Læs mere

Statistik for MPH: 7

Statistik for MPH: 7 Statistik for MPH: 7 3. november 2011 www.biostat.ku.dk/~pka/mph11 Attributable risk, bestemmelse af stikprøvestørrelse (Silva: 333-365, 381-383) Per Kragh Andersen 1 Fra den 6. uges statistikundervisning:

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Analyse af binære responsvariable

Analyse af binære responsvariable Analyse af binære responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet 23. november 2012 Har mænd lettere ved at komme ind på Berkeley? UC Berkeley

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Intelligent kontrol med SAS

Intelligent kontrol med SAS Intelligent kontrol med SAS Hvordan sikrer du dig gennemsigtighed i kontrollen? Business Development Manager Malene Haxholdt 19. april 2007 Agenda Kontrolopgaven Data mining og kontrol Hvad er data mining?

Læs mere

How consumers attributions of firm motives for engaging in CSR affects their willingness to pay

How consumers attributions of firm motives for engaging in CSR affects their willingness to pay Bachelor thesis Institute for management Author: Jesper Andersen Drescher Bscb(sustainability) Student ID: 300545 Supervisor: Mai Skjøtt Linneberg Appendix for: How consumers attributions of firm motives

Læs mere

Økonometri 1 Forår 2006 Ugeseddel 11

Økonometri 1 Forår 2006 Ugeseddel 11 Økonometri 1 Forår 2006 Ugeseddel 11 Program for øvelserne: Gruppearbejde og plenumdiskussion Introduktion til SAS øvelser SAS øvelser Øvelsesopgave 5: Paneldata estimation af indkomstligninger på danske

Læs mere

Design Visual Analytics-rapporter for bedst mulig performance

Design Visual Analytics-rapporter for bedst mulig performance SAS USER FORUM Design Visual Analytics-rapporter for bedst mulig performance Torben Skov, SAS Institute Inspiration til dette indlæg http://support.sas.com/resources/papers/proceedings17/sas0734-2017.pdf

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Eksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 20-02-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

1:1 Kampagne-evaluering i Danske Bank

1:1 Kampagne-evaluering i Danske Bank SAS Forum 1:1 Kampagne-evaluering i Danske Bank Cathrine Pough Pedersen, Business Intelligence & Analytics Thomas Vasehus, Business Intelligence & Analytics 4 Oktober 2012 Hvem er vi Cathrine Pedersen,

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet

Læs mere

Notat. Testrapport - metode. Deep learning algoritme i billeddannende måleudstyr til måle- og klassificeringsanvendelser

Notat. Testrapport - metode. Deep learning algoritme i billeddannende måleudstyr til måle- og klassificeringsanvendelser Notat 7. december 2018 2006150-02-01 TMO,DBN,GLN,EVO Testrapport - metode Deep learning algoritme i billeddannende måleudstyr til måle- og klassificeringsanvendelser i fødevarevirksomheder. Introduktion

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Machine Learning til forudsigelser af central KPI

Machine Learning til forudsigelser af central KPI Machine Learning til forudsigelser af central KPI En case fra Banedanmark 07-05-2019 Konferencen Big Data, AI & Analytics Hvad skal vi med al den data? 1 Navn: Dorte-Lene Bacher Projektchef: Datadrevne

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Repræsentative undersøgelser før og nu. Peter Linde, Interviewservice pli@dst.dk

Repræsentative undersøgelser før og nu. Peter Linde, Interviewservice pli@dst.dk Repræsentative undersøgelser før og nu Peter Linde, Interviewservice pli@dst.dk >> >> Dagsorden Hvad er en repræsentativ undersøgelse? Bortfald og forskerbeskyttelse Vægtning for bortfald Effekt af vægtning

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Korrelerede målinger. Lene Theil Skovgaard 8. april 2019 1 / 21 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Plots: s. 3, 4,

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX Basal Statistik - SPSS Korrelerede målinger. Lene Theil Skovgaard 8. april 2019 med instruktioner til SPSS-analyse svarende til nogle af slides Plots: s. 3, 4, 7, 11-12

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

KUNSTEN AT FORUDSIGE KONKURSER

KUNSTEN AT FORUDSIGE KONKURSER Økonomikonference 7. oktober 2016 v/ Philipp Trénel, DTI og Klaus Kaiser, SEGES P/S KUNSTEN AT FORUDSIGE KONKURSER LANDBRUGET ER MEGET KONJUNKTURFØLSOM Svineproducenter 600 Mælkeproducenter 1.000 kr. 400-100

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

De Skjulte Helte. Kasper Johansen, konsulent Center for Analyse og Erhvervsfremme Teknologisk Institut Tlf ,

De Skjulte Helte. Kasper Johansen, konsulent Center for Analyse og Erhvervsfremme Teknologisk Institut Tlf , De Skjulte Helte Kasper Johansen, konsulent Center for Analyse og Erhvervsfremme Teknologisk Institut Tlf. 7220 2113, kdjn@teknologisk.dk Center for Analyse og Erhvervsfremme Center ved Teknologisk Institut

Læs mere

Data mining er ikke længere nice to have men need to have

Data mining er ikke længere nice to have men need to have mining er ikke længere nice to have men need to have Af Frank Bjergø Agenda Introduktion Hvad er mining og hvordan fungerer det? Eksempler på i Telco mining Hvilke forretningsområder er i gang Hvem er

Læs mere