Data-analyse og datalogi



Relaterede dokumenter
Studieretningsprojekter i machine learning

Godkendelse af ny uddannelse

Datalogistudiet. Rolf Fagerberg. Institut for Matematik og Datalogi Syddansk Universitet. Studiestart, 1. september 2014

Gymnasielærerdage. Det rullende Universitet

Naturvidenskab. Hvis man skulle prøve at tegne, hvordan den naturvidenskabelige metode fungerer, vil den se sådan her ud:

Kapitel 11 Lineær regression

Præsentation og praktisk anvendelse af PROC GLMSELECT

Biokemi Udforsk livets kerne med en uddannelse i biokemi på Københavns Universitet

Computer Vision: Fysisk rehabilitering i eget hjem

Matematik på Københavns Universitet - den gavnlige skønhed

En frafalden matematikers hverdag

BACHELOR I DATA SCIENCE IT-UNIVERSITETET I KØBENHAVN

Residualer i grundforløbet

Giv mig 5 minutter til at forklare...

Vektorer og lineær regression

Aarhus Universitet Godkendelse af ny uddannelse

Virksomhedsklubbens studielegat

Vektorer og lineær regression. Peter Harremoës Niels Brock

Matematikken bag Numb3rs. UNF Lisbeth Fajstrup Institut for Matematiske Fag

STATUS PÅ DATALOGIFORSKNING OG -UDDANNELSE Professor Stephen Alstrup, Datalogisk Institut, KU Næstformand i ATV s Digitale Vismænd

Afrapportering projekt Regn og Design

Anvendt Statistik Lektion 7. Simpel Lineær Regression

60% af de bedste jobs indenfor de næste ti år er ikke opfundet endnu. -Thomas Frey

Statistik II 1. Lektion. Analyse af kontingenstabeller

Uddannelseskvalitet. KU s fempunktsplan. Uddannelsesservice Dias 1

Almen kemi Miljøkemi Medicinalkemi Grøn og bæredygtig kemi Gymnasierettet kemi

Big data: Nye muligheder, nye trusler?

Har du brug for flere så skriv til Helle på

Agenda. Introduktion Datadrevet tilgang Værdisætning af kanaler Opsamling Gå-hjem-opgaver

Biologi-bioteknologi. Kombiner teori og praksis med mange valgmuligheder. det natur- og biovidenskabelige fakultet københavns universitet

Planlægningsværktøj for terrænnært grundvand projekt med machine learning

KUNSTEN AT FORUDSIGE KONKURSER

Brugervejledning til udskriften ReproAnalyse

High-Performance Data Mining med SAS Enterprise Miner 14.1

Hvad er fremtiden for internettet?

Godkendelse af ny uddannelse

En spekulativ teori om hvad det vil sige at være en normal person

Kvadratisk regression

DIGITAL. viden Kursuskatalog. Hvad revisor skal vide om digitalisering.

Hvad bør en option koste?

Den digitale verden er i dag en del af de fleste menneskers dagligdag. Når mennesker bruger

KUNSTIG INTELLIGENS KOMMUNAL GAME CHANGER ELLER BARE BUZZ?

Avancerede analysemetoder i den offentlige sektor

man selv bider mærke i

DM fagforening for højtuddannede. DM Leder

3. Computerens opbygning.

Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM02)

TILBUD TIL DIG OG DINE ELEVER PÅ NATURVIDENSKAB

Online kommunikation til kunder Data & design. Thomas Kragh Internetchef - Underdirektør Nykredit Digitale Medier

SAS Asset Management. Mikal Netteberg Marianne Hansen Søren Johansen SAS Institute A/S. Copyright 2006, SAS Institute Inc. All rights reserved.

Vid at de arbejder i dig og at du hele tiden kan gå tilbage til dem, når du har lyst.

BRUGERCENTRERET DESIGN.

Karakterstatistik for Januar 2013

Adgang til eksterne referencedata, integration til egne systemer og søgning i egne kundedata som en samlet Master Data Management (MDM) løsning.

Fremtidens Facility Management er datadrevet!

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Indhold Forelæsning Dat-D1: Regneark Matematik og databehandling 2012

Public Analytics Tema: Effektmåling

Markedsføring af løb - på Facebook v. Trine-Maria Kristensen

Gennemsnitskarakter for dimittender fra Datalogi 1 Vægtet gennemsnit beregnet af STADS og registreret på rammen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Kokain ændrer din hjerne

Idestafet. Ja, og. Min ide: BC-Syd- 1. int. praktikdag i ugen i butik/flensborg. Og hvad hvis man

Transkript:

Det Naturvidenskabelige Fakultet Data-analyse og datalogi Studiepraktik 2014 Kristoffer Stensbo-Smidt Datalogisk Institut 23. oktober 2014 Dias 1/15

Hvorfor bruge tid på dataanalyse?! Alle virksomheder samler data big data! Data er lig information! Det gælder om at udnytte informationen før konkurrenten. Dias 2/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Hvorfor bruge tid på dataanalyse?! Alle virksomheder samler data big data! Data er lig information! Det gælder om at udnytte informationen før konkurrenten. Forbes: Data Scientist: Sexiest Job Of The Century? Dias 2/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Hvad gør det så brugbart? Man tænker på data på en ny måde. Hver koordinat svarer til en målt størrelse, f.eks. højde, vægt, alder osv. Giver mulighed for at finde sammenhænge i enorme mængder af information. Dias 3/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Hvad gør det så brugbart? Man tænker på data på en ny måde. Hver koordinat svarer til en målt størrelse, f.eks. højde, vægt, alder osv. Giver mulighed for at finde sammenhænge i enorme mængder af information. Det er jo bare matematik! Dias 3/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Dataanalyse er ikke trivielt! Statistik er central del af dataanalyse og statistik er skide svært! Eksempel: hvor meget data skal vi have, før vi kan udtale os med sikkerhed? Kommer an på problemet og på dataene! Dias 4/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Dataanalyse er ikke trivielt! Opgaver! Dias 5/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Dataanalyse er ikke trivielt! Svært at gætte sig til en model. Og svært at specificere den, selvom vi kender modelfamilien. Stort problem: statistikken kan være misvisende, når man ikke forstår den. Specielt et problem i mange dimensioner, hvor man må stole på matematikken. Selv garvede forskere bliver snydt en gang imellem! Dias 6/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! 40 30 20 10 y 0 10 20 30 10 5 0 5 10 x Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! 40 30 20 10 y 0 10 20 30 10 5 0 5 10 x Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! 40 30 20 10 y 0 10 20 30 10 5 0 5 10 x Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Øvelse: M&M s Gruppe 1 0.0030 0.0025 0.0020 0.0015 0.0010 0.0005 0.0000 200 0 200 400 600 800 1000 1200 Gruppe 2 0.0040 0.0035 0.0030 0.0025 0.0020 0.0015 0.0010 0.0005 0.0000 100 0 100 200 300 400 500 600 700 800 Gruppe 3 0.0030 0.0025 0.0020 0.0015 0.0010 0.0005 0.0000 200 100 0 100 200 300 400 500 600 700 Gruppe 4 0.0018 0.0016 0.0014 0.0012 0.0010 0.0008 0.0006 0.0004 0.0002 0.0000 500 0 500 1000 1500 2000 Dias 9/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Øvelse: M&M s 0.006 0.005 0.004 Gruppe 1 Bud før gruppesnak Bud efter gruppesnak 0.003 0.002 0.001 0.000 200 0 200 400 600 800 1000 1200 0.010 0.008 0.006 0.004 0.002 Gruppe 2 Bud før gruppesnak Bud efter gruppesnak 0.000 100 0 100 200 300 400 500 600 700 800 0.45 0.40 0.35 0.30 0.25 0.20 0.15 Gruppe 3 Bud før gruppesnak Bud efter gruppesnak 0.10 0.05 0.00 200 100 0 100 200 300 400 500 600 700 0.006 0.005 0.004 Gruppe 4 Bud før gruppesnak Bud efter gruppesnak 0.003 0.002 0.001 0.000 500 0 500 1000 1500 2000 Dias 10/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Øvelse: M&M s Gennemsnit 600 550 500 450 400 350 300 Før gruppesnak 250 0 5 10 15 20 25 Antal bud Gennemsnit Efter gruppesnak 600 550 500 450 400 350 300 250 200 150 0 5 10 15 20 25 Antal bud Dias 11/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Større datamængder nye problemer! Vi har mere information, men typisk også langt flere dimensioner og mere støj, end de gængse analysemetoder kan håndtere. Dias 12/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Større datamængder nye problemer! Vi har mere information, men typisk også langt flere dimensioner og mere støj, end de gængse analysemetoder kan håndtere. Her kan machine learning (ML) hjælpe! Dias 12/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Større datamængder nye problemer! Vi har mere information, men typisk også langt flere dimensioner og mere støj, end de gængse analysemetoder kan håndtere. Her kan machine learning (ML) hjælpe! Machine learning er en gren af datalogi og anvendt statistik, som dækker software, der forbedrer sin evne til at løse en bestemt opgave ud fra data eller erfaring. Dias 12/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Machine learning ML kan bruges i problemer, hvor man ikke bare kan skrive et simpelt program: Sortere spam fra rigtig mail. Finde ud af, om en kunde vil købe et bestemt produkt. Vi aner ikke, hvordan vi skulle lave programmer, der kan dette, så vi må ty til programmer, der kan lære sig det! Dias 13/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Machine learning ML kan bruges i problemer, hvor man ikke bare kan skrive et simpelt program: Sortere spam fra rigtig mail. Finde ud af, om en kunde vil købe et bestemt produkt. Vi aner ikke, hvordan vi skulle lave programmer, der kan dette, så vi må ty til programmer, der kan lære sig det! To vigtige ting at huske: Der skal være struktur i dataene, før ML kan bruges. Vi er ikke ude efter den rigtige model, men bare en god approksimation. Dias 13/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Machine learning ML er en essentiel del af data mining og big data! Anvendelsesområder: Detailhandlen. Industrien. Banker. Online services (Google, Facebook, Skype, Spotify,... ). Medicinalindustrien. Forskning. Kæmpe udfordringer for datalogien: Læringsdelen er et enormt optimeringsproblem, der skal løses hurtigt og præcist! Når en model er konstrueret, skal den også kunne evalueres hurtigt og præcist. Dias 14/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi

Machine learning opgaver I skal nu lege med rigtige, ægte ML-metoder: Lineær regression. k nearest neighbours. K-means clustering. Random forests (feature selection). Dias 15/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi