Det Naturvidenskabelige Fakultet Data-analyse og datalogi Studiepraktik 2014 Kristoffer Stensbo-Smidt Datalogisk Institut 23. oktober 2014 Dias 1/15
Hvorfor bruge tid på dataanalyse?! Alle virksomheder samler data big data! Data er lig information! Det gælder om at udnytte informationen før konkurrenten. Dias 2/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Hvorfor bruge tid på dataanalyse?! Alle virksomheder samler data big data! Data er lig information! Det gælder om at udnytte informationen før konkurrenten. Forbes: Data Scientist: Sexiest Job Of The Century? Dias 2/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Hvad gør det så brugbart? Man tænker på data på en ny måde. Hver koordinat svarer til en målt størrelse, f.eks. højde, vægt, alder osv. Giver mulighed for at finde sammenhænge i enorme mængder af information. Dias 3/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Hvad gør det så brugbart? Man tænker på data på en ny måde. Hver koordinat svarer til en målt størrelse, f.eks. højde, vægt, alder osv. Giver mulighed for at finde sammenhænge i enorme mængder af information. Det er jo bare matematik! Dias 3/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Dataanalyse er ikke trivielt! Statistik er central del af dataanalyse og statistik er skide svært! Eksempel: hvor meget data skal vi have, før vi kan udtale os med sikkerhed? Kommer an på problemet og på dataene! Dias 4/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Dataanalyse er ikke trivielt! Opgaver! Dias 5/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Dataanalyse er ikke trivielt! Svært at gætte sig til en model. Og svært at specificere den, selvom vi kender modelfamilien. Stort problem: statistikken kan være misvisende, når man ikke forstår den. Specielt et problem i mange dimensioner, hvor man må stole på matematikken. Selv garvede forskere bliver snydt en gang imellem! Dias 6/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Sære korrelationer Kilde: http://www.tylervigen.com/. Dias 7/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! 40 30 20 10 y 0 10 20 30 10 5 0 5 10 x Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! 40 30 20 10 y 0 10 20 30 10 5 0 5 10 x Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Større datamængder færre problemer? Det bliver typisk lettere at bestemme modeller og korrelationer, når der er mange data. Hvert datapunkt bidrager med information! 40 30 20 10 y 0 10 20 30 10 5 0 5 10 x Dias 8/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Øvelse: M&M s Gruppe 1 0.0030 0.0025 0.0020 0.0015 0.0010 0.0005 0.0000 200 0 200 400 600 800 1000 1200 Gruppe 2 0.0040 0.0035 0.0030 0.0025 0.0020 0.0015 0.0010 0.0005 0.0000 100 0 100 200 300 400 500 600 700 800 Gruppe 3 0.0030 0.0025 0.0020 0.0015 0.0010 0.0005 0.0000 200 100 0 100 200 300 400 500 600 700 Gruppe 4 0.0018 0.0016 0.0014 0.0012 0.0010 0.0008 0.0006 0.0004 0.0002 0.0000 500 0 500 1000 1500 2000 Dias 9/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Øvelse: M&M s 0.006 0.005 0.004 Gruppe 1 Bud før gruppesnak Bud efter gruppesnak 0.003 0.002 0.001 0.000 200 0 200 400 600 800 1000 1200 0.010 0.008 0.006 0.004 0.002 Gruppe 2 Bud før gruppesnak Bud efter gruppesnak 0.000 100 0 100 200 300 400 500 600 700 800 0.45 0.40 0.35 0.30 0.25 0.20 0.15 Gruppe 3 Bud før gruppesnak Bud efter gruppesnak 0.10 0.05 0.00 200 100 0 100 200 300 400 500 600 700 0.006 0.005 0.004 Gruppe 4 Bud før gruppesnak Bud efter gruppesnak 0.003 0.002 0.001 0.000 500 0 500 1000 1500 2000 Dias 10/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Øvelse: M&M s Gennemsnit 600 550 500 450 400 350 300 Før gruppesnak 250 0 5 10 15 20 25 Antal bud Gennemsnit Efter gruppesnak 600 550 500 450 400 350 300 250 200 150 0 5 10 15 20 25 Antal bud Dias 11/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Større datamængder nye problemer! Vi har mere information, men typisk også langt flere dimensioner og mere støj, end de gængse analysemetoder kan håndtere. Dias 12/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Større datamængder nye problemer! Vi har mere information, men typisk også langt flere dimensioner og mere støj, end de gængse analysemetoder kan håndtere. Her kan machine learning (ML) hjælpe! Dias 12/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Større datamængder nye problemer! Vi har mere information, men typisk også langt flere dimensioner og mere støj, end de gængse analysemetoder kan håndtere. Her kan machine learning (ML) hjælpe! Machine learning er en gren af datalogi og anvendt statistik, som dækker software, der forbedrer sin evne til at løse en bestemt opgave ud fra data eller erfaring. Dias 12/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Machine learning ML kan bruges i problemer, hvor man ikke bare kan skrive et simpelt program: Sortere spam fra rigtig mail. Finde ud af, om en kunde vil købe et bestemt produkt. Vi aner ikke, hvordan vi skulle lave programmer, der kan dette, så vi må ty til programmer, der kan lære sig det! Dias 13/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Machine learning ML kan bruges i problemer, hvor man ikke bare kan skrive et simpelt program: Sortere spam fra rigtig mail. Finde ud af, om en kunde vil købe et bestemt produkt. Vi aner ikke, hvordan vi skulle lave programmer, der kan dette, så vi må ty til programmer, der kan lære sig det! To vigtige ting at huske: Der skal være struktur i dataene, før ML kan bruges. Vi er ikke ude efter den rigtige model, men bare en god approksimation. Dias 13/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Machine learning ML er en essentiel del af data mining og big data! Anvendelsesområder: Detailhandlen. Industrien. Banker. Online services (Google, Facebook, Skype, Spotify,... ). Medicinalindustrien. Forskning. Kæmpe udfordringer for datalogien: Læringsdelen er et enormt optimeringsproblem, der skal løses hurtigt og præcist! Når en model er konstrueret, skal den også kunne evalueres hurtigt og præcist. Dias 14/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi
Machine learning opgaver I skal nu lege med rigtige, ægte ML-metoder: Lineær regression. k nearest neighbours. K-means clustering. Random forests (feature selection). Dias 15/15 Kristoffer Stensbo-Smidt Data-analyse og datalogi