ATV-MØDE Arrangør ATV s faggruppe Elektro- og IT Tid 5. februar 2014 kl. 9:25-15:00 Sted Auditoriet Novi Forskerpark, Aalborg Universitet Niels Jernes Vej 10 9220 Aalborg Ø Big data big potential hvad er potentialet ved at analysere big data? I et stigende digitalt samfund som det danske lagres enorme data virtuelt og har skabt en vigtig platform for data mining. Data mining muliggør, at man kan trække specifikke informationer ud fra store datamængder ved at søge efter mønstre og strukturer. Altså en vidensgivende teknik der sikrer vigtig viden nemt. ATV inviterer hermed til temamøde den 5. februar 2014 om data minings potentiale for udvikling og anvendelse i Danmark. Sæt kryds i kalenderen allerede nu. Data mining gør, at vi forstår tendenser i vores omverden fra et vidensbaseret udgangspunkt, og teknikken har potentiale inden for områder som betalingsadfærd, markedsføring, bioinformatik, patientdata og medicinsk diagnosticering, geografiske data, m.m. Hvis data mining integreres mere som værktøj, er der potentiale til, at virksomheder, myndigheder og forskere kan træffe mere proaktive og vidensbaserede beslutninger. Den stigende adgang til MANGE data har skabt et behov for, at virksomheder og organisationer kan navigere i og udnytte de store datamængder. ATV vil den 5. februar samle forskere og erhvervslivet til en drøftelse af, hvilket udbytte den tværvidenskabelige teknik giver virksomheder, forskere og myndigheder? Hvad er mulighederne i at kunne analysere store datamængder, og hvilket potentiale har data mining i et anvendelses- og industrielt perspektiv? Hvad er udfordringer ved en større udbredelse? Program 09:00 Registrering og forfriskning 9:25 Velkomst v. professor Kim Guldstrand Larsen, Institut for Datalogi, AAU Akademiet for de Tekniske Videnskaber, Lundtoftevej 266, 2800 Kgs. Lyngby - www.atv.dk
09:30 Social Sensing: Making Reliable Observations from Unreliable Data Professor Tarek Abdelzaher, University of Illinois, USA Electronic media and social networks have greatly facilitated data sharing at scale, allowing for a fire-hose of human observations to pour-in about events in the physical world in near real-time. This talk discusses experiences and analytic foundations for using humans as sensors, viewing social networks and human volunteers as sensor networks. Unlike well-calibrated devices, humans may be less reliable, poorly characterized, and prone to exaggeration, bias, and rumor propagation. The talk presents recent case studies on reliably sampling the physical world from human observations. Issues of inferring independence of measurements, reliability of observers, and probability of correctness of reported observations are addressed. Applications are presented on observing real-world events (such as hurricanes, earthquakes, and civil unrest) using humans as sensors. The talk concludes with open challenges in the area of social sensing; a new frontier for pervasive embedded systems, where humans are active contributors to observation tasks. 10:20 Large-Scale Graph Mining Senior Research Scientist Ravi Kumar, Google Large scale graph mining has become a necessity in many important settings. We will discuss some aspects of mining large graphs, including computational models, development tools, algorithmic ideas, and some web-related applications. 11:10 Brug af Big Data til Business intelligence fra store data til store forretningsfordele Professor Torben Bach Pedersen, Institut for Datalogi, AAU Business intelligence (BI) handler om, hvordan man bruger data til at forstå sin forretning til bunds, herunder hvad der driver salg og omkostninger, og hvordan ens kunder tænker og agerer. Denne viden bruges til at træffe gode forretningsbeslutninger baseret på et informeret grundlag snarere end mavefornemmelser. BI har været anvendt i en årrække, primært baseret på interne data fra ens egen organisation. Med Big Data-bølgen er en række nye spændende eksterne datakilder blevet tilgængelige til brug i Business intelligence, såvel fra sociale medier som Twitter og Facebook, som fra sensorer, f.eks. GPS i smartphones. Disse nye data giver én helt nye muligheder for at analysere og optimere sin forretning.
Torben Bach Pedersen vil beskrive anvendelsesmulighederne af Big Data i relation til BI samt ligheder og forskelle mellem BI og Big Data. Derudover vil Torben Bach Pedersen præsentere forskellige typer af Big Data, og hvordan Big Data teknologier kan bruges til Business intelligence, illustreret ved eksempler fra en række brancher. 11:35 FROKOST 12:15 Machine learning for smart apps Lektor Ole Winther, Institut for Matematik og Computer Science, DTU The internet provides amazingly fast access to a lot of information. However without smart algorithms such as Google Search and Amazon's recommendations this information would not be nearly as useful. Ole Winther will present a few examples from his own research: findzebra.com (a search engine for rare diseases) and matrix factorisation for the Netflix Prize to illustrate that under the hood of these "smart apps" are often standard methods from machine learning and information retrieval. The examples show that scaling to large datasets is possible and sometimes large datasets are not the main driver of better performance. 12:40 Big Traffic Data i praksis fra GPS data til interaktive trafikanalyser for hele Danmark Lektor Kristian Torp, Center for Data-intensive Systemer (Daisy), Aalborg Universitet Hvad gør man med 2.5 milliarder GPS-målinger opsamlet i Danmark fra cirka 12.000 køretøjer? Man kan lade data ligge og samle støv, eller man kan rense data, putte det i et data warehouse og begynde at lave nye typer af forespørgsler på, hvordan danskerne anvender deres køretøjer. Man kan f.eks. undersøge, om det er hurtigere at tage Ishøj-afkørslen frem for Avedøre-afkørslen, hvis man kommer fra Køge Bugt Motorvejen og skal op til Lyngby. Herefter kan man kigge på, hvor og hvor mange bilister der kører forkert på disse strækninger. I dette oplæg vil der blive givet et konkret eksempel på, hvordan GPS-data kan gemmes i en ren open-source baseret software stack. Der vil blive givet eksempler på forskellige typer af information om mobilitet, der kan udtrækkes fra sådanne data, herunder hvorfor Google (og lignende services) ind imellem har problemer med at
estimere køretiderne korrekt, specielt i de indre byer. 13:05 Frigivelse af data hos Geodatastyrelsen muligheder og udfordringer Konsulent Anne Marie Carstens, Geodatastyrelsen For godt et år siden, 1. januar 2013, fik hele Danmark en gave, nemlig frigivelsen af en lang række data, der på en eller anden måde har med stedet at gøre, fx i form af forskellige kort og modeller af den fysiske virkelighed. Frigivelsen af data fra Geodatastyrelsen er et led i et fællesoffentlig arbejde omkring etablering af en række grunddata, der skal være en kilde til effektivisering og vækst, fordi alle med grunddata kan administrere og træffe beslutninger på et ensartet og kendt, kvalitetssikret og opdateret grundlag. Data om stedet og landskabet samt den fysiske virkelighed geodata er vigtige i et data mining perspektiv: geografiske analyser tilbyder en ny og anden måde at sortere i viden og at analysere på. I sin simpleste form bliver hvor et analytisk parameter, der kan bringe nye indsigter og sikre gode beslutninger. Oplægget vil redegøre for de særlige muligheder, der ligger i at anvende Geodatastyrelsens data og de udfordringer, vi står overfor, når vi skal sikre, at vores dataguld bliver brugt til at skabe vækst og effektivisering. 13:30 PAUSE 13:50 Seeking Truth in Wind Turbine Data Or How I Learned to Stop Worrying and Accept that Electrical Components Only Fail in West Wind. Udviklingsingeniør Hans Laurberg, Siemens Wind Power Data mining plays a major role in failure analysis of modern turbines. The combination of data that describes the construction of the turbine and data that describes the operation of the turbines is used to both evaluate and create failure hypothesis. The talk will describe why data-understanding has grown to be the most important success factor in failure analysis and why advanced blind algorithms have failed in finding the root cause of failures. 14:15 Åben debat: Big Data i Danmark: muligheder og barrierer 14:50 Afslutning v. professor Kim Guldstrand Larsen, Institut for Datalogi, AAU
15:00-15:30 Forfriskning Tilmelding På ATV s hjemmeside www.atv.dk