Effectiveness of Data

Relaterede dokumenter

Hvorfor skal vi bruge objekt orienteret databaser?

Matematik. Matematiske kompetencer

Grafisk produktionsforståelse

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Kræves der løsning af problemer fra den virkelige verden? Implementeres elevernes løsninger i den virkelige verden?

Evaluering DA Dansk. Karin Tychsen

ConText Adaptation Vejledning til TGK-ordbogen

Undervisningsbeskrivelse

FAG DANSK MATEMATIK BILLEDKUNST TEAM

Sprogteknologi I Undervisningsplan Forårssemester 2008

Vejledning til engelsk skriftlig fremstilling med adgang til internettet (FP9)

Projekt - Valgfrit Tema

DATABASE - MIN MUSIKSAMLING

l ære EVALUERING AF DIGITALE LÆREMIDLER AARHUS AU UNIVERSITET INSTITUT FOR UDDANNELSE OG PÆDAGOGIK (DPU)

Visualisering af data

DM536. Rapport og debug

Aalborg Universitet, 2. juni Lasse Høgh. Rasmus Flyger Berg Andersen. Side 1 af 13

statistik og sandsynlighed

Rapport. Kommunikation og IT

OIOREST webservice design. Guideline til design af REST-baserede webservices. Udgivet af: IT- & Telestyrelsen

Ugens emner. Regulære sprog og digitale billeder. Adressering af områder. Et alfabet. Dette billede: kan repræsenteres af en FA med 832 tilstande

PRÆSENTERER. Et stærkt personligt udviklingsprogram i naturlig ledelse

Undervisningsbeskrivelse

MATEMATIK 7. KLASSE. Web 3

Notat. Introdansk beskrivelse af fastlagte krav til indberetning af statistikoplysninger fra udbydere JL

Studieretningsprojekter i matematik og dansk? v/ Morten Overgård Nielsen

Manual til Rsiden.dk for rygestoprådgivere

Hvad er matematik? Indskolingskursus

Business Planning & Management software

Andre måder at lære matematik på!

ØVELSER Statistik, Logistikøkonom Lektion 6: Hypotesetest 1

Afsnittet er temmelig teoretisk. Er du mere til det praktiske, går du blot til det næste afsnit.

Læsepolitikken omfatter alle elever også elever i specialklasserækkerne. Bilaget gøres tydeligere De nationale test skal indføres i skemaet, bilag 1.

Webservice til upload af produktionstilladelser

Databasesystemer. Databaser, efterår Troels Andreasen. Efterår 2002

James G. March Beslutningsadfærd i organisationer:

Spil Rapport. Spil lavet i GameMaker. Kevin, Mads og Thor

Smuk matematik eller hvorfor vejrudsigten aldrig passer?

Kritisk diskursanalyse

Et udtryk på formena n kaldes en potens med grundtal a og eksponent n. Vi vil kun betragte potenser hvor grundtallet er positivt, altså a>0.

fundament for AGL Charlotte Bruun 28. marts, 2007 Lektor Institut for Økonomi, Politik og Forvaltning Aalborg Universitet

Innovativ pædagogik og didaktik i de klassiske fag

DANSK FLYGTNINGEHJÆLP

Årsplan for Matematik 8. klasse 2011/2012

Studieretningsprojekter i machine learning

Statistik i basketball

Informationssøgning metoder og scenarier

Arbejdsblad. Indhold. 27. maj 2010 A Projektplanlægning 1. 2 Samarbejdet i gruppen 3. 3 Samarbejdet med vejlederne 5

Termin maj-juni Institution HF uddannelsen i Nørre Nissum, VIA University College Uddannelse Hf. Matematik B, hfe bekendtgørelsen.

CAS i grundskolen: Hvorfor nu det?

Christian Becker GIS konsulent. Figurer og indhold i dette oplæg, er inspireret af og gengivet fra diverse White papers og PowerPoints fra ESRI.

Fag Januar-februar Marts april Maj - juni Faglige mål American business Skrive essay. Skrive essay. Grammatik Læse værk Cultural understanding

Indholdsfortegnelse. Side 1 af 7

ALGORITMISK ATTRIBUTION MODELLING. 28. maj 2019

FESD-standardiseringsgruppen Att: Palle Aagaard IT- og Telestyrelsen IT-strategisk kontor Holsteinsgade København Ø

nu været studeret i mere end to tusinde år, og litteraturen om det er meget stor.

Inspirationsmateriale fra anden type af organisation/hospital. Metodekatalog til vidensproduktion

Matematik og magi. eller Næste stop Las Vegas. 14 Anvendt matematik. Rasmus Sylvester Bryder

C-niveau Elevmanual. Følgende elevmanual tager udgangspunkt i model 3, men vil med justeringer også kunne anvendes i model 1 og 2.

Aftenskole i programmering sæson Flere registreringer. Sæson 2 - Lektion 8

Machine Learning til forudsigelser af central KPI

PS102: Den menneskelige faktor og patientsikkerhed

Oversættere / Datalogi 1E

DR Kommunalvalg 2005

AT UNDERVISE I MATEMATIK PÅ ET FREMMESPROG 1

Brug af de danske koordinatsystemer

Arbejdet i naturfag fagudvalget Principperne for arbejdet:

Kræves det, at eleverne opbygger og anvender viden? Er denne viden tværfaglig?

Statistik og beregningsudredning

Fagårsplan 13/14 Fag: Matematik Klasse: 7.B Lærer: LBJ Fagområde/ emne

Guide til din private side på Netstambogen

Videregående Programmering for Diplom-E Noter

Matematik, maskiner og metadata

Et velovervejet projekt

En læseindsats. der virker!

IPLK et værktøj til arbejdspladsvurdering (APV)

dcomnet-nr. 6 Talrepræsentation Computere og Netværk (dcomnet)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Opdateringer til førsteudgaven for Claus Drengsted-Nielsen: Grammatik på dansk

Et oplæg til dokumentation og evaluering

LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER LEDER WALK AND TALK WALK AND TALK WALK AND TALK WALK AND TALK WALK AND TALK

Undervisningsbeskrivelse

Sprogteknologi I Undervisningsplan Forårssemester 2009

Undervisningsbeskrivelse

Magnetfelter og børnekræft - er der en sammenhæng?

Svensk model for bibliometri i et norsk og dansk perspektiv

R e g e l f o r m a l i s m e r til b r u g v e d datamatisk lingvistik.

Årsplan 9. klasse matematik Uge Emne Faglige mål Trinmål Materialer/ systemer 33-34

Multimodalitet. Teori og analyse

Kompetencemål for Matematik, klassetrin

Kan anbefalinger af anbefalere anbefales?

User authentication og authorization i Angular 2

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Job / Person sammenligning

ÅRSPLAN ENGELSK UDSKOLING

MATEMATIK. Formål for faget

Deep Learning. Muligheder og faldgruber. Glenn Gunner Brink Nielsen, Teknologisk Institut

Transkript:

The Unreasonable Effectiveness of Data Af Halevy, Norvig og Pereira

Oversigt The unreasonableeffectiveness of Data Learning from Text at Web Scale Talegenkendelse Maskinoversættelse Generelt Semantisk Web vs. Semantisk fortolkning Udfordringer i Semantiske Web Services Udfordringer i Semantisk fortolkning Eksempler på brug af tabellerne

The unreasonable effectiveness of Data 1/2 Matematik = pæne formularer vs. mennesker/naturlige sprog = komplekse teorier Konsekvens: bør acceptere kompleksiteten og bruge den The unreasonable effectiveness of Data

The unreasonable effectiveness of Data 2/2 Google fi frigav (2006) samling med 1 billion ord med frekvensangivelser Problem: taget fra ufiltrerede hjemmesider Ufærdige sætninger Stavefejl Grammatiske fejl Andre fejl Stadig bedre pga. større + sjældne tilfælde Hvordan laver vi en model af al den data? The unreasonable effectiveness of Data

Learning from Text at Web Scale Største succes i maskinlæring Statistisk talegenkendelse Statistisk maskinoversættelse Hvorfor? Lektion 1: Brug meget og tilgængelig g gdata Ex. Semantiske relationer Lektion 2: Hukommelse er godt hvis der er meget træningsdata Learning from Text at Web Scale

Talegenkendelse Statistiske sprogmodeller består af en stor database med sandsynligheder for ord, der følger efter hinanden (n grams) N gramslaves ved at tælle tilfælde Sandsynligheden for nye n grams: Simple modeller vs. komplicerede modeller Learning from Text at Web Scale

Maskinoversættelse Tidligere: baseret på generelle regler Nu: hukommelse af store frase tabeller bll Kun generelle regler hvor oversættelsen forbedres Learning from Text at Web Scale

Generelt Bedre med rigtig mange eksempler end komplicerede modeller og generelle regler Vigtigt med nok data: Scene Completion # grammatiske, engelske sætninger er uendeligt Bruger kun endeligt mange Omkring en milliard eksempler er nok Learning from Text at Web Scale

Kritik Hvorfor kan vi ikke bruge generelle regler? Sproget er utrolig komplekst Sproget udvikler sig hele tiden Bliver modellerne ikke for specifikke? Dårlig ide at smide sjældne eksempler ud Web data består af individuelt sjældne med kollektivt ofte forekommende tilfælde Fordel: kan estimere modeller i tid proportionalt med datamængde Learning from Text at Web Scale

Udfordringer To tilgange til behandlingen af naturlige sprog Dyb: håndkodede grammatiker og systemmodeller Statistisk: lære n gram statistik fra store mængder data Tre problemer Vælge et repræsentationssprog Indkode en model i sproget Drage slutninger af modellen Learning from Text at Web Scale

Historisk set 1/2 1980 erne Repræsentationssprog: p førsteordens logik Indkodede modellen: et team af studerende Dragede slutninger: vha. komplekse inferensregler 1980 erne og 90 erne Repræsentationssprog: finite state machines Indkodede modellen: talte på store mængder data Dragede slutninger: vha. Bayesian statistik Learning from Text at Web Scale

Historisk set 2/2 2000 erne Statistisk relationel læring Forbedring af parsing vha. max margen classifiers Relationel logik og stor mængde data kan svare på spørgsmål Learning from Text at Web Scale

Semantisk Web vs. Semantisk fortolkning Semantisk ikweb Maskiner forstår semantisk data/dokumenter Ex. Hotelreservation Semantikken ligger i koden, der implementerer disse services Semantisk fortolkning Forstå mennesketale og skrift Upræcise, tvetydige naturlige sprog Semantikken ligger i at lingvistiske udtryk bliver fremkalder forventet reaktion Semantisk Web vs. Semantisk fortolkning

Udfordringer i Semantiske Web Services Skrivning af systemmodeller Det svære i implementeringen Konkurrence Upræcished og bedrag Semantisk Web vs. Semantisk fortolkning

Udfordringer i Semantisk fortolkning Sociologiske udfordring løst Tekniske udfordring løst Videnskabelige udfordring mangler Semantisk Web vs. Semantisk fortolkning

Videnskabelige udfordring Mangler at fortolke indholdet Problemet vil altid være der Samme mening kan udtrykkes på mange forskellige måder Samme udtryk kan betyde mange forskellige ting Semantisk Web frameworks minimerer problemet til mindre strenge Semantisk Web vs. Semantisk fortolkning

Løsning Metode til at finde relationer mellem dataset Web scale data er en del af løsningen Internettet indeholder mange uafhængigt lavede tabeller Viser hvordan forskellige strukturerer forskelligt Ex. Objekt med attributter flyvehøjde og passager > flyvemaskine Semantisk Web vs. Semantisk fortolkning

Eksempler på brug af tabellerne 1/2 Finde synonymer: ex. price = discount Attribut A & B er sandsynligvis synonymer y hvis A og B optræder med C men ikke sammen A og B er samme datatype eller dataelementer overlapper Skema autocomplete funktion Hvis A og B > ofte også C, D, E og F Hurtigere Mere almindelige/standardiserede navne Eksempler på brug af tabellerne

Eksempler på brug af tabellerne 2/2 Kombination af tabeller og andre kilder Identificere klassers attributter Klasse: Company Eksempel: Appel Computer Klasseattribut: Stock price Userquery: Apple Computer stock price At inkludere query logs > 90 % præcision på top 10 attributter pr. klasse Eksempler på brug af tabellerne

Tilbageblik The unreasonableeffectiveness of Data Learning from Text at Web Scale Talegenkendelse Maskinoversættelse Generelt Semantisk Web vs. Semantisk fortolkning Udfordringer i Semantiske Web Services Udfordringer i Semantisk fortolkning Eksempler på brug af tabellerne