The Unreasonable Effectiveness of Data Af Halevy, Norvig og Pereira
Oversigt The unreasonableeffectiveness of Data Learning from Text at Web Scale Talegenkendelse Maskinoversættelse Generelt Semantisk Web vs. Semantisk fortolkning Udfordringer i Semantiske Web Services Udfordringer i Semantisk fortolkning Eksempler på brug af tabellerne
The unreasonable effectiveness of Data 1/2 Matematik = pæne formularer vs. mennesker/naturlige sprog = komplekse teorier Konsekvens: bør acceptere kompleksiteten og bruge den The unreasonable effectiveness of Data
The unreasonable effectiveness of Data 2/2 Google fi frigav (2006) samling med 1 billion ord med frekvensangivelser Problem: taget fra ufiltrerede hjemmesider Ufærdige sætninger Stavefejl Grammatiske fejl Andre fejl Stadig bedre pga. større + sjældne tilfælde Hvordan laver vi en model af al den data? The unreasonable effectiveness of Data
Learning from Text at Web Scale Største succes i maskinlæring Statistisk talegenkendelse Statistisk maskinoversættelse Hvorfor? Lektion 1: Brug meget og tilgængelig g gdata Ex. Semantiske relationer Lektion 2: Hukommelse er godt hvis der er meget træningsdata Learning from Text at Web Scale
Talegenkendelse Statistiske sprogmodeller består af en stor database med sandsynligheder for ord, der følger efter hinanden (n grams) N gramslaves ved at tælle tilfælde Sandsynligheden for nye n grams: Simple modeller vs. komplicerede modeller Learning from Text at Web Scale
Maskinoversættelse Tidligere: baseret på generelle regler Nu: hukommelse af store frase tabeller bll Kun generelle regler hvor oversættelsen forbedres Learning from Text at Web Scale
Generelt Bedre med rigtig mange eksempler end komplicerede modeller og generelle regler Vigtigt med nok data: Scene Completion # grammatiske, engelske sætninger er uendeligt Bruger kun endeligt mange Omkring en milliard eksempler er nok Learning from Text at Web Scale
Kritik Hvorfor kan vi ikke bruge generelle regler? Sproget er utrolig komplekst Sproget udvikler sig hele tiden Bliver modellerne ikke for specifikke? Dårlig ide at smide sjældne eksempler ud Web data består af individuelt sjældne med kollektivt ofte forekommende tilfælde Fordel: kan estimere modeller i tid proportionalt med datamængde Learning from Text at Web Scale
Udfordringer To tilgange til behandlingen af naturlige sprog Dyb: håndkodede grammatiker og systemmodeller Statistisk: lære n gram statistik fra store mængder data Tre problemer Vælge et repræsentationssprog Indkode en model i sproget Drage slutninger af modellen Learning from Text at Web Scale
Historisk set 1/2 1980 erne Repræsentationssprog: p førsteordens logik Indkodede modellen: et team af studerende Dragede slutninger: vha. komplekse inferensregler 1980 erne og 90 erne Repræsentationssprog: finite state machines Indkodede modellen: talte på store mængder data Dragede slutninger: vha. Bayesian statistik Learning from Text at Web Scale
Historisk set 2/2 2000 erne Statistisk relationel læring Forbedring af parsing vha. max margen classifiers Relationel logik og stor mængde data kan svare på spørgsmål Learning from Text at Web Scale
Semantisk Web vs. Semantisk fortolkning Semantisk ikweb Maskiner forstår semantisk data/dokumenter Ex. Hotelreservation Semantikken ligger i koden, der implementerer disse services Semantisk fortolkning Forstå mennesketale og skrift Upræcise, tvetydige naturlige sprog Semantikken ligger i at lingvistiske udtryk bliver fremkalder forventet reaktion Semantisk Web vs. Semantisk fortolkning
Udfordringer i Semantiske Web Services Skrivning af systemmodeller Det svære i implementeringen Konkurrence Upræcished og bedrag Semantisk Web vs. Semantisk fortolkning
Udfordringer i Semantisk fortolkning Sociologiske udfordring løst Tekniske udfordring løst Videnskabelige udfordring mangler Semantisk Web vs. Semantisk fortolkning
Videnskabelige udfordring Mangler at fortolke indholdet Problemet vil altid være der Samme mening kan udtrykkes på mange forskellige måder Samme udtryk kan betyde mange forskellige ting Semantisk Web frameworks minimerer problemet til mindre strenge Semantisk Web vs. Semantisk fortolkning
Løsning Metode til at finde relationer mellem dataset Web scale data er en del af løsningen Internettet indeholder mange uafhængigt lavede tabeller Viser hvordan forskellige strukturerer forskelligt Ex. Objekt med attributter flyvehøjde og passager > flyvemaskine Semantisk Web vs. Semantisk fortolkning
Eksempler på brug af tabellerne 1/2 Finde synonymer: ex. price = discount Attribut A & B er sandsynligvis synonymer y hvis A og B optræder med C men ikke sammen A og B er samme datatype eller dataelementer overlapper Skema autocomplete funktion Hvis A og B > ofte også C, D, E og F Hurtigere Mere almindelige/standardiserede navne Eksempler på brug af tabellerne
Eksempler på brug af tabellerne 2/2 Kombination af tabeller og andre kilder Identificere klassers attributter Klasse: Company Eksempel: Appel Computer Klasseattribut: Stock price Userquery: Apple Computer stock price At inkludere query logs > 90 % præcision på top 10 attributter pr. klasse Eksempler på brug af tabellerne
Tilbageblik The unreasonableeffectiveness of Data Learning from Text at Web Scale Talegenkendelse Maskinoversættelse Generelt Semantisk Web vs. Semantisk fortolkning Udfordringer i Semantiske Web Services Udfordringer i Semantisk fortolkning Eksempler på brug af tabellerne