Stokastisk og heuristisk sprogmodellering.

Relaterede dokumenter
Integration af akustisk genkendelse og natursprogsprocessering

- 1 - Grammatikunderstøttet mønstergenkendelse af maskinlæsbar tekst.

Sprogteknologi I Undervisningsplan Forårssemester 2008

Sprogteknologi I Undervisningsplan Forårssemester 2009

Effectiveness of Data

Fagre, aktuelle verden talegenkendelse i Folketinget. Anne Jensen, redaktionssekretær

GESA, et GEnerelt System til Analyse af naturlige sprog, udformet som et oversætter-fortolker system med virtuel mellemkode

Sprog og Multimedier. Redigeret af: Tom Brøndsted & Inger Lytje. RJ) Aalborg Universitetsforlag

Skriftlig Eksamen Beregnelighed (DM517)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Fornyelsesteori med anvendelser: Punktprøve

Tue Tjur: Hvad er tilfældighed?

HMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars

DM517:Supplerende noter om uafgørlighedsbeviser:

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Prosodi i ledsætninger

En martingalversion af CLT

Grundtvigs Sandkasse

Fonemteori og talegenkendelse

Om hypoteseprøvning (1)

Dansk talegenkendelse

Skriftlig Eksamen Diskret Matematik (DM528)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Maskinlæring og AI i praksis. Erfaringer fra Danmark? Niels-Peter Rønmos

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}

Seksuel chikane på arbejdspladsen. En undersøgelse af oplevelser med seksuel chikane i arbejdslivet blandt STEM-ansatte

Eksamensopgaver i DM17, Januar 2003

Produkt og marked - matematiske og statistiske metoder

Syntaks og syntaksgenkendelse, særligt regulære udtryk og tilstandsmaskiner og lidt om anvendelser i bioinformatik

Kapitel 9: Netværksmodeller

Oversættere, ugeopgave 3

Kønsproportion og familiemønstre.

Regularitet og Automater. Tobias Brixen Q4-2012

Noter til DM517 Beregnelighed

ConText Adaptation Vejledning til TGK-ordbogen

Statistik II 1. Lektion. Analyse af kontingenstabeller

Regulære udtryk og endelige automater

Formålet er, at brugeren får forståelse for, hvordan TGK-systemet fungerer, og hvordan man får det bedste resultat ud af at arbejde med det.

Dat 2/BAIT6/SW4: Syntaks og semantik En manual for studerende

Dansk talegenkendelse

Københavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked

Undervisningsplan for Master i Sprogtilegnelse forår 2010

literære værker på engelsk. At dømme på disse literære værker beherskede Joseph Conrad engelsk morfosyntaks og leksikon på et niveau der er

Medfødt grammatik. Chomskys teori om sprogtilegnelse efterlader to store stridspunkter i forståelsen af børnesprog:

Kapitel 9: Netværksmodeller

Foredrag ved Nordiske Datalingvistdage på laml, Københavns Universitet, oktober 1979.

En statistikstuderendes bekendelser Søren Wengel Mogensen

Matematisk modellering og numeriske metoder. Lektion 16

Danmarks Tekniske Universitet

Intro til design og brug af korpora

Regularitet og Automater

Simulering af stokastiske fænomener med Excel

It-støttet excerpering og registrering af nye ord og ordforbindelser

Skriftlig Eksamen Algoritmer og sandsynlighed (DM538)

Meddelelse 2. Forelæsningerne i uge 6 ( ) Gennemgangen af BPT fortsættes. Vi afslutter Kapitel 4 og når sikkert et godt stykke ind i Kapitel 5.

LEKTION 4 MODSPILSREGLER

En martingalversion af CLT

ÅRSAG OG VIRKNING I ØKONOMIEN

Regulære udtryk og endelige automater. Ugens emner

Aarhus Universitet 5. februar Meddelelse 2

AI is not ROBOTS

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Introduktion til prædikatlogik

EN KOGNITIV REVOLUTION I VIDENSKABEN?

Åben uddannelse, Efterår 1996, Oversættere og køretidsomgivelser

Maple 11 - Chi-i-anden test

Flere ligninger med flere ukendte

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

En differentiabel funktion hvis afledte ikke er kontinuert Søren Knudby

Skriftlig Eksamen Algoritmer og Datastrukturer (dads)

Normale tal. Outline. Hvad er tilfældighed? Uafhængighed. Matematiklærerdag Simon Kristensen. Aarhus Universitet, 24/03/2017

Revision af pengeinstitutter

4 Oversigt over kapitel 4

fundament for AGL Charlotte Bruun 28. marts, 2007 Lektor Institut for Økonomi, Politik og Forvaltning Aalborg Universitet

Websitet handler om websitet i sin helhed, dvs. hvor mange besøgende du har i alt osv.

Semantiske relationer og begrebssystemer

Muligheder og begrænsninger i Deep Learning. C h r i s H o l m b e r g B a h n s e n

Ufuldstændighed, mængdelære og beregnelighed

1. Seminar EVU RegAut

- erkendelsens begrænsning og en forenet kvanteteori for erkendelsen

Aalborg Universitet, 2. juni Lasse Høgh. Rasmus Flyger Berg Andersen. Side 1 af 13

Plan. Markovkæder Matematisk modelling af kølængde, yatzy, smittespredning og partikelbevægelser. Materiale mm.

Skriftlig Eksamen Algoritmer og Datastrukturer (DM507)

26 Programbeviser I. Noter. PS1 -- Programbeviser I. Bevis kontra 'check af assertions' i Eiffel. Betingelser og bevisregler.

Fraktaler Mandelbrots Mængde

Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet

Simulering af stokastiske fænomener med Excel

DATALOGISK INSTITUT, AARHUS UNIVERSITET

Noget om en symmetrisk random walks tilbagevenden til udgangspunktet

1 Palm teori. Palm teori 1

Bits DM534. Rolf Fagerberg, 2012

Italien spørgeskema til seminarielærere / sprog - dataanalyse

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Forberedelse. Forberedelse. Forberedelse

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Sprogets byggeklodser og hjernens aktivitet ved sproglige processer Regionshospitalet Hammel Neurocenter

Fordele og ulemper ved latent klasseanalyse

Problem 1: Trykbevidsthed

Digitale Videnssystemer: Notater

Transkript:

Tom Brøndsted Institut for Kommunikation Aalborg Universitet Stokastisk og heuristisk sprogmodellering. Automatisk talegenkendelse (ASR) var i 60'erne og 70'erne domineret af to rivaliserende retninger: Mønstergenkendelse af hele ord og videnbaseret repræsentation i form af eksplicitte fonetiske og lingvistiske regler. I 80'erne blev mønstergenkendelsen forfinet. Udvidet anvendelse af statistiske teknikker og stokastiske modelleringsparadigmer (baseret først og fremmest på Skjulte Markov Modeller og kunstige neurale netværk) gjorde at man efterhånden blev i stand til at præsentere hæderligt fungerende ASR-systemer. Samtidig har den videnbaserede retning stort set ikke været i stand til at fremvise forbedringer [Moore 1992]. Som resultat af denne udvikling har ord som "regelbaseret" og "heuristisk" i dag fået en dubiøs klang i taleteknologien. For mange taleteknologer er udtrykkene slet og ret udtryk for en ineffektiv og forældet tilgang til ASR. Nogle ser desuden en særlig pointe i, at man med de statistiske modelleringsteknikker faktisk er i stand til at løse en række problemer uden at kende noget (eller ret meget) til dem! Hvad skal man så med heuristik og ekspertviden? Modsat er der også taleteknologer der netop beklager at moderne talegenkendelse ikke så meget bygger på indsigt i talesignalet som på efficiente træningsalgoritmer. Makhoul og Schwarz har ligefrem kaldt den stokastiske tilgang "ignorant-baseret" [Makhoul & Schwarz 1984]. Der er tale om en selvironisk bemærkning, da de selv har været vigtige bidragydere til den stokastiske retning (f.eks. har de introduceret den meget udbredte trifonmodellering [Schwarz et al. 1985]). Man kan opfatte den stokastiske tilgangs sejrsgang i 80'erne som et tegn på at man helt generelt ved alt for lidt om talesignaler samtidig med at det er svært at omsætte hvad man vitterlig ved (f.eks. om formanterne) til efficiente genkendelsesregler. Nøgternt set er der i øjeblikket ikke noget heuristisk alternativ til den stokatisk-statistiske teknik, når man arbejder med akustisk modellering. Til gengæld har de stokastisk-statistiske teknikker forplantet sig til andre områder af taleteknologien, hvor det måske er knapt så oplagt at anvende dem. Dette bidrag handler om sprogmodelleringen som er et sådant område. Sprogmodeller anvendes i moderne ASR-teknologi til at indgrænse søgerummet under den akustiske dekodning. Den information der anvendes under dekodningen af et talesignal til e.g. en streng af fonemsymboler er ud fra en stratificeret lingvistisk synsvinkel ikke blot af fonetisk-fonologisk art, men også leksikalsk, syntaktisk og semantisk. Dette er formodentlig ikke så forskelligt fra den måde talegenkendelse foregår hos mennesker. Grønnum og Thorsen noterer f.eks.: "Hvis Per siger ordet 'mat' isoleret, kan det godt være Lis opfatter det som 'mæt'; men siger Per 'mat i sokkerne', er Lis p.g.a. sammenhængen straks klar over, at sådan lyder altså Per's /a/, og hans /æ/ vil være endnu mindre lavt" [Grønnum & Thorsen 1991, s. 20]. I praksis er det altså ikke muligt at sætte en skarp grænse mellem "genkendelse af tale" og "forståelse af tale" hhv. mellem akustisk dekodning og syntaktisk-semantisk parsing. Den type information der anvendes til akustisk dekodning er i stor udstrækning ækvivalent med den viden der anvendes til natursprogsprocessering. Til gengæld må man nok sige, at der er formelle afvigelser mellem sprogmodeller anvendt til

akustisk dekodning og de grammatikformalismer (e.g. LFG'er, APSG'er, HPSG'er) der anvendes i moderne natursprogsprocessering. ASR-teknologien er i dag stort set altid baseret på varianter af en rekursiv dynamisk programmeringsalgoritme, kendt som Viterbi-algoritmen, der forudsætter at man er i stand til at beregne sandsynligheden for en bestemt sekvens af talesegmenter (f.eks. ord eller fonemer) givet en bestemt observationssekvens. Denne algoritme forudsætter at sprogmodeller repræsenteres som probabilistiske eller deterministiske finite state maskiner [Moore 1992 s. 237] [Brøndsted 1992]. Man kan forestille sig en sådan sprogmodel som et endeligt overgangsnetværk: Der er et endeligt antal noder og overgangene mellem noderne er akustiske modeller af f.eks. ord eller fonemer. Den enkelte akustiske model repræsenterer selv en finite state maskine, vel at mærke af den statistiske type (en skjult Markov Model). Hver mulig sti fra startnode til slutnode i netværket er udtryk for en grammatisk sekvens af ord/fonemer. Det skal for en ordens skyld understreges, at sådanne endelige overgangsnetværk selvfølgelig er i stand til at generere et uendelig antal sekvenser på samme måde som de formelt stærkere grammatiktyper der anvendes i natursprogsprocessering. I modsætning til akustisk modellering af talesegmenter er der på sprogmodelleringens område reel konkurrence fra den regelbaserede indfaldsvinkel. Sprogmodeller i moderne ASR-systemer kan derfor groft set henføres til to grundmodeller: 1) Deterministiske sprogmodeller baseret på binære indikatorfunktioner. Dvs. at sådanne modeller skelner mellem grammatiske og ugrammatiske ordsekvenser uden at tilordne sekvenserne sandsynligheder. Deterministiske sprogmodeller er stort set altid generereret af regler formuleret af lingvistiske eksperter. 2) Stokastiske sprogmodeller der tilordner ordsekvenser bestemte sandsynligheder. Disse modeller er altid trænet på et sprogligt korpus (omend man teoretisk ikke kan afvise at sandsynligheder også kan opstilles "manuelt" af eksperter). Tilhængere af de stokastiske sprogmodeller fremhæver gerne følgende: 1) Stokatiske sprogmodeller genererer sandsynligheder og har derfor større informationsværdi end deterministiske, der er rent Boolske. 2) Generering af stokatiske sprogmodeller kan let automatiseres og er derfor mindre ressourcekrævende end opstilling af regler til brug i en deterministisk model. 3) Da stokatiske sprogmodeller er resultatet af træning, er de ikke afhængige af usikker og ufuldstændig ekspertviden. Ingen af disse argumenter er imidlertid særlig holdbare. M.h.t. informationsværdien kan man også hævde, at fordelen er på de deterministiske sprogmodellers side. Stokastiske sprogmodeller er nemlig altid bundet til et endeligt udfaldsrum. Hovedtanken er, at sandsynligheden for en bestemt sætning S bestående af ordsekvensen w1 w2.. wq S = w1 w2...wq kan beregnes som sandsynligheden for w1 multipliceret med den konditionale sandsynlighed for w2 givet observationssekvensen w1, den konditionale sandsynlighed for w3 givet observationssekvensen w1 w2 etc.

P(S) = P(w1 w2... wq) = P(w1)P(w2 w1)p(w3 w1 w2)...p(wq w1 w2...wq-1) - hvor w1 og wq for nemheds skyld kan opfattes som pseudoord betegnende sætningsstart og -stop. Da den konditionale P(wQ w1 w2...wq-1) naturligvis ikke kan estimeres for alle ord og alle observationssekvenser, benytter man i praksis altid en tilnærmelse: P(wQ w1 w2...wq-1) (=) P(wQ wq-n+1...wq-1) dvs. sandsynligheden baseres alene på de forudgående N-1 ord. Dette leder frem til de såkaldte N-gram sprogmodeller, der i øjeblikket er de hyppigst anvendte i taleteknologien: Unigrammodeller (N=1), bigram-modeller (N=2) og trigram-modeller (N=3). I praksis er det ikke muligt at tilgodese mere end de 2 forudgående ord (som i trigram-modellerne), da størrelsen af sprogmodellen vokser eksponentielt i forhold til N. Betragter man sprogmodellen som et endeligt overgangsnetværk, vil hver mulig observationssekvens svare til en node, og hver node vil have et antal udgående transitioner svarende til antallet af mulige ord efter observationssekvensen. Til sammenligning er deterministiske sprogmodeller ikke nødvendigvis bundet til en prædefineret "vinduesstørrelse" (undtagelser er de såkaldte "word pair" grammatikker, som ikke skal omtales videre i denne sammenhæng). I de fleste tilfælde er det muligt at generere en fuldt eller tilnærmelsesvis ækvivalent finite state model af et delsprog beskrevet i f.eks. en kontekstfri formalisme (visse formelle begrænsninger er som bekendt påvist af Chomsky i 50'erne). Mange af de grammatikformalismer, der anvendes i moderne natursprogsprocessering, er i sidste ende kontekstfri. Det gælder eksempelvis unifikationsbaserede grammatikker, hvor atomare værdier tages fra endelige sæt. Derfor benyttes deterministiske sprogmodeller ofte i taleforståelsessystemer, hvor der indgår et modul til natursprogsprocessering med et delsprog beskrevet af en ekspert i en passende formalisme. Et eksempel er dialogsystemet "Minds" udviklet ved CMU, Pittsburgh. Sprogmodellerne, der anvendes under den akustiske dekodning, genereres dynamisk ud fra dialog-diskurs og semantiske grammatikker designet med henblik på natursprogsprocessering [Young 1990]. På lignende vis genereres sprogmodeller i et dialogsystem udviklet på CPK (Aaalborg) i samarbejde med CST (København) og CCI (Roskilde) [Brøndsted et al. 1994]. Heller ikke argumentet, at generering af stokastiske sprogmodeller er mindre ressourcekrævende end opstilling af regler for deterministiske modeller, er synderlig holdbart. Stokatiske sprogmodeller kræver anselige mængder træningsdata. I N-gram sprogmodeller vokser det sproglige korpus der er nødvendigt til træningen eksponentielt i forhold til N. En unigram-model kan genereres af et forholdsvist lille materiale (men er tilsvarende informationsfattig), mens en trigram-model kræver et langt større korpus. I realistiske dialogsystemer, hvor man sigter mod at genkende et bestemt, velafgrænset delsprog, kan man naturligvis kun anvende træningsdata, der vedrører domænet (e.g. billetreservation, turistinformation, varebestilling etc.). Typisk vil det dreje sig om transskriptioner af "real life" tale eller af simulerede dialoger (Wizard of Oz). Da tilvejebringelse af sådanne træningsdata kræver mange ressourcer, er der udviklet metoder, der muliggør træning på mindre korpora. En udbredt metode er "glatning" af N-gram modeller. Dette betyder at N-gram modellen afbalanceres med N-1, N-2... N-(N-1) statistik. Nedenstående er et eksempel på trigram-glatning efter [Jellinek et al. 1982]: P(w3 w1 w2)= p1 F(w1 w2 w3) + p2 F(w1 w2) + p3 f(w1)

F(w1 w2) F(w1) F(wi) - hvor F er antallet af forekomster af strengen i dets argument, F(wi) er antallet af ord i korpus, og p1, p2 og p3 er positive værdier og p1+p2+p3=1. I en "ægte" trigram-model vil sandsynligheden P(w3 w1 w2) være beregnet med p1=1, p2=0, p3=0, mens man i glattede udgaver trænet på små korpora typisk vil benytte e.g. p1=0.5, p2=0.25, p3=0.25. Det ses at N-gramglatning medfører en forringelse af informationsværdien af sprogmodellen og for så vidt må betragtes som en nødløsning. En anden udbredt løsning på utilstrækkelige træningsdata er at erstatte ordene i korpus med de tilsvarende semantiske (domænespecifikke) eller syntaktiske kategorier. Man taler da om "N-grams of word classes" eller "categorial N-grams". I denne type sprogmodeller får alle ord i én kategori samme sandsynlighed efter samme observationssekvens. Hvis f.eks. træningsdata har en skæv frekvensfordeling af navne på ugedage, og man fornuftigvis må antage at de bør have samme sandsynlighed, vil man typisk træne sprogmodellen på data, hvor ugedagene er erstattet af en pseudokategori <ugedag>. Denne træningsteknik leder frem til, at man også må sætte spørgsmålstegn ved det tredje og sidste argument for stokastisk sprogmodellering. Stokatisk sprogmodellering baserede på semantiske eller syntaktiske kategorier er selvfølgelig afhængige af heuristik og ekspertviden præcist som deterministiske sprogmodeller. Modviljen mod deterministiske sprogmodeller i taleteknologien er helt oplagt mere historisk end fagligt funderet. Dårlige erfaringer med akustisk modellering baseret på heuristik har medført, at der blandt mange er en generel mistro mod regler og ekspertviden. Dertil kommer, at selvlærende systemer epistemologisk kan gøre krav på at være en slags overordnede metateorier. Specielt i forbindelse med kunstige neurale netværk har denne tanke spillet en rolle. Brøndsted, T.: Viterbi- baseret talegenkendelse og -forståelse, Skriften på Skærmen 6, Århus 1992. Brøndsted, T., L. Larsen: "Representation of Acoustic and Linguistic Knowledge in Continous Speech Recognition", Spoken Language Dialogue Systems Rep. 5, Aalborg 1994. Giachin, E.: Automatic training of stochastic finite-state language models for speech understanding", i Proc. ICASSP, 1992. Grønnum, N., O. Thorsen: "Fonetik for sprogstuderende", 5.udg., København 1991 Jellinek, F., R.L. Mercer, L.R. Bahl: "Continous speech recognition", Handbook of Statistics, P.R. Krishnaiah (ed.), North Holland 1982. Makhoul, J., R. Schwarz: "Ignorance modelling", i J. Perkell, D.H. Klatt (eds) "Invariance and Variability in Speech Processes", Erlbaum 1984. Moore, R.K.: "Recognition - the stochastic modelling approach", i Chris Rowden (editor) "Speech Processing", Cambridge 1992. Prieto, N., E. Vidal: "Automatic learning of structural language models", i Proc. ICASSP, 1991.

Rulot, H., N. Prieto, E. Vidal: "Learning Accurace Finite-State Structural Models of Words through the ECGI algorithm", i Proc. ICASSP 1989. Schwarz, R., Y.L. Chow, O.A. Kimball, S. Roucos, M. Krasner, J. Makhoul: "Context-dependent modelling for acoustic-phonetic recognition of continous speech", i Proc. IEEE, 1985. Young, S.R.: "Use of dialogue, pragmatics and semantics to enhance speech recognition", i Speech Communication, vol. 9, 5/6 1990