Stokastisk og heuristisk sprogmodellering.

Tom Brøndsted Institut for Kommunikation Aalborg Universitet Stokastisk og heuristisk sprogmodellering. Automatisk talegenkendelse (ASR) var i 60'erne og 70'erne domineret af to rivaliserende retninger: Mønstergenkendelse af hele ord og videnbaseret repræsentation i form af eksplicitte fonetiske og lingvistiske regler. I 80'erne blev mønstergenkendelsen forfinet. Udvidet anvendelse af statistiske teknikker og stokastiske modelleringsparadigmer (baseret først og fremmest på Skjulte Markov Modeller og kunstige neurale netværk) gjorde at man efterhånden blev i stand til at præsentere hæderligt fungerende ASR-systemer. Samtidig har den videnbaserede retning stort set ikke været i stand til at fremvise forbedringer [Moore 1992]. Som resultat af denne udvikling har ord som "regelbaseret" og "heuristisk" i dag fået en dubiøs klang i taleteknologien. For mange taleteknologer er udtrykkene slet og ret udtryk for en ineffektiv og forældet tilgang til ASR. Nogle ser desuden en særlig pointe i, at man med de statistiske modelleringsteknikker faktisk er i stand til at løse en række problemer uden at kende noget (eller ret meget) til dem! Hvad skal man så med heuristik og ekspertviden? Modsat er der også taleteknologer der netop beklager at moderne talegenkendelse ikke så meget bygger på indsigt i talesignalet som på efficiente træningsalgoritmer. Makhoul og Schwarz har ligefrem kaldt den stokastiske tilgang "ignorant-baseret" [Makhoul & Schwarz 1984]. Der er tale om en selvironisk bemærkning, da de selv har været vigtige bidragydere til den stokastiske retning (f.eks. har de introduceret den meget udbredte trifonmodellering [Schwarz et al. 1985]). Man kan opfatte den stokastiske tilgangs sejrsgang i 80'erne som et tegn på at man helt generelt ved alt for lidt om talesignaler samtidig med at det er svært at omsætte hvad man vitterlig ved (f.eks. om formanterne) til efficiente genkendelsesregler. Nøgternt set er der i øjeblikket ikke noget heuristisk alternativ til den stokatisk-statistiske teknik, når man arbejder med akustisk modellering. Til gengæld har de stokastisk-statistiske teknikker forplantet sig til andre områder af taleteknologien, hvor det måske er knapt så oplagt at anvende dem. Dette bidrag handler om sprogmodelleringen som er et sådant område. Sprogmodeller anvendes i moderne ASR-teknologi til at indgrænse søgerummet under den akustiske dekodning. Den information der anvendes under dekodningen af et talesignal til e.g. en streng af fonemsymboler er ud fra en stratificeret lingvistisk synsvinkel ikke blot af fonetisk-fonologisk art, men også leksikalsk, syntaktisk og semantisk. Dette er formodentlig ikke så forskelligt fra den måde talegenkendelse foregår hos mennesker. Grønnum og Thorsen noterer f.eks.: "Hvis Per siger ordet 'mat' isoleret, kan det godt være Lis opfatter det som 'mæt'; men siger Per 'mat i sokkerne', er Lis p.g.a. sammenhængen straks klar over, at sådan lyder altså Per's /a/, og hans /æ/ vil være endnu mindre lavt" [Grønnum & Thorsen 1991, s. 20]. I praksis er det altså ikke muligt at sætte en skarp grænse mellem "genkendelse af tale" og "forståelse af tale" hhv. mellem akustisk dekodning og syntaktisk-semantisk parsing. Den type information der anvendes til akustisk dekodning er i stor udstrækning ækvivalent med den viden der anvendes til natursprogsprocessering. Til gengæld må man nok sige, at der er formelle afvigelser mellem sprogmodeller anvendt til

akustisk dekodning og de grammatikformalismer (e.g. LFG'er, APSG'er, HPSG'er) der anvendes i moderne natursprogsprocessering. ASR-teknologien er i dag stort set altid baseret på varianter af en rekursiv dynamisk programmeringsalgoritme, kendt som Viterbi-algoritmen, der forudsætter at man er i stand til at beregne sandsynligheden for en bestemt sekvens af talesegmenter (f.eks. ord eller fonemer) givet en bestemt observationssekvens. Denne algoritme forudsætter at sprogmodeller repræsenteres som probabilistiske eller deterministiske finite state maskiner [Moore 1992 s. 237] [Brøndsted 1992]. Man kan forestille sig en sådan sprogmodel som et endeligt overgangsnetværk: Der er et endeligt antal noder og overgangene mellem noderne er akustiske modeller af f.eks. ord eller fonemer. Den enkelte akustiske model repræsenterer selv en finite state maskine, vel at mærke af den statistiske type (en skjult Markov Model). Hver mulig sti fra startnode til slutnode i netværket er udtryk for en grammatisk sekvens af ord/fonemer. Det skal for en ordens skyld understreges, at sådanne endelige overgangsnetværk selvfølgelig er i stand til at generere et uendelig antal sekvenser på samme måde som de formelt stærkere grammatiktyper der anvendes i natursprogsprocessering. I modsætning til akustisk modellering af talesegmenter er der på sprogmodelleringens område reel konkurrence fra den regelbaserede indfaldsvinkel. Sprogmodeller i moderne ASR-systemer kan derfor groft set henføres til to grundmodeller: 1) Deterministiske sprogmodeller baseret på binære indikatorfunktioner. Dvs. at sådanne modeller skelner mellem grammatiske og ugrammatiske ordsekvenser uden at tilordne sekvenserne sandsynligheder. Deterministiske sprogmodeller er stort set altid generereret af regler formuleret af lingvistiske eksperter. 2) Stokastiske sprogmodeller der tilordner ordsekvenser bestemte sandsynligheder. Disse modeller er altid trænet på et sprogligt korpus (omend man teoretisk ikke kan afvise at sandsynligheder også kan opstilles "manuelt" af eksperter). Tilhængere af de stokastiske sprogmodeller fremhæver gerne følgende: 1) Stokatiske sprogmodeller genererer sandsynligheder og har derfor større informationsværdi end deterministiske, der er rent Boolske. 2) Generering af stokatiske sprogmodeller kan let automatiseres og er derfor mindre ressourcekrævende end opstilling af regler til brug i en deterministisk model. 3) Da stokatiske sprogmodeller er resultatet af træning, er de ikke afhængige af usikker og ufuldstændig ekspertviden. Ingen af disse argumenter er imidlertid særlig holdbare. M.h.t. informationsværdien kan man også hævde, at fordelen er på de deterministiske sprogmodellers side. Stokastiske sprogmodeller er nemlig altid bundet til et endeligt udfaldsrum. Hovedtanken er, at sandsynligheden for en bestemt sætning S bestående af ordsekvensen w1 w2.. wq S = w1 w2...wq kan beregnes som sandsynligheden for w1 multipliceret med den konditionale sandsynlighed for w2 givet observationssekvensen w1, den konditionale sandsynlighed for w3 givet observationssekvensen w1 w2 etc.

P(S) = P(w1 w2... wq) = P(w1)P(w2 w1)p(w3 w1 w2)...p(wq w1 w2...wq-1) - hvor w1 og wq for nemheds skyld kan opfattes som pseudoord betegnende sætningsstart og -stop. Da den konditionale P(wQ w1 w2...wq-1) naturligvis ikke kan estimeres for alle ord og alle observationssekvenser, benytter man i praksis altid en tilnærmelse: P(wQ w1 w2...wq-1) (=) P(wQ wq-n+1...wq-1) dvs. sandsynligheden baseres alene på de forudgående N-1 ord. Dette leder frem til de såkaldte N-gram sprogmodeller, der i øjeblikket er de hyppigst anvendte i taleteknologien: Unigrammodeller (N=1), bigram-modeller (N=2) og trigram-modeller (N=3). I praksis er det ikke muligt at tilgodese mere end de 2 forudgående ord (som i trigram-modellerne), da størrelsen af sprogmodellen vokser eksponentielt i forhold til N. Betragter man sprogmodellen som et endeligt overgangsnetværk, vil hver mulig observationssekvens svare til en node, og hver node vil have et antal udgående transitioner svarende til antallet af mulige ord efter observationssekvensen. Til sammenligning er deterministiske sprogmodeller ikke nødvendigvis bundet til en prædefineret "vinduesstørrelse" (undtagelser er de såkaldte "word pair" grammatikker, som ikke skal omtales videre i denne sammenhæng). I de fleste tilfælde er det muligt at generere en fuldt eller tilnærmelsesvis ækvivalent finite state model af et delsprog beskrevet i f.eks. en kontekstfri formalisme (visse formelle begrænsninger er som bekendt påvist af Chomsky i 50'erne). Mange af de grammatikformalismer, der anvendes i moderne natursprogsprocessering, er i sidste ende kontekstfri. Det gælder eksempelvis unifikationsbaserede grammatikker, hvor atomare værdier tages fra endelige sæt. Derfor benyttes deterministiske sprogmodeller ofte i taleforståelsessystemer, hvor der indgår et modul til natursprogsprocessering med et delsprog beskrevet af en ekspert i en passende formalisme. Et eksempel er dialogsystemet "Minds" udviklet ved CMU, Pittsburgh. Sprogmodellerne, der anvendes under den akustiske dekodning, genereres dynamisk ud fra dialog-diskurs og semantiske grammatikker designet med henblik på natursprogsprocessering [Young 1990]. På lignende vis genereres sprogmodeller i et dialogsystem udviklet på CPK (Aaalborg) i samarbejde med CST (København) og CCI (Roskilde) [Brøndsted et al. 1994]. Heller ikke argumentet, at generering af stokastiske sprogmodeller er mindre ressourcekrævende end opstilling af regler for deterministiske modeller, er synderlig holdbart. Stokatiske sprogmodeller kræver anselige mængder træningsdata. I N-gram sprogmodeller vokser det sproglige korpus der er nødvendigt til træningen eksponentielt i forhold til N. En unigram-model kan genereres af et forholdsvist lille materiale (men er tilsvarende informationsfattig), mens en trigram-model kræver et langt større korpus. I realistiske dialogsystemer, hvor man sigter mod at genkende et bestemt, velafgrænset delsprog, kan man naturligvis kun anvende træningsdata, der vedrører domænet (e.g. billetreservation, turistinformation, varebestilling etc.). Typisk vil det dreje sig om transskriptioner af "real life" tale eller af simulerede dialoger (Wizard of Oz). Da tilvejebringelse af sådanne træningsdata kræver mange ressourcer, er der udviklet metoder, der muliggør træning på mindre korpora. En udbredt metode er "glatning" af N-gram modeller. Dette betyder at N-gram modellen afbalanceres med N-1, N-2... N-(N-1) statistik. Nedenstående er et eksempel på trigram-glatning efter [Jellinek et al. 1982]: P(w3 w1 w2)= p1 F(w1 w2 w3) + p2 F(w1 w2) + p3 f(w1)

F(w1 w2) F(w1) F(wi) - hvor F er antallet af forekomster af strengen i dets argument, F(wi) er antallet af ord i korpus, og p1, p2 og p3 er positive værdier og p1+p2+p3=1. I en "ægte" trigram-model vil sandsynligheden P(w3 w1 w2) være beregnet med p1=1, p2=0, p3=0, mens man i glattede udgaver trænet på små korpora typisk vil benytte e.g. p1=0.5, p2=0.25, p3=0.25. Det ses at N-gramglatning medfører en forringelse af informationsværdien af sprogmodellen og for så vidt må betragtes som en nødløsning. En anden udbredt løsning på utilstrækkelige træningsdata er at erstatte ordene i korpus med de tilsvarende semantiske (domænespecifikke) eller syntaktiske kategorier. Man taler da om "N-grams of word classes" eller "categorial N-grams". I denne type sprogmodeller får alle ord i én kategori samme sandsynlighed efter samme observationssekvens. Hvis f.eks. træningsdata har en skæv frekvensfordeling af navne på ugedage, og man fornuftigvis må antage at de bør have samme sandsynlighed, vil man typisk træne sprogmodellen på data, hvor ugedagene er erstattet af en pseudokategori <ugedag>. Denne træningsteknik leder frem til, at man også må sætte spørgsmålstegn ved det tredje og sidste argument for stokastisk sprogmodellering. Stokatisk sprogmodellering baserede på semantiske eller syntaktiske kategorier er selvfølgelig afhængige af heuristik og ekspertviden præcist som deterministiske sprogmodeller. Modviljen mod deterministiske sprogmodeller i taleteknologien er helt oplagt mere historisk end fagligt funderet. Dårlige erfaringer med akustisk modellering baseret på heuristik har medført, at der blandt mange er en generel mistro mod regler og ekspertviden. Dertil kommer, at selvlærende systemer epistemologisk kan gøre krav på at være en slags overordnede metateorier. Specielt i forbindelse med kunstige neurale netværk har denne tanke spillet en rolle. Brøndsted, T.: Viterbi- baseret talegenkendelse og -forståelse, Skriften på Skærmen 6, Århus 1992. Brøndsted, T., L. Larsen: "Representation of Acoustic and Linguistic Knowledge in Continous Speech Recognition", Spoken Language Dialogue Systems Rep. 5, Aalborg 1994. Giachin, E.: Automatic training of stochastic finite-state language models for speech understanding", i Proc. ICASSP, 1992. Grønnum, N., O. Thorsen: "Fonetik for sprogstuderende", 5.udg., København 1991 Jellinek, F., R.L. Mercer, L.R. Bahl: "Continous speech recognition", Handbook of Statistics, P.R. Krishnaiah (ed.), North Holland 1982. Makhoul, J., R. Schwarz: "Ignorance modelling", i J. Perkell, D.H. Klatt (eds) "Invariance and Variability in Speech Processes", Erlbaum 1984. Moore, R.K.: "Recognition - the stochastic modelling approach", i Chris Rowden (editor) "Speech Processing", Cambridge 1992. Prieto, N., E. Vidal: "Automatic learning of structural language models", i Proc. ICASSP, 1991.

Rulot, H., N. Prieto, E. Vidal: "Learning Accurace Finite-State Structural Models of Words through the ECGI algorithm", i Proc. ICASSP 1989. Schwarz, R., Y.L. Chow, O.A. Kimball, S. Roucos, M. Krasner, J. Makhoul: "Context-dependent modelling for acoustic-phonetic recognition of continous speech", i Proc. IEEE, 1985. Young, S.R.: "Use of dialogue, pragmatics and semantics to enhance speech recognition", i Speech Communication, vol. 9, 5/6 1990