Integration af akustisk genkendelse og natursprogsprocessering

Integration af akustisk genkendelse og natursprogsprocessering Tom Brøndsted 0. Indledning Ud fra en stratificeret lingvistisk sprogopfattelse som Winograds model i figur 1 synes der ikke at være større problemer forbundet med at kæde akustisk genkendelse og natursprogsprocessering sammen til et taleforståelsessystem. Genkenderen konverterer et talesignal (kassen "Sounds" øverst til højre) til nogle maskinlæsbare symboler ("Phonemes", næstøverste kasse til højre). Strengen af symboler er input til den videre processering, der identificerer morfemer, ord, syntaktiske strukturer og slutter med en semantisk repræsentation (kassen "Representation structures" nederst til højre). Da konverteringen af talesignalet til fonemer i Winograds model ikke involverer morfologisk, leksikalsk, syntaktisk og semantisk viden (venstre kolonne af kasser bortset fra øverste "Phonological rules"), er der forudsat en meget simpel relation mellem genkendelse og "egentlig" natursprogsprocessering: Genkenderen leverer input til natursprogsprocesseringen, dvs. udfylder groft sagt den funktion som tastaturet har i traditionelle datalingvistiske sprogforståelsessystemer. Figure 1 Taleforståelsesmodel efter T. Winograd "Language as Cognitive Process", Addison-Wesley 1983, s. 17. 1

Det ville være formålsløst at indlede med Winograds taleforståelsesmodel, hvis den ikke netop repræsenterede en opfattelse af talegenkendelse og -forståelse der er meget udbredt i den datalingvistiske litteratur. Sådanne modeller gør ikke krav på at være adækvate i psykolingvistisk forstand, men det er mere eller mindre eksplicit forudsat, at de kan implementeres på en computer. For så vidt må det vække til eftertanke, at Winograds model står i misforhold til eksisterende taleteknologiske systemer. Det største misforhold består i, at eksisterende systemer anvender leksikon og grammatik både under genkendelsen og natursprogsprocesseringen. Teksten (e.g. fonemstrengen) som genereres af genkenderen på basis af talesignalet vil ganske enkelt blive for fejlbehæftet, hvis man gav afkald på leksikon og grammatik under den akustiske processering. Et taleforståelsessystem baseret på Winograds model kan principielt godt implementeres, men det vil ikke fungere tilfredsstillende. Fejlgenkendt input vil forplante sig ned gennem systemet og resultere i fejlagtige semantiske repræsentationer og, hvis modellen indgår i et dialogsystem, fejlagtige tilbagesvar. Dette er ikke blot tilfældet med den eksisterende genkendelsesteknik, men efter alt at dømme også med fremtidens taleteknologi. Den viden der er forudsat af forståelsen af en sætning synes også nødvendig ved genkendelsen. Man kan forholdsvis enkelt korrigere Winograds model ved at trække pile fra de nedre kasser i venstre kolonne op til selve genkenderen (fonologisk processering). Men herved opstår der problemer. Det er en banal og uudtalt regel i datalingvistikken, at man kun arbejder med grammatikformalismer der kan anvendes af kendte parsealgoritmer. Kort sagt: grammatik og parser skal "passe sammen". Omvendt er det ikke almindeligt, at man beskæftiger sig med genkendelsesalgoritmer. Heller ikke i de tilfælde hvor man eksplicit arbejder med talesprog. For så vidt kan man hævde at der eksisterer en anden uudtalt regel: Grammatik og genkendelse behøver ikke at passe sammen. Dette paradoks bygger naturligvis på, at det ikke er almindeligt kendt at genkendelse forudsætter grammatik og leksikon. Dette gør dog ikke problemet mindre. Netop inkongruensen mellem de foretrukne grammatiktyper i datalingvistikken og de foretrukne genkendelsesalgoritmer indenfor taleteknologi er et hovedproblem i opbygningen af taleforståelsessystemer. I det følgende skildres hvordan akustisk processering kan integreres med natursprogsprocessering. Den beskrevne metode følger i grove træk en løsningsmodel, der er blevet anvendt i et taleforståelsessystem under udvikling i rammeprogrammet "Behandling af naturligt sprog i applikationsorienterede dialogsystemer". Rammeprogrammet har tidligere været omtalt i denne skriftserie (Povlsen et al. 1992). Løsningsmodellen bygger på metoder, der i forskellige varianter har været anvendt i taleforståelsessystemer siden slutningen af 80'erne. Gennemgangen fokuserer på, hvordan sproglige viden repræsenteret i formater beregnet på traditionel tekstuel natursprogsprocessering overføres til den akustiske processering. At overførslen af sproglig viden i det hele taget er nødvendig vidner om, at adskillelsen af genkendelse og forståelse er artificiel og i 2

længden uholdbar. 1. En taleforståelsesmodel. De fleste moderne genkendelsessystemer bygger på såkaldte skjulte Markov-modeller, og selve genkendelsesprocessen er forskellige varianter af Viterbi-algoritmen (se Brøndsted 1992). Dette bidrag tager udgangspunkt i denne type genkender, men det skal for en ordens skyld tilføjes, at der også findes systemer baseret på kunstige neurale netværk mm. I figur 2. (efter Brøndsted et al. 1993) er der skitseret en traditionel opbygning af et taleforståelsessystem baseret på skjulte Markov-modeller. Selve taleforståelsessystemet har et talesignal som input og en semantisk repræsentation som output. Taleforståelsessystemet består af to hovedkomponenter: Genkendelse, hvor talesignalet konverteres til tekst, f.eks. en fonemstreng, og parsing (med videre natursprogsprocessering), hvor teksten konverteres til en semantisk repræsentation. I lighed med Winograds model adskilles selve processeringen fra den viden, der anvendes under processeringen. Parseren anvender grammatik og leksikon og genkenderen akustisk viden i form af Markov-modeller og et endeligt overgangsnetværk, der beskriver hvordan de modellerede talesegmenter (e.g. fonemer) indgår i større sekvenser (stavelser, ord, sætningsled, sætninger). Udenfor selve taleforståelsessystemet illustrerer figuren, hvordan sproglig viden, der anvendes under natursprogsprocesseringen, kan være overført til genkenderen. Udgangspunktet er en prædefineret grammatik med leksikon, og målet er etableringen af skjulte Markov-modeller og et endeligt overgangsnetværk til brug under Viterbi-genkendelsen. Markov-modellerne forudsætter en træningsdatabase, der, som figuren antyder, kan genereres automatisk af grammatik og leksikon. Selve netværket, der indskrænker søgerummet for genkenderen, kan være resultatet af en konvertering af grammatik og leksikon. 3

Figure 2 Taleforståelsesmodel efter Brøndsted et al. "Representation of Linguistic and Acoustic Knowledge in the P1 Speech Recognition System", Aalborg, STC 93 4

1.1 Generering af skjulte Markov-modeller. Skjulte Markov-modeller er stokastiske, endelige tilstandsmaskiner (se Brøndsted 1992). I taleteknologien benyttes de til modellering af de talesegmenter som forsøges genkendt. Lingvistisk set vil man nok forvente, at Markov-modellerne blev anvendt til fonemer. Fonemerne på et sprog udgør jo et endeligt og oven i købet meget begrænset inventar af lingvistiske enheder. En (ideel) genkender, der er i stand til at genkende fonotaktisk mulige sekvenser af fonemmanifestationer, vil i princippet kunne genkende et hvilket som helst ord og en hvilken som helst sætning på sproget. En del systemer anvender da også fonemmodeller, men der er andre og hyppigere benyttede muligheder: Positionsbetingede allofoner ("trifoner") og hele ord, dvs. talesegmenter der kan udtales isoleret. Helordsbaserede systemer er naturligvis altid tilpasset et afgrænset delsprog og domæne. Motivationen for at anvende helordsmodeller er at de kan genereres med langt færre ressourcer end fonem- og allofonmodeller. De fleste moderne systemer bygger på såkaldte trifoner. Ligesom egentlige fonembaserede systemer tager trifonsystemer udgangspunkt i fonemteorien. Forskellen består i, at man i trifonsystemer modellerer positionsbetingede varianter af fonemer i forskellige Markov-modeller. Betegnelsen trifon antyder, at man bestemmer en fonemvariant maskinelt ud fra forudgående og efterfølgende nabofonem. Figur 3 illustrerer hvordan man med en fonemisk segmenteret og labelleret taledatabase opbygger et inventar af trifonmodeller. Grundtanken bag trifonsystemerne er, at realiseringen af et fonem i talestrømmen altid sker under stærk koartikulationsindflydelse fra nabofonemerne. Trifonsystemer forudsætter ligesom fonemsystemer tilstedeværelsen af fonemgrænser i talesignalet. Koartikulationskonceptet i sådanne systemer kan derfor også tolkes som en konsekvens af at fonemgrænsen er en idealiseret lingvistisk størrelse, der i talt sprog i virkeligheden modsvares af mere flydende overgange. Dvs. at en manuelt eller automatisk anbragt fonemgrænse i et talesignal altid vil indebære, at lidt af sidste fonem optræder på venstresiden og lidt af første fonem optræder på højresiden af grænsen. 5

Figure 3 Opbygning af trifoninventar Et inventar af Markov-modeller vil i praksis altid reflektere sproglig viden, der rækker ud over det akustisk-fonologiske eller i tilfælde af helordsmodeller ud over det akustiskleksikalske. Sammenhængen følger af at et inventar af Markov-modeller trænes på en korpus, der naturligvis vil have begrænsninger mht. dækning af enten inventar, positionsbetingede udtalevarianter eller begge dele. F.eks. vil en fonemmodel for /s/ forventeligt fungere meget dårligt til genkendelse af sibilant før urundet vokal, hvis den ikke er trænet på sibilanter i denne position (der er jo tydelig forskel på s-lyd i f.eks. "side" og "syde", hvor læbestillingen foregriber den følgende vokal). Også henover ordgrænser indtræder koartikulationseffekter, hvis ikke ordene ligefrem udtales "pauserende" adskilt af stilhed. Hvis den sproglige korpus, der anvendes til træningen af Markov-modellerne, genereres systematisk på basis af en grammatik og leksikon, vil de færdige modeller være specialiseret til genkendelse af netop det (del)sprog der dækkes af pågældende grammatik og leksikon. I systemet skitseret i figur 2 består der en ligefrem sammenhæng mellem den "latente" sproglig viden i Markov-modellerne og den sproglige viden, der anvendes under natursprogsprocesseringen. Selve træningsdatabasen (listen af sætninger, der er blevet benyttet til træningen af modellerne), er genereret direkte af natursprogsprocesseringens leksikon og grammatik. I praksis kan det foregå på den måde, at der genereres et meget stort antal tilfældige sætninger (måske 1-2 millioner), hvorefter hver sætning evalueres og optages i den egentlige træningsdatabase, såfremt den tilfører databasen tilstrækkeligt nyt i form af nye medlemmer af inventaret (e.g. nye trifoner, fonemer, ord) eller nye positionsbetingede varianter. Processen kan fortsættes iterativt, indtil træningsdatabasen er reduceret til et passende antal sætninger (måske 500). Sætningerne i træningsdatabasen vil da ideelt set tage højde for alle væsentlige akustiske hændelser der kan indtræde i sproget dækket af leksikon og grammatik. Herefter indtales de af et større antal indfødte talere fordelt repræsentativt på alder, køn 6

og regionalsprog (egentlige dialektale varianter kan ikke tilgodeses). De indtalte sætninger anvendes afsluttende til selve træningen af Markov-modellerne (træningsalgoritmen er omtalt i Brøndsted 1991). At det færdige inventar af Markov-modeller vitterligt må siges at indeholde f.eks. latent syntaktisk viden ses af de problemer der kan opstå, når man efter træningen foretager større eller mindre ændringer i grammatikken. I genkenderen udviklet på AUC under det ovenfor omtalte rammeprogram er der i øjeblikket problemer med genkendelsen af en så simpel ytring som "Ja!". Ordet kunne i følge den oprindelige grammatik ikke optræde sætningsfinalt (dvs. før stilhed) og forekommer derfor heller ikke i denne position i træningsdatabasen. At generere tilfældige sætninger af f.eks. en unifikationsbaseret apsg er ikke så forskelligt fra at parse sætninger med samme type grammatik. Der opbygges samme strukturer som under parsing, selvom man i sidste ende kun er interesseret i de "terminale kæder", dvs. sekvenserne af ord. Til gengæld indebærer sætningsgenerering lidt andre krav til grammatikken m.h.t. "stramhed", når det forudsættes at sætningerne skal kunne udtales naturligt af talere uden dybere indsigt i en datalingvists genvordigheder. At en grammatik undlader at kontrollere mere eller mindre redundante grammatiske relationer, f.eks. kongruens mellem subjekt og prædikat, spiller ingen væsentlig rolle i et tekstbaseret baseret system. Her er grammatikken uden indflydelse på input (det kommer jo fra brugeren!), og dens hovedopgave er at tilordne input korrekte eller anvendelige syntaktiske strukturer. I et taleforståelsessystem af typen skitseret i figur 2, hvor sproglig viden anvendes til at forbedre akustisk genkendelse, er adækvat prædiktion derimod ligeså vigtig som generering af adækvate syntaktiske strukturer. Det er en interessant detalje at der stilles lignende krav til sprogbeskrivelsen i den logisk-empiriske gren af sprogvidenskaben (e.g. Hjelmslev, den tidlige Chomsky). Hvis en grammatik basalt betragtes som en teori om et (del)sprog, er målet ikke en "stor", men en "sand" dækningsgrad. I praksis er det næppe muligt at indfri kravet om "stramhed" (eller simpelthen adækvans i epistemologisk betydning) uden i nogen grad at ty til såkaldte semantiske grammatikbeskrivelser. Dvs. at der ved siden af (eller i stedet for) helt generelle lingvistiske kategorier som s, np, vp, n, v adj etc. anvendes stærkt applikationsafhængige kategorier. I et flyreservationssystem kan det være kategorier som <lufthavn>, <afgangstid>, <brugernummer>. For taleforståelsessystemer af typen skitseret i figur 2 betyder dette, at der ikke blot overføres leksikalsk og syntaktisk viden til genkenderen, men reelt også semantisk. 1.2. Generering af endeligt overgangsnetværk. Foruden Markov-modellerne anvender genkenderen et endeligt overgangsnetværk. Markov-modellerne (der selv kan betragtes som endelige overgangsnetværk) er indsat som overgange. Det samlede netværk beskriver således, hvordan de modellerede enheder indgår i sætninger. I et helordsbaseret system svarer inventaret af Markov-modeller groft sagt til leksikon og overgangsnetværket til grammatik. I et fonem- eller trifonbaseret 7

system er både leksikon og grammatik indeholdt i overgangsnetværket. Selve Viterbi-algoritmen, der forudsætter at syntaks (og fonotaks) skildres i et endeligt overgangsnetværk, er tidligere beskrevet i denne skriftserie (Brøndsted 1992). Her skal der kun diskuteres de integrationsproblemer, der følger af genkendelsesalgoritmen. Et endeligt overgangsnetværk er som bekendt en datastruktur, der kun er egnet til beskrivelse af regulære sprog. Til natursprogsprocessering anvendes normalt stærkere grammatiktyper. For at gøre f.eks. en kontekstfri grammatik tilgængelig for en Markovgenkender, må man enten ændre genkendelsesalgoritmen (Viterbi-søgningen) eller ændre grammatikken. I nogle genkendelsessystemer anvendes grammatikker, der ganske vist betegnes kontekstfri, men hvor der ikke optræder egentlige rekursioner (underordning med uendelig dybde som når et np kan indeholde et pp, der selv kan indeholde et np etc.). At dette er muligt med traditionel Viterbi-søgning kan ikke undre. Sådanne tilfælde bør snarere give anledning til at fremholde, at selvom man beskriver et sprog vha. en kontekstfri grammatik (rtn, visse apsg'er etc.), behøver selve sproget ikke at høre til den kontekstfri type i Chomsky-hierarkiet. Andre mere sporadiske forsøg arbejder med en interaktiv integration af parser og genkendelse (e.g. Lindberg et al. 1992). Sådanne løsningsmodeller er meget beregningskrævende og er ganske enkelt urealistiske med mere omfangsrige grammatikker. Der er dog næppe tvivl om, at man i længden kommer til at arbejde med genkendelsesalgoritmer der også behersker rekursive netværk, og at sådanne genkendelsesalgorimer kan medvirke til at nedbryde skellet mellem genkendelse og forståelse. I figur 2 er der antydet en mere traditionel løsning på uoverensstemmelsen mellem grammatik og genkendelsesalgoritme. Grammatik og leksikon konverteres til et tilnærmet ækvivalent endeligt overgangsnetværk og indlæses i genkenderen. For så vidt som man tilstræber at få mest mulig sproglig viden overført til genkenderen, er det et idealt mål et få etableret et svagt ækvivalent overgangsnetværk. Svag ækvivalens indebærer at netværket har samme dækningsgrad som grammatikken, uden at det dog genererer samme syntaktiske strukturer (ret beset genererer et endeligt overgangsnetværk kun "flade" strukturer). Hvorvidt dette er muligt beror på grammatikken. Ofte kan grammatikker anvendt til natursprogsprocessering henføres til klassen af kontekstfri grammatikker. Dette gælder f.eks. også unfikationsbaserede apsg'er, der benytter et endeligt antal trækværdier. Kontekstfri grammatikker kan altid konverteres til stærkt ækvivalente rekursive overgangsnetværk (så at sige "storebror" til det endelige overgangsnetværk). Grammatikker uden rekursioner (e.g. uden uendelig underordning som np > (det) n (pp); pp > p np;) kan simpelthen ekspanderes fra en rtn-form til en endelig form. Egentlige rekursioner kan løses på to måder. Mange typer kan konverteres til iterationer: Lingvistisk svarer dette til at underordning ændres til sideordning. F.eks. kan et sætningsled som "i bogen på bordet bagved stolen...". for genkenderen beskrives som en ren iterativ proces (en "loop" i netværket). Andre rekursive kald kan beviseligt ikke skildres i et endeligt overgangsnetværk. Chomskys klassiske eksempel er reglen 'Z 8

> a (Z) b' (Chomsky 1957, s. 30). Her er kun en tilnærmet beskrivelse mulig. Enten kan rekursionen ekspanderes til en tilfældig endelig dybde, eller følgen af a'er og b'er kan skildres som to iterative processer. I første tilfælde bliver dækningsgraden for lille og i andet for stor. At satse på et (tilnærmet) svagt ækvivalent endeligt overgangsnetværk kan forårsage problemer i genkenderen, da netværket let kan vokse til en uoverkommelig størrelse. Man kan se et endeligt overgangsnetværk som en datastruktur, der består af et bestemt antal noder, et bestemt antal overgange og et bestemt antal forskellige overgange (én og samme overgang kan jo optræde forskellige steder i netværket). Antallet af forskellige overgange svarer i den aktuelle sammenhæng til antallet af Markov-modeller. Hvordan hver af disse parametre belaster f.eks. en 1-best Viterbi-genkender med token passing ses af algoritmen i Brøndsted 1992. For hver 10 ms. af talesignalet skal der evalueres et antal tæthedsfunktioner svarende til multiplum af antallet af forskellige overgange (Markov-modeller) og antallet af states i hver Markov-model. Antallet af tokens der skal propageres svarer til antallet af overgange i netværket. og antallet af identifikationer af tokens til propagering er sammenfaldende med antallet af noder. Af denne grund kan det være nødvendigt at konvertere grammatikken til et mere kompakt netværk, der på den ene side har en større dækningsgrad, dvs. er "løsere", men på den anden side stadig indskrænker søgerummet for genkenderen så meget, at den giver rimelige genkendelsesresultater. En meget udbredt løsning er anvendelse af såkaldte ordpargrammatikker. En ordpargrammatik er en simpel matrice, der for hvert ord i delsproget optæller et sæt af mulige ord på efterfølgende plads. En ordpargrammatik kan afledes af enhver kontekstfri grammatik med leksikon. Selve ordparmatricen kan konverteres til et kompakt, endeligt overgangsnetværk, hvor der oprettes en knude for hvert ord og fra hver knude en overgang for hver successor. Denne datastruktur kan reduceres yderligere, hvis der for ord med identiske sæt af sucessorer kun oprettes én knude. En ordpargrammatik vil naturligvis altid føre til dårligere genkendelsesresultater end et (tilnærmet) svagt ækvivalent overgangsnetværk. Til gengæld letter den implementeringen af genkendelse på reel tid. 2. Konklusion Dette bidrag har fokuseret på, hvordan sproglig viden overføres til en Markov-genkender og benyttes under den akustiske processering i et moderne taleforståelssystem. Det har været en vigtig pointe, at denne overførsel af viden står i kontrast til den almindelige opfattelse af taleforståelse i den datalingvistiske tradition. Akustisk genkendelse er ikke blot preprocessering til natursprogsbehandling, et "eksternt" modul der kan simuleres over tastatur. Reelt anvendes der samme sproglige viden som under natursprogsprocessering. Derfor er adskillelsen af de to niveauer unaturlig. Viterbi-algoritmen er en af de vigtigste hindringer for at en bedre integration af genkendelse og forståelse kan finde sted. Traditionelt opfattes Viterbi-algoritmen som en 9

optimal søgeteknik. Teksten, der er resultatet af genkendelsen, er udtryk for den sti gennem Markov-modellerne og grammatiknetværket der bedst matcher input. Søgningen er naturligvis kun optimal i den grad også Markov-modellerne og grammatiknetværket er optimale. Markov-modellerne kan teoretisk set altid optimeres, og store ressourcer indenfor taleteknologisk forskning anvendes netop på dette område. Til gengæld kan grammatik kun optimeres i den grad den kan beskrives i et endeligt overgangsnetværk. Reelt betyder det, at en Viterbi-genkender altid vil være suboptimal. Henvisninger: Baum, L.E.: An Inequality and Asociated Maiximization Technique in Statistical Estimation, Inequalities 3, 1972. Brøndsted, T.: Parsere til taleteknologi, SPS nr. 5, Handelshøjskolen Århus 1991. Brøndsted, T.: Viterbi baseret talegenkendelse og -forståelse, SPS nr. 6, Handelshøjskolen Århus 1992. Brøndsted, T.: Representation of Linguistic and Acoustic Knowledge in the P1 Speech Recognition System, Aalborg, STC 1993. Chomsky, N.: Syntactic Structures, Mouton, The Hague 1971 (1957). Lindberg, B., Andersen, B., Baekgaard, A., Broendsted, T., Dalsgaard, P., Kristiansen, J.: An integrated Dialogue Design and Continous Speech Recognition System Environment, ICLSP 1992. Povlsen, C., Music, B.: Natursprogsprocessering i dialogprocessering i dialogsystemer med talt input. SPS nr. 6, Handelshøjskolen Århus 1992. Sakoe, H., Chiba, S.: Dynamic programming algorithm optimization for spoken word recognition, IEEE, 1978, pp. 43-49. Winograd, T.: Language as a Cognitive Process, Addison-Wesly 1983. Viterbi, A.: Error bounds for conventional codes and an asymptotically decoding algorithm. IEEE 1967, s. 260 ff. 10