Fonemteori og talegenkendelse

Relaterede dokumenter
Toner i århusiansk regiolekt

Integration af akustisk genkendelse og natursprogsprocessering

Matematisk modellering og numeriske metoder. Lektion 13

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.

Lineære sammenhænge, residualplot og regression

Prosodi i ledsætninger

Stokastisk og heuristisk sprogmodellering.

Residualer i grundforløbet

Analyse af en lineær regression med lav R 2 -værdi

Nina Grønnum. Fonetik og Fonologi. Almen og dansk. Tredje udgave AKADEMISK FORLAG

literære værker på engelsk. At dømme på disse literære værker beherskede Joseph Conrad engelsk morfosyntaks og leksikon på et niveau der er

Matematisk modellering og numeriske metoder. Lektion 5

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Notat vedrørende projektet EFP06 Lavfrekvent støj fra store vindmøller Kvantificering af støjen og vurdering af genevirkningen

a. Find ud af mere om sprogteknologi på internettet. Hvad er nogle typiske anvendelser? Hvor mange af dem bruger du i din hverdag?

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

22 Hobe. Noter. PS1 -- Hobe. Binære hobe. Minimum-hob og maximum-hob. Den abstrakte datatype minimum-hob. Opbygning af hobe. Operationen siv-ned.

Matematikkens metoder illustreret med eksempler fra ligningernes historie. Jessica Carter Institut for Matematik og Datalogi, SDU 12.

Matematik og samfundsfag Gini-koefficienten

praktiskegrunde Regression og geometrisk data analyse (2. del) Ulf Brinkkjær

Projektopgave Observationer af stjerneskælv

Evaluering af Soltimer

Matematisk modellering og numeriske metoder. Lektion 16

DANISH METEOROLOGICAL INSTITUTE MINISTRY OF TRANSPORT TECHNICAL REPORT KLIMAGRID - DANMARK

Vidensbegreber vidensproduktion dokumentation, der er målrettet mod at frembringer viden

En analyse af realisationer af fonemet [A:] i udvalgte regioner og aldersgrupper i SpeechDat 2

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Opgaver hørende til undervisningsmateriale om Herons formel

Notat. Notat om produktivitet og lange videregående uddannelser. Martin Junge. Oktober

Matricer og lineære ligningssystemer

Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80)

Projekt 3.5 Når en population kollapser

Seminaropgave: Præsentation af idé

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Hvad sker der i hjernen, når vi lærer, og hvor ved vi det fra? Christian Gerlach, Syddansk Universitet cgerlach@health.sdu.dk

Kommunal Rottebekæmpelse tal og tendenser

Benchmarking på anbringelsesområdet i Aabenraa Kommune

Rapport - Trivselsundersøgelsen Tandplejen. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

Ny metode til at indsamle interviewdata om rejser med overnatning. Linda Christensen

Skråplan. Esben Bork Hansen Amanda Larssen Martin Sven Qvistgaard Christensen. 2. december 2008

Københavnske ejerlejlighedspriser en meget begrænset indikator for hele landets boligmarked

Import af rekursivt (parent-child) hierarki i Palo

Nina Nielsen STANDARD RAPPORT. Adaptive General Reasoning Test

Rapport - Trivselsundersøgelsen Frederiksværk Skole

SILKEBORG KOMMUNE FORÆLDRETILFREDSHEDSUNDERSØGELSE 2018 SKOLE OG SFO

Registeranalyse af økologiske afhoppere, hvem er de? Skifter de til konventionel landbrug? eller ophører det helt med landbrug?

Hvad sker der med sin i moderne dansk og hvorfor sker det? Af Torben Juel Jensen

Artikler

Rapport - Trivselsundersøgelsen Rådhuset, Job og Arbejdsmarked

Rapport - Trivselsundersøgelsen Træning og Aktivitet

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Vektorer og lineær regression

Dataprogrammerne i HELP Start. HELP Spell Start: SS

TRIVSELSUNDERSØGELSE PÅ SKOLERNE BØRN OG UNGE 2014

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Rapport - Trivselsundersøgelsen Arresø Skole. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

Vektorer og lineær regression. Peter Harremoës Niels Brock

Rapport - Trivselsundersøgelsen Botilbudene. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

Virksomhedspraktik til flygtninge

Kommentarer til matematik B-projektet 2015

Dansk Industri har den 3. september 2015 offentliggjort deres årlige erhvervsklimaundersøgelse.

Rapport - Trivselsundersøgelsen Lynæs Børnehave

Rapport - Trivselsundersøgelsen Hundested Skole

Rapport uge 48: Skråplan

Politisk tillid. Figur 3.2. Politisk deltagelse: effekten af åbenhed ved høj og lav politisk interesse 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1.

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

GRIBSKOV KOMMUNE FORÆLDRETILFREDSHEDSUNDERSØGELSE 2019 DAGTILBUD, SKOLE, FO OG KLUB

Bilag 2: Undersøgelse af de nationale tests reliabilitet. Sammenfatning

Rapport - Trivselsundersøgelsen Plejecentret Arresøparken/Solhjem

Rapport - Trivselsundersøgelsen Plejecentret Halsnæs

Rapport - Trivselsundersøgelsen Børnehuset Kregme

Fraktaler Mandelbrots Mængde

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Rapport - Trivselsundersøgelsen Skole og Kultur. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

Et oplæg til dokumentation og evaluering

Binært LAS-format Denne indstilling import Laser scan datafiler, i LAS format.

Søren Sørensen STANDARD RAPPORT. Adaptive General Reasoning Test

Den personlige skattepligtige indkomst

Rapport - Trivselsundersøgelsen Børnehuset Baggersvej

Thomas Thomsen STANDARD RAPPORT. Adaptive General Reasoning Test

Rapport - Trivselsundersøgelsen Miljø og Teknik. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

Originalt emballagedesign

3. Om skalamønstrene og den indfoldede orden

Fordele og ulemper ved latent klasseanalyse

Kvægavlens teoretiske grundlag

13.1 Matrixpotenser og den spektrale radius

KØBENHAVNS UNIVERSITET, ØKONOMISK INSTITUT THOMAS RENÉ SIDOR,

Introduktion til den afledede funktion

Rapport - Trivselsundersøgelsen Bibliotekerne. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

Rapport 23. november 2018

Rapport - Trivselsundersøgelsen Plejecentret Løvdalen/Humlehaven

Hjerner i et kar - Hilary Putnam. noter af Mogens Lilleør, 1996

Rapport - Trivselsundersøgelsen Rådhuset. Sådan læses rapporten Rapporten er opdelt i flg. afsnit:

2.7. HVAD BETYDER DET EGENTLIG AT BETEGNE SIG SELV SOM TROENDE?

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik Lektion 4. Variansanalyse Modelkontrol

8.2 Statistiske analyse af hver enkelt indikator

StockRate s investeringsproces

Transkript:

Fonemteori og talegenkendelse Tom Brøndsted * & Jens Printz Madsen * Abstract Large vocabulary Speech recognition systems based on Hidden Markov Models modelling phonemes or units derived from phonemes (triphones, generalised triphones, diphones) have over the recent years moved towards increasing feature vector dimensions which typically include parameters like 1st and 2nd order delta cepstrum. Furthermore preprocessing is typically performed within a fixed window of around 1 msec necessary for modelling the huge number of qualitative phoneme variants found in large training databases. However, the number of acoustic events within such a window or speech segment is dependent on ROS (Rate of Speech). Since preprocessing includes speed dependent parameters, the acoustic model itself becomes ROS dependent. The present paper describes the implicit phoneme definition involved in modern speech recognition systems and analyses the problem of ROS variations. Modern preprocessing and modelling techniques aim very one-sided at improving recognition of qualitative phoneme variants. The drawback of these efforts is that recognition becomes very sensitive to ROS. Our analysis is carried out on the American TIMIT database and a small vocabulary Danish database P1. Keywords: Large vocabulary speech recognition, phoneme modelling, rate of speech, phone duration.. Indledning Talegenkendelsessystemer til genkendelse af store ordforråd er i reglen baseret på Skjulte Markov Modeller, der modellerer fonemer eller enheder afledt af fonemer (såkaldte trifoner, generaliserede trifoner eller difoner). De bygger derved på en substansnær fonemteori, som ikke altid stemmer overens med de mere formalt motiverede beskrivelser i teoretisk fonologi og fonemik. Det er blevet hævdet at talegenkendelse kun vedrører fonetik. Udgangspunktet for denne artikel er at vi her har med en slags anvendt fonemik at gøre, og at den tilgrundliggende fonemteori kan skildres ud fra modelleringsstrategien. Ved at beskrive modelleringsstrategien som en fonemteori er vi bedre i stand til at diskutere nogle af de problemer som er involveret i den. Vi vil fokusere på et af de større problemer, nemlig modellering af varierende fonemvarighed som en funktion af talehastighed. Bestræbelserne på at forfine modelleringen af kvalitative fonemvarianter med stadig mere kompleks forprocessering og ved anvendelse af stadig mere komponentrige Markov-modeller har nemlig den brist, at * Center for PersonKommunikation, Fredrik Bajers Vej 7, Institute of Electronic Systems, Aalborg University, DK-922 Aalborg, Denmark. E-mail: {tb,jpm}@cpk.auc.dk.

Fonemteori og talegenkendelse 19 genkendelsen bliver mere følsom overfor kvantitative (længdemæssige) variationer forårsaget af vekslende talehastighed. Artiklen består af en mere generel del omhandlende den taleteknologiske fonemdefinition samt en specifik del med diskussion af talehastighedsproblemet. Analysen bygger på to taledatabaser (databaser of fonemisk labellerede og segmenterede talesignaler): (1) Den amerikanske TIMIT database (J.S. Garofolo et al. 1993) og (2) den danske database P1 (T. Brøndsted et al. 1994). 1. Fonemdefinition Figur 1 viser den typiske sammenhæng mellem talehastighed (målt som antallet af fonemmanifestationer per sekund) og ordnøjagtighed opnået med fonembaseret genkendelse af den danske taledatabase P1 (testdelen): 1 95 9 Word accuracy (%) 85 8 75 7 65 6 55 4 6 8 1 12 14 16 18 2 22 Rate Of Speech (Phonemes per second) )LJXU526YHUVXV:RUG$FFXUDF\ Det ses at ordnøjagtigheden falder ved meget hurtig og meget langsom tale, mens den er bedst ved mere normal talehastighed. Da det er vores tese, at denne følsomhed overfor udsving i talehastighed er en vrangside af forprocessering og modelleringsstrategier der måske lidt ensidigt sigter med forbedret genkendelse af kvalitative fonemvarianter, vil vi tage udgangspunkt i fonemopfattelsen. Alle fonemdefinitioner er baseret på kommutationsprøven (den distinktive funktion). Kommutationsprøven er ikke eksakt i betydningen, at den kun kan føre til én bestemt analyse. Foneminventaret for dansk er blevet fortolket forskelligt. L. Hjelmslev (1948) opstiller et inventar med 19 fonemer, H. Basbøll (1977) et inventar med 38, Grønnum & Thorsen (1986) et inventar med 37 og H. Basbøll og J. Wagner (1984) et inventar med 45 fonemer. Sidstnævnte fremstilling minder meget om SAMPA-konventionen (SAMPA 1992), som den

11 Taleteknologi danske P1 database er baseret på. SAMPA-notationen opstiller for dansk et inventar med 42 fonemer 1. Tilsvarende er det ikke svært at finde teoretisk motiverede engelske fonemfremstillinger, der ligger tæt op af inventaret anvendt i TIMIT-databasen. Hovedforklaringen på den manglende overensstemmelse mellem de enkelte fremstillinger ligger i den klassiske form-substans-problemstilling. Hvad skal man mene om minimalpar som: hva -var, bod-båd, ane-arne, åle-årle, lovelåge? Substansnære fremstillinger kan (eller må) godtage dem, selvom der er stærke formale, dvs. fonologiske, morfofonemiske argumenter for at forkaste dem. At fonemopfattelsen i talegenkendelsesteknologien må høre til i den substansnære ende er indlysende. Et ydre tegn på at en fonemfremstilling er substansnær er i reglen at den opererer med et større foneminventar end de udpræget formalt motiverede fremstillinger. Netop relativt store foneminventarer er et gennemgående træk ved de taleteknologiske opstillinger. Vil man udover substansnær hæfte en skolebetegnelse på den taleteknologiske fonemopfattelse, kan man overveje den ældre amerikanske Bloomfieldtradition. Denne skoles grundprincip, som man humoristisk har sammenfattet Once a phoneme, always a phoneme er - af praktiske årsager - også hovedprincippet i talegenkendelsesteknologien. Når trænings- og testdatabaser segmenteres og labelleres, anvendes konsekvent fonemiske transkriptionssymboler der auditivt ligger tættest på de klassificerede udsnit af talesignalet. Dette bringer taleteknologien, ligesom Bloomfield-skolen 193 erne og 4 erne, på kant med visse fonologiske traditioner (klassiske europæiske traditioner såvel som generativ fonologi med moderne udlæggere). Man har eksempelvis fremhævet de danske vokalsænkninger i forbindelse med fonemisk /r/ som et fænomen der ikke kan beskrives adækvat i Bloomfield-skolens Once a phoneme... -regie (e.g. Basbøll 1977). I den danske P1 database er sådanne vokaler transskriberet ud fra rene fonetiske overvejelser. En fons tilhørsforhold til et fonem afgøres udelukkende af fonetisk lighed. I et talegenkendelsessystem måles fonetisk lighed konkret ved matching af foner med fonemmodeller under anvendelse af en bestemt mønstergenkendelsesalgoritme (typisk varianter af den såkaldte Viterbi-algoritme). 1 De tre manglende fonemer i SAMPA i forhold til Basbøll-Wagner-fremstillingen er /n/, /6/ og /X / (e.g. som i låge i modsætning til love med mulighed for større friktion) der tolkes som hhv. en ubetonet variant af fuldvokalen /c/, en fonemkombination /VM/ og en variant af /v/.

Fonemteori og talegenkendelse 111 1.1 Monofonematisk vs. polyfonematisk interpretation I genkendelsesteknologi er den mest anvendte modeltopologi en Markov model bestående af tre successive tilstande (states) hver med en iterativ løkke (loop) og en enkelt udgående transition til næste tilstand. Topologien er motiveret af antagelsen, at en fonemmanifestation kan deles i tre successive og nogenlunde lige lange perioder: (1) en venstre transition der manifesterer en grå zone, dvs. overgangen fra forrige fon, (2) en central og relativ stabil kerne og (3) en højre transition, dvs. overgangen til næste fon. Forventningen om en vis fonetisk homogenitet er naturligvis primært knyttet til den centrale periode af fonemet. Undertiden indbefatter denne forventning et krav til fonemopstillingen om at fonemkernerne skal være stabile og stationære. Derfor har taleteknologien en større tilbøjelighed til polyfonematisk fortolkning af komplekse lyd som diftonger, affrikater og lukkelyd end teoretisk fonologi. Vanskeligheder med modellering af non-stationære fonemer kan dog overvindes ved tilføjelse af flere komponenter (såkaldte Gaussiske mixtures) til modellerne. Ulempen er at modeller med mange komponenter skal trænes på et større materiale (flere tokens). I TIMIT-databasen er eksempelvis lukkelyd segmenteret i lukke- og eksplosionsfaser. Man kan her drage sammenligning med Hjelmslevs lidt ukonventionelle polyfonematiske interpretation af de danske aspirerede lukkelyd som kombinationer /bh/, /dh/, /gh/, omend motivationen selvfølgelig er vidt forskellig. TI- MIT lægger op til en enkel modellering af lukkelydsfaserne. Til forskel fra TIMIT har den danske P1-database (og SAMPA) en mere traditionel monofonematisk klassifikation af lukkelyd. Dette lægger op til modellering med flere komponenter. Netop fordi hver eneste prædefinerede akustiske model gør krav på en vis mængde træningsdata (tokens), er f.eks. en monofonematisk interpretation af de danske diftonger udelukket set fra en taleteknologisk synsvinkel. Den lydhistoriske afsvækkelse af oprindelige konsonanter, især b, g, v, j og r efter vokal, har på moderne dansk bevirket et meget stort antal uægte diftonger tillige med enkelte triftonger (som i hvirvle ), der, hvis de skulle modelleres monofonematisk i selvstændige modeller, ville kræve urealistisk store træningsdatabaser. Formodentlig af denne grund tolker SAMPA-konventionen (og dermed P1- databasen) de danske diftonger polyfonematisk. TIMIT-databasen tolker derimod de tilsvarende engelske diftonger monofonematisk. Den engelske interpretation indebærer ikke samme praktiske vanskeligheder som på dansk, omend den på baggrund af den polyfonematiske fortolkning af lukkelydene virker noget inkonsekvent (dokumentationen af TIMIT giver ingen forklaring herpå).

112 Taleteknologi Den forskellige interpretation af diftonger i TIMIT og P1 svarer, tilfældigvis(!), til en strukturel forskel de fleste teoretiske fonologer tillægger vokalkombinationerne i de to sprog. 1.2. Modelleringsstrategier Analysen af fonemmanifestationen i de tre nævnte perioder (venstretransition, central kerne, højretransition) er fundamental i den taleteknologiske fonemopfattelse. Den danner baggrund for flere forskellige modelleringsstrategier. Udgangspunktet er firkantet sagt at transitionsperioderne er uhomogene og ustabile, idet de er farvet af nabofonemerne, mens de centrale perioder er mere konstante og kontekstuafhængige. Nogle modelleringsstrategier koncentrerer sig om de stabile områder, mens andre rykker transitionerne i fokus, som vist i nedenstående figur: )LJXURQRIRQGLIRQRJWULIRQPRGHOOHUVNRUUHODWHULXGWDOHQDIRUGHW NDVVHQµ Direkte fonemmodellering i et antal akustiske modeller svarende til antallet af fonemer i foneminventaret er naturligvis repræsentant for førstnævnte strategi. Fonemer kaldes i taleteknologi ofte monofoner i kontrast til difoner og trifoner. Difonmodellering er et eksempel på sidstnævnte strategi. Ved difonmodellering interpoleres kunstige segmentgrænser præcis i midten af hver fonemmanifestation, og talesignalet mellem de interpolerede grænser anvendes til træning af difonmodeller. En difon består altså af sidste halvdel af en fonemmanifestation sammen med første halvdel af næste fonemmanifestation. Den teore-

Fonemteori og talegenkendelse 113 tisk maksimale grænse for antallet af difonmodeller er følgelig X 2, hvor X er antallet af fonemer i inventaret. Men tallet er selvfølgelig begrænset af kombinatorikken og, på det rent praktiske plan, af de difoner, man konkret har til rådighed i sin træningsdatabase. Trifonmodellering er en strategi, der i en vis forstand forener fonem- og difonmodelleringsstrategien. Hvert fonem analyseres ud i en række kontekstafhængige varianter defineret af et bestemt venstre og et bestemt højre nabofonem. Herved bliver transitionsperioderne af de akustiske modeller mere homogene. Den teoretisk maksimale grænse for at antallet af trifonmodeller er X 3, hvor X er antallet af fonemer. Men igen er antallet i praksis begrænset af både kombinatorik og af trifonforekomsterne i træningsdatabasen. Da hver akustiske model skal trænes på et rimeligt antal tokens, anvender man i reglen et mindre inventar af generaliserede trifoner, hvor venstre-højre-konteksten er defineret i mere generelle klasser (f.eks. lukkelyd, åben vokal osv.). De fleste systemer anvender i dag såkaldte beslutningstræer til automatisk generering af generaliserede trifoner: Der opbygges for hvert fonem et binært træ, hvor en node betegner en trifonvariant, der spaltes ud i to undervarianter defineret ved en stadig mere specifik venstre-højre-kontekst. Hver binære underinddeling opfylder to kriterier: (1) De to undervarianter er de akustisk mest forskellige varianter of moderknuden og (2) der er tilstrækkeligt mange tokens i træningsdatabasen til modellering af undervarianterne. De terminale noder i det binære træ udgør således det endelige inventar af trifonmodeller. Trifonmodelling vha. beslutningstræer eller ren fonemmodellering med mange komponenter (mixtures) kan givetvis løse mange problemer der følger af at der trods alt er dissonanser mellem fonemopfattelse og de enheder man reelt har med at gøre. Fra en fonemisk synsvinkel er minimalpar som plade-blade og klat-glat karakteriseret ved en forskel i lukkelyden /p-b/ hhv /k-g/ (dvs. aspireret, uaspireret). Betragter man udtaleforskellen naivt fra venstre mod højre - på samme måde som en talegenkender - er den snarere karakteriseret ved en forskel i lateralen (ustemt /l/ i plade og klat, stemt /l/ i blade og glat). Fonemvarianter beroende på koartikulation, hvor den styrende kontekst er lokaliseret til de direkte tilstødende fonemer, vil i trifongenkendere formodentlig blive modelleret i forskellige modeller, forudsat varianterne er tilstrækkeligt repræsenteret i træningsdatabasen. Fonemgenkendere med mange komponenter i modellerne vil under samme forudsætning også kunne løse problemet. Men vinduesfunktionen på tre fonemer er langtfra altid tilstrækkelig. I tilfælde som sigesuge, smitte-smutte, stritte-strutte, farves /s/ af læberundingen i efterfølgende

114 Taleteknologi vokal, der befinder sig hhv. en, to og tre pladser til højre. Trifongenkendere må her ty til samme løsning som fonemgenkendere, nemlig tilføjelse af komponenter til de akustiske modeller. Mange komponenter kræver større træningsdatabaser. Derfor er udviklingen indenfor talegenkendelse i de senere år kendetegnet ved stadig mere kompleks modellering og etablering af stadig større træningsdatabaser. De generelle krav til træningsdatabaser m.h.t. talerantal og - variation (fordeling på køn, alder, region mm.) kan efterhånden blive svære at opfylde i små sprogsamfund som luxemburgsk, islandsk mm. Andre kræfter trækker (heldigvis) i den modsatte retning: Mere auditivt motiveret forprocessering og generelt mere anvendelse af fonetisk viden. Dette kan reducere kravene til træningsdatabaser eller kan føre til at eksisterende træningsdatabaser udnyttes bedre. 1.3 Prosodi Måske fordi den toneangivende forskning i talegenkendelse er koncentreret om engelsk (eller genetisk nært beslægtede sprog), er prosodemgenkendelse et forholdsvis underrepræsenteret område. Med et tonalt sprog som klassisk kinesisk i fokus ville prototypen på en moderne talegenkender givetvis se anderledes ud. De fleste systemer involverer slet ikke prosodi, og den sporadiske forskning indenfor området drejer sig stort set udelukkende om sætningsintonation. Tryk endsige skandinaviske fænomener som stød og ordaccent behandles ikke. Når f.eks. tryk og stød henlægges til prosodi, betyder det at man - i det mindste i første omgang - vælger at ignorere dem. Vokalkvantitet (trækket tense) er et andet fænomen som i taleteknologi traditionelt henlægges til prosodi. Markovmodeller er ikke specielt egnede til at modellere tidsinformation. Tværtimod er de netop designet med henblik på at være ufølsomme overfor udsving i varighed. Men den afgørende vanskelighed består i at vokalkvantitet mere er et formalt, fonologisk træk end et fonetisk: lang vokal betyder potentiel lang. I talen kan langvokaler jo afkortes. Desuden er længden afhængig af talehastigheden. Forsøg på at modellere vokalkvantitet vha. modeltopologien (øge antallet af tilstande i modeller for langvokaler) falder derfor ikke heldigt ud (sml. Macchi 199). På dansk er problemet omkring vokalkvantitet af to grunde mere føleligt end på engelsk: (1) For det første følges vokallængdeforskellen kun sjældent af en så stor kvalitetsforskel, at kort- og langvokalen kan modelleres i to forskellige fonemmodeller eller to forskellige sæt af trifonmodeller. Med ren Markovgenkendelse er vi altså ikke i stand til at adskille minimal par som hvile-ville,

Fonemteori og talegenkendelse 115 mene-minde, mæle-melde, hyle-hylde, søle-sølle, kugle-kulde. (2) For det andet indebærer de komplekse akustiske forprocesseringsteknikker, der sigter mod modellering af mange kvalitative fonemvariationer, at modellerne bliver følsomme overfor varierende talehastighed. Dette berører alle modeller, men naturligvis især dem der modellerer vokaler af forskellig kvantitet. I det følgende vil vi behandle problemet omkring varierende talehastighed mere indgående. Generelt ser vi problemet som et bagslag af en for ensidig fokuseren på modellering af kvalitative fonemvarianter i forbindelse med genkendelse af store ordforråd. 2 Analyse af talehastighed Talegenkendelsessystemerne har i de senere år bevæget sig mod stadig større trækvektordimensioner som typisk inkluderer hastighedsafhængige parametre som første- og andenordens deltacepstrum. Yderligere foregår den akustiske parameteruddragning typisk indenfor en vinduesfunktion på ca. 1 ms. Antallet af akustiske hændelser indenfor et sådant vindue vil naturligt afhænge af talehastigheden. Da den akustiske forprocessering inkluderer hastigheds- og accelerationsafhængige parametre, vil også de akustiske modeller indeholde parametre, der foregriber bestemte talehastigheder. En analyse af talehastighed (i det følgende ROS, Rate Of Speech) kan bidrage både til etablering af bedre træningsdatabaser og til bedre design af akustiske modeller. 2.1. To mål for ROS ROS kan måles enkelt som foner per sekund (jvf. f.eks. Mirghafori et al. 1996). Dette ROS-mål, i det følgende ROS PH, er det mest anvendelige til analyse af talehastighedsproblemer, som de tager konkret sig ud i fonem-, difon- eller trifonmodellerende talegenkendelsessystemer: nemlig som varierende fonemvarigheder. Men intuitivt er ROS PH ikke et adækvat mål. Af et adækvat mål vil vi forvente en lav intra-taler og en høj inter-taler variabilitet i taledatabaser som TIMIT og P1, som er blevet optaget under konstante ydre betingelser (talerne har læst sætninger op i kontrollerede laboratorieomgivelser, dvs. at vi kan udelukke indflydelse fra situative faktorer som varierende grader af irritation, ivrighed osv.). Men vores analyse viser også en høj grad af intra-taler variabilitet. Vi vil derfor overveje et alternativt mål baseret på trykgrupper. En trykgruppe er defineret som en gruppe af stavelser, hvoraf den første har stærktryk og de efterfølgende har bitryk eller er ubetonede. Generel fonetik regner dansk (og

116 Taleteknologi tysk og engelsk) til de trykrytmiske sprog med en tendens til relativ stabil tidsafstand mellem stærktrykkene (jvf. f.eks. Grønnum 1986). Vores alternative mål, ROS SG, er ganske enkelt defineret som trykgrupper per sekund. Vores analyse er primært baseret på ROS PH. ROS SG vil vi forsøge at anvende til forklaring af intra-taler variationer i ROS PH. 2.2 Fonemvarighed og ROS PH Lad os tage begyndelsen i varighedskonturerne for nogle udvalgte danske vokalfonmer: 25 Duration for phoneme ({) 14 Duration for phoneme (@) 12 2 1 15 8 Count Count 1 6 4 5 2 5 1 15 2 25 3 35 phoneme length (1 msec.) )LJXU9DULJKHGVNRQWXU4Ù 5 1 15 2 25 3 35 phoneme length (1 msec.) )LJXU9DULJKHGVNRQWXU 6 Duration for phoneme (o) 8 Duration for phoneme (Q) 5 7 6 4 5 Count 3 Count 4 2 3 2 1 1 5 1 15 2 25 3 phoneme length (1 msec.) 5 1 15 2 25 3 phoneme length (1 msec.) )LJXU9DULJKHGVNRQWXURRÙ )LJXU9DULJKHGVNRQWXU cùn

Problemet med ROS PH -variationer fordeler sig dog ikke jævnt over alle fonemer i inventaret. Det antages almindeligvis, at f.eks. vokaler har en større evne til at strækkes eller afkortes end konsonanter. Figur 3-6 ovenfor viser nogle eksempler på varigheder af vokalfonemer i P1 testdatabasen. Segmenteringen er foretaget automatisk (med tvungen genkendelse, såkaldt alignment) og er delvis manuelt verificeret. Spredningen af vokalvarighederne er meget stor, typisk mellem 3 og 3 ms, mens eksempelvis lukkelydene alle varer mellem 3-14 ms med en tydelig top omkring 8 ms. Det ses også, at der er tydelige konturforskelle mellem de enkelte vokaler. Da test-delen af P1 er meget lille (omfattende kun 22 forskellige ord), er de fleste konturforskelle formodentlig begrundet i ordforrådet. Men man aner dog et vist mønster betinget af om vokalfonemet har (1) en fonologisk lang variant, (2) en fonologisk kort variant, (3) en ubetonet variant med mulighed for synkope, (4) en ikkestavelsesbærende variant og (5) en variant med stød. SAMPA-symbolet /{/ (figur 3) dækker over en, i traditionel fonologisk forstand, lang vokal [4Ù], men forekommer i P1 ofte i forbindelse med stød, der akustisk kan manifestere sig som en slags afkortning. Varighedskonturen for /{/ minder derfor om /o/ (figur 5), der som de fleste øvrige danske SAMPA-vokalsymboler både har en kort og en lang variant (IPA: [R, RÙ]). SAMPA-symbolet /@/ (figur 4) dækker over den ubetonede swa-vokal (IPA [ ]), mens /Q/ (figur 6) er meget heterogen med både en kort, en lang og en ubetonet variant (IPA [, cù, n]) 2. Mange af de ultrakorte realiseringer af især /@/ må tolkes som rene synkoper. Da P1 som nævnt er segmenteret vha. tvungen genkendelse, vil modeltopologien med de 3 tilstande føre til at synkoperede fonemer tilordnes minimum 3 ms. (3 frames à 1 ms.) af talesignalet. I det følgende vil vi kort beskrive et matematisk mål til bestemmelse af sammenhængen mellem fonemvarighed og ROS PH. Selve analysen er koncentreret om TIMIT-databasen, som har en række fordele fremfor P1: (1) den er større og omfatter langt flere leksikalske former, (2) den er segmenteret og labelleret manuelt af fonetiske eksperter og (3) den anvender vokalfonemer der mere entydigt kan bestemmes som enten fonologisk lange eller fonologisk korte (herunder ubetonede). 2 Vi betragter dette som en klar designfejl i SAMPA. Vokalkvaliteten i e.g. suppe, årle og lærer noteres alle med /Q/

118 Taleteknologi Til estimering af et individuelt fonems afhængighed af ROS PH, vil vi tage udgangspunkt i to mål. Det første ROS S (r) beskriver enkelt udtalehastigheden af en individuel sætning S(r) som den gennemsnitlige varighed af sætningens fonemmanifestationer (foner), dvs. S( r) 1 1 ROSS( r) = (1) N S ( r) i dur( r, i) hvor N S (r) er antallet af foner i sætningen S(r) og dur(r,i) er varigheden af fon nummer i. Dette svarer stort set til ROS-definitionen hos Mirghafori et al. (1996). Det andet mål ROS P (r,l,j) beskriver udtalehastigheden af et individuelt fonem (j) i sætningen S(r), dvs. 1 ROS p( r,, l j) = (2) dur(,, r l j) hvor dur(r,l,j) er varigheden af fonemsegment nummer l i sætningen S(r) transskriberet med fonemsymbolet (j). Den endelige bestemmelse af et individuelt fonems afhængighed af ROS-variationer R(j) beregnes via første ordens regressionskoefficienter: y = f j( x) = aj + bjx (3) som estimeres på datasættene: ( x, y) j:( ROSS( r), ROS p ( r, l, j)) (4) hvor (x,y) j er datasættet for hvert fonemiske symbol p(j) og hvor regressionen udføres på hvert af disse datasæt. Afhængighedsmålet kan nu defineres som den relative forandring af ROS P (r,l,j) i forhold til ROS S (r), givet ved: R( j) = f j( x + x) f j( x) f( x) = ( x + x) x x x y b hvor (x,y ) er datapunktet som målet R(j) vil blive baseret på. Datasættene for TIMIT-fonemerne /b/ og /uw/ (IPA: eksplosionsfasen af /b/ og den let diftongerede langvokal /u w /) er vist i figur 7 nedenfor: j (5)

Fonemteori og talegenkendelse 119 2 18 16 14 y (phones/sec.) 12 1 8 6 4 2 8 1 12 14 16 18 2 22 24 x (phones/sec.) )LJXU526GDWDV WL7,,7IRUIRQHPHUQHEP UNHWPHGRJXZP UNHWPHG /b/-fonemerne markeret med (.) er jævnt distribueret over hele planet og demonstrerer en lav R(j) værdi (.4). Selvom varighederne af /b/ varierer betydeligt, er der altså ingen nævneværdig afhængighed af ROS PH. Modsat er /uw/, markeret med (+), distribueret tæt på x-aksen med en tydelig stigende tendens og med en høj R(j) værdi (1.49) 3. Beregningen af R(j) kræver selvsagt store datasæt Vi anfører derfor alene resultaterne fra analysen af TIMIT. For hvert fonemiske symbol beregner vi et statistisk konfidensmål C(j), der groft sagt udtrykker i hvor høj grad man kan stole på det beregnede R(j)-mål 4. I nedenstående tabel er hvert fonem P(j) noteret med det originale TIMIT-symbol (CMU ASCII-transskription af IPA), og parentes omkring et symbol angiver at symbolet er en afvigende udtale- 3 TIMIT er ifølge dokumentationen segmenteret manuelt. De tydelige horisontale linjer i distributionen af /b/ i figur 7 kunne dog tyde på at lukkelyde er segmenteret automatisk i lukke og eksplosion og herefter manuelt tilrettet hvis påkrævet. 4 Konfidensmålet C(j) er givet ved x C j 1 SS R( j) ( ) = t hvor Nj er antallet a, N y Sxx ( j) N j 2 j 2 2 af forekomster af fonemsymbolet p(j) i databasen. SSR og Sxx er defineret som i Ross Sheldon (1987).

12 Taleteknologi variant af et bestemt fonem (Brøndsted 1997). Endelig er symbolets tilhørsforhold til en naturlig klasse af fonologiske segmenter angivet med X : gl=glides, lv=langvokal/diftong, liq=likvid, cl=lukkefase (i.e. af affrikater og lukkelyd), sv=kortvokal, fr=frikativ, na=nasal, aff=affrikat (release-fase), pl=lukkelyd (eksplosions-fase) 5. P(j) R(j) C(j) gl lv li q cl sv fr na af pl uw 1.49.62 X w 1.47.25 X (ux) 1.35.34 X y 1.33.35 X oy 1.21.57 X r 1.14.18 X ao 1.2.25 X th 1.1.5 X axr.99.24 X ae.96.23 X ow.95.3 X ng.92.37 X bcl.92.32 X en.9.52 X (hv).89.43 X s.89.17 X tcl.89.18 X hh.88.43 X aw.88.49 X uh.87.52 X dcl.87.21 X aa.84.24 X ay.82.29 X l.82.17 X el.8.44 X ih.79.19 X (q).77.25 X kcl.75.19 X 5 Ikke alle vokalsymboler er helt entydige mht. trækket tense. Specielt /ER/ som i TIMIT bruges både i tilfælde som backwards og birds (/b ae1 k w er d z/, /b er1 d z/) kunne også være klassificeret som kort vokal. Enkeltheder er beskrevet i Brøndsted 1997.

Fonemteori og talegenkendelse 121 P(j) R(j) C(j) gl lv li q cl sv fr na af pl zh.73.94 X ey.72.27 X er.72.3 X g.72.32 X n.7.17 X f.67.3 X z.66.22 X iy.66.16 X pcl.66.27 X eh.66.22 X (eng).64 1.7 X v.64.31 X ah.63.27 X ix.63.15 X ch.63.47 X ax.57.22 X m.54.23 X (axh).51.74 X gcl.5.31 X sh.48.3 X jh.48.4 X (em).47 1.16 X dh.47.28 X t.38.23 X p.21.29 X (nx).2.44 X (dx).17.26 X d.17.24 X k.12.22 X b.4.28 X Den vandrette rækkefølge af de naturlige klasser er ligesom den lodrette rækkefølge af fonemer bestemt af R(j)-tendensen. X erne antyder følgelig (med lidt god vilje!) en diagonal linje fra øverste venstre til nederste højre hjørne. Man kan overveje at anvende andre fonologiske klasser (defineret ved artikulationssted, stemthed el.a.), men det synes ikke muligt at tilvejebringe en tydeligere sammenhæng mellem naturlighed (som defineret i Chomsky & Halle 1968) og R(j). Om man fra en fonetisk synsvinkel måske ville forvente en noget tydeligere diagonal tendens, skal her være usagt. Den danske P1-database er som sagt

122 Taleteknologi for lille til at man kan gennemføre en lignende analyse og drage blot nogenlunde sikre konklusioner. Konfidensmålene er små, og da vokalfonemsymbolerne ikke tager højde for vokalkvantitet, udgør vokalerne en meget heterogen gruppe m.h.t. R(j). Hvis tendensen på dansk er den samme som på engelsk, nemlig at fonologisk lange vokaler er tydeligt mere afhængige af ROS PH -variationer end korte, må modelleringen af lange og korte vokaler i samme model formodes at have negative følger for genkendelseskvaliteten. 2.3 ROS PH og ROS SG Som nævnt ovenfor er der en relativ høj intra-taler variation af ROS PH i både TIMIT og P1. I betragtning af at både dansk og engelsk regnes til de trykrytmiske sprog, bør dette ikke overraske. Ideelt set må vi forvente at tidsafstandene mellem de fremhævede stavelser i sætningerne (a) busserne fra Århus og (b) bus fra Århus er nogenlunde den samme, hvis de udtales af samme taler under samme betingelser (emotioner osv.). M.h.t. ROS PH vil sætning (a) altså forventeligt være hurtigere end (b), mens det talerspecifikke og stabile måske snarere kommer til udtryk i ROS SG. 8 Stress period duration for speaker AB 7 6 5 Count 4 3 2 1 1 2 3 4 5 6 7 8 frames (1 msec.) )LJXU7U\NJUXSSHO QJGHIRUKXUWLJWDOHU$% For at teste denne teori har vi analyseret sætningerne udtalt af to talere i P1. Sætningerne udtalt af taleren med den højeste ROS PH og taleren med den laveste ROS PH blev segmenteret i trykgrupper med henblik på analyse af ROS SG. Resultatet vist i figur 8 ff. var noget overraskende. Ikke blot varierer trykgrup-

Fonemteori og talegenkendelse 123 pelængden betydeligt hos den samme taler - mellem 3-7 ms hos den langsomme og 2-6 ms hos den hurtige (jvf. figur 8), men der er også en tydelig, simpel lineær korrelation mellem trykgruppelængde og antallet af fonemer indeholdt i trykgruppen (figur 9): 15 Number of phonemes 1 5 1 2 3 4 5 6 7 8 frames (1 msec.) )LJXU7U\NJUXSSHO QJGHLPVYVDQWDOOHWDILQGJnHQGHIRQHPHUL3 Måske kan dette tilskrives det faktum, at P1 (ligesom TIMIT) udelukkende indeholder oplæst tekst samt at P1 (i modsætning til TIMIT) er genereret automatisk af en APSG (Brøndsted 1994) og følgelig indeholder mange sætninger med noget anormal semantik. Spontan tale, hvor taleren reelt ønsker at udtrykke en mening, hensigt e.a., vil næppe udvise samme lineære korrelation mellem trykgruppelængde og antal fonemer. Derimod fandt vi i både TIMIT og P1 en tydelig korrelation mellem ROS PH og længden af den udtalte sætning målt som antallet af fonemer i transskriptionen. Som det fremgår af figur 1, udtales (eller oplæses) lange sætninger hurtigere end korte. Dette (for os) noget overraskende resultat forklarer intra-taler variationerne i ROS PH. Igen kan man overveje om denne korrelation måske er mere signifikant for oplæsning end for spontan tale.

124 Taleteknologi 15 14.5 14 ROS (phones/sec.) 13.5 13 12.5 12 11.5 11 1 2 3 4 5 6 7 Sentence length (number of phones) )LJXU6 WQLQJVO QJGHDQWDOIRQHPHUYV526 3+L7,,7 3. Konklusion Vores analyse af P1 og TIMIT databasen viser at talehastighedsvariationer er et komplekst fænomen, som for det første berører visse naturlige klasser af fonemer mere end andre, og for det andet i ligeså høj grad er begrundet i inhærente egenskaber i de udtalte sætninger som i individuelle talervaner. Talerne i en taledatabase kan inddeles i hurtige og langsomme, men det samme kan sætningerne. De inhærente egenskaber, der afgør en sætnings naturlige udtalehastighed, er længden, og i spontan tale formodentlig også trykgruppeforhold. Vores analyse har taget udgangspunkt i den specielle, substansnære fonemopfattelse eller -definition, som gør sig gældende i Markov-baserede talegenkendelsessystemer. Bestræbelserne på at forfine modelleringen af kvalitative fonemvarianter med stadig mere kompleks forprocessering og ved anvendelse af stadig mere komponentrige Markov-modeller har den ulempe, at genkendelsen bliver langt mere følsom overfor variationer i talehastighed. Analysen giver snarere svar på hvori problemet består end hvordan det skal løses. Resultaterne antyder dog, at genkendelsessystemer burde anvende individuelt tilpassede modelleringsstrategier for de forskellige naturlige klasser af fonemer og at træningsdatabaser bør designes ikke blot med henblik på rig repræsentation af talere med forskelligartede vaner, men også med henblik på variation af sætningslængde og trykgruppeforhold.

Fonemteori og talegenkendelse 125 Referencer Basbøll, H.: Dansk fonetik og fonologi. Skitse til en systematisk Indføring. Odense Universitet. 1977. Basbøll, H. & Wagner, J: Kontrastive Phonologie des Deutschen und Dänischen. Tübingen 1984. Brøndsted, T. Larsen, L.B.: Representation of Acoustic and Linguistic Knowlegde in Continuous Speech Recognition. Technical Report R 94-11. CPK, Aalborg. Spoken Language Dialogue Systems 1994. Brøndsted, T.: A SPE based Distinctive Feature Composition of the CMU Label Set in the TIMIT Database. Internal draft, Aalborg 1997. Chomsky, N., Halle, M.: The Sound Pattern of English. 1968. Fisher-Jørgensen, E.: Trends in Phonological Theory. Akademisk Forlag, København 1975. Garofolo, J.S. et al.: DARPA TIMIT. Acoustic-Phonetic Continous Speech Corpus. NistIR 493 1993. Grønnum, N. & Thorsen. O.: Fonetik for sprogstuderende. 5. Udg. Københavns Universitet 1991 (1986). Hjelmslev, L.: Grundtræk af det danske udtrykssystem med særlig henblik på stødet. Selskab for Nordisk Filologi. København 1948. Macchi, M.J., Spiegel, M.F., Wallace, K.L.: Modelling Duratiom Adjustment with Dynamic Time Warping. IEEE Int. Conf. Acoustic Speech, Signal Processing, 199. Mirghafori, N., Fosler, E., Morgan, N.: Towards Robustness to Fast Speech in ASR. IEEE Int. Conf. Acoustic Speech, Signal Processing, 1996. SAMPA: Standard Computer-Compatible Transcription. ESPRIT Project 2589 (SAM). Report No. SAM-UCL-37, 1992. Ross Sheldon, M: Introduction to Probability and Statistics. John Wiley and Sons, Inc., 1987.