Dansk talegenkendelse - status og udfordringer Børge Lindberg Center for PersonKommunikation Aalborg Universitet, Fredrik Bajers Vej 7A-6 DK-9220 Aalborg Ø E-mail: lindberg@cpk.auc.dk, Tlf. 96358638 Hvad er talegenkendelse Produkter Teknikker Danske forhold og det danske sprog Anvendelser Talegenkendelse, November 2001 1 af 18
Tale og kommunikation Taleren har et mål Lytteren afkoder talen Siger noget som kan bringe målet nærmere Knytter det til et sæt af betydninger sgavitate majårka? PAS (C) Hans Dybkjær, Prolog Development Center Talegenkendelse, November 2001 2 af 18
Hvorfor er det svært? Eksempel dedændæ h Grammatik Det [er] den der Udtale Andre lydværdier e/e e/æ/ r Melodi Spørgsmål? Tryk Det er den der Det er den der vår hvor Enslydende Forskelligt lydende da r de r (koen der lo, dér er den) Dialekt Udtaleforskelle Mand/kvinde Gammel/ung/barn Modersmål/fremmedsprog Individuelle forskelle Talegenkendelse, November 2001 3 af 18
Princip Skjulte Markov modeller (HMM) (IEEE Spectrum December 1997) Talegenkendelse, November 2001 4 af 18
Opbygning Tale Featureuddragning Fonemmodellering Sprogmodellering Text Træning Fonologiske regler Fonemmodeller Leksikon og sprogmodel Genkendelse Tale Featureuddragning Genkendelse og søgning Text Parser + handling Talegenkendelse, November 2001 5 af 18
Teknologiudvikling Hardware Databaser Medier Erkendelse Linguistic Data Consortium (LDC) www.ldc.upenn.edu European Language Resources Association (ELRA) www.icp.grenet.fr/elra/home.html Talegenkendelse, November 2001 6 af 18
Termer og anvendelser Termer Isolerede ord Flydende tale Personuafhængigt Personafhængigt Personadaptivt Anvendelser Der skal være en gevinst!! Uden trykknapper Ikke alle telefoner og centraler kan bruge trykknapper Håndfri Arbejdssituationer, fx bilkørere, flymekanikere, køkken. Naturligt og evt. nødvendigt Mindre indlæring end med tastatur og mus http://www.spok.dk AMI, Bispebjerg, 4 store danske virksomheder Talegenkendelse, November 2001 7 af 18
Anvendelser - fortsat Handicappede Kommunikation eller styring af apparater/udstyr Personer med dysartri (?), motorisk hæmmede, kommunikation med døvblevne, blinde, dyslektikere Information og bestillinger Tog, banker, aviser, call centre Diktering Forskellige domæner Talegenkendelse, November 2001 8 af 18
Anvendelser - fortsat On-line tekstning TV studio Operator room Teletext system CSR Benyttes allerede hos ZDF, Mainz, IBM ViaVoice Pro, http://www-4.ibm.com/software/speech/de Talegenkendelse, November 2001 9 af 18
Anvendelser - fortsat Trådløse dimser Småt eller slet intet keyboard Brug for tale til input/output Mindre regnekraft end i PC er Talegenkendelse, November 2001 10 af 18
OVID et eksempel Telefonbanksystem Du er kunde i OVID bank, hvor du har lønkonto, budgetkonto og kassekredit. Du kan ringe og få oplyst saldo og seneste bevægelser. Opgiv kortnummer 9 2 3 6 7 0 2 og adgangskode 8 2 3 4. Numre udtales som enkeltcifre. Systemets tale kan ikke afbrydes. Svar så snart det har talt. Når du har talt lyder der et BIP, så har systemet hørt dig. Ring til telefon 98 15 14 19. Tekniske oplysninger Demonstration, opdigtet bank. Flydende tale, lille ordforråd. Applikationsord (budgetkonto, kassekredit, saldo, bevægelser,...) dannet fra fonem-modeller på basis af 100 personer. Almindelige ord (nul, en, et, to,..., ni, ja, nej,...) trænet som helordsmodeller på basis af 1000 personer. Center for PersonKommunikation Ålborg Universitet, i samarbejde med bl.a. Lån&Spar Bank http://cpk.auc.dk/dialogue/ovid_demonstrator.html Talegenkendelse, November 2001 11 af 18
Andre eksempler SAS trafik information Information om flyafgange, ankomst, m.m. Ej billetbestilling Ring: 70102000-22 Flydende tale, systemstyret dialog, Nuance (www.nuance.com) TDC Telefonservice, udland landekoder, priser, klokkeslet Ring: 80604055 Nummeroplysning By, gade, navn indtales Endnu ikke automatisk talegenkendelse Ring: 1811 Talegenkendelse, November 2001 12 af 18
Andre eksempler Philips toginformation Information om tyske intercitytog Brugeren fortæller hvorfra, hvortil, dag, og enten cirka afgangstid eller ankomst, og systemet giver: præcise afgange/ankomster samt mellemskift. Ring: +49 241 60 40 20, den forstår også mig! Teknik Flydende tale, systemstyret dialog, 2000 ord, heraf 1100 stationer Kommercielt Schweiziske jernbaner, Hollandske trafikselskaber British Telecom Directory Service +44 1473 640192 Suppleret med stavning Navneeksempler: Simon Ringland Mark Pawlewsky Simon Downey Steve Whittaker David Attwater Dennis Johnston John Smith (?) Talegenkendelse, November 2001 13 af 18
Problemer Ordforråd Robuste over telefon 2000+ ord Dikteresystemer 30.000+ ord 1993 1997 2001 Opgavens karakter Fejlgenkendelser Systemet har svært ved at erkende egne fejl Grammatik Benægtelser Sammensatte sætninger Talegenkendelse, November 2001 14 af 18
Produkter og priser Produkt-eksempler Dragon NaturallySpeaking Deluxe, Medical, Legal eller Preferred ($ 595, 895, 995, 199) IBM ViaVoice (til Windows) $ 99 L&H Voice Xpress Plus $ 149 Kurzweil Voice Pro $ 199 Philips Speech Processing/Vocalex Emergency Medicine $ 9.495. Til brug i akutoperationsstuer. Philips SpeechMagic/Mania CyberTranscriber $? [priserne er omtrentlige] Kommentarer Jo mere specialiseret ordforråd, jo dyrere. Systemerne er ret ens, med cirka 30.000++ ord + backup De genkender naturlig, flydende tale Se også: www.voicerecognition.com http://svr-www.eng.cam.ac.uk/ comp.speech/faq.packages.html Talegenkendelse, November 2001 15 af 18
Dansk kompetence Tele Danmark Erfaring med udvikling og anvendelse af talegenkendelse *11# : Trykselv-service Enkeltordskommandoer NIS Mærsk Instituttet Odense Universitet Talesproglige dialogsystemer (ikke genkendelse/syntese) IAAS Institut for Almen og Anvendt Sprogvidenskab, København Fonetik, fonologi, udtalevarianter, leksika DSL Det Danske Sprog- og Litteraturselskab Opbygning af tekstdatabaser CPK Center for PersonKommunikation Ålborg Universitet Flere års erfaring med forskning og udvikling af danske talegenkendere og - systemer; opbygning af taledatabaser NST Nordisk Sprogteknologi, Hjemsted i Norge Har annonceret dansk talegenkender, ultimo 2001 ANDRE!! (Philips, IBM, Nuance) Talegenkendelse, November 2001 16 af 18
Behov for forskning! Støjrobusthed Front-end feature extraction Spectral subtraction Wiener filtering Sub-space metoder Cepstral processering/compensation Discriminant features Heterogene features Model-adaptation Discriminative training Modelleringsprincipper Bayesianske netværk O-of-Vocabulary-detection (Out-of-grammar) Dialog Error recovery User adaptation TTS quality! Sprog Multiple languages Non-native language Language adaptation Adaptivitet Task driven computing: www-2.cs.cmu.edu/aura COST 278 : Spoken Language Interaction in Telecommunication Talegenkendelse integreret på Patologisk Institut, Aalborg Sygehus Talegenkendelse, November 2001 17 af 18
Konklusion Status Teknologien er her i dag Mange kommercielle systemer er allerede i brug Danske kommercielle produkter er ved (på vej til) at blive udviklet kun få teknologiske barrierer mangel på resurser=kapital Produkterne kommer i takt med at programmerne forfines og standardiseres træningsmaterialet øges og forbedres anvendelserne opdages og udforskes Fremtid - en eksplosion? Som med trykselv-services? - over fem år havde alle og enhver disse. Dansk er et lille sprogområde, hårdt trængt af engelsk Databaser findes - delvist!: - PAROLE-databasen - træning af sproglige modeller CPKs databaser (SpeechDat(II), SpeechDat-Car til træning af akustiske modeller - 4000 talere - Geofrafisk, dialektal, aldersmæssig og kønsmæssig spredning - Optaget over det offentlige tlf.net Talegenkendelse, November 2001 18 af 18