Dansk talegenkendelse



Relaterede dokumenter
Dansk talegenkendelse

Surf på nettet med din stemme!

Lars Bo Larsen, MISP - Multimedia Information and Signal Processing Institut for Elektroniske Systemer Aalborg Universitet lbl@es.aau.

Cloud Hosted IP telefoni. Hosted IP telefoni. ConnectionCloud Produktvejledning. Version 1.5

MANUAL SKIOLD GØR EN FORSKEL DISTRIWIN SERVICE INSTALLATION

Fagre, aktuelle verden talegenkendelse i Folketinget. Anne Jensen, redaktionssekretær

HR/ Personalerekruttering

Agenda. Exchange 2010 Client Access Server arkitektur. Outlook Web App (OWA) Office Outlook Outlook Mobile (EAS) Outlook Voice Access (OVA)

START FINDES DER EN LØSNING TIL MIN VIRKSOMHED HOS HANS TØRSLEFF MANAGEMENT SYSTEMS? Har du brug for et enkelt system til timeregistrering?

Find vej til det Norske og Tyske marked

Curriculum Vitae for Per Odderskov.

Talegenkendelse. Indhold. Teknologien

TILLYKKE MED DIN NYE WEBBASEREDE INFO-SKÆRM JCD A/S

Bilag 2C ATP PC-arbejdsplads

Network Requirements - checklist SALTO proaccess space software SPACE ProAccess 3.0

Netværksværktøj til BUPL s medlemmer. Mikkel Flindt Heisterberg, IntraVision Brian Andersen, BUPL

HR/ Personalerekruttering

WagnerGUIDE. - en beskrivelse -

Indholdsfortegnelse. Vokal Command v.1 manual

Teknologierne er udvalgt og prioriteret i samarbejde med forvaltningerne og it-eksperter i Koncernservice.

IP Telefoni. Modul 3

IKT-baserede Tjenesteydelser til Plejesektoren

SAP R/3. Henrik Kroos

HELLO INSTALLATIONS GUIDE - DANSK RACKPEOPLE

Globeteam A/S. Windows Server Globeteam Virumgårdsvej 17A 2830 Virum. SolutionsDay 2012, den 27. September, Brøndby Stadion

HR/ Personalerekruttering

Bilag 2C ATP PC-arbejdsplads

I Windows fil struktur er der følgende ting Drev, Mapper, Filer og Genveje.

HR/Personalerekruttering

Fujitsu Siemens Computer

NEDAP AEOS LITE» Webbaseret brugerflade» Ægte IP-teknologi» Integration med Alphatronics» Fjernbetjening via netværk

Arkitektur for begyndere

Software Assurance (SA)

Introduktion til computernetværk

Curriculum Vitae. Uddannelse: 2001 Civilingeniør fra Danmaks tekniske universitet, fagprofil: styring og regulering.

PRODUCT DATA SHEET. Systemet tilbyder en lang række funktioner, der gør det muligt at konfigurere en skræddersyet løsning.

Synkron kommunikation

Hvad er dukapc. modulet. dukapc 2

3OMSTILLING. Brugermanual til 3SoftPhone

Generelt gælder det at SQL serveren skal understøtte SQL Authentication (Mixed mode) da SIMS Serveren kommunikerer gennem en SQL bruger.

ACTIVESIGNATURE Signature Software

Input/Output: Brugergrænseflader. dopsys

Help Desk Konference november

HR/ Personalerekruttering

MSS CONSULT Dato: SALGSBROCHURE. Autoværksted. Indeholdende. Hardware Software Netværk

Windows Server SBS/EBS. Claus Petersen Sr. PTS Core Infrastructure

Digital Print Room Implementering og tilretning. 11. Sep TMC Plot-SIG

Det er muligt at opdatere kittet når det er installeret i bilen eller før det installeres, som dog kræver at man f.eks. tilslutter det et demopodie.

APPS People leverer, implementerer og supporterer Google Apps kommunikationsløsninger

Sprog og sprogteknologi i Danmark. Sabine Kirchmeier sabine@dsn.dk

Dygtig.NET / C# udvikler med stor erfaring fra både offentlige organisationer og private virksomheder.

HELLO MANUAL DANSK VERSION RACKPEOPLE

CURRICULUM VITAE. Hoda Al-Amood, 2014

Adgangskontrol som nemt integreres i den moderne verden

Kvik guide Mitel MC Klient Android

3OMSTILLING. Brugermanual til 3SoftPhone

Dell byder foråret velkommen, med ekstra gode priser!

System & Metode ApS præsenterer. En effektiv dokumentportal

Øget datakvalitet og mere tid med digitale arbejdsprocesser (workflow)

Softwareløsninger til dit netværk

Undervisningsbeskrivelse

Hvorfor nye kommunikationsværktøjer? Hvad er Microsoft Unified Communications? Microsofts Unified Communications platform

Velkommen til IT for let øvede

IT-faglige kompetencer. IT funktions kompetencer. Navn: Adresse:

Enterprise Search fra Microsoft

Automatisk Vandingssystem

Totalview...it s all about organizing

Kvik guide Mitel MC Klient iphone

Digital skriftlig aflevering med Lectio Censormodul Stedprøver installationsvejledning

Formfaktor: Mini-DTX 20cm (7,87 inches) x 17cm (6,69 inches)

IT og økonomi. Lektionens emner. Hvorfor netværk? Lektion: N: Netværk

Microsoft Pinpoint Guide

Partner session 1. Mamut One Temadag. 12. & 13. august Antonio Bibovski

APPLIKATIONSARKITEKTUR ERP INFRASTRUKTUR. EG Copyright

HP LP skærm - DEMO 30 TFT skærm, opløsning på hele 2560x1600, 1000:1 kontrast, 3x DVI indgange OBS: Kræver DVI dual-link grafikkort

Kom godt i gang med Digital Transformation via din Microsoft ERP-platform

Hardware og software på forskermaskinerne

Fold mulighederne ud med Microsoft Dynamics AX. Stærkere forretning med apps og mobile løsninger

Undervisningsbeskrivelse

EDB-Gruppen. Copyright 2008 Medianet Innovations Side 1 af 15. Dato: 15. maj Version: 1

Intelligent Print Management Identifikation Omkostningskontrol Sikkerhed

Infrastruktur i hjemmet og begreber

Se hvad Dell tilbyder. på SKI Dell.dk

Enterprise Europe Network. Title. og Væksthus Midtjylland. Sub-title PLACE PARTNER S LOGO HERE. European Commission Enterprise and Industry

1 Ordliste 2. 2 Indledning Problemstillinger Problemformulering Problemafgrænsning Mål med projektet...

Login på skolens maskiner.

Et samlet telefonnummer Service i dag og service i fremtiden?

Computer Networks Specielt om Infrastrukturer og Teknologi

Pædagogisk læringscenter Bjedstrup Skole og Børnehus

DAU IT-SIKKERHEDSKONFERENCE BEST PRACTICE: ORGANISATIORISK OT-SIKKERHED D. 13 JUNI 2017

Velkommen til IT for let øvede

Vidicode præsentation

DMR Radio Temadag. DMR Teknik EDR HQ

Pakkens indhold. 1. Trådløst modem 2. strømforsyning 3. netværkskabel (CAT5/RJ-45)

Godt i gang med.. TDC Webtekst version 2.0

DIGITALE VÆRKTØJER TIL LÆSNING OG SKRIVNING

NSi Output Manager Hyppigt stillede spørgsmål. Version 3.2

Apple AirPort Time Capsule - NAS-server - 3 TB - HDD 3 TB x 1 - Gigabit Ethernet / a/b/g/n/ac

HR/ Personalerekruttering

Transkript:

Taleteknologi & anvendelser Århus, 23. Januar 2004 1 af 25 Dansk talegenkendelse Lektor Børge Lindberg Speech & Multimedia Communication Division Afdeling for Kommunikationsteknologi Aalborg Universitet lindberg@kom.auc.dk

Taleteknologi & anvendelser Århus, 23. Januar 2004 2 af 25 Dansk talegenkendelse Emner 1. Hvad er talegenkendelse 2. Teknikker 3. Anvendelser 4. Produkter 5. Forskningsemner og -projekter 6. Danske forhold og det danske sprog

Taleteknologi & anvendelser Århus, 23. Januar 2004 3 af 25 Hvorfor er det svært? Ordgrænser: dedændæ h Grammatik : Det [er] den der Udtale : Andre lydværdier e/e e/æ/ r Melodi: Spørgsmål? Tryk: Det er den der / Det er den der Enslydende: vår hvor Forskelligt lydende: da r de r (koen der lo, dér er den) Udtaleforskelle : Dialekt, Mand/kvinde, Ældre/ung/barn, Modersmål/fremmedsprog, Individuelle forskelle Dansk er specielt men ikke specielt svært Overgåes dog kun af engelsk i ikke-lydrethed (synteseproblem)

Princip (i de fleste talegenkendere) Taleteknologi & anvendelser Århus, 23. Januar 2004 4 af 25

Taleteknologi & anvendelser Århus, 23. Januar 2004 5 af 25 Skjulte Markov modeller (HMM) IEEE Spectrum December 1997

Taleteknologi & anvendelser Århus, 23. Januar 2004 6 af 25 Teknologiudvikling Hardware! Erkendelse: Corpus baseret teknologi - akustiske databaser, sproglige databaser (tekst), sproglige databaser (vendinger), dialog databaser (hyppighed og betydning af udtryk) - Hjulpet af udvikling i medier (CD-ROM, DVD, Harddisk : TB!) - Linguistic Data Consortium (LDC) www.ldc.upenn.edu - European Language Resources Association (ELRA) http://www.icp.grenet.fr/elra/home.html

Taleteknologi & anvendelser Århus, 23. Januar 2004 7 af 25 Opbygning Tale Featureuddragning Akustisk modellering Sprogmodellering Text Træning Fonologiske regler Fonemmodeller Leksikon og sprogmodel Genkendelse Tale Featureuddragning Genkendelse og søgning Text Parser + handling

Anvendelser der skal være en gevinst (!) Taleteknologi & anvendelser Århus, 23. Januar 2004 8 af 25 Uden trykknapper Ikke alle telefoner og centraler kan bruge trykknapper Håndfri Arbejdssituationer, fx bilkørere, flymekanikere, køkken. Naturligt og evt. nødvendigt Mindre indlæring end med tastatur og mus http://www.spok.dk AMI, Bispebjerg, 4 store danske virksomheder Funktionshæmmede (handicappede) Kommunikation eller styring af apparater/udstyr Personer med dysartri (?), motorisk hæmmede, kommunikation med døvblevne, blinde, dyslektikere

Taleteknologi & anvendelser Århus, 23. Januar 2004 9 af 25 Anvendelser - fortsat Information og bestillinger Tog, banker, aviser, call centre Diktering Forskellige domæner : alm. breve, jura, medicin Typiske telefonitjenester: Kundevejledning (vejledning og svar på typiske spørgsmål) Omstilling (sig navnet på den, du vil tale med) Bankoplysning (saldi, aktiekurser, info om overførsler) Trafikinformation (fly, tog, færger) Booking Voice portaler (ring til ét nummer ( Sonomemo ) og få oplæst e-mails, kalender, telefonsvarer talestyret)

Call centre Nuance business case Taleteknologi & anvendelser Århus, 23. Januar 2004 10 af 25 72 porte (parallelle opkald) 2,3 mio. opkald pr. år 32.000 pr. port 3.300 $ pr. port pr. år (i alt 950.000 $ over 4 år) Gennemsnitlig længde pr. opkald : 3 min

Anvendelser online tekstning Taleteknologi & anvendelser Århus, 23. Januar 2004 11 af 25 TV studio Operator room Teletext system CSR

Anvendelser online tekstning (fortsat) Taleteknologi & anvendelser Århus, 23. Januar 2004 12 af 25 Velotype system (baseret på stenografi) kræver to operatører - en til opsummering, en til stenografi. Bruges hos BBC, UK og i Holland. I Sverige bruges kun én operatør - problematisk. Talegenkendelse bruges allerede: I Tyskland: ved ZDF, Mainz bruger IBM ViaVoice Pro, http://www-4.ibm.com/software/speech/de, siden juni 2001 I Spanien : Har brugt IBM ViaVoice Pro de sidste 5 år virker godt Ofte semi-live (8-9 sec. delay). Max. 80-90 ord pr. minut. CNN : Ofte 200 ord pr. Minut, JFK : 300 words pr. minut I UK, BBC : Overvejer brugen af ViaVoice Pro Danmark : Kræver først og fremmest tilstedeværelsen af generel dansk talegenkendelse desuden speciel brugergrænseflade ( realtime editing )

Anvendelser trådløse dimser Taleteknologi & anvendelser Århus, 23. Januar 2004 13 af 25 Rose, ICSLP 02 Wireless/Mobile devices Non-PC Internet connections: Lille eller intet keyboard 1998: 4 % Input/Output modality selection 2001: 40% Mindre beregningskapacitet end PC er 2003: More than PC s Client-server arkitektur

Taleteknologi & anvendelser Århus, 23. Januar 2004 14 af 25 Andre eksempler SAS trafik information Information om flyafgange, ankomst, m.m. Ej billetbestilling Ring: 70102000-22 Flydende tale, systemstyret dialog, www.nuance.com TDC Telefonservice, udland: landekoder, priser, klokkeslet god word-spotting Ring: 80604055 Nummeroplysning: Ring: 1811 By, gade, navn indtales

Taleteknologi & anvendelser Århus, 23. Januar 2004 15 af 25 Andre eksempler (fortsat) ATP Generel vejledning Ring 48204910 Tryk 3 Prolog Development Center (www.pdc.dk/speechlogic) Philips toginformation Information om tyske intercitytog Brugeren fortæller hvorfra, hvortil, dag, og enten cirka afgangstid eller ankomst, og systemet giver: præcise afgange/ankomster samt mellemskift. Ring: +49 241 60 40 20, den forstår dansk-tysk! Flydende tale, systemstyret dialog, 2000 ord, heraf 1100 stationer

Taleteknologi & anvendelser Århus, 23. Januar 2004 16 af 25 Udfordringer Ordforråd Robuste over telefon 2000+ ord Dikteresystemer 50.000+ ord Fejlgenkendelser Systemet har svært ved at erkende egne fejl Grammatik Benægtelser Sammensatte sætninger

Udfordringer opgavens karakter Taleteknologi & anvendelser Århus, 23. Januar 2004 17 af 25 1993 1997 2004

Produkter og priser (omtrentlige) Taleteknologi & anvendelser Århus, 23. Januar 2004 18 af 25 Dragon NaturallySpeaking, Pro, Medical, Legal eller Preferred ($ 679, 979, 979, 199) (Scansoft, Command & control) IBM ViaVoice (til Windows) $ 190 Philips SpeechMagic Patologi/Røntgen $5.000 CyberTranscriber (Speech Machines) $? Kommentar Jo mere specialiseret ordforråd, jo dyrere. Systemerne er ret ens, med ca. 50.000++ ord +backup De genkender naturlig, flydende tale Se også: www.voicerecognition.com

Taleteknologi & anvendelser Århus, 23. Januar 2004 19 af 25 Distribueret processering (client-server) Cellular Access Network Dialog Management Speech Recognition Server WLAN AP IP-based Core Network TTS (Text-to-Speech) Server Spoken Language Functionalities WLAN WPAN UWB Bluetooth

Taleteknologi & anvendelser Århus, 23. Januar 2004 20 af 25 Distribueret processering (fortsat) DSR (Distributed Speech Processing): Støj pga. Omgivelser og transmission (bit- og pakkefejl)

Patologi talegenkendelse på Aalborg Sygehus Taleteknologi & anvendelser Århus, 23. Januar 2004 21 af 25 Projektets partnere er Aalborg Sygehus Patologisk Institut & IT-Sundhed, MaxManus samt Aalborg Universitet. Problemer med integrationen af talegenkenderen. 1. Samme dag 2. Dagen efter 3. Dagen efter * Formål: Indhold syntax Indhold syntax Indhold syntax at undersøge, om der, ved at indføre talegenkendelse, kan opnås resource-besparelse i den daglige arbejdsrutine på Pato-logisk Institut på Aalborg Sygehus. Indsatte fejl Korrigerede fejl % 68 36 53% 66 46 70% 79 29 37% 59 25 42% 70 13 19% 67 34 51%

Taleteknologi & anvendelser Århus, 23. Januar 2004 22 af 25 Philips SpeechMagic Specifik dansk talegenkendelse (ikke generel) f.eks. patologi Microsoft SQL Serverbaseret (MSDE) Recognition server Mange workstations kan tilkobles samme server Acoustic adaptation Context adaptation Demo?

Taleteknologi & anvendelser Århus, 23. Januar 2004 23 af 25 Projekt indtal.dk Voice browsing for bevægelseshæmmede Begrænset navigation (browser kommandoer, HTML-link-aktivering, stemmestyret mus, bogstavering) På dansk Bevilget af MVTU til AAU, SPVV, Efaktum og HCH, Aalborg Efterfølger til adgangforalle.dk Tidsramme: Januar 2004 Marts 2005 Involverer databaseopsamling Talegenkender og database frit tilgængeligt efter projektets udløb Personer over 15 år Mindst to USB mikrofoner, headset-type

Taleteknologi & anvendelser Århus, 23. Januar 2004 24 af 25 Projekt indtal.dk (fortsat) HTML parser HTML sider fortolkes, tekst adskilles fra andre typer (fx billeder), identifikation af URL er, samt udskillelse af hyperlink tekst, der forsynes med ekstra tags - velegnet til stemmestyring - og som benyttes til generering af grammatikker under genkendelsen. Ordforråd WWW HTML parser HTML fx ny URL Microsoft Internet Explorer Event styring Præsentation af hjemmeside til stemmestyring Dansk Talegenkender Tilstandskommando GUI Grafisk Bruger Interface Instruktion til bruger via højttaler Genkendt kommando Talte kommandoer via mikrofon

Taleteknologi & anvendelser Århus, 23. Januar 2004 25 af 25 Konklusion Teknologien er her i dag, og mange kommercielle systemer er allerede i brug Danske kommercielle produkter er ved (på vej til) at blive udviklet kun få teknologiske barrierer mangel på resurser=kapital Produkterne kommer i takt med at programmerne forfines og standardiseres, træningsmaterialet øges og forbedres, anvendelserne opdages og udforskes Databaserne findes (akustiske og sproglige), men er bundet til omgivelserne (bil, GSM, fastnet) Fortsat behov for forskning mhp. øget robusthed (f.eks. støj, OOV), tilpasning (til netværk), tale som én ud af flere modaliteter, flersprogethed og non-native dansk