HMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars

HMM- Based Con,nuous Sign Language Recogni,on Using Stochas,c Grammars Hermann Hienz, Britta Bauer, Karl-Friedrich Kraiss, 1999 Kogn.- Forskn. II, IT og Kogn., Kbh., Anders Grove, 18. september 2010

Formål Formål : oversæ@else,l alm. sprog SL ges,k MMI forskellige SL udbredt over stort set hele verden døve og hørende: manglende kendskab 8l hverandres sprog

Krav Krav : automa9sk, real 9me træk- udl.: 13 frames pr. sek. afvente sætn.- analyse (?) video baseret, farver, enkelt kamera, farvede handsker Ensartet baggrund, krav 9l tøj, (belysning?) kun manuelle tegn parametre omfang : lexicon på 52 German SL tegn Hvis fortløbende tegn: behøver ikke pause mellem tegn, kun mellem sætninger gramma9sk velformede tyske SL sætninger Der en sprogmodel for sammenhænge i sprogets form er inddraget uni- og bigram, alenestående / fortløbende tegner atængigt, samme tegner 9l træning og test nøjagighed: 95 %

Tidligere forsøg 1996 Brafffort 44 franske sætninger, Vokabul.: 7 tegn HMM Dataglove Modul for sortering, 92 % genkendelse konven8onelle nonstandard variable Modul for classificering af konven8onelle tegn, 96 % genkendelse 1998 Liang Ouhyoung 1998 Starner Pentland 1997 Metaxas Vogler Taiwan SL, vokabul.: 250 tegn 10 states HMM Dataglove Genkendelse 80,4 % Amerik. SL, korte enkel syntakssætninger, vokabul.: 40 tegn 4 states HMM 1 kamera struktur, vokabul. : 53 tegn HMM 3 kameraer, 3D elektromagne9sk tracking 2 kørsler: uden gramma9k, 92,1 % med gramma9k og bigram- sandsynligheder : 95,8 %

Parametre hånd form retning posi9on bevægelsesretning og den anden : uden / med dominant / ikke dominant Symmetri hoved blik udtryk Mund krop

Problemer hånd og fingre kan være hæmmede (occluded = 9lstoppet/standset?) tegnenes indbyrdes afgrænsninger skal kunne bestemmes automa9sk indbyrdes påvirkninger tegnene imellem ved overgangene tegnerens overordnede bevægelser og ændringer i positur afvigelser i udformningen af samme tegn fra gang 9l gang, herunder tempo, også for samme tegner med kun 1 kamera er det svært og under9den umuligt at komme 9l 3D store mængder data, real 9me processeren besværlig

Hidden Markov Model HMM : Talegenkendelse : gode 9l at tage højde for varia9oner i forskydninger i 9d og volumen SL ogå i 9dsforløb Hvert tegn mindste enhed i sproget, ~ phonem i talt sprog Hvert tegn <- > sin HMM model

Process (fig. 1) Input : billeder optagelse digitalisering segmentering, tegnene afgrænset træk udledet, dannelse af feature vektor Mellemresultat : feature vektorer behandling af feature vektor, genkendelse ved HMM, og assisteret med forenkling ved incorporeret stochas9skgramma9k 9l Output : iden9ficerede / oversaie tegn

Trækudledning handske handske i 8 farver, specifikt iden9ficerer felterne ikke dominant hånd dominant hånd hver finger håndryg håndflade

Trækudledning basis - værdier: funktion : udgangspunkt for træk-parameterværdierne, træk-parameterværdierne er relationer til disse så disse i højere grad svarer til betydning og ikke hele tegner-personens tilfældige orientering og placering værdier: grænseværdier for farverne hvert farvet område udstrækning tyngdepunkt, feltets center skuldres placering kroppens ver9kale akse

Vektor : hånd posi9on x- koordinat, rela9vt 9l krops- aksen y- koordinat, rela9vt 9l højre skulder afstand mellem hændernes tyngdepunkter form alle indbyrdes afstande mellem hvert tyngdepunkt i alle håndens felter retning størrelsen af hvert farvet felt dominant hånds vinkel på fingrene Bevægelses- [? men Llere states ] retning

Markov- model : fig. 3 Bakis: states går fra højre mod venstre hvert tegn ~ 1 model sætnings- sekvens = sum af tegn- HMMer States ini9elt : hvert billede ~ 1 feature vektor ~ 1 state Men med træning : samme tegn i forskellige sekvenser kan have forskellig udstrækning, skal have samme antal states => states ukendt, => HMM

Markov (Viterbi- )Træning : Markov- modellen Absorberer afvigelser for specifikke grænse- 9lstande for tegnene Iden9ficerer grænserne mellem tegnene Lig. 4, model-udviklingsprocessen, to steps: 1. sætnings- /sekvensprocess 2. tegnprocess

sætnings- /sekvensprocess træningsdata med hele sætninger beregning af modelparametrene for hele sætningen udledning af tegnenes indbyrdes grænser træningsdata med hele sætninger beregning af modelparametrene for de enkelte tegn modeller for hvert tegn

Tegn- process på baggrund af alle modellerne fra sekvenserne for hvert tegn itereres med viterbi frem mod en endelig model modeller for hvert tegn - > træningsdata med tegn fra hele sætninger alignment af tegnenes states problemer forskellige tegn har forskelligt antal states, eg. 4 30 hvert tegn kan have forskellig udstrækning ini9elt sæies HMM for tegnet 9l det korteste antal states det optræder med, dvs. færrest vektorer ini9alisering af modellen: alle overgange mellem 9lstande sæies 9l lige sandsynlige [fremad?] fra alle forekommende observa9oner fordeles de ligeligt mellem hvert state [?] beregn middelværdi og afvigelse for alle komponent[?]fordelinger i hvert state Viterbialignment[?] kalkuler A- matricen, sandsynlighederne for 9lstandsovergangene undersøg split- ktriteriet[?], skal tætheder spliies[?] hvis itera9onerne har konvergeret i 9lstrækkelig grad, er modellen for tegnet nået. træningsdata med hele sætninger beregning af modelparametrene for de enkelte tegn modeller for hvert tegn

Tegngrænsebestemmelse grænserne kan ikke fastlægges præcist antallet af tegn kendes ikke på forhånd sandsynlighederne for flere mulige afgrænsninger skal bestemmes ikke lineær søgning, men søgning i træ Lig. 5 for ikke at tage for lang tid, skippes en path der ser ud til ikke at have høj nok sandsynlighed tærskel bestemmelse : ved en fastsat variabel, B 0 kandidaten med højest sandsynlighed

Stochas9sk Srogmodelering sandsynligheder for unigram og bigram bigram : sandsynlighed for følge af to tegn, f i hvis f i 1, lille trænings- grundlag Virkemåde: indvirker i vurderingen af sandsynligheder ved fastlæggelsen af grænser melem tegnene

Træning og test tegn af forskellige ordtyper træning : 3, 5 9mer, test: 0,5 9mer videooptagelser Tegner : erfaren bruger Forekomst af tegn er i forskellig rækkefølge i trænings- og testsæt Pauser kun indsat med forsæt mellem sætninger Indeholder minimal pairs Sætningernes længde fra 2 9l 9 tegn

Resultater: Nøjag9ghed: 92 95 %, højere B 0 hjælper stokas9sk gramma9k hjælper, bigram mere end unigram Diskussion god 9l minimal pairs usete tegnovergange i test materialet men mange sleie- fejl korte tegn sværere, en større del af dem er grænseområder en- hånds- tegn, har færre minimal pairs

Krav : automa9sk, real 9me træk- udl.: 13 frames pr. sek. afvente sætn.- analyse (?) video baseret, farver, enkelt kamera, farvede handsker Ensartet baggrund, krav 9l tøj, (belysning?) kun manuelle tegn parametre omfang : lexicon på 52 German SL tegn Hvis fortløbende tegn: behøver ikke pause mellem tegn, kun mellem sætninger gramma9sk velformede tyske SL sætninger Der en sprogmodel for sammenhænge i sprogets form er inddraget uni- og bigram, alenestående / fortløbende tegner atængigt, samme tegner 9l træning og test nøjagighed: 95 % Perspek9ver posi9on x- koordinat, rela9vt 9l krops- aksen y- koordinat, rela9vt 9l højre skulder afstand mellem hændernes tyngdepunkter form alle indbyrdes afstande mellem hvert tyngdepunkt i alle håndens felter retning størrelsen af hvert farvet felt dominant hånds vinkel på fingrene Bevægelses - retning [? men Llere states ] Begrænsninger : Real,me, udførelse, omfang og omgivelser Hvordan under oversæielse med sætnings- HMMen? Hvordan undgås forsinkelse? Kan den simple HMM holde 9l mange flere tegn? Kan man undgå handsken? Hvad med farvefelterne? Kan konturer bruges? Hvordan beskrives de, så de afspejler fingre og håndflade/- ryg? Studiet, med ændret belysning og fokus på konturer? Hvordan gøres modellens læsning uatængig af omgivelser? Hvordan laves indlæringen, så modellen bliver mere robust?