Gestik og computeravatarer. Patrizia Paggio Centre for Sprogteknologi

Gestik og computeravatarer Patrizia Paggio Centre for Sprogteknologi paggio@hum.ku.dk

28/11/16 2 Mange kender SIRI. Men hvordan ser hun ud? Kan vi forestille os at interagere med avatarer/agenter som har en mere menneskelignende udseende, og som kan bruge gestik (kropssprog)? Ville det være godt? Og hvad ville det kræve?

19-12-2016 3 Poppy, den opmærksomme agent https://youtu.be/munqolj3mnw SEMAINE: EU-projekt om følsomme agenter

19-12-2016 4 Ville det være godt? Vi ved at gestik spiller en vigtig rolle i den menneskelige kommunikation. In fact, though the peoples and nations of the earth speak a multitude of tongues, they share in common the universal language of the hands. Quintilian, Institutio oratoria (ca. 95 e.kr.)

19-12-2016 5 Ville det være godt? Gestik tjener mange funktioner Hjælp til at strukturere ens tanker, finde ord. Opretholde opmærksomhed, forstå og huske komplekse abstrakte begreber. Middel til at udtrykke mening visuelt, give feedback, vise emotionel respons, facilitere turtagning og diskursopbygning.

19-12-2016 6 Ville det være godt? Gestik er essentiel i samtaler til at etablere tillid, opmærksomhed, forståelse, accept, evne til at huske (Quintilian, Darwin, Kendon, McNeill, Ekman,... ). Lignende effekter er fundet også når det gælder samtaler med agenter (Bergmann et al. 2010, Bergmann et al. 2012).

19-12-2016 7 DERFOR Vi vil gerne udvikle softwareagenter som kan: forstå menneskeligt kropssprog selv producere relevant gestik

19-12-2016 8 Hvad skal agenten kunne forstå? det samtalepartneren siger hvornår det er hendes tur at sige noget hvornår hun skal give feedback samtalepartnerens emotionelle tilstand

19-12-2016 9 Hvad skal agenten kunne udtrykke? korrekte svar passende spørgsmål løbende og ikke forstyrrende feedback passende følelsesmæssige reaktioner Og gestikken skal times rigtigt!

19-12-2016 10 Er det muligt? Det kræver empirisk baseret viden om talesprog og gestik. forståelse af de kognitive processer som ligger bag teoretiske og datalogiske modeller

Et eksempel: Feedback i NOMCO Danske NOMCO første møde -dialoger Del af en flersproglig samling Tolv dialoger, ca. en time i alt, ~18.000 ord Transskription af tale Detaljeret annotation af hovedbevægelser, ansigtsudtryk, og kropsholdning (MUMIN skema)

Et eksempel: Feedback i NOMCO

Et eksempel: Feedback i NOMCO Hvor meget gestik? Gesture # g/w g/s All 5547 0.31 1.40 Head 3117 0.17 0.79 Face 1448 0.08 0.37 Body 982 0.05 0.25 Feedback er oftest ledsaget af hovedbevægelser, specielt nik sammen med ansigtsudtryk.

Et eksempel: Feedback i NOMCO Et eller flere nik? Type of nod + FB word (%) -FB word (%) Repeated nod 47.2 73 Single up-nod 27.1 20 Single nod 25.3 7 Repeated up-nod 0.4 0 Total 100 100 Man nikker oftest flere gange, specielt hvis man giver feedback uden ord.

ja/jo# nej/næ# okay# mm/mhm# other#word# ja/jo# nej/næ# okay# mm/mhm# other#words# ja/jo# nej/næ# okay# mm/mhm# other#word# Et eksempel: Feedback i NOMCO Multimodal feedback (ord og hovedbevægelser) 30.00# 25.00# 20.00# 15.00# 10.00# 5.00# 0.00# Repeated#nod# Single#nod# Single#up?nod#

Et eksempel: Feedback i NOMCO Gestus og tryk i multimodal FB Stress pattern Head (#) No head (#) Stress 529 489 No stress 134 230 Hvis ordet ikke er betonet, er det halvt så sandsynligt at man nikker.

At modellere multimodal feedback Kan feedback genkendes automatisk? (Paggio and Navarretta, 2013) 1. Kan man automatisk fortolke en kombination af ord, hovedbevægelse og ansigtsudtryk som feedbacksignal? 2. Kan man automatisk forstå om der er tale om feedback-give eller feedback-elicit?

At modellere multimodal feedback Opgave 1: resultater Classifier Recall Precision F-measure ZeroR 0.264 0.514 0.349 Head+Face 0.637 0.647 0.63 Head+Face+GesturerWords 0.782 0.765 0.757 Head+Face+OtherWords 0.67 0.676 0.657 Head+Face+AllWords 0.792 0.772 0.764 Modellen er rimelig god til at genkende feedback når den træner på all features vedr. hovedbevægelserne, ansigtsudtrykkene og sammenfaldende ord.

At modellere multimodal feedback Opgave 2: resultater Classifier Recall Precision F-measure ZeroR 0.294 0.542 0.381 Head+Face 0.88 0.906 0.886 Head+Face+GesturerWords 0.898 0.917 0.902 Head+Face+OtherWords 0.847 0.893 0.864 Head+Face+AllWords 0.895 0.915 0.895 Modellen er meget god til at genkende forskellen mellem feedback-give og feedback-elicit.

Kan vi overføre alt dette til softwareagenter? Vi har rimelig detaljeret viden om hvordan FB skal se ud (type signal). Vi har noget viden om betingelser for multimodal FB (fx ordtryk). Vi har modeller som kan bruges med rimelig succes til at forstå om brugeren beder om feedback.

19-12-2016 21 Agenten giver feedback The SEMAINE character Prudence

19-12-2016 22 Hvor godt fungerer det? Agentens FB blev evalueret (Poppe et al. 2011) ved at spørge brugerne hvor naturligt den virker. Resultater: Det optimale antal FB-signaler er mellem 6 og 12 i minut. Rene nik virker ofte bedre end multimodal FB. FB må ikke optræde tilfældigt, men den skal være i den rette sammenhæng.

19-12-2016 23 Et skridt videre: personlighed og emotionel tilstand Brug af gestik varierer meget dels kulturelt dels individuelt. Den individuelle variation skyldes især personlighedstræk, som ekstraversion, neuroticisme, åbenhed, samvittighedsfuldhed og venlighed. Der er en del interesse for at tage højde for disse aspekter i udviklingen af softwareagenter.

19-12-2016 24 Den venlige samtalepartner The SEMAINE character Obadiah

19-12-2016 25 Den udfordrende samtalepartner The SEMAINE character Spike https://www.youtube.com/watch?v=6kzc6e_eucg

19-12-2016 26 Kan vi lide det? Ja, hvis det tjener et klart formål. Agenter med forskellige personligheder er fx blevet brugt med succes til at træne jobinterview-færdigheder. (Jones et al. 2014)

19-12-2016 27 Er der en grænse? Når agenternes udseende og opførelse er for realistisk, reagerer de fleste med ubehag. Hiroshi Ishiguro s robot

19-12-2016 28 Fremtiden? Flere annoterede multimodale korpora Bedre viden om gestik og sprog i menneskelig kommunikation Mere avancerede modeller for multimodal kommunikation Softwareagenter og robotter med bedre kommunikationsevner, inkl. gestik

Centre for Language Technology Gruppen Multimodal Communication & Computation Patrizia Paggio Costanza Navarretta Bjørn Wessel-Tolvig Thomas Kenneth Ousterhout Magdalena Lis