In human–agent interactions, spoken language interfaces often pose challenges such as high cognitive load and reduced practicality in noisy environments. Semantic-Free Utterances (SFUs), which are non-verbal sounds lacking semantic content, have emerged as a promising alternative to mitigate these issues. However, existing approaches rarely tackle the key problem of generating real-time, context-aware SFU responses.

We address this gap by introducing ParaTalk, a paralinguistic dialogue system that uses a large language model to interpret user verbal input and generate Paralinguistic Utterances (PUs), a specific type of SFU, in real time. The system dynamically combines emotional states (e.g., Neutral, Pleasant, Unpleasant, Activation) with intentional expressions (e.g., Affirmation, Negation, Unsure, Question, Acknowledgment) to generate appropriate responses. In this method, we explore the potential of verbal and non-verbal communication and propose new guidelines for designing dialogue interfaces with agents.

人間とエージェントの相互作用では、音声言語インターフェースが高い認知負荷や、騒がしい環境での使いにくさなどの課題を抱えることがあります。意味を持たない非言語的な音(Semantic-Free Utterances、SFUs)は、こうした問題を解決する有望な代替手段として注目されています。ただし、既存の手法では、リアルタイムでコンテキストに応じたSFU応答を生成するという重要な課題にあまり取り組まれていません。

私たちはこの課題に対応するため、ParaTalkというパラ言語対話システムを提案します。ParaTalkは大規模言語モデルを利用してユーザーの口頭入力を解釈し、SFUの一種であるParalinguistic Utterances(PUs)をリアルタイムで生成するシステムです。このシステムは、感情状態(例:Neutral、Pleasant、Unpleasant、Activation)と意図的な表現(例:Affirmation、Negation、Unsure、Question、Acknowledgment)を動的に組み合わせ、適切な応答を生成します。この手法を通じて、言語的および非言語的なコミュニケーションの可能性を探り、エージェントとの対話インターフェース設計の新たなガイドラインを提案します。

Publication

Momo Hanawa, and Yoshio Ishiguro. ParaTalk: A Real-Time Paralinguistic Dialogue System for Human-Agent Interaction. IEEE VR 2025 Workshop. March, 2025.