使机器人的声音适应环境和社会背景

人类可以根据不同的环境和社会情况调整自己的声音，这有助于巩固对我们互动的信任。关于赋予机器人这种能力的可能性已经进行了大量研究。然而，当前的方法要么昂贵，要么平淡且缺乏表现力。

最近发表在 arXiv.org 上的一篇论文提出了一种数据驱动的方法来生成机器人的声音。

研究人员使用现成的视频会议平台来收集真实的上下文音频语音数据。然后，确定可以在不同环境和社会环境中改善机器人声音的相关特征。测试人类感知以更好地了解人类如何感知机器人声音。

研究人员表明，人类更喜欢与社会和环境上下文相匹配的人声，并且在这些上下文场景中，当前的文本到语音和人声之间仍然存在很大差距。

人类社交互动需要让自己的声音适应不同的周围环境和社交互动。在机器人技术中，在嘈杂和安静的环境中识别语音的能力受到了极大的关注，但在社交语音特征的产生中考虑环境线索的探索很少。我们的研究旨在修改机器人的语音，以最大限度地提高各种社会和声学环境中的可接受性，从不同餐厅中服务机器人的用例开始。我们创建了一个通过 Zoom 收集的原始数据集，参与者在给定 7 种不同的环境声音和背景图像的情况下就脚本和非脚本任务进行对话。语音转换方法，除了匹配环境特定数据的更改文本到语音之外，还用于语音合成任务。我们进行了一项主观感知研究，表明人类更喜欢与环境和社会背景相匹配的合成语音，最终更喜欢更像人类的声音。这项工作为环境和适合社交的合成声音提供了三种解决方案：(1) 一种收集真实上下文音频语音数据的新协议，(2) 操纵机器人语音以进行适当的社交和环境特定交互的工具和方向，以及 (3) 洞察力语音转换在灵活改变机器人语音以匹配不同的周围环境中的作用。

标签：

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

使机器人的声音适应环境和社会背景

猜你喜欢

最新文章