火星科技网您的位置:首页 >车科技 >

亚马逊的AI改善了声音中的情绪检测

导读 从某人的声音中可以收集到很多东西,这是情感的天然管道。情绪具有一系列应用:它可以通过帮助检测痴呆症或心脏病发作的早期症状来帮助进行

从某人的声音中可以收集到很多东西,这是情感的天然管道。情绪具有一系列应用:它可以通过帮助检测痴呆症或心脏病发作的早期症状来帮助进行健康监测,并且它有可能使对话AI系统更具吸引力和响应性。有一天,情绪甚至可能提供隐含的反馈,可以帮助谷歌助理,苹果的Siri和亚马逊的Alexa等语音助手从他们的错误中吸取教训。

情绪分类AI并不是什么新鲜事,但传统方法受到监督,这意味着它们会根据说话者的情绪状态来摄取训练数据。亚马逊的科学家最近采用了一种不同的方法,他们在计划在国际声学,语音和信号处理会议上发表的论文中描述了这种方法。他们没有采用详尽的注释“情感”语料库来教授系统,而是提供了一个对抗性自动编码器,这是一个包含来自10个不同发言者的10,000个话语的公开数据集。结果?在判断人们的声音中的效价或情感价值时,神经网络的准确度提高了4%。

该研究建立在亚马逊Alexa团队不断努力的基础上,通过他们的声音可靠地确定用户的情绪或情绪状态。

正如纸质合着者和Alexa Speech组高级应用科学家Viktor Rozgic在博客文章中解释的那样,对抗性自动编码器是包含编码器的两部分模型,编码器学习生成输入语音的紧凑(或潜在)表示,编码训练示例的所有属性和解码器,它重建来自紧凑表示的输入。

研究人员的情绪表征由三个网络节点组成,三个网络节点分别用于三种情绪测量:效价,激活,(说话者是警报,参与还是被动),以及支配(说话者是否感觉控制情况)。训练分三个阶段进行,第一阶段涉及使用无标签的数据单独训练编码器和解码器。在第二阶段,对抗训练 - 对抗性鉴别器试图区分编码器产生的真实表示与人工表示的技术 - 用于调整编码器。并且在第三阶段,调整编码器以确保潜在情绪表示预测训练数据的情绪标签。

在涉及句子级特征表示“手工设计”以捕获有关语音信号的信息的实验中,研究人员报告说,他们的AI系统在评估效价方面比传统训练网络的准确度提高了3%。此外,他们表示,当为网络提供20毫秒帧或音频片段的声学特性的一系列表示时,改善率为4%。

亚马逊不是唯一一家研究改进的基于语音的情绪检测的公司,值得注意。麻省理工学院媒体实验室分拆Affectiva最近演示了一个神经网络SoundNet,可以在短短1.2秒内将愤怒与音频数据分类 - 只需要人类感知愤怒的时间 - 无论说话者的语言如何。与此同时,美国退伍军人事务部使用创业公司Cogito的人工智能分析军队退伍军人与创伤后应激障碍的声音,以确定他们是否需要立即提供帮助。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。