火星科技网您的位置:首页 >家电科技 >

IBM的AI执行最先进的广播新闻字幕

导读 两年前,IBM的研究人员通过在两个公共语音识别数据集上训练的机器学习系统声称具有最先进的转录性能,这比看起来更令人印象深刻。该AI系统

两年前,IBM的研究人员通过在两个公共语音识别数据集上训练的机器学习系统声称具有最先进的转录性能,这比看起来更令人印象深刻。该AI系统必须抗衡,不仅在训练库的音频片段扭曲,但有一个范围讲风格,参与者之间重叠的讲话,中断,重新启动和交流。

为了追求一个更强大的系统,位于纽约Armonk的公司的研究人员最近设计了一个详细的架构(“人类和机器的英语广播新闻语音识别”),将在国际声学大会上发表。本周布莱顿的语音和信号处理。他们说,在初步实验中,它在广播新闻字幕任务方面取得了行业领先的成果。

达到这一点并不容易。该系统带来了一系列挑战,例如具有大量背景噪音的音频信号,以及讲述各种新闻主题的演示者。虽然大部分培训语料库的演讲都很清晰,但它包含了诸如现场采访,电视节目剪辑和其他多媒体内容等材料。

正如IBM研究员Samuel Thomas在博客文章中所解释的那样,人工智能利用长期短期记忆(LSTM) - 一种能够学习长期依赖性的算法 - 和声学神经网络语言模型以及互补语言模型的结合。 。声学模型包含多达25层节点(模拟生物神经元的数学函数),在语音频谱图或信号频谱的视觉表示上进行训练,而六层LSTM网络学习了一组“丰富”的各种声学特征以增强语言建模。

在为整个系统提供1,300小时的广播新闻数据后,研究人员将AI放在包含两小时数据的测试集中,该数据联盟是一个支持语言相关的教育,研究和技术开发的国际非营利组织。显示共有近100个重叠的扬声器。(第二个测试集包含来自12个节目的4小时广播新闻数据,大约230个重叠的发言者。)该团队与语音和搜索技术公司Appen合作测量语音识别任务的识别错误率并报告系统达到6.5%第一个测试集和第二个测试集5.9% - 比人类表现差一点,分别为3.6%和2.8%。

“[我们的]新结果......是我们对此任务所知的最低结果,[但]在这个领域仍有新技术和改进的空间,”托马斯写道。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。