微软的AI只用200个训练样本生成逼真的语音
现代的文本到语音转换算法具有令人难以置信的能力,你不需要进一步寻找证据,而不是谷歌最近开源的SpecAugment或Translatotron--后者可以直接将一个人的声音翻译成另一种语言,同时保留语气和男高音。但总有改进的余地。
为此,微软的研究人员最近在一篇论文(“几乎无监督的文本到语音和自动语音识别”)中详细介绍了一种利用无监督学习的人工智能系统 - 一种机器学习的分支,从未标记,未分类和未分类的测试数据中收集知识 - 实现自动语音识别的99.84%单词可懂度准确率和11.7%PER。更令人印象深刻的是,该模型仅需要200个音频剪辑和相应的转录。
关键是变形金刚,这是一种新型的神经结构,在2017年的一篇论文中引入,由Google的AI研究部门Google Brain的科学家共同撰写。与所有深度神经网络一样,变形金刚包含排列在互连层中的神经元(数学函数松散地模仿生物神经元),这些层从输入数据传输“信号”并缓慢调整每个连接的突触强度 - 权重。(这就是模型如何提取特征并学习如何进行预测。)但是,独特的变形金刚注意:每个输出元素都连接到每个输入元素,它们之间的权重是动态计算的。
微软研究人员将Transformer组件整合到他们的AI系统设计中,可以将语音或文本作为输入或输出,他们采购了公开的LJSpeech数据集 - 其中包含13,100个英语音频片段和成绩单 - 用于训练数据。该团队随机选择上述200个剪辑来创建训练数据集,并利用去噪自动编码器组件重建损坏的语音和文本。
考虑到小型语料库,结果并非一半糟糕 - 研究人员指出,它在测试中轻松胜过三种基线算法。并且发布的几个生成的样本听起来像人类一样,保存了轻微的机器人声音。
共同作者通过在其他预训练方法的帮助下纯粹利用不成对的语音和文本数据,留给未来的工作“突破无监督学习的极限”。他们写道:“在这项工作中,我们提出了几乎无监督的文本到语音和自动语音识别方法,它只利用了少量成对的语音和文本数据以及额外的不成对数据。”“我们在实验中证明,我们设计的组件是开发语音和文本转换功能所必需的,只需很少的配对数据。”
该论文将于今年晚些时候在加利福尼亚州长滩举行的国际机器学习大会上发布,该团队计划在未来几周内发布该代码。