Microsoft AI通过很少的培训创建逼真的语音

文本到语音转换变得越来越聪明，但是存在一个问题：它仍然需要大量的培训时间和资源来产生自然的声音输出。微软和中国的研究人员可能会有更有效的方法。他们制作了一个文本到语音的AI，可以使用200个语音样本(大约20分钟的价值)和匹配的转录生成逼真的语音。

该系统部分依赖于变形金刚，或大致模仿大脑神经元的深度神经网络。变形金刚像突触链接一样权衡每一个输入和输出，帮助他们非常有效地处理甚至冗长的序列 - 比如一个复杂的句子。将其与去噪编码器组件相结合，AI可以用相对较少的功能做很多事情。

轻微的机器人声音结果并不完美，但它们的准确度高达99.84%。更重要的是，这可以使文本到语音更容易访问。您不需要花费太多精力来获得真实的声音，将其置于小公司甚至业余爱好者的手中。这也预示着未来。研究人员希望对无与伦比的数据进行培训，因此创建逼真的对话可能需要更少的工作。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。