谷歌的Translatotron可以用演讲者的声音翻译语音

说另一种语言可能会变得更容易。谷歌正在展示Translatotron，这是一种独一无二的翻译模式，可以直接将语音从一种语言转换为另一种语言，同时保持说话者的声音和节奏。该工具放弃了将语音翻译成文本和返回语音的通常步骤，这通常会导致错误。相反，端到端技术直接将说话者的声音转换为另一种语言。该公司希望该开发将使用直接翻译模型开拓未来发展。

根据谷歌的说法，Translatotron使用序列到序列的网络模型，它采用语音输入，将其作为频谱图处理 - 频率的直观表示 - 并以目标语言生成新的频谱图。结果是翻译速度更快，一路上丢失的可能性更小。该工具还可与可选的扬声器编码器组件配合使用，该组件可用于保持扬声器的声音。翻译后的语音仍然是合成的，听起来有点机器人，但可以有效地保持说话者声音的某些元素。您可以收听Translatotron在Google Research的GitHub页面上完成翻译时保持演讲者声音的样本。有些肯定比其他人好，但这是一个开始。

谷歌最近几个月一直在微调其翻译。去年，该公司推出的谷歌翻译的口音，可以说各种各样的基于区域的发音语言和增加了更多的汉语语言以它的实时翻译功能。今年早些时候，Google智能助理为26种语言的智能显示器和扬声器提供了“翻译模式”。

标签： Translatotron

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

谷歌的Translatotron可以用演讲者的声音翻译语音

猜你喜欢

最新文章