亚马逊Alexa科学家重新训练了日语的英语AI模型
为了减少培训时间和数据收集,自然语言处理研究人员越来越多地转向跨语言转移学习,这种技术需要用一种语言训练AI系统,然后再将其重新培训。例如,亚马逊Alexa部门的科学家最近采用它来使英语模式适应德语。并且在一份新的论文(“日语命名实体识别的跨语言转移学习”)中,他们计划在即将到来的明尼阿波利斯计算语言学协会北美分会上展示,他们将工作范围扩大到转移英语。 - 日语的语言模型。
“由于字符集之间的不匹配,欧洲语言和日语之间的转移学习很少被探索,”Alexa AI自然理解小组研究员Judith Gaspers在博客文章中解释道。为了解决这个问题,她和同事们设计了一个命名实体识别系统 - 一个经过训练的系统,用于识别话语中的名字,并自动对这些名称(例如,歌曲名称,运动队名称,城市名称)进行分类 - 这些都是日语的输入。人物和他们的罗马字母音译。
与大多数自然语言系统一样,输入采用嵌入形式 - 单词嵌入和字符嵌入 - 由训练的模型产生,以将数据表示为向量或坐标系。它首先将单词拆分为所有组成部分,然后将它们映射到多维空间中,使得嵌入彼此的单词具有相似的含义。
每个单词中的字符对分别嵌入到系统中,然后传递给双向长短期记忆(LSTM)AI模型,按顺序,前向和后向处理它们,以便每个输出反映先前的输入和输出它。然后,字符级双向LSTM与字级嵌入的级联输出被传递给第二个双向LSTM,后者处理序列中输入话语的所有单词,使其能够捕获“关于每个输入单词的根和词缀的信息”句子中的内在意义和背景,“加斯珀说。最后,这种表示被传递给第三个网络,该网络对命名实体进行了实际分类。
系统进行了端到端的训练,以便他们学会制作对命名实体识别有用的表示。在涉及两个公共数据集的测试中,具有日语单词罗马化的转移模型在F1得分中实现了5.9%和7.4%的改善,该综合得分测量假阳性率和假阴性率。
此外,在试验了三种不同的数据集(两个公共数据集和一个专有数据集)之后,研究人员发现通过使用日文字符作为英语系统特定模块(表示模块)的输入,但是将罗马化字符作为输入到另一个模块(角色表示模块),F1分数增加。对于较小的数据集尤其如此:在具有500,000个条目的内部数据集中,来自转移学习的F1得分的改善为0.6%,并且转移学习模型在一百万个示例中表现优于从头开始训练的模型。
“即使在更大的规模上,转移学习仍然可以大幅降低数据需求,”加斯珀说。