火星科技网您的位置:首页 >人工智能 >

缩小用于建模语言的大规模神经网络

导读 一种新方法可以降低计算成本并增加对最先进自然语言处理的可访问性。你不需要大锤来敲碎坚果。乔纳森·弗兰克尔正在研究人工智能——而不是

一种新方法可以降低计算成本并增加对最先进自然语言处理的可访问性。你不需要大锤来敲碎坚果。乔纳森·弗兰克尔正在研究人工智能——而不是吃开心果——但同样的哲学也适用于他的“彩票假说”。它假定隐藏在庞大的神经网络中,更精简的子网络可以更有效地完成相同的任务。诀窍是找到那些被称为中奖彩票的“幸运”子网络。

深度学习神经网络可能非常庞大,需要强大的计算能力。在对彩票假说的测试中,麻省理工学院的研究人员发现隐藏在 BERT 模型中的更精简、更高效的子网络。图片来源:Jose-Luis Olivares,麻省理工学院

在一篇新论文中,弗兰克尔及其同事发现了潜伏在 BERT 中的此类子网络,BERT 是一种最先进的自然语言处理 (NLP) 神经网络方法。作为人工智能的一个分支,NLP 旨在通过预测文本生成或在线聊天机器人等应用程序破译和分析人类语言。在计算方面,BERT 体积庞大,通常需要大多数用户无法使用的超级计算能力。获得 BERT 的中奖彩票可以公平竞争,可能允许更多用户在智能手机上开发有效的 NLP 工具——不需要大锤。

“我们已经到了必须让这些模型更精简、更高效的地步,”弗兰克尔说,并补充说这一进步有朝一日可能会“降低 NLP 的进入门槛”。

Frankle 是麻省理工学院计算机科学与人工智能实验室 Michael Carbin 小组的博士生,共同撰写了这项研究,该研究将于下个月在神经信息处理系统会议上发表。德克萨斯大学奥斯汀分校的陈天龙是该论文的第一作者,其中包括德克萨斯 A&M 的合作者 Zhangyang Wang,以及 MIT-IBM Watson AI Lab 的 Shiyu Chang、Sijia Liu 和 Yang Zhang .

您今天可能已经与 BERT 网络进行了交互。它是 Google 搜索引擎的基础技术之一,自 2018 年 Google 发布 BERT 以来,它激发了研究人员的兴奋。BERT 是一种创建神经网络的方法——使用分层节点或“神经元”来学习执行通过对大量示例进行训练来完成任务。BERT 是通过反复尝试填写文章中遗漏的单词来训练的,它的强大之处在于这个初始训练数据集的庞大规模。然后,用户可以针对特定任务对 BERT 的神经网络进行微调,例如构建客户服务聊天机器人。但是争论 BERT 需要大量的处理能力。

“如今的标准 BERT 模型——花园变种——有 3.4 亿个参数,”弗兰克尔说,并补充说这个数字可以达到 10 亿。微调如此庞大的网络可能需要一台超级计算机。“这简直太贵了。这远远超出了你我的计算能力。”

陈同意。他说,尽管 BERT 大受欢迎,但此类模型“受制于巨大的网络规模”。幸运的是,“彩票假说似乎是一个解决方案。”

为了降低计算成本,Chen 及其同事试图找出隐藏在 BERT 中的较小模型。他们通过从完整的 BERT 网络中迭代修剪参数来进行实验,然后将新子网络的性能与原始 BERT 模型的性能进行比较。他们对一系列 NLP 任务进行了比较,从回答问题到填充句子中的空白词。

研究人员发现成功的子网络比最初的 BERT 模型小 40% 到 90%,具体取决于任务。此外,他们能够在运行任何特定于任务的微调之前识别那些中奖彩票——这一发现可以进一步降低 NLP 的计算成本。在某些情况下,为一项任务选择的子网络可以重新用于另一项任务,尽管 Frankle 指出这种可转移性并不普遍。尽管如此,弗兰克还是对小组的结果非常满意。

“我有点震惊,这竟然奏效了,”他说。“这不是我认为理所当然的事情。我期待的结果比我们得到的要糟糕得多。”

Facebook AI Research 的科学家 Ari Morcos 表示,在 BERT 模型中发现中奖彩票“令人信服”。“这些模型正变得越来越普遍,”莫科斯说。“因此,了解彩票假设是否成立非常重要。” 他补充说,这一发现可以让类似 BERT 的模型使用更少的计算能力运行,“鉴于这些超大型模型目前的运行成本非常高,这可能会非常有影响力。”

弗兰克同意。他希望这项工作可以让 BERT 更容易使用,因为它与不断增长的 NLP 模型的趋势背道而驰。“我不知道我们可以使用这些超级计算机式的计算做多大的事情,”他说。“我们将不得不降低进入门槛。” 确定一个精益的、中奖的子网络就是这样做的——允许缺乏谷歌或 Facebook 计算能力的开发人员仍然执行尖端的 NLP。“希望这会降低成本,让每个人都更容易使用它……对于只有笔记本电脑的小家伙来说,”弗兰克尔说。“对我来说,这真的很令人兴奋。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。