火星科技网您的位置:首页 >资讯 >

MIT CSAIL详细介绍了在不影响精度的情况下缩小神经网络的技术

导读 深度神经网络 - 以生物神经元为模型的数学函数层 - 是一种通用类型的AI架构,能够执行从自然语言处理到计算机视觉的任务。但这并不意味

深度神经网络 - 以生物神经元为模型的数学函数层 - 是一种通用类型的AI架构,能够执行从自然语言处理到计算机视觉的任务。但这并不意味着它们没有限制。深度神经网络通常非常庞大并且需要相应的大型语料库,即使是最昂贵的专用硬件也需要数天才能进行训练。

但它可能不一定是这样。在麻省理工学院计算机科学与人工智能实验室(CSAIL)科学家发表的一项新研究(“彩票票假设:寻找稀疏,可训练的神经网络”)中,深度神经网络显示包含的子网比小于10倍的子网。整个网络,但能够被训练以进行同样精确的预测,在某些情况下比原始网络更快。

这项工作计划在新奥尔良举行的国际学习代表大会(ICLR)上进行,该大会在大约1,600份提交的文件中被评为会议的前两篇论文之一。

“如果初始网络首先不必那么大,为什么不能在开始时创建一个合适的大小?”博士生和合着者Jonathan Frankle在一份声明中说。“通过神经网络,您可以随机初始化这个大型结构,并且在对大量数据进行训练之后,它神奇地起作用。这种大型结构就像购买一大包门票,即使只有少量门票实际上会让你变得富有。但是我们仍然需要一种技术来找到胜利者而不首先看到获胜的数字。“

研究人员的方法涉及消除功能(或神经元)之间不必要的连接,以使其适应低功率设备,这一过程通常称为修剪。(他们特别选择了具有最低“权重”的连接,这表明它们是最不重要的。)接下来,他们在没有修剪连接的情况下训练网络并重置权重,并且在修剪其他连接后,他们确定了多少可以在不影响模型预测能力的情况下删除。

在一系列条件下,在不同网络上重复该过程数万次之后,他们报告说他们发现的AI模型始终比其完全连接的父网络的大小小10%到20%。

“令人惊讶的是,重新设置一个表现良好的网络通常会带来更好的结果,”共同作者兼助理教授Michael Carbin说。“这表明,无论我们第一次做什么,都不是最完美的,而且还有改进这些模型如何学会改进自己的空间。”

Carbin和Frankle指出,他们只考虑以较小数据集为中心的以视觉为中心的分类任务,他们将在未来的工作中探讨为什么某些子网特别擅长学习以及快速发现这些子网的方法。然而,他们认为结果可能对转移学习有影响,转移学习是一种技术,其中训练一个任务的网络适应另一个任务。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。