Google的EfficientNets在分析图像方面比现有的AI模型更好
卷积神经网络(CNN) - 受人类视觉皮层生物过程启发的功能层(神经元) - 非常适合于物体识别和面部检测等任务,但是将精度提高到某一点以外需要进行繁琐的微调。这就是为什么谷歌人工智能研究部门的科学家们正在研究以“更有条理”的方式“扩大”CNN的新模型,他们在预印本服务器上发表的一篇论文(“EfficientNet:重新思考卷积神经网络的模型缩放”)中对此进行了描述。Arxiv.org和随附的博客文章。
该共同作者声称,这一系列的AI系统,被称为EfficientNets,在普通语料库上超越了最先进的准确度,效率提高了10倍。
“模型缩放的传统做法是任意增加CNN深度或宽度,或者使用更大的输入图像分辨率进行训练和评估,”软件工程师Mingxing Tan和Google AI首席科学家Quoc V. Le写道。“与任意缩放网络维度的传统方法(如宽度,深度和分辨率)不同,我们的方法使用一组固定的缩放系数统一缩放每个维度。”
那怎么样呢?首先,进行网格搜索以在固定资源约束下(例如,两倍多浮点计算或FLOPS)识别基线网络的不同缩放维度之间的关系。这确定了每个维度的适当缩放系数,并且应用这些系数以将基线网络扩展到期望的模型大小或计算预算。
为了进一步提高性能,研究人员提倡新的基线网络 - 移动倒置瓶颈卷积(MBConv) - 作为EfficientNets模型族的种子。
在测试中,EfficientNets表现出比现有CNN更高的准确性和更高的效率,将参数大小和FLOPS降低了一个数量级。其中一款型号--EfficientNet-B7,比高性能CNN Gpipe小8.4倍,速度快6.1倍 - 分别在ImageNet上达到84.4%和97.1%的前1和前5精度。与流行的ResNet-50相比,另一款EfficientNet-EfficientNet-B4使用了类似的FLOPS,同时将ResNet-50的最高精度从76.3%提高到82.6%。
EfficientNets在其他数据集上也表现良好,在八个中的五个中实现了最先进的准确度,包括CIFAR-100(91.7%准确度)和Flowers(98.8%),参数减少了21个。
Google的云托管张量处理单元(TPU)的源代码和培训脚本可在GitHub上免费获得。“通过显着提高模型效率,我们预计EfficientNets可能成为未来计算机视觉任务的新基础,”Tan和Le写道。
标签: Google EfficientNets