火星科技网您的位置:首页 >人工智能 >

一种新算法完全无需人类即可发现和检测物体

导读 标记数据可能是一件苦差事。它是计算机视觉模型的主要来源;没有它,他们将很难识别物体、人物和其他基本图像特征。然而,仅生成一个小时的

标记数据可能是一件苦差事。它是计算机视觉模型的主要来源;没有它,他们将很难识别物体、人物和其他基本图像特征。然而,仅生成一个小时的标记和标记数据可能需要800小时的人工时间。随着机器能够更好地感知和与我们的环境互动,我们对世界的高保真理解得到了发展。但他们需要更多帮助。

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)、微软和康奈尔大学的科学家们试图通过创建“STEGO”来解决这个困扰视觉模型的问题,该算法可以在完全没有任何人类标签的情况下共同发现和分割对象。到像素。

图片来源:麻省理工学院

STEGO学习了一种叫做“语义分割”的东西——花哨的说法是为图像中的每个像素分配标签的过程。语义分割对于今天的计算机视觉系统来说是必不可少的,因为印刷品可能会被物体弄得杂乱无章。更具挑战性的是这些对象并不总是适合文字框。算法往往更适用于像人和汽车这样的离散“事物”,而不是像植被、天空和土豆泥这样的“东西”。

以前的系统可能只是将狗在公园里玩耍的微妙场景仅仅视为一只狗,但通过为图像的每个像素分配一个标签,STEGO可以将图像分解为其主要成分:狗、天空、草和它的主人。

为世界上的每个像素分配一个标签是雄心勃勃的,尤其是在没有任何人类反馈的情况下。今天的大多数算法都从大量标记数据中获取知识,这可能需要花费大量的人力来找到源头。

想象一下标记100,000张图像的每个像素的兴奋!为了在没有人类帮助的情况下发现这些对象,STEGO在整个数据集中寻找类似的东西。然后,它将这些相似的对象关联在一起,以在它学习的所有图像中构建一致的世界视图。

看世界

可以“看到”的机器对于自动驾驶汽车和医疗诊断预测建模等各种新兴技术至关重要。由于STEGO可以在没有标签的情况下学习,它可以检测许多不同领域的对象,甚至是人类尚未完全理解的对象。

“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像,如果没有专业知识,很难知道要寻找什么物体。在新兴领域,有时甚至人类专家都不知道正确的对象应该是什么,”博士马克汉密尔顿说。麻省理工学院电气工程和计算机科学专业的学生,​​麻省理工学院CSAIL的研究附属机构,微软的软件工程师,以及一篇关于STEGO的新论文的主要作者。“在这种情况下,你想设计一种在科学边界上运行的方法,你不能依靠人类在机器之前弄清楚它。”

STEGO在许多视觉领域进行了测试,包括一般图像、驾驶图像和高空航拍照片。在每个领域,STEGO都能够识别和分割与人类判断密切相关的相关对象。STEGO最多样化的基准是COCO-Stuff数据集,它包含来自世界各地的各种图像,从室内场景到运动的人,再到树木和奶牛。

在大多数情况下,以前最先进的系统可以捕捉场景的低分辨率要点,但难以处理细粒度的细节:一个人是一团,一辆摩托车被捕捉为一个人,但它不能不认识任何鹅。在相同的场景中,STEGO将先前系统的性能提高了一倍,并发现了动物、建筑物、人、家具等许多概念。

STEGO不仅在COCO-Stuff基准测试中将先前系统的性能提高了一倍,而且在其他视觉领域也取得了类似的飞跃。当应用于无人驾驶汽车数据集时,STEGO以比以前的系统更高的分辨率和粒度成功地分割出道路、人和路牌。在来自太空的图像中,该系统将地球表面的每一平方英尺分解为道路、植被和建筑物。

连接像素

STEGO——代表“基于能量的图优化的自我监督变压器”——建立在DINO算法之上,该算法通过ImageNet数据库中的1400万张图像了解世界。STEGO通过一个学习过程来完善DINO骨干,该过程模仿我们自己将世界的各个部分拼接在一起以产生意义的方式。

例如,您可能会考虑两张狗在公园里散步的图像。尽管它们是不同的狗,拥有不同的主人,在不同的公园里,STEGO可以(没有人类)分辨出每个场景的对象是如何相互关联的。作者甚至探究了STEGO的大脑,看看图像中每个棕色毛茸茸的小东西是如何相似的,以及草和人等其他共享对象。通过跨图像连接对象,STEGO构建了一致的单词视图。

“我们的想法是,这些算法可以在很大程度上以自动化的方式找到一致的分组,因此我们不必自己这样做,”汉密尔顿说。“理解复杂的视觉数据集(如生物图像)可能需要数年时间,但如果我们能够避免花费1,000小时梳理数据并对其进行标记,我们就可以找到并发现我们可能错过的新信息。我们希望这将帮助我们以更加经验为基础的方式理解视觉世界。”

展望未来

尽管进行了改进,STEGO仍然面临着特殊的挑战。一是标签可以是任意的。例如,COCO-Stuff数据集的标题区分了像香蕉和鸡翅这样的“食物”和像粗粒和面这样的“食物”。STEGO并没有看到太大的区别。在其他情况下,STEGO被奇怪的图像弄糊涂了——比如一个香蕉坐在电话接收器上——接收器被标记为“食品”而不是“原材料”。

对于即将到来的工作,他们计划探索赋予STEGO更大的灵活性,而不仅仅是将像素标记为固定数量的类别,因为现实世界中的事物有时可能同时是多个事物(例如“食物”、“植物”、”和“水果”)。作者希望这将为算法提供不确定性、权衡和更抽象思维的空间。

“在制作用于理解潜在复杂数据集的通用工具时,我们希望这种算法能够自动化从图像中发现对象的科学过程。在许多不同的领域中,人工标记的成本过高,或者人类根本不知道具体的结构,例如在某些生物和天体物理学领域。我们希望未来的工作能够将应用程序应用于广泛的数据集。由于您不需要任何人工标签,我们现在可以开始更广泛地应用ML工具,”Hamilton说。

“STEGO简单、优雅且非常有效。我认为无监督分割是图像理解进步的基准和一个复杂的问题。通过采用变压器架构,研究界在无监督图像理解方面取得了巨大进展,”计算机视觉和机器学习教授、牛津大学工程科学系视觉几何小组的联合负责人AndreaVedaldi说.“这项研究提供了无监督分割这一进展的最直接和最有效的证明。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。