在智能设备上使用草图检索图像的系统
萨里大学 SketchX 的研究人员最近开发了一种基于元学习的模型,该模型允许用户通过在平板电脑、智能手机或其他智能设备上简单地绘制特定物品的图像来检索它们。该框架在将在欧洲计算机视觉会议 (ECCV) 上发表的论文中进行了概述,该会议是与 CVPR 和 ICCV 一起排名前三的计算机视觉旗舰会议之一。
“这是‘细粒度图像检索’工作的最新进展,这是我的研究实验室(SketchX,我在 2012 年指导和创立)在 2015 年率先提出的问题,在 CVPR 2015 上发表了一篇题为“给我画那只鞋,”进行这项研究的研究人员之一宋一哲告诉 TechXplore。“我们论文背后的想法是,通常很难或不可能在细粒度级别上进行图像检索(例如,在圣诞节找到特定类型的鞋子,但找不到任何鞋子)。”
过去,一些研究人员试图设计可以根据文本或语音描述检索图像的模型。文本对用户来说可能更容易生成,但发现它只能在粗略的水平上工作。换句话说,当试图描述细节时,它可能会变得模棱两可和无效。
另一方面,草图或涂鸦本质上是细粒度的,因此最适合生成对象的详细和精确表示。此外,大多数现代智能设备都有触摸屏,用户可以在上面画草图。
“基于草图的细粒度图像检索的主要挑战主要是:(i)人们不能很好地素描,(ii)我们用不同的风格素描,(iii)周围没有足够的素描来训练好模特,”宋解释道。“我们每次都针对这个主题发表了一系列针对不同方面的论文。我们的最新论文同时解决了所有三个问题,并进一步推动了该技术的实际部署。”
宋和他的同事设计的模型允许即使不是特别擅长素描的用户也可以检索他们正在寻找的对象的图像,即使它没有使用这些对象的图像进行训练。这是通过其“自适应”设计实现的,它允许系统仅使用一些示例草图来适应用户独特的绘图风格、他/她的绘图质量和新的对象类别。
第一作者 Ayan Bhunia 说:“我们的系统在您最初使用它的最初几次时会很快学会与您合作(更好地理解您的草图)——通常 2-3 个示例就足够了。” “最好的事情是这种适应只发生在测试时,这意味着一个人不必为不同的用户/类别训练一个新模型——这极大地有助于实际部署,只需为每个客户提供相同的训练模型,它就会学会部署后使用不同的风格/质量/类别。”
在使用公共数据集进行的初步评估中,研究人员的模型表现非常出色,因为它能够使用各种样本草图检索图像。将来,在线零售商和其他公司可以使用它来让他们的客户找到他们正在寻找的产品类型,而无需浏览他们的整个目录。
“我们的工作已经非常成熟,下一阶段将把我们的系统商业化,让普通用户受益于这一最新的人工智能发展,这样他们只需用手指在手机屏幕上涂鸦就能找到‘那双’鞋子”宋补充道。“从长远来看,我们还可以将细粒度检索扩展到元宇宙。想象一下在 3D 世界中用手指简单地绘制草图,然后让正确的产品/建筑物/对象出现在您面前。”
宋和他的同事们现在正试图将他们的模型商业化,并促进其在现实世界中的引入。一些世界知名的家具和服装零售商已经表示有兴趣使用这种模式来改善他们的服务。
标签: