计算机系统预测物体对物理力的反应
麻省理工学院的大脑和认知科学教授乔希·特南鲍姆(Josh Tenenbaum)在麻省理工学院的大脑,思维和机器中心指导研究智力发展,该中心是一个基于MIT的多学科,多学科的项目,旨在解释和复制人类智力。
Tenenbaum和他的一名学生Wu Jiajun在神经信息处理系统会议上介绍他们的工作,是四篇论文的合著者,这些论文探讨了智能主体在整个世界中所需的基本认知能力:辨别不同的物体并进行推理他们对身体力量的反应。
研究人员认为,通过构建开始近似于这些能力的计算机系统,研究人员可以帮助他们回答有关人类在发展的哪些阶段使用哪些信息处理资源的问题。在此过程中,研究人员可能还会产生一些对机器人视觉系统有用的见解。
麻省理工学院的研究人员对人类身体直觉的本质进行了调查,对神经网络进行了训练,以预测不稳定的堆叠块将如何对重力产生响应。图片来源:Christine Daniloff / MIT
Tenenbaum说:“这里的共同主题实际上是学习感知物理学。” “首先,要查看对象的完整3D形状以及场景中的多个对象,以及它们的物理属性(例如质量和摩擦力),然后要推理这些对象将如何随着时间移动。嘉俊的四篇论文涉及整个领域。综上所述,我们开始能够构建能够捕获越来越多的人们对物理世界的基本了解的机器。”
其中三篇论文涉及从视觉和听觉数据推断有关物体物理结构的信息。第四类处理根据这些数据预测对象的行为。
双向街道
将所有四篇论文结合在一起的另一件事是他们不寻常的机器学习方法,该技术是计算机通过分析大量训练数据来学习执行计算任务的技术。在典型的机器学习系统中,训练数据带有标签:人类分析人员已经识别出视觉场景中的对象或抄写了口头句子中的单词。该系统尝试了解数据的哪些特征与哪些标签相关联,并根据其对先前未见数据的标签程度进行判断。
在Wu和Tenenbaum的新论文中,对系统进行了训练以推断出世界的物理模型-例如,物体的3D形状大多隐藏在视线之外。但是随后它向后工作,使用模型重新合成输入数据,并根据重建数据与原始数据的匹配程度来判断其性能。
例如,使用视觉图像为场景中的对象建立3-D模型时,需要剥离所有遮挡对象。过滤掉令人困惑的视觉纹理,反射和阴影;并推断出看不见的表面的形状。然而,一旦Wu和Tenenbaum的系统构建了这样的模型,它就会在空间中旋转它并重新添加视觉纹理,直到可以近似输入数据为止。
确实,研究人员的四篇论文中有两篇解决了从视觉数据推断3-D模型的复杂问题。在这些论文上,麻省理工学院的其他四名研究人员,包括珀金斯电气工程和计算机科学教授威廉·弗里曼,以及DeepMind,上海科技大学和上海交通大学的同事,也加入了研究。
分而治之
研究人员的系统基于MIT神经科学家David Marr的影响理论,他于1980年不幸去世,享年35岁。Marr假设,在解释视觉场景时,大脑首先创建了他所谓的2.5D草图。它所包含的对象的视图-只是对象面对观看者的那些表面的表示。然后,根据2.5D草图(而不是有关场景的原始视觉信息),大脑推断出对象的完整三维形状。
“这两个问题都很难解决,但是有一种很好的方法可以解决它们,”吴说。“您一次可以做一个,因此不必同时处理两个,这更加困难。”
Wu和他的同事的系统需要接受包括视觉图像和图像所描绘对象的3-D模型在内的数据的培训。为真实照片中描绘的对象构建准确的3-D模型将非常耗时,因此,最初,研究人员使用合成数据训练系统,其中合成的视觉图像是从3-D模型生成的,反之亦然。创建数据的过程类似于创建计算机动画电影的过程。
但是,一旦在合成数据上对系统进行了训练,就可以使用实际数据对其进行微调。那是因为它的最终性能标准是重构输入数据的准确性。它仍在构建3-D模型,但无需将其与人工构建的模型进行性能评估。
在评估他们的系统时,研究人员使用了一种称为交集交集的度量,这在该领域中很常见。从这个角度来看,他们的系统胜过其前辈。但是,给定的交叉点联合得分为3D模型的平滑度和形状上的局部变化留出了很大的空间。因此,吴和他的同事还对模型对源图像的保真度进行了定性研究。在研究的参与者中,有74%的人比新系统更喜欢新系统的重建。
跌倒了
在Wu和Tenenbaum的另一篇论文中,Freeman以及麻省理工学院,剑桥大学和上海科技大学的研究人员再次加入了他们的研究中,他们训练了一个系统来分析掉落的物体的音频记录,从而推断出诸如物体的形状,组成和下落高度。再次,对该系统进行了训练,以生成对象的抽象表示,而该抽象表示又用于合成从特定高度掉落时对象发出的声音。根据合成声音和源声音之间的相似性来判断系统的性能。
最后,DeepMind和牛津大学的Wu,Tenenbaum,Freeman及其同事在他们的第四篇论文中描述了一种系统,该系统开始为人类对作用在世界上物体上的物理力的直观理解建模。本文从前几篇论文的开头摘录:假设系统已经推导出对象的3-D形状。
这些形状很简单:球和立方体。研究人员训练了他们的系统以执行两项任务。首先是估计在台球桌上移动的球的速度,并在此基础上预测碰撞后球的行为。第二个是分析堆叠的多维数据集的静态图像,并确定它们是否会掉落,以及是否会降落在多维数据集的位置。
Wu开发了一种表示语言,他称之为场景XML,可以定量表征视觉场景中对象的相对位置。系统首先学习用该语言描述输入数据。然后,它将描述提供给称为“物理引擎”的物理引擎,该引擎对作用在所表示对象上的物理力进行建模。物理引擎是计算机动画(它们在其中产生衣服,掉落的物体等)的运动以及科学计算(在它们用于大规模物理模拟)中的重要组成部分。
在物理引擎预测了球和盒子的运动之后,该信息被馈送到图形引擎,该图形引擎的输出再次与源图像进行比较。与视觉辨别工作一样,研究人员在对合成数据进行训练之前,会对它们的系统进行真实数据的完善。
在测试中,研究人员的系统再一次超越了以前的系统。实际上,在某些涉及台球的测试中,它的性能通常也优于人类观察者。
“他们工作背后的关键见解是利用先进的物理工具-渲染器,模拟引擎,有时是受过训练的模型-来训练生成模型,”南加州大学计算机科学助理教授约瑟夫·林(Joseph Lim)说。“这个简单而优雅的想法与最新的最新深度学习技术相结合,在与解释物理世界有关的多项任务上显示出了出色的成果。”
标签: 计算机系统