构建能更好理解人类目标的机器
在 Warneken 和 Tomasello 的一项关于人类社会智力的经典实验中,一个 18 个月大的蹒跚学步的孩子看着一个男人拿着一叠书走向一个未打开的柜子。男人走到柜子前,笨拙地用书在柜门上敲了几下,然后发出了不解的声音。
接下来发生了一些非凡的事情:蹒跚学步的孩子主动提供帮助。推断出男人的目标后,蹒跚学步的孩子走到柜子前,打开柜门,让男人把书放在里面。但是,生活经验如此有限的蹒跚学步的孩子是如何做出这种推断的呢?
最近,计算机科学家将这个问题转向了计算机:机器如何做同样的事情?
设计这种理解的关键组成部分可以说是使我们最具人性的因素:我们的错误。正如蹒跚学步的孩子可以仅仅从他的失败中推断出他的目标一样,推断我们目标的机器需要解释我们错误的行动和计划。
为了在机器中捕捉这种社会智能,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和大脑与认知科学系的研究人员创建了一种能够推断目标和计划的算法,即使这些计划可能会失败。
此类研究最终可用于改进一系列辅助技术、协作或护理机器人以及 Siri 和 Alexa 等数字助理。
麻省理工学院电气工程与计算机科学系博士生、 一篇关于人工智能的新论文的第一作者谭志轩说:“这种对错误进行解释的能力对于构建能够根据我们的利益进行稳健推理和行动的机器至关重要。”研究。“否则,人工智能系统可能会错误地推断出,由于我们未能实现更高层次的目标,这些目标终究不是我们想要的。我们已经看到当算法以我们对社交媒体的反射性和计划外使用为食时会发生什么,导致我们走上依赖和两极分化的道路。理想情况下,未来的算法将识别我们的错误、坏习惯和非理性,并帮助我们避免而不是强化它们。”
为了创建他们的模型,该团队使用 了最近在麻省理工学院开发的新 AI 编程平台 Gen,将符号 AI 规划与贝叶斯推理相结合。贝叶斯推理 提供了一种将不确定信念与新数据相结合的最佳方式,广泛用于金融风险评估、诊断测试和选举预测。
该团队的模型执行速度比现有的称为贝叶斯逆强化学习 (BIRL) 的基线方法快 20 到 150 倍,该方法通过观察代理的行为来学习代理的 目标、价值或奖励,并尝试提前计算完整的策略或计划。新模型在推断目标时的准确率为 75%。
加州大学伯克利分校的 Smith-Zadeh 工程学教授 Stuart Russell 说:“人工智能正在放弃给机器一个固定的、已知的目标的‘标准模型’。” “相反,机器知道它不知道我们想要什么,这意味着研究如何从人类行为中推断目标和偏好成为 AI 的中心话题。本文认真对待这一目标;尤其是,这是朝着建模——从而倒置——人类根据目标和偏好产生行为的实际过程迈出的一步。”
怎么运行的
虽然在推断代理的目标和愿望方面已经做了大量工作,但大部分工作都假设代理采取最佳行动来实现他们的目标。
然而,该团队特别受到一种普遍的人类规划方式的启发,这种方式在很大程度上是次优的:不是提前计划所有事情,而是仅形成部分计划,执行它们,然后从那里重新计划。虽然这可能会因“提前”思考不够而导致错误,但它也减少了认知负担。
例如,假设您正在观看您的朋友准备食物,并且您想通过弄清楚他们在做什么来提供帮助。你猜你的朋友可能会采取接下来的几个步骤:也许预热烤箱,然后制作苹果派的面团。然后,您仅“保留”与您朋友实际所做的事情保持一致的部分计划,然后您通过提前计划几步来重复该过程。
一旦你看到你的朋友制作面团,你就可以将可能性限制在烘焙食品上,并猜测他们接下来可能会切苹果,或者买一些山核桃来混合馅饼。最终,您将消除您朋友不可能制作的所有菜肴计划,只保留可能的计划(即馅饼食谱)。一旦你确定这是哪道菜,你就可以提供帮助。
该团队的推理算法称为“顺序逆向计划搜索 (SIPS)”,按照这个顺序来推断代理的目标,因为它只在每一步制定部分计划,并在早期削减不太可能的计划。由于模型每次只提前几步,它也考虑了代理——你的朋友——也可能会做同样的事情的可能性。这包括由于有限的计划而出错的可能性,例如在打开冰箱之前没有意识到您可能需要腾出两只手。通过提前检测这些潜在故障,该团队希望该模型可以被机器使用以更好地提供帮助。
“我们早期的一个见解是,如果你想推断某人的目标,你不需要比他们想得更远。我们意识到这不仅可以用来加速目标推断,还可以从过于短视而无法成功的行为中推断出预期的目标,引导我们从扩大算法转向探索解决当前人工智能系统更基本局限性的方法, ” 麻省理工学院首席研究科学家、谭志轩的联合顾问之一 Vikash Mansinghka 和麻省理工学院脑与认知科学教授 Joshua Tenenbaum 说。“这是我们更大的登月计划的一部分——对 18 个月大的人类常识进行逆向工程。”
这项工作在概念上建立在 Tenenbaum 小组早期的认知模型的基础上,展示了如何将儿童 甚至 10 个月大的婴儿对其 他人目标的简单推断 作为贝叶斯逆向规划的一种形式进行定量建模。
虽然迄今为止,研究人员仅在固定目标集上的相对较小的规划问题中探索了推理,但他们计划通过未来的工作探索更丰富的人类目标和计划层次结构。通过编码或学习这些层次结构,机器可能能够推断出更广泛的目标,以及它们所服务的更深层次的目的。
“虽然这项工作只是一小步,但我希望这项研究将为构建真正理解人类目标、计划和价值观的机器奠定一些必要的哲学和概念基础,”宣说。“这种将人类建模为不完美推理者的基本方法感觉非常有前途。它现在允许我们推断计划何时出错,也许它最终将允许我们推断人们何时持有错误的信念、假设和指导原则。”
志轩、Mansinghka 和 Tenenbaum 与电气工程和计算机科学研究生 Jordyn Mann 和博士生 Tom Silver 共同撰写了这篇论文。他们将在神经信息处理系统会议(NeurIPS 2020)上虚拟展示他们的工作。
标签: