火星科技网您的位置:首页 >人工智能 >

研究人员教机器人人类想要什么

导读 研究人员正在开发更好,更快的方法来为自主机器人提供人工指导。在电脑游戏中,当沿着轨道行驶时,为了优化速度,汽车将踏板推到金属上……

研究人员正在开发更好,更快的方法来为自主机器人提供人工指导。在电脑游戏中,当沿着轨道行驶时,为了优化速度,汽车将踏板推到金属上……并继续在一个狭窄的小圆圈内旋转。说明书中没有任何内容告诉汽车直行,所以它是即兴的。

这个例子-在计算机游戏中很有趣,但在生活中却没有那么多-是促使斯坦福大学研究人员建立更好的方法来设定自治系统目标的例子。

机器人手臂如何使用调查问题来确定使用它的人的偏好的示例。在这种情况下,人比轨迹#2更喜欢轨迹#1(T1)。图片来源:Andy Palan和Gleb Shevchuk

计算机科学和电气工程学助理教授Dorsa Sadigh和她的实验室将两种为机器人设定目标的不同方法组合到一个过程中,在模拟和实际实验中,它们的表现都比单独一个部分要好。研究人员 在机器人技术:科学与系统会议上介绍 了这项工作。

“未来,我完全希望世界上会出现更多的自治系统,它们将需要了解什么是好是坏”的概念,”计算机科学专业的研究生,Andy Palan的主要作者安迪·帕兰(Andy Palan)说 。纸。“至关重要的是,如果我们将来要部署这些自治系统,我们必须做到这一点。”

该团队用于向机器人提供指令的新系统-称为奖励功能-结合了演示(其中人类向机器人展示如何做)和用户喜好调查,其中用户回答了有关他们希望机器人如何表现的问题。

“示威是有益的,但可能会很吵。另一方面,偏好设置最多只能提供一点信息,但更为准确。”萨迪格说。“我们的目标是两全其美,并更智能地合并来自这两个来源的数据,以更好地了解人类的首选奖励功能。”

示范与调查

在 先前的工作中,Sadigh仅专注于偏好调查。这些要求人们比较场景,例如自动驾驶汽车的两条轨迹。这种方法是有效的,但可能要花费三分钟才能生成下一个问题,对于为诸如汽车之类的复杂系统创建指令而言,这仍然很慢。

为了加快速度,小组后来 开发了一种同时 产生多个问题的方法,可以由一个人快速连续回答,也可以分布在几个人中。与一个接一个的提问相比,此更新将过程加快了15到50倍。

新的组合系统从一个向机器人演示行为的人开始。这样可以为自主机器人提供大量信息,但是机器人通常很难确定演示的哪些部分很重要。人们也不总是希望机器人的行为像受过训练的人一样。

电气工程专业的研究生Erdem Biyik说:“我们不能总是进行演示,即使有可能,我们也常常不能依靠人们提供的信息 。” “例如,以前的研究表明,人们希望自动驾驶汽车不像自己那样积极地驾驶。”

这就是进行调查的地方,为机器人提供了一种询问方式,例如,用户是否更喜欢将其手臂向低处移动到地面还是向上移动到天花板。对于本研究,该小组使用了较慢的单问题方法,但他们计划在以后的工作中整合多问题调查。

在测试中,研究小组发现,将演示和调查相结合比仅指定首选项要快,并且与仅进行演示相比,约有80%的人更喜欢在使用组合系统进行训练时机器人的行为方式。

Sadigh说:“这是更好地了解人们对机器人的期望或期望的一步。” “我们的工作正在使人们更轻松,更高效地进行交互和教授机器人,而我对将其进一步发展感到兴奋,特别是在研究机器人与人类之间如何相互学习方面。”

更好,更快,更智能

使用组合方法的人报告说,他们很难理解系统对某些问题的理解,有时会要求他们在两个看起来相同或与任务无关的场景之间进行选择,这是基于偏好的学习中的一个常见问题。研究人员希望通过更简便的调查来解决这一缺点,而且调查也可以更快地进行。

“展望未来,实现奖励功能的正确方法对我来说并不是100%显而易见,但是实际上,您将拥有某种组合,可以用人工输入解决复杂的情况,” Palan说。“能够为自治系统设计奖励功能是一个大而重要的问题,应引起学术界的广泛关注。”

团队还对他们的系统的变化感兴趣,这将使人们可以同时为不同的场景创建奖励功能。例如,一个人可能希望自己的汽车在慢速行驶时更保守地驾驶,而在交通流量较小时更积极地驾驶。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。