新的深度学习技术可通过反复试验使机器人掌握技能
加州大学伯克利分校的研究人员已经开发出算法,使机器人可以通过反复尝试来学习运动任务,这一过程更加接近人类的学习方式,这标志着人工智能领域的一个重要里程碑。他们通过让机器人完成各种任务(将衣架放在架子上,组装玩具飞机,在水瓶上拧紧瓶盖等)来展示自己的技术(一种强化学习),而没有对其进行预先编程的详细信息的环境。
加州大学伯克利分校电气工程和计算机科学系的Pieter Abbeel教授说:“我们在这里报道的是一种赋予机器人学习能力的新方法。” “关键在于,当机器人面临新的事物时,我们不必对其进行重新编程。使用完全相同的软件来编码机器人的学习方式,该软件用于允许机器人学习我们赋予它的所有不同任务。”
最新的进展将在5月28日星期四在西雅图举行的国际机器人与自动化国际会议(ICRA)上进行介绍。Abbeel与伯克利加州大学伯克利分校视觉与学习中心主任特雷弗•达雷尔(Trevor Darrell)共同领导该项目。研究团队的其他成员是博士后研究员谢尔盖·莱文(Sergey Levine)和博士。学生切尔西·芬恩(Chelsea Finn)。
这项工作是UC信息技术研究中心的“新的人与机器人倡议”的一部分,该倡议符合社会利益。新的跨校园,多学科的研究计划旨在使人工智能,机器人技术和自动化领域令人眼花advance乱的进步与人类需求保持一致。
“大多数机器人应用程序都在对象处于可预测位置的受控环境中,” Darrell说。“将机器人置于家庭或办公室等现实环境中所面临的挑战是,这些环境正在不断变化。机器人必须能够感知并适应周围环境。”
神经灵感
帮助机器人进入3D世界的常规方法,但不切实际,包括对其进行预编程以处理各种可能的场景,或创建机器人在其中进行操作的模拟环境。
取而代之的是,加州大学伯克利分校的研究人员转向了人工智能的一个新分支,即深度学习,它从人脑感知世界并与之互动时的神经电路中获得了宽松的启发。
莱文说:“就我们所有的多功能性而言,人类并非天生就有可以像瑞士军刀那样部署的各种行为举止,我们不需要进行编程。” “相反,我们在一生中会从经验和其他人那里学习新技能。这种学习过程深深扎根于我们的神经系统,以至于我们甚至无法与其他人精确地交流应如何执行所产生的技能。当他们自己学习时,我们最多希望能提供指点和指导。”
在人工智能领域,深度学习程序会创建“神经网络”,其中的人工神经元层会处理重叠的原始感官数据,无论是声波还是图像像素。这有助于机器人识别其接收的数据中的模式和类别。在iPhone,Google的语音转文本程序或Google Street View上使用Siri的人可能已经受益于深度学习在语音和视觉识别方面所取得的重大进步。
然而,将深度强化学习应用于运动任务更具挑战性,因为该任务已超越了对图像和声音的被动识别。
芬恩说:“在非结构化3D环境中移动是完全不同的游戏。” “没有标记的方向,也没有预先解决问题的例子。没有像语音和视觉识别程序那样的正确解决方案的例子。”
实践使完美
在实验中,加州大学伯克利分校的研究人员使用了Willow Garage个人机器人2(PR2),他们将其昵称为BRETT,即消除繁琐任务的伯克利机器人。
他们向BRETT提出了一系列运动任务,例如将木块放入匹配的开口中或堆叠乐高木块。控制BRETT学习的算法包括奖励函数,该奖励函数根据机器人在完成任务方面的表现提供得分。
BRETT会进入场景,包括相机观察到的自己的手臂和手的位置。该算法根据机器人的运动通过分数提供实时反馈。使机器人更接近完成任务的动作的得分将高于没有动作的得分。分数通过神经网络反馈,因此机器人可以了解哪种运动更适合手头的任务。
这种端到端的培训过程是机器人自主学习能力的基础。当PR2移动其关节并操纵对象时,该算法会为需要学习的92,000个神经网络参数计算出良好的值。
使用这种方法,当给定任务开始和结束的相关坐标时,PR2可以在大约10分钟内掌握典型任务。如果没有为机器人指定场景中物体的位置,并且需要一起学习视觉和控制,则学习过程大约需要三个小时。
Abbeel说,随着处理大量数据的能力的提高,该领域可能会取得重大进展。
他说:“有了更多的数据,您就可以开始学习更复杂的东西。” “在机器人能够学会打扫房间或洗衣服之前,我们还有很长的路要走,但是我们的初步结果表明,这些深度学习技术在使机器人能够完全从中学习复杂任务方面具有变革性的作用。挠。在未来的五到十年中,我们可能会通过这项工作看到机器人学习能力的重大进步。”
标签: 机器人掌握技能