火星科技网您的位置:首页 >人工智能 >

适应双足机器人的快速电机适应

导读 最近关于机器人行走的研究调查了如何制造能够学习行走的机器人,而不是为特定地形设计控制器。arXiv org上最近的一篇论文研究了一种基于学

最近关于机器人行走的研究调查了如何制造能够学习行走的机器人,而不是为特定地形设计控制器。arXiv.org上最近的一篇论文研究了一种基于学习的双足机器人方法。

研究人员使用快速电机适应(RMA)对机器人进行模拟训练。它是一种以向量为条件的自适应策略,该向量在模拟中对特定于地形的信息进行编码。然而,对于双足机器人来说,仅仅从可观察状态来精确估计部署时的特权外在因素通常是不可能的。因此,研究人员提出了A-RMA,它使用从适应模块估计的不完美外在因素来微调基本策略,而不是以完美外在因素为条件。

A-RMA显示了超出训练期间所见地形的泛化能力,而无需额外的现实世界微调或校准。

腿运动的最新进展使四足动物能够在具有挑战性的地形上行走。然而,双足机器人本质上更不稳定,因此更难为它们设计步行控制器。在这项工作中,我们利用了在快速适应运动控制方面的最新进展,并将其扩展到双足机器人。与现有工作类似,我们从一个基本策略开始,该策略产生动作,同时将来自适应模块的估计外在向量作为输入。这个外在向量包含有关环境的信息,并使步行控制器能够在线快速适应。但是,外部估计器可能不完美,这可能导致期望完美估计器的基本策略性能不佳。在本文中,我们提出了A-RMA(AdaptingRMA),它还通过使用无模型RL对其进行微调,从而为不完美的外部估计器调整基本策略。我们证明A-RMA在仿真中优于许多基于RL的基线控制器和基于模型的控制器,并展示了单个A-RMA策略的零样本部署,以使双足机器人Cassie能够在各种现实世界中的不同场景,超出了训练期间看到的场景。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。