爱吧机器人网 » 技术 > 机器学习 > 正文

伯克利最新无模型深度强化学习研究:从零开始训练机器人玩乐高

现如今,经过长期的研究实验证明,无模型深度强化学习在视频游戏、模拟机器人操纵和运动等领域具有良好的性能表现。然而,众所周知,当与环境的交互时间有限的情况下,无模型方法的表现并不佳,就像大多数现实世界中的机器人任务一样。在本文中,我们研究了如何能够将使用soft Q-learning训练的最大熵策略应用于现实世界中的机器人操纵任务。这种方法之所以能够在现实世界中的应用主要得益于soft Q-learning的两个重要特征:首先,soft Q-learning可以通过学习具有表达性的基于能量的模型所表示的策略(energy-based models),从而学习多模式探索策略。其次,我们展示了通过soft Q-learning所学习的策略可以组成新策略,并且最终策略的最优性可以根据组合策略之间的分歧来界定。这种组合性为现实世界的操纵任务提供了一个特别有价值的工具,其中,通过对现有的技能进行组合进而构造出新的策略,可以在从零开始的训练中提供效率上的大幅提高。我们的实验评估结果表明,相较于以往的无模型深度强化学习方法,soft Q-learning具有更高的样本效率,并且可以对模拟和现实世界的任务执行组合性。

\

我们,使用一种称为soft Q-learning的最大熵强化学习算法,对Sawyer机器人进行训练使其能够将乐高积木叠加在一起。从零开始对一个策略进行训练需要不到两个小时的时间,并且已学习事物策略干扰(左图)具有很强的鲁棒性。我们还展示了该如何将学到的策略组合起来形成新的复合技能,例如在避开乐高积木塔的情况下进行堆叠操作(右图)。

具有表达性的通用目的函数近似器(如神经网络),与可用于获取复杂行为策略的通用目的无模型强化学习算法的交集,有望实现广泛的机器人行为的自动化:强化学习提供了用于推理序列决策的形式主义,而大型神经网络提供了表征,原则上,可以用于使用最少的手工工程来来表示任何行为。然而,经过实践证明,将具有多层神经网络表示(即深度强化学习)的无模型强化学习算法应用于现实世界中的机器人控制问题,这一过程是非常困难的:无模型方法的样本复杂性相当高,并且由于大容量函数近似器的包容性,复杂性还将进一步提高。在以往的研究中,专家们试图通过在多个机器人上并行化学习来缓解这些问题,比如利用实例演示[,或模拟训练,并依靠精确的模型实现向现实世界的迁移。所有这些方法都带有附加的假设和局限性。那么,我们是否可以设计出一种无模型强化学习算法,这种算法能够在不依赖模拟、演示或多个机器人的情况下,直接对现实世界中的多层神经网络模型进行高效训练?

我们假设,基于以下两点性质,最大熵原理可以为实际的、现实世界的深度强化学习提供一个有效的框架。首先,最大熵策略通过玻尔兹曼分布(Boltzmann distribution)表达了一个随机策略,提供了一种内在的、明智的探索策略,它,其能量对应于reward-to-go或Q函数。此分布为所有操作分配一个非零概率,但期望回报更高的操作更可能被采样。因此,该策略将自动把探索引向回报更高的区域。这种特性可以被看作是探索和开发的软组合,在实际应用中是非常有益的,因为它提供了比贪婪探索(greedy exploration)更多的结构,并且正如我们实验所展示的那样,这大大提高了样本的复杂性。其次,正如我们在文章中所展示的那样,独立训练的最大熵策略可以通过增加Q函数而其组合在一起,从而为合并后的奖励函数产生一个新的策略,该策略被证明近乎于相应的最优策略。在实际应用中,控制器的可组合性尤为重要,而这在标准强化学习中是不可能的。在这些应用中,重复使用过去的经验可以极大地提高任务的样本效率(这些任务可以自然地分解为更简单的子问题)。例如,拾取和放置的策略可以分解为(1)到达指定的X坐标(2)到达指定的Y坐标(3)规避障碍。因此,这种可分解的策略可以分三个阶段学习,每个阶段产生一个子策略,而这些此策略随后可以在需要与环境进行交互的情况下进行离线组合。

\

对两个独立的策略进行训练,从而相应地推动圆柱到橙色线和蓝色线。彩色圆圈显示了针对相应策略的圆柱到达最终位置的样本。当策略组合在一起时,生成的策略会学习将圆柱体推到线的下交叉点(绿色圆圈表示最终位置)。没有来自环境的附加样本用于对组合策略进行训练。组合策略学习满足两个原始目标,而不是简单地平均最终圆柱位置。

本文的主要贡献是在最新提出的soft Q-learning(SQL)算法的基础上,提出了一种使用具有表达性的神经网络策略学习机器人操作技能的学习框架。我们证明了,该学习框架为学习各种机器人技能提供了一种有效的机制,并且在实际机器人系统的样本效率方面优于目前最先进的无模型深度强化学习方法。我们的实验结果表明,在很大的程度上,SQL的性能要远远优于深度确定性策略梯度(DDPG)和归一化优势函数(NAF),这些算法过去曾被用于利用神经网络探索现实世界中的无模型机器人学习。我们还演示了对SQL算法的全新的扩展,即利用它对以前学习过的技能进行组合。我们提出了一个关于组合策略和组合奖励函数最优策略之间差别的理论界限,它适用于SQL和其他基于软优化的强化学习方法。在实验中,我们利用最大熵策略在模拟领域和物理领域的组合性,展示了不同技能的鲁棒性学习,并且在样本效率方面超越了现有的最先进的方法。

\

当在Sawyer机器人上进行训练以将其末端执行器移动到特定位置时,DDPG(绿色)、NAF(红色)和SQL(蓝色)的学习曲线。SQL的学习速度比其他方法快得多。我们还通过将期望的位置连接到观察向量(橙色)以训练SQL达到随机采样的末端执行器位置。SQL学会尽快解决这个任务。SQL曲线显示10个轮数中的移动平均值。

在本文中,我们探讨了如何将soft Q-learning扩展到现实世界中的机器人操作任务中,既可以学习单个操作任务,也可以学习能够组成新策略的组合任务。我们的实验表明,本质上来说,soft Q-learning的性能要远远优于无模型深度强化学习。在模拟到达任务中,soft Q-learning具有比NAF更好的性能,其中包括多个策略组合以到达新位置的情况。除此之外,在Sawyer机器人进行评估的真实世界任务的执行中,soft Q-learning的性能上胜过DDPG。该方法具有更好的稳定性和收敛性,并且通过soft Q-learning获得的对Q函数进行组合的能力可以使其在现实世界的机器人场景中特别有用,其中针对每个新奖励因素组合的新策略进行再训练是耗时且昂贵的。

\

在不到两个小时的时间里,就可以学会一个乐高堆叠策略。学习到的策略对干扰聚于很强的鲁棒性:当机器人被推进到一个与典型轨迹完全不同的状态后,它能够恢复并成功地将乐高积木堆在一起。

在研究最大熵策略的可组合性时,我们推导出了组合策略与组合奖励函数的最优策略之间误差的界限。这一界限表明熵值较高的策略可能更容易进行组合。在未来,一项有意义的研究方向是探寻这一约束对组合性的影响。例如,我们是否可以推导出一个可应用于组合Q函数的修正,以减少偏差?回答这样的问题,会使得从先前训练过的构建块中创建新的机器人技能变得更加实际,这使得机器人更容易获得通过强化学习所学到的大量行为。

上一篇:谷歌发布机器学习术语表(中文完整版)
下一篇:入门 | 一文介绍机器学习中基本的数学符号
精选推荐
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05]  莱布尼茨,德国哲学家、数学家、律师,历史上少见的通才1666年,德国博学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发 ...

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

新型轻便机器人套装重5kg,辅助跑步和步行
新型轻便机器人套装重5kg,辅助跑步和步行

[2019-10-23]  虽然步行对大多数人来说似乎不是负担,但对有些人来说,这项简单的运动往往会让人感到筋疲力尽。比如手术或中风后恢复的患者、帕金森氏症患 ...

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

[2018-01-26]  纽约时报的报道,德国的研究人员已经开发出一种长约七分之一英寸的机器人,首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路,跳跃,爬行,滚动和游泳。它甚至爬出......

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......