爱吧机器人网 » 技术 > 机器学习 > 正文

开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人

机器学习算法已经在机器人和控制系统领域得到了应用。控制系统社区已经开始对几个机器学习算法表现出兴趣,这些算法来自子领域,如监督学习,模仿学习和强化学习,以实现自主控制和智能决策。在许多复杂的控制问题中,稳定的双足步行一直是最具挑战性的问题。在本文中,我们提出了一个架构来设计和模拟平面双足步行机器人(BWR)使用现实的机器人模拟器,Gazebo。机器人通过学习其中的几个试验和错误来展示成功的行走行为,而不需要事先了解自身或世界动态。使用称为深度确定性策略梯度(DDPG)的强化学习算法实现BWR的自主行走。 DDPG是用于学习连续动作空间中的控制的算法之一。在模拟训练模型后,观察到,通过适当形状的奖励功能,机器人实现了更快的步行或甚至呈现了跑步步态,平均速度为0.83m / s。将双足步行者的步态模式与实际的人行走模式进行比较。结果表明,双足行走模式具有与人行走模式相似的特征。我们的实验视频可在goo.gl/NHXKqR上找到。

\
 
在过去的三十年中,世界各地的机器人研究界对人形机器人领域表现出相当大的兴趣[1] - [3]。引起这种兴趣的主要原因之一是我们人类倾向于与人类实体进行更多的交互或联系[3],[4]。此外,用于穿越不平坦,不稳定地形的腿式机器人领域引起了一些机器人专家的兴趣。双足步行机器人是人形机器人的一种典型分类,在过去的几十年中已经获得了大量的研究成果。类人机器人的腿式运动比传统的基于轮式的机器人具有更好的优势,因为它提供了在恶劣环境中替换或协助人类的可能性[5]。此外,生物学启发的机器人或拟人化的机器人在不同环境中提供更大的适应性,尤其是需要人为干预和需求的机器人[2]。与其他有腿机器人(如四足动物等)相比,在复杂的动态环境中行进时轻松克服随机障碍对于双足机器人来说是有利的[6]。从生物力学研究的角度来看,了解两足动物稳定性和步行机制为更好地理解人类如何从一个地方穿越到另一个地方奠定了重要的基础[7]。人类运动虽然看似简单,但却是一种高度复杂的机动,涉及多个自由度,而这又与由于下半身各种伸肌和屈肌群产生的复杂的非线性动力学相结合。这是正确理解人类运动研究中涉及的生理学的主要动机之一,并在BWR上进行复制[7]。虽然双足行走机器人以其在各种地形上穿越的方便性和灵活性而着称,但稳定性是主要关注点.BWR对控制系统和设计提出了特殊的挑战和关注,主要是由于它们的非线性和不稳定性。完善的经典控制架构不能直接应用。在BWR需要适当的控制策略的动态中,从统计上稳定的双站位置到统计上不稳定的单站位置的离散相变[8]。

\
 
开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人贡献:解决双足行走系统的稳定性问题多年来引起了许多控制科学家的好奇[9],[10]。这些传统的控制理论方法依赖于复杂的确定性和数学工程模型。零力矩点(ZMP)是常规方法之一,被用作BWR动态稳定性的指标[11]。然而,存在与基于ZMP的控制方法相关的某些缺点,其涉及能量低效的步行,有限的步行速度和对外部扰动的差的抵抗[12]。这种方法通常依赖于高水平的数学计算和对机器人和环境参数的完全了解[13],[14]。近年来出现了几种机器学习实践,证明其优于传统的经典系统和控制理论方法,以实现稳定的双足步行。强化学习是机器学习的一个子领域,可以作为复杂控制系统的无模型学习[15]。具体而言,双足行走的无模型学习主要围绕实施基于马尔可夫决策过程(MDP)的多种行动策略学习算法[16],[17]。当在完全可观察的模拟环境中实施时,具有MDP的若干最先进的强化学习算法已经产生了显着的结果[18]。这促使越来越多的计算机科学家和机器人研究人员利用强化学习(RL)方法,让代理人在更复杂和不利的环境中执行动态运动任务[19],[20]。我们在这项研究中的贡献:
 
•建议在Gazebo模拟器环境中实施强化学习算法的框架。
 
•实施基于深度确定性策略梯度的RL算法,实现高效稳定的双足行走。
 
•将双足步行者的步态模式与实际人类的步态模式进行比较。

\
 
人类依靠互动学习,反复试验和错误的小变化,找出哪些有效,哪些无效。让我们考虑一个孩子学习走路的例子。它会尝试各种可能的动作。它可能需要几天才能稳定站立,更不用说走路了。在学习走路的过程中,孩子会因为前进而受到贬低和奖励[8]。这种奖励制度固有地存在于人类中,激励我们采取行动以获得积极的奖励(例如,快乐),并阻止导致不良奖励(例如,跌倒,受伤,痛苦等)的行为。
 
BWR在Gazebo中进行了模拟,Gazebo是一种开源3D机器人模拟器,能够为各种基于机器人的应用重建真实的环境[23]。通过从.sldprt到.urdf格式的文件转换,在SolidWorks中设计的Biped步行器的3D CAD模型被导入到Gazebo模拟器环境中。统一机器人描述格式(URDF)是一种可扩展标记语言(XML)文件格式,用于定义链接并正确组装它们以在Gazebo环境中重新创建和渲染机器人。机器人模型的URDF文件由每个链接的物理属性组成,例如材料,质量,长度和惯性矩。此外,URDF文件中还定义了与Biped步行者关联的每个链接的原点位置(对于每个父对象和相应的子链接)和旋转轴。通过此格式指定用于连接机器人的多个链接的关节类型和位置。表.IV中列出了用于链接连接的不同联合类型。
 
链节的连接顺序如下:地面连接到带有固定接头的圆柱形桩。树桩通过棱柱接头连接到水平滑块,棱柱接头又连接到吊杆。腰部的顶部连接到水平吊杆,该吊杆与双足步行器一起向前和向后滑动,以限制沿矢状平面(即沿Y-Z轴)的运动。与两足步行者相比,动臂的质量可以忽略不计,因此可以忽略不计。忽略了繁荣的可视化,重点关注两足动物步行者与环境的相互作用。除了这些链接外,还在URDF文件中定义了两个接触传感器,每个接触传感器位于每个柄的底部。这是为了在行走时获得与地面接触的瞬间。髋关节旋转,髋关节速度,胫骨旋转,胫骨速度,矢状平面和地足触点的线速度导致状态空间尺寸为12,动作空间尺寸为4。机器人操作系统(ROS)充当控制器脚本和Gazebo之间的接口。状态已发布在各自的主题上,并且已发布操作命令以控制链接。脚本与Gazebo之间的通信速率为50 Hz。

\
 
开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人结果和讨论:本节说明了BWR模拟实现稳定步行步态的结果。在NVIDIA GeForce GTX 1050 Ti图形处理单元(GPU)上训练双足助行器约41小时后,实现了稳定的步行步态。步行者表示连续向前行走10米而没有跌倒。学习过程中每100集的平均奖励如图1所示。
 
髋关节和膝关节旋转值分别如图5和图7所示。将双足行走的结果与使用基于标记的光学运动捕获系统(mocap)捕获的实际人行走数据进行比较。为了捕捉动作,人类主体佩戴了动作捕捉服。标记附在诉讼上,要求受试者按照自己的节奏正常行走。从图6和图8中可以看出,由mocap记录的旋转角度的特征与在双足步行期间获得的旋转角度匹配。髋关节旋转大约异相,膝关节旋转频率是髋关节旋转频率的两倍。
 
使用深度确定性政策梯度(DDPG)在Gazebo环境中的平面双足步行机器人。双足步行机器人的自主行走是通过称为深度确定性策略梯度(DDPG)的强化学习算法实现的.DDPG是连续动作空间中学习控制的算法之一。注意:使用Nvidia GeForce GTX 1050 Ti GPU启用系统训练模型超过41小时后,实现了稳定的双足行走。
 
研究手稿中记录了实验结果:1807.05924v2
 
软件包和平台:ROS Kinetic,Gazebo,TensorFLow(支持GPU)Nvidia GeForce GTX 1050 Ti GPU,OpenAI Gym。
 
walker_gazebo包含机器人模型( .stl文件和 .urdf文件)以及gazebo启动文件。
 
walker_controller包含用于控制双足步行机器人的 DDPG算法的强化学习实现。


上一篇:Judea Pearl:传统机器学习于因果层级底层,达成完备AI的7个工具
下一篇:如何在机器学习项目中使用统计方法的示例
精选推荐
麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

CES 2018:英特尔推出49量子位芯片争夺量子霸权
CES 2018:英特尔推出49量子位芯片争夺量子霸权

[2018-01-10]  在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中,英特尔通过了一个关键的里程碑。近日,这个科技巨头已经推出了一个49个量子位 ...

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

英国首台月球车是个小型四腿机器人 将于2021年登月
英国首台月球车是个小型四腿机器人 将于2021年登月

[2019-10-12]  探测器将用四条腿探测月球表面,并将数据传回着陆器,后者将把数据传回地球图 詹姆斯温斯皮尔英国即将成为继美国、俄罗斯、中国之后的又一 ...

通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......