开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人-机器学习-技术-爱吧机器人网

机器学习算法已经在机器人和控制系统领域得到了应用。控制系统社区已经开始对几个机器学习算法表现出兴趣，这些算法来自子领域，如监督学习，模仿学习和强化学习，以实现自主控制和智能决策。在许多复杂的控制问题中，稳定的双足步行一直是最具挑战性的问题。在本文中，我们提出了一个架构来设计和模拟平面双足步行机器人(BWR)使用现实的机器人模拟器，Gazebo。机器人通过学习其中的几个试验和错误来展示成功的行走行为，而不需要事先了解自身或世界动态。使用称为深度确定性策略梯度(DDPG)的强化学习算法实现BWR的自主行走。 DDPG是用于学习连续动作空间中的控制的算法之一。在模拟训练模型后，观察到，通过适当形状的奖励功能，机器人实现了更快的步行或甚至呈现了跑步步态，平均速度为0.83m / s。将双足步行者的步态模式与实际的人行走模式进行比较。结果表明，双足行走模式具有与人行走模式相似的特征。我们的实验视频可在goo.gl/NHXKqR上找到。

在过去的三十年中，世界各地的机器人研究界对人形机器人领域表现出相当大的兴趣[1] - [3]。引起这种兴趣的主要原因之一是我们人类倾向于与人类实体进行更多的交互或联系[3]，[4]。此外，用于穿越不平坦，不稳定地形的腿式机器人领域引起了一些机器人专家的兴趣。双足步行机器人是人形机器人的一种典型分类，在过去的几十年中已经获得了大量的研究成果。类人机器人的腿式运动比传统的基于轮式的机器人具有更好的优势，因为它提供了在恶劣环境中替换或协助人类的可能性[5]。此外，生物学启发的机器人或拟人化的机器人在不同环境中提供更大的适应性，尤其是需要人为干预和需求的机器人[2]。与其他有腿机器人(如四足动物等)相比，在复杂的动态环境中行进时轻松克服随机障碍对于双足机器人来说是有利的[6]。从生物力学研究的角度来看，了解两足动物稳定性和步行机制为更好地理解人类如何从一个地方穿越到另一个地方奠定了重要的基础[7]。人类运动虽然看似简单，但却是一种高度复杂的机动，涉及多个自由度，而这又与由于下半身各种伸肌和屈肌群产生的复杂的非线性动力学相结合。这是正确理解人类运动研究中涉及的生理学的主要动机之一，并在BWR上进行复制[7]。虽然双足行走机器人以其在各种地形上穿越的方便性和灵活性而着称，但稳定性是主要关注点.BWR对控制系统和设计提出了特殊的挑战和关注，主要是由于它们的非线性和不稳定性。完善的经典控制架构不能直接应用。在BWR需要适当的控制策略的动态中，从统计上稳定的双站位置到统计上不稳定的单站位置的离散相变[8]。

开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人贡献：解决双足行走系统的稳定性问题多年来引起了许多控制科学家的好奇[9]，[10]。这些传统的控制理论方法依赖于复杂的确定性和数学工程模型。零力矩点(ZMP)是常规方法之一，被用作BWR动态稳定性的指标[11]。然而，存在与基于ZMP的控制方法相关的某些缺点，其涉及能量低效的步行，有限的步行速度和对外部扰动的差的抵抗[12]。这种方法通常依赖于高水平的数学计算和对机器人和环境参数的完全了解[13]，[14]。近年来出现了几种机器学习实践，证明其优于传统的经典系统和控制理论方法，以实现稳定的双足步行。强化学习是机器学习的一个子领域，可以作为复杂控制系统的无模型学习[15]。具体而言，双足行走的无模型学习主要围绕实施基于马尔可夫决策过程(MDP)的多种行动策略学习算法[16]，[17]。当在完全可观察的模拟环境中实施时，具有MDP的若干最先进的强化学习算法已经产生了显着的结果[18]。这促使越来越多的计算机科学家和机器人研究人员利用强化学习(RL)方法，让代理人在更复杂和不利的环境中执行动态运动任务[19]，[20]。我们在这项研究中的贡献：

•建议在Gazebo模拟器环境中实施强化学习算法的框架。

•实施基于深度确定性策略梯度的RL算法，实现高效稳定的双足行走。

•将双足步行者的步态模式与实际人类的步态模式进行比较。

人类依靠互动学习，反复试验和错误的小变化，找出哪些有效，哪些无效。让我们考虑一个孩子学习走路的例子。它会尝试各种可能的动作。它可能需要几天才能稳定站立，更不用说走路了。在学习走路的过程中，孩子会因为前进而受到贬低和奖励[8]。这种奖励制度固有地存在于人类中，激励我们采取行动以获得积极的奖励(例如，快乐)，并阻止导致不良奖励(例如，跌倒，受伤，痛苦等)的行为。

BWR在Gazebo中进行了模拟，Gazebo是一种开源3D机器人模拟器，能够为各种基于机器人的应用重建真实的环境[23]。通过从.sldprt到.urdf格式的文件转换，在SolidWorks中设计的Biped步行器的3D CAD模型被导入到Gazebo模拟器环境中。统一机器人描述格式(URDF)是一种可扩展标记语言(XML)文件格式，用于定义链接并正确组装它们以在Gazebo环境中重新创建和渲染机器人。机器人模型的URDF文件由每个链接的物理属性组成，例如材料，质量，长度和惯性矩。此外，URDF文件中还定义了与Biped步行者关联的每个链接的原点位置(对于每个父对象和相应的子链接)和旋转轴。通过此格式指定用于连接机器人的多个链接的关节类型和位置。表.IV中列出了用于链接连接的不同联合类型。

链节的连接顺序如下：地面连接到带有固定接头的圆柱形桩。树桩通过棱柱接头连接到水平滑块，棱柱接头又连接到吊杆。腰部的顶部连接到水平吊杆，该吊杆与双足步行器一起向前和向后滑动，以限制沿矢状平面(即沿Y-Z轴)的运动。与两足步行者相比，动臂的质量可以忽略不计，因此可以忽略不计。忽略了繁荣的可视化，重点关注两足动物步行者与环境的相互作用。除了这些链接外，还在URDF文件中定义了两个接触传感器，每个接触传感器位于每个柄的底部。这是为了在行走时获得与地面接触的瞬间。髋关节旋转，髋关节速度，胫骨旋转，胫骨速度，矢状平面和地足触点的线速度导致状态空间尺寸为12，动作空间尺寸为4。机器人操作系统(ROS)充当控制器脚本和Gazebo之间的接口。状态已发布在各自的主题上，并且已发布操作命令以控制链接。脚本与Gazebo之间的通信速率为50 Hz。

开源人工智能强化学习中使用深度确定性政策梯度的双足步行机器人结果和讨论：本节说明了BWR模拟实现稳定步行步态的结果。在NVIDIA GeForce GTX 1050 Ti图形处理单元(GPU)上训练双足助行器约41小时后，实现了稳定的步行步态。步行者表示连续向前行走10米而没有跌倒。学习过程中每100集的平均奖励如图1所示。

髋关节和膝关节旋转值分别如图5和图7所示。将双足行走的结果与使用基于标记的光学运动捕获系统(mocap)捕获的实际人行走数据进行比较。为了捕捉动作，人类主体佩戴了动作捕捉服。标记附在诉讼上，要求受试者按照自己的节奏正常行走。从图6和图8中可以看出，由mocap记录的旋转角度的特征与在双足步行期间获得的旋转角度匹配。髋关节旋转大约异相，膝关节旋转频率是髋关节旋转频率的两倍。

使用深度确定性政策梯度(DDPG)在Gazebo环境中的平面双足步行机器人。双足步行机器人的自主行走是通过称为深度确定性策略梯度(DDPG)的强化学习算法实现的.DDPG是连续动作空间中学习控制的算法之一。注意：使用Nvidia GeForce GTX 1050 Ti GPU启用系统训练模型超过41小时后，实现了稳定的双足行走。

研究手稿中记录了实验结果：1807.05924v2

软件包和平台：ROS Kinetic，Gazebo，TensorFLow(支持GPU)Nvidia GeForce GTX 1050 Ti GPU，OpenAI Gym。

walker_gazebo包含机器人模型( .stl文件和 .urdf文件)以及gazebo启动文件。

walker_controller包含用于控制双足步行机器人的 DDPG算法的强化学习实现。