从概念上看看智能机器人的新范式：深度强化学习-机器学习-技术-爱吧机器人网

从概念上看看智能机器人的新范式：深度强化学习

2016-08-30 科技小读浏览量：

　　近两年机器智能取得重大突破，像围棋九段高手李世石败北Alpha Go，DeepMind团队研发的 机器人 在Atari多项游戏上超越人类水平。这些突破主要得益于从基于深度学习的视觉、语音、语义感知到动作反馈的激励惩罚强化训练模式。本文从概念上分析深度强化学习的要点，部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的报告。

　　强化学习，即机器人根据环境里动作得到的惩罚和激励去自动调整策略。通过训练，机器人学到一组策略：在环境状态S下应采取动作A，（可）能获得最大累积奖励V。

　　强化学习有丰富的交叉学科背景，包括经济学、工程学、神经科学里的博弈论、优化控制，条件反射系统。
　　深度学习，使用深度神经网络实现机器人的记忆，视觉感知，语音语义理解和生成。
　　深度强化学习以深度学习做感知，强化学习训练策略，并且以深度神经网络作为策略载体。相比于传统的多模块组合，深度强化学习实现了从感知到控制的端到端直接训练，减少了模块间信息损失。
　　最近两年在学术理论上，GoogleDeepMind团队在连续性动作控制[2]，异步训练[3]，训练框架[4]，分布式训练[5]等都有重要突破，为 智能机器人 的研发奠定理论和实践基础。
　　在特定任务的应用上，深度增强学习已有广泛实践尝试，例如流水线机器人。
　　在集成应用上，深度强化学习在自动驾驶，聊天机器人[6][7]都有良好的前景。例如，使用分布式训练或异步训练，自动驾驶汽车可以多辆同时在各种环境学习，并且相互交换知识，加速学习过程。聊天机器人可以通过对话过程中用户的反馈来调整自己的语言表达，逐步成长。

　　深度强化学习为智能机器人提供了新的计算范式：提供环境、激励和惩罚、神经网络结构即可训练得到最大化奖励的智能机器人。

精选推荐

农业将为高科技行业农业机器人的应用领域

[2017-12-17] 农业正在迅速成为一个令人兴奋的高科技产业，吸引了新专业人士，新公司和新投资者。技术发展迅速，不仅提高了农民的生产能力，而且促进了我们所知道的机器人和自动化技术的发展。...

MIT研制出可以像植物一样生长的机器人

[2019-11-09] 麻省理工学院开发了一种新型机器人，这种机器人可以本质上自我延伸，其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是，研究人员 ...

美国Natilus公司试飞水上无人货机设计简单成本降低

[2017-12-28] Natilus创业公司成立于2014年，其梦想是建造大型无人机，以半价提供比船舶快得多国际货运。在十二月份，Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

MIT用深度学习处理3D点云数据应用于无人汽车等领域

[2019-10-23] 如果你见过自动驾驶汽车，也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器，无人驾驶汽车依靠它在现实世界中进行导航。 ...

17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05] 莱布尼茨，德国哲学家、数学家、律师，历史上少见的通才1666年，德国博学家戈特弗里德·威廉·莱布尼茨（Gottfried Wilhelm Leibniz）发 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智？

[2017-08-23] 莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章，概述了新算法的数学基础，可以使人工智能收集错误报告并立即纠正，而不影响现有技能，同时还会积......

全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14] 美国Think Surgical公司已获得美国食品和药物管理局（FDA）的批准，在美国销售用于全膝关节置换（TKA）的TSolution One®全膝关节应用 ...

美国普渡大学研发快动作软体机器人，灵感来自变色龙舌头捕食

[2019-10-31] 本文图片均来自：Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量，向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01] 　　人工智能（AI）研究现正迅速发展，如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法（BP）原理推导及代码实现

[2017-12-19] 分析了手写字数据集分类的原理，利用神经网络模型，编写了SGD算法的代码，分多个epochs，每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中，非常重要的一个步骤，......

如何在机器学习项目中使用统计方法的示例

[2018-07-23] 事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

模拟退火算法（SAA）

[2017-08-28] 模拟退火（Simulated Annealing，简称SA）是一种通用概率算法，用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理：将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31] 今天我们来讲解的内容是感知器分类算法，本文的结构如下：什么是感知器分类算法，在Python中实现感知器学习算法，在iris（鸢尾花）数据集上训练一个感知器模型，自适应线性神......