爱吧机器人网 » 技术 > 机器学习 > 正文

配备“一键重置”算法 机器人学习变得更方便

人类在不断为机器人更新换代技术的同时,也赋予了它们自学的能力,而机器人的深度增强学习正如孩子的学习一样,遵循着熟能生巧的规律。每次在操作机器人进行任务的时候,我们都需要先将它之前的设置归零,不过每次这样的操作都是极为漫长的,需要耗费不少的时间。

机器人
 

谷歌大脑、剑桥大学、马克斯·普朗克智能系统研究所及加州大学伯克利分校的研究人员在 arXiv 上联合发表了一篇论文,详细介绍了一种可以让智能体在下一次任务前重置环境的方法,同时还能阻止智能体执行不可逆转行动。

其创新点在于,让智能体在“前进”与“重置”两种策略下同时工作。在前进策略下执行学习任务时,重置策略可以迫使智能体有效地撤消任务,并且“不留痕迹”。机器人会尽可能快地中止被认为是不可逆转的行动。

研究人员希望赋予智能体一种“直觉”:将可逆转事物划分为安全行动类别,因为这样智能体就能回归到原始状态。通过反复实验,智能体发现了越来越多的可逆转性行动,以保证其安全运行。

深度增强学习通常是在模拟环境下进行的,在容错率更低的现实世界中更应如此,比如一辆在悬崖边行驶的汽车。即使是在安全环境下,等待手动重置也将成为数据收集的瓶颈。所以,团队的研究工作仅局限于虚拟环境。但最终,现实世界的测试是必不可少的,智能体也将变得更快、更安全。

正如 Jack Clark 在 Import AI 上所指出的,这篇论文与 Facebook 人工智能实验室(FAIR)上月发表的一篇论文的研究工作产生共鸣。FAIR 的智能体有两个独立的模式,分别是 Alice 和 Bob,他们一个尝试逆转任务进程,另一个则尽力完成行动。这种工作模式让 AI 能够提前规划行动,可以让我们避免未来的灾难性失误。


上一篇:机器学习:人工神经网络ANN
下一篇:机器学习集成算法:XGBoost思想
精选推荐
如何让人工智能机器人快速自我纠正错误并吃一堑长一智?
如何让人工智能机器人快速自我纠正错误并吃一堑长一智?

[2017-08-23]  莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章,概述了新算法的数学基础,可以使人工智能收集错误报告并立即纠正,而不影响现有技能 ,同时还会积......

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

美国人工智能公司Skymind进入福建全面开展业务
美国人工智能公司Skymind进入福建全面开展业务

[2017-12-11]  人工智能在当今这个时代对大家来说想必是非常熟悉的,这也是我国近十几年来一直追求的目标,未来的时间里这也将是全人类追求的目标。就目前来看,近年来,人工智能或在我国迎......

英国首台月球车是个小型四腿机器人 将于2021年登月
英国首台月球车是个小型四腿机器人 将于2021年登月

[2019-10-12]  探测器将用四条腿探测月球表面,并将数据传回着陆器,后者将把数据传回地球图 詹姆斯温斯皮尔英国即将成为继美国、俄罗斯、中国之后的又一 ...

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......