爱吧机器人网 » 技术 > 机器学习 > 正文

配备“一键重置”算法 机器人学习变得更方便

人类在不断为机器人更新换代技术的同时,也赋予了它们自学的能力,而机器人的深度增强学习正如孩子的学习一样,遵循着熟能生巧的规律。每次在操作机器人进行任务的时候,我们都需要先将它之前的设置归零,不过每次这样的操作都是极为漫长的,需要耗费不少的时间。

机器人
 

谷歌大脑、剑桥大学、马克斯·普朗克智能系统研究所及加州大学伯克利分校的研究人员在 arXiv 上联合发表了一篇论文,详细介绍了一种可以让智能体在下一次任务前重置环境的方法,同时还能阻止智能体执行不可逆转行动。

其创新点在于,让智能体在“前进”与“重置”两种策略下同时工作。在前进策略下执行学习任务时,重置策略可以迫使智能体有效地撤消任务,并且“不留痕迹”。机器人会尽可能快地中止被认为是不可逆转的行动。

研究人员希望赋予智能体一种“直觉”:将可逆转事物划分为安全行动类别,因为这样智能体就能回归到原始状态。通过反复实验,智能体发现了越来越多的可逆转性行动,以保证其安全运行。

深度增强学习通常是在模拟环境下进行的,在容错率更低的现实世界中更应如此,比如一辆在悬崖边行驶的汽车。即使是在安全环境下,等待手动重置也将成为数据收集的瓶颈。所以,团队的研究工作仅局限于虚拟环境。但最终,现实世界的测试是必不可少的,智能体也将变得更快、更安全。

正如 Jack Clark 在 Import AI 上所指出的,这篇论文与 Facebook 人工智能实验室(FAIR)上月发表的一篇论文的研究工作产生共鸣。FAIR 的智能体有两个独立的模式,分别是 Alice 和 Bob,他们一个尝试逆转任务进程,另一个则尽力完成行动。这种工作模式让 AI 能够提前规划行动,可以让我们避免未来的灾难性失误。


上一篇:机器学习:人工神经网络ANN
下一篇:机器学习集成算法:XGBoost思想
精选推荐
人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

17世纪的莱布尼茨试图制造“思想机器”却被现实打脸
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05]  莱布尼茨,德国哲学家、数学家、律师,历史上少见的通才1666年,德国博学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发 ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

揭秘达芬奇手术机器人
揭秘达芬奇手术机器人

[2018-04-19]  达芬奇手术系统是由美国Intuitive Surgical公司制造的机器人手术系统。美国食品和药物管理局(FDA)于2000年通过该标准,旨在利用微创手段 ...

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......