分离特征抽取与决策制定如何用6-18个神经元玩转Atari游戏-神经网络-技术-爱吧机器人网

分离特征抽取与决策制定如何用6-18个神经元玩转Atari游戏

2018-06-20 arXiv、机器之心浏览量：

在深度强化学习中，大型网络在直接的策略逼近过程中，将会学习如何将复杂的高维输入（通常可见）映射到动作。当一个拥有数百万参数的巨型网络学习较简单任务时（如玩 Qbert 游戏），学到的内容中只有一小部分是实际策略。一个常见的理解是网络内部通过前面层级学习从图像中提取有用信息（特征），这些底层网络将像素映射为中间表征，而最后（几）层将表征映射至动作。因此这些策略与中间表征同时学习得到，使得独立地研究策略几乎不可能。

将表征学习和策略学习分离方能独立地研究二者，这潜在意义上能够使我们对现存的任务及其复杂度有更清晰的理解。本论文就朝着这个目标前进，作者通过实现一个独立的压缩器（即特征提取器）将特征提取和决策分离开来，这个压缩器在策略与环境互动中所获取的观测结果上进行在线训练。将网络从构建中间表征中解放出来使得网络可以专注于策略逼近，从而使更小的网络也能具备竞争力，并潜在地扩展深度强化学习在更复杂问题上的应用。

该论文的主要贡献是提出一种在复杂的强化学习设置中同时又独立地学习策略特征的新方法。这通过基于向量量化（Vector Quantization，VQ）和稀疏编码（Sparse Coding，SC）的两种新方法来实现，研究者将这两种方法分别称为「Increasing Dictionary VQ」和「Direct Residuals SC」。随着训练继续、网络学习到更复杂的策略，网络与环境的复杂互动带来更多新的观测结果；特征向量长度的增长反映了这一点，它们表示新发现的特征。类似地，策略通过可解决维度增加问题的指数自然进化策略（Exponential Natural Evolution Strategy）进行训练。实验结果显示该方法可高效学习两种组件，从而仅使用 6 到 18 个神经元（神经元数量比之前的实现少了两个数量级）组成的神经网络就可以在多个 ALE 游戏中获得当前最优的性能，为专用于策略逼近的深度网络研究奠定了基础。

图 1：系统图示。在每个生成阶段，优化器（1）为神经网络控制器（3）生成权重集合（2）。每个权重都是偶发地（episodically）通过环境进行评估（4）。在每一步，环境将观测结果（5）发送到外部压缩器（6），压缩器生成紧凑编码（7）作为网络输入。压缩器为训练集（9）选择观测结果（8）。在该 episode 结束时，环境向优化器返回适应度分数（累计奖励，10）进行训练（神经进化，11）。压缩器训练（12）发生在生成阶段。

3 方法

该系统包括四个主要部分：1）Environment（环境）：Atari 游戏，采取动作、提供观测结果；2）Compressor（压缩器）：从观测结果中提取低维代码，同时系统其他部分执行在线训练；3）Controller（控制器）：策略逼近器，即神经网络；4）Optimizer（优化器）：学习算法，随着时间改进网络的性能，在本研究案例中优化器采用的是进化策略。

图 2：训练中心点。在 Qbert 游戏运行期间，使用 IDVQ 训练多个中心点。注意第一个中心点如何捕捉游戏的初始状态（背景），其他中心点将特征构建为后续残差：发光立方体、avatar 和敌人。

5结果

研究者在 10 个 Atari 游戏上展示了对比结果，这十个游戏选自 ALE 模拟器上的数百个游戏。选择结果依据以下筛选步骤：1）OpenAI Gym 上可获取的游戏；2）与 [210, 160] 具备同样观测分辨率的游戏；3）不包含 3d 视角的游戏。

表 1：本研究提出方法在 Atari 游戏样本上与 HyperNeat [HLMS14] 和 OpenAI ES [SHC+17] 的对比结果。所有方法都是从头开始在原始像素输入上训练的。HyperNeat 列的结果使用的网络具备一个包含 336 个神经元的隐藏层。OpenAI ES 列中的结果使用两个包含 64 个神经元的隐藏层。IDVQ+XNES 列的结果未使用隐藏层。列 # neur 表示单个（输出）层中使用的神经元数量。粗体数字表示设置条件下最好的分数，斜体数字表示中间分数。

论文：Playing Atari with Six Neurons

论文地址：https://arxiv.org/abs/1806.01363

摘要：Atari 游戏上的深度强化学习直接将像素映射至动作；本质上，深度神经网络同时负责提取有用信息和基于此进行决策。为了设计专用于决策的深度网络，我们提出了一种新方法，独立但同时学习策略和紧凑状态表征，以得到强化学习中的策略逼近。状态表征通过基于向量量化和稀疏编码的新算法生成，状态表征与网络一道接受在线训练，且能够随着时间不断扩大表征词典规模。我们还介绍了允许神经网络能和进化策略处理维度变化的新技术。这使得仅包含 6 到 18 个神经元的网络可以学习玩 Atari 游戏，性能可以达到甚至偶尔超过在大两个数量级的深度网络上使用进化策略的当前最优技术。

精选推荐

德国研发出一种能在你体内工作的微型机器人

[2018-01-26] 纽约时报的报道，德国的研究人员已经开发出一种长约七分之一英寸的机器人，首先看起来不过是一小块橡皮条。然后它开始移动。机器人走路，跳跃，爬行，滚动和游泳。它甚至爬出......

Waymo：人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03] 自动驾驶汽车作为AI领域内最大的挑战之一，谷歌致力于其研发已有十余载，现在他们逐渐意识到，最困难的是如何让人们享受驾驶的乐趣。这是一 ...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人（巨型机甲）

[2017-03-21] 近日，亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想，他控制了一个巨大的机甲机器人。据国外媒体Verge报道，前天（3月19日），贝 ...

麻省理工又秀神技：推出如魔法般跳跃的方块机器人集群

[2019-10-31] 几天前，小编向大家介绍过麻省理工（MIT）研发的一种自组装机器人集群（点此阅览），它们可以用统一标准的小单元自动组装出各种大型结构。 ...

智能农业：种地的事儿未来全交给这些机器人吧

[2019-12-07] SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC（Small Robot Company），正在 ...

为未来战场创造更有效的机器人美国陆军研究人工纳米马达

[2019-10-11] 为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友，美国陆军研究人员正在执行一项任务，即研究肌肉分子生命功能的价值，以及复制过 ...

2017年：AI渗入云端

[2017-12-29] 云中的人工智能不仅仅是科技巨头的权力游戏，它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

受大脑控制的机器人

[2017-03-21] 想让机器人做我们想做的，首先，他得全面地了解我们。通常，这就意味着人类需要要付出更多。比如，教机器人复杂的人类语言或者把一项任务 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

飞桨火力全开，重磅上线3D模型：PointNet++、PointRCNN！

[2020-03-26] 11 年前的「阿凡达」让少年的我们第一次戴上 3D 眼镜，声势浩大的瀑布奔流而下，星罗棋布飘浮在空中的群山，无一不体现着对生命的敬意， ...

神经网络结构在命名实体识别（NER）中的应用

[2018-01-17] 近年来，基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展。作为NLP领域的基础任务—命名实体识别（Named Entity Recognition，NER）也不例外，神经网络结......

从基础概念到数学公式，这是一份520页的机器学习笔记（图文并茂）

[2018-06-19] 近日，来自SAP（全球第一大商业软件公司）的梁劲（Jim Liang）公开了自己所写的一份 520 页的学习教程（英文版），详细、明了地介绍了机器学习中的相关概念、数学知识和各......

50行代码玩转生成对抗网络GAN模型！（附源码）

[2018-07-30] 本文为大家介绍了生成对抗网络（Generate Adversarial Network，GAN），以最直白的语言来讲解它，最后实现一个简单的 GAN 程序来帮助大家加深理解。...

深度神经网络揭示了大脑喜欢看什么

[2019-11-06] 爱吧机器人网编者按：近日，《自然-神经科学》发表了一篇论文，研究人员创建了一种深度人工神经网络，能够准确预测生物大脑对视觉刺激所产 ...

分离特征抽取与决策制定 如何用6-18个神经元玩转Atari游戏

本周栏目热点

分离特征抽取与决策制定如何用6-18个神经元玩转Atari游戏