将表征学习和策略学习分离方能独立地研究二者,这潜在意义上能够使我们对现存的任务及其复杂度有更清晰的理解。本论文就朝着这个目标前进,作者通过实现一个独立的压缩器(即特征提取器)将特征提取和决策分离开来,这个压缩器在策略与环境互动中所获取的观测结果上进行在线训练。将网络从构建中间表征中解放出来使得网络可以专注于策略逼近,从而使更小的网络也能具备竞争力,并潜在地扩展深度强化学习在更复杂问题上的应用。
该论文的主要贡献是提出一种在复杂的强化学习设置中同时又独立地学习策略特征的新方法。这通过基于向量量化(Vector Quantization,VQ)和稀疏编码(Sparse Coding,SC)的两种新方法来实现,研究者将这两种方法分别称为「Increasing Dictionary VQ」和「Direct Residuals SC」。随着训练继续、网络学习到更复杂的策略,网络与环境的复杂互动带来更多新的观测结果;特征向量长度的增长反映了这一点,它们表示新发现的特征。类似地,策略通过可解决维度增加问题的指数自然进化策略(Exponential Natural Evolution Strategy)进行训练。实验结果显示该方法可高效学习两种组件,从而仅使用 6 到 18 个神经元(神经元数量比之前的实现少了两个数量级)组成的神经网络就可以在多个 ALE 游戏中获得当前最优的性能,为专用于策略逼近的深度网络研究奠定了基础。
3 方法
该系统包括四个主要部分:1)Environment(环境):Atari 游戏,采取动作、提供观测结果;2)Compressor(压缩器):从观测结果中提取低维代码,同时系统其他部分执行在线训练;3)Controller(控制器):策略逼近器,即神经网络;4)Optimizer(优化器):学习算法,随着时间改进网络的性能,在本研究案例中优化器采用的是进化策略。
5结果
研究者在 10 个 Atari 游戏上展示了对比结果,这十个游戏选自 ALE 模拟器上的数百个游戏。选择结果依据以下筛选步骤:1)OpenAI Gym 上可获取的游戏;2)与 [210, 160] 具备同样观测分辨率的游戏;3)不包含 3d 视角的游戏。
论文:Playing Atari with Six Neurons
摘要:Atari 游戏上的深度强化学习直接将像素映射至动作;本质上,深度神经网络同时负责提取有用信息和基于此进行决策。为了设计专用于决策的深度网络,我们提出了一种新方法,独立但同时学习策略和紧凑状态表征,以得到强化学习中的策略逼近。状态表征通过基于向量量化和稀疏编码的新算法生成,状态表征与网络一道接受在线训练,且能够随着时间不断扩大表征词典规模。我们还介绍了允许神经网络能和进化策略处理维度变化的新技术。这使得仅包含 6 到 18 个神经元的网络可以学习玩 Atari 游戏,性能可以达到甚至偶尔超过在大两个数量级的深度网络上使用进化策略的当前最优技术。