炼数成金 门户 商业智能 强化学习 查看内容

DeepMind强化学习进展:可执行多个任务的高度可扩展智能体

2018-2-28 17:14| 发布者: 炼数成金_小数| 查看: 18506| 评论: 0|原作者: Bot|来自: 论智

摘要: DMLab-30是我们用开源RL环境DeepMind Lab设计一个新的任务集合,其中后者是我们不久前刚发布的人工智能研究实验平台,它提供了一系列富有挑战性的3D导航和解题任务,特别适合深度强化学习系统的部署。而DMLab-30的意 ...

工具 算法 架构 分布式 强化学习

从机器人的持续控制问题,到棋类游戏和雅达利游戏,深度强化学习(DeepRL)已经在多个领域取得了显著成果,但是,这些成就都还仅限于为每项任务单独训练智能体,也就是说,它们还都只是个人任务。近日,DeepMind又在一篇新论文中介绍了团队在深度强化学习方面的进展,这次他们主要带来了3个成果:

发布一个多任务集合DMLab-30;

推出一个高度可扩展的、基于分布式架构的智能体IMPALA;

提出一种名为V-trace的off-policy学习算法

以下是博客和论文中的一些具体介绍。

在近期的工作中,我们对如何训练单个智能体完成多项任务做了不少探讨。今天,我们正式开源DMLab-30,这是一个多任务集合,允许研究人员同时观看智能体在多个任务环境中的具体表现。由于训练单个智能体执行多种任务会涉及巨大的数据吞吐量,为了高效利用每个数据点,我们开发了一种新型智能体IMPALA(Importances Weighted Actor-Learner Architectures),它基于分布式框架,简单而又高度可扩展,因此数据处理效率更高(250K frames/s VS 50K frames/s)。

此外,因为IMPALA受A3C架构启发,它通过用多个分布式actor获得参数,然后将参数作为经验汇总给总的learner来实现学习,因此actor有时会落后于learner。为了弥补两者的差异,我们在IMPALA中加入了一种新的off-policy学习算法V-trace,发现这样做的效果较A3C架构更优。

DMLab-30
DMLab-30是我们用开源RL环境DeepMind Lab设计一个新的任务集合,其中后者是我们不久前刚发布的人工智能研究实验平台,它提供了一系列富有挑战性的3D导航和解题任务,特别适合深度强化学习系统的部署。而DMLab-30的意义就在于能使研究人员在大量有趣的任务上测试自己的RL系统。

DMLab-30的任务设计十分多元化。以目标划分,它有学习、记忆、导航等任务;以时间划分,它有黎明、正午、夜晚等场景;以视觉感受划分,它有色彩鲜明、现代风纹理、沙漠风(棕绿色调)等不同风格;以地形划分,它也可被分为开阔的山地、直角迷宫和开放的圆形空间等……此外,部分环境中还包含有机器人。

需要注意的一点是,由于这是一个多任务集合,各任务的奖励目标也是不同的。在这个场景下,可能智能体的目标是听从命令并用钥匙开门,但在下一个环境中,它也许就得外出觅食,去野外采蘑菇,甚至是绘制复杂的行进路线,思考如何在不回头的情况下到达目的地。

然而,从基础层面上说,这些任务中智能体的动作空间和观察空间都是相同的,也就是说,这其实就是让单个智能体在高度变化的环境中训练,使它最后可以适应每个环境。

DMLab-30地址:github.com/deepmind/lab

IMPALA
为了解决DMLab-30中的任务,我们开发了一种新型分布式智能体IMPALA,它通过使用TensorFlow的高效分布式体系结构来较大化数据吞吐量。

IMPALA受流行的A3C架构启发,它有多个actor,负责从任务中学习智能体的各项参数。这些参数来自各任务的策略π和基线函数(baseline function)Vπ,actor通过训练找出较佳组合,然后把学习经验汇总给智能体,也就是更新learner中的各项参数。不同的是,A3C的actor需要计算新的梯度,并把它返回给learner,但IMPALA的actor不用计算梯度,它返回的只是观察结果。


也就是说,在训练之初,actor用策略π更新初始策略μ,并在当前任务中进行几轮迭代。迭代完成后,它再把当前的状态、动作和奖励 x1, a1, r1, . . . , xn, an, rn,以及相应的策略分布μ(at|xt)、初始LSTM状态排列成组,逐个输入learner。利用这些由多个actor收集的数据,learner能不断更新策略π。

A2C每次学习都需要暂停,而IMPALA是连续的

GPU优化:(a)一个正常的LSTM;(b)将batch用于输入层和输出层;(c)将batch融合进整个网络
这个简单的架构使得learner可以在多个机器上并行计算(各actor不用排队),大大提高了GPU的利用率。但是,在更新参数时,由于learner的策略π可能比actor的策略μ提前做了几次SGD,因此两者间存在策略滞后的问题。

V-trace
在这种分离的分布式actor-learner架构中,由于actor产生动作和learner估计策略梯度之间存在差异,所以使用off-policy学习算法是十分重要的。为此,我们专为learner引入了一种新型算法V-trace。

首先,我们定义:
折扣因子(discount factor)γ ∈ [0, 1);

t时奖励:rt = r(xt, at) ;

xt为t时的状态;

at ~ μ(·|xt) 是遵循某个策略μ生成的动作。

我们把这个问题看作是马尔可夫决策(MDP)中的discounted infinite-horizon RL问题,它的目标是找到一个策略π,能使未来奖励的总和,即


较大化。而off-policy学习算法的思路是根据动作策略μ来学习另一个策略,如策略π(μ和π可能不同)的价值函数Vπ,我们也把π称为目标策略。

详细的数学计算可以在论文中找到,这里我们简要介绍3点创新:

随着时间s不断推进,价值参数θ会随vs的梯度值不断更新:


同时,价值函数ω也会随策略梯度的变化不断更新:


为了防止函数过早收敛,我们模仿A3C,在里面加入了一个和轨迹方向一致的熵:


智能体的参数就是通过总结这三个不断更新获得的系数进行调整的,简而言之,这是系统计算超参数的方法。

小结
由于IMPALA经过多重优化,和其他类似智能体相比,它处理的数据量能比它们高出一到两个数量级,这也为它在多种任务环境中的良好表现奠定了基础。我们把IMPALA和当前几种颇为流行的基于A3C的方法进行了比较,发现除了在速度上有明显提升,IMPALA的数据吞吐量也呈现线性增长,这说明分布式架构和V-trace算法为实现处理大规模强化学习问题提供了一种可能性。


原文地址:deepmind.com/blog/impala-Scalable-distributed-deeprl-dmlab-30/

论文地址:arxiv.org/pdf/1802.01561.pdf

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-12-12 04:44 , Processed in 0.166375 second(s), 24 queries .