炼数成金 商业智能强化学习
订阅

强化学习

DeepMind强化学习进展:可执行多个任务的高度可扩展智能体
DeepMind强化学习进展:可执行多个任务的高度可扩展智能体
DMLab-30是我们用开源RL环境DeepMind Lab设计一个新的任务集合,其中后者是我们不久前刚发布的人工智能研究实验平台,它提供了一系列富有挑战性的3D导航和解题任务,特别适合深度强化学习系统的部署。而DMLab-30的意 ...
从Q学习到DDPG,一文简述多种强化学习算法
从Q学习到DDPG,一文简述多种强化学习算法
强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。这种方法主要用于雅达利(Atari)、马里奥(Mario)等游戏中,表现与人类相当,甚至超过人类。最近,随着 ...
如何让强化学习走进现实世界?DeepMind要用“控制套件”推动
如何让强化学习走进现实世界?DeepMind要用“控制套件”推动
火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢?DeepMind已经开始往这方面努力。他们昨天发布的控制套件“DeepMind Control Sui ...
深度强化学习的 18 个关键问题
深度强化学习的 18 个关键问题
原文归纳出深度强化学习中的常见科学问题,并列出了目前解法与相关综述,我在这里做出整理,抽取了相关的论文。 这里精选 18 个关键问题,涵盖空间搜索、探索利用、策略评估、内存使用、网络设计、反馈激励等等话题 ...
论文结果难复现?本文教你完美实现深度强化学习算法DQN
论文结果难复现?本文教你完美实现深度强化学习算法DQN
过去几年来,深度强化学习逐渐流行,因为它在有超大状态空间(state-spaces)的领域上要比先前的方法有更好的表现。DQN 几乎在所有的游戏上超越了之前的强化学习方法,并在大部分游戏上比人类表现更好。随着更多的研 ...
DeepMind为明年的AAAI,准备了一份各种DQN的混血
DeepMind为明年的AAAI,准备了一份各种DQN的混血
DeepMind公开了一篇最近投递到AAAI 2018的新论文,这篇论文的主角,依然是这家公司四年前就开始研究的DQN,配角,依然是雅达利(Atari)游戏。DQN,全名Deep Q-Network(深度Q网络),是DeepMind在2013年NIPS Deep L ...
TensorFlow Agents日前开源,在TensorFlow中构建强化学习算法
TensorFlow Agents日前开源,在TensorFlow中构建强化学习算法
用于在TensorFlow中构建并行强化学习算法的高效基础架构范例TensorFlow Agents日前开源,这个项目是由谷歌的两位研究员James Davidson、Vincent Vanhoucke,以及Danijar Hafner共同研发的。TensorFlow Agents为强化 ...
全新强化学习算法详解,看贝叶斯神经网络如何进行策略搜索
全新强化学习算法详解,看贝叶斯神经网络如何进行策略搜索
首先,在这里,介绍一下我们最近在ICLR(International Conference on Learning Representations)上发表的论文《利用贝叶斯神经网络进行随机动力系统中的学习与策略搜索》(ICLR 2017)。点击此处查看论文代码和视 ...
智能体要找不着北了,UCL汪军团队提出环境设计的新方法
智能体要找不着北了,UCL汪军团队提出环境设计的新方法
能够达到期望的环境是需要设计的,但是很难分析性地用标准设计方法处理这类复杂的对象与环境交互问题,对整个解空间进行穷举演算的计算成本又太高。环境设计任务:智能体与环境交互,智能体是相对固定的,环境学习一 ...
强化学习族谱
强化学习族谱
强化学习是一类算法, 是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. 这就是一个完整的强化学习过程.
阿里巴巴为什么要选择星际争霸作为AI算法研究环境?
阿里巴巴为什么要选择星际争霸作为AI算法研究环境?
首先可能大家有疑问,为什么选择《星际争霸》这个游戏来做我们 AI 研究的一个平台。我们这个认知计算实验室目前是挂靠在搜索事业部下面,我们团队的成员基本都是做搜索、广告、推荐、算法这样的背景,之前我们主要做 ...
英特尔通过预测变量实现策略性强化学习,夺冠 Doom 游戏竞赛
英特尔通过预测变量实现策略性强化学习,夺冠 Doom 游戏竞赛
来自英特尔实验室(Intel Labs)的两名研究员Alexey Dosovitskiy和Vladlen Koltum提出了一种在沉浸式环境中实现感觉运动控制(Sensorimotor control)的方法。据悉,该方法有效地综合利用了高维度的感官流(high-dim ...
从强化学习基本概念到Q学习的实现,打造自己的迷宫智能体
从强化学习基本概念到Q学习的实现,打造自己的迷宫智能体
强化学习其实也是机器学习的一个分支,但是它与我们常见监督学习和无监督学习又不太一样。强化学习旨在选择最优决策,它讲究在一系列的情景之下,通过多步恰当的决策来达到一个目标,是一种序列多步决策的问题。该学 ...
OpenAI详解进化策略方法:可替代强化学习
OpenAI详解进化策略方法:可替代强化学习
进化策略(ES:evolution strategy)是一种已存在了数十年的优化技术,其在现代强化学习基准(如 Atari/MuJoCo)上的表现可以比肩标准的强化学习技术,同时还能克服强化学习的许多不便。特别的几点包括:进化策略的 ...
增强学习的解释——学习基于长期回报的行为
增强学习的解释——学习基于长期回报的行为
一个机器人向前迈了一大步然后跌倒了。下一次它就往前走一小步并可以保持平衡了。机器人就像这样尝试了很多次,最终它成功学会了正确的步伐大小并能够稳定地行走了。我们看到的上述例子被称为增强学习。它将一个机器 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-9-25 03:53 , Processed in 0.072310 second(s), 16 queries .