炼数成金 商业智能强化学习
订阅

强化学习

快1万倍!伯克利提出用深度RL优化SQL查询
快1万倍!伯克利提出用深度RL优化SQL查询
数据库社区已经针对 SQL 查询优化问题进行了近 40 年的研究,可以追溯到 System R 的动态规划方法。查询优化的核心是连接排序问题。尽管这个问题由来已久,但仍然有很多研究项目尝试更好地理解多连接查询中的连接优 ...
强化学习AI滑翔机,不靠油,只靠风
强化学习AI滑翔机,不靠油,只靠风
从前天空是人类一直想要征服的地方,那一直都是云雾和彩虹的静谧之地,以及众神栖息的处所。从古希腊神话的天才工匠代达罗斯,到近代的自行车飞行器,再到后来的莱特兄弟,背后的索求可能是对自由孜孜以求之的勉励鸡 ...
「AlphaGo 之父」David Silver最新演讲,传授强化学习的十大原则
「AlphaGo 之父」David Silver最新演讲,传授强化学习的十大原则
David Silver 指出,客观、量化的评估方法是强化学习进展的重要驱动力:评估指标的选择决定了研究进展的方向;这可以说是强化学习项目中最重要的一个决定。David Silver 介绍了两种评估方法:David Silver 介绍了两 ...
深度强化学习:通过异步优势动作评价 (A3C) 算法玩 CartPole
深度强化学习:通过异步优势动作评价 (A3C) 算法玩 CartPole
在本教程中,我们将学习如何使用深度强化学习来训练模型,使其能够在简单的 CartPole 游戏中获胜。我们会使用 tf.keras 和 OpenAI Gym 并通过被称为异步优势动作评价 (A3C) 的技术来训练智能体。强化学习一直以来备 ...
泡沫破裂之后,强化学习路在何方?
泡沫破裂之后,强化学习路在何方?
过去三年间,DRL 算法在不同领域大显神通:在视频游戏、棋类游戏上打败人类顶尖高手;控制复杂的机械进行操作;调配网络资源;为数据中心大幅节能;甚至对机器学习算法自动调参。各大高校和企业纷纷参与其中,提出了 ...
open AI 在DOTA 5v5 比赛中战胜职业选手
open AI 在DOTA 5v5 比赛中战胜职业选手
去年,OpenAI 在 DOTA 的 1v1 比赛中战胜了职业玩家 Dendi,而在距离进阶版 OpenAI Five 系统战胜人类业余玩家不过一个月的时间,凌晨,它又以 2:1 的战绩再次完成对人类高级玩家的“屠杀”,GG(人类赢的最后一局纯 ...
指数级加速架构搜索:CMU提出基于梯度下降的可微架构搜索方法
指数级加速架构搜索:CMU提出基于梯度下降的可微架构搜索方法
发现最优的神经网络架构需要人类专家耗费大量精力才能实现。近来,人们对开发算法来解决架构设计过程的自动化问题产生了兴趣。自动化的架构搜索已经在诸如图像分类和目标检测这样的任务中获得了非常有竞争力的性能。 ...
Dota2团战AI击败人类最全解析:能团又能gank,AI一日人间180年
Dota2团战AI击败人类最全解析:能团又能gank,AI一日人间180年
GG。随着人类喊出这两个字母,一切都结束了。OpenAI研发的人工智能战队,首次在5v5的Dota2开黑团战对战中,击败人类玩家战队。这真是一个里程碑式的事件。这个能打团战的AI名叫OpenAI Five,是OpenAI最新的研发成果 ...
OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年
OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年
今天凌晨,OpenAI通过官方博客宣布了其在Dota对抗上的新进展——由五个神经网络组成的团战AI团队,在5v5中击败了业余人类玩家,并表示,将有望挑战顶级专业团队。打Dota乍一听可能没什么了不起的,但这可以被视作Alp ...
全文解析:如何用强化学习解决实际生活中的问题规划?
全文解析:如何用强化学习解决实际生活中的问题规划?
强化学习(RL)是一个测试过程,通过基本的试错法(trial and error)测试哪种动作对环境的每个状态都是最好的。该模型引入了一个随机策略进行启动,每执行一个动作时,一个初始数量(称为奖励)就被馈送到模型中。 ...
Google提出自监督表征学习方法,让智能体通过观察认识世界
Google提出自监督表征学习方法,让智能体通过观察认识世界
现如今,在用于各种计算机视觉任务的最先进方法中包含一个视觉表征学习步骤。而在本文中,Google提出了一种用于连续控制任务的自监督表征学习方法。通过在嵌入空间中联合嵌入多个帧,扩展了从视觉观察中进行学习的时 ...
DeepMind发Nature子刊:通过元强化学习重新理解多巴胺
DeepMind发Nature子刊:通过元强化学习重新理解多巴胺
比起人类,深度学习算法已经在很多任务上的表现更优秀。但它们的学习效率很低。一个电子游戏,人类玩一个下午大概就会了,而算法得花上百个小时。DeepMind认为,这可能是人类的元学习能力占了优势。据昨天DeepMind在 ...
UC Berkeley提出新型「zero-shot」方法
UC Berkeley提出新型「zero-shot」方法
一般来说,模仿学习的当前主流范式依赖于对专家动作(expert action)的强有力的监督,以学习模仿什么和如何模仿。我们追求的是另一种范式,即:一个智能体首先在没有任何专家监督的情况下探索这个世界,然后将其经 ...
对抗深度强化学习是如何解决自动驾驶汽车系统中的安全性问题的?
对抗深度强化学习是如何解决自动驾驶汽车系统中的安全性问题的?
对于自动驾驶汽车(AV)而言,要想在未来的智能交通系统中以真正自主的方式运行,它必须能够处理通过大量传感器和通信链路所收集的数据。这对于减少车辆碰撞的可能性和改善道路上的车流量至关重要。然而,这种对通信 ...
通过机器学习发现神经网络优化器
通过机器学习发现神经网络优化器
如今,许多 Google 产品(例如搜索、翻译和照片)中都已部署深度学习模型。在训练深度学习模型时,优化方法的选择至关重要。例如,随机梯度下降法在许多情况下都很有效,但如果有更先进的优化器,速度可以更快,特别 ...
123下一页

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-11-14 02:58 , Processed in 0.130195 second(s), 16 queries .