炼数成金 商业智能强化学习
订阅

强化学习

谣言止于智者:基于深度强化学习的谣言早期检测模型
谣言止于智者:基于深度强化学习的谣言早期检测模型
谣言一般是指未经核实的陈述或说明,它往往与某一事件相关,在大众之间广泛传播。而随着社交媒体的发展,谣言可以通过社交媒体以核裂变的方式快速传播,这往往会引发诸多不安定因素,并对经济和社会产生巨大的影响。 ...
GAN初创者另有其人?IanGoodfellow:只是纯策略版本
GAN初创者另有其人?IanGoodfellow:只是纯策略版本
GAN是深度学习领域非常火爆的研究主题,大家普遍认为它最早是由Ian Goodfellow 于2014年提出的。当然,也存在异议,比如 LSTM 之父 Jurgen Schmidhuber 就认为 GAN 是其1992年提出的PM模型的变体,甚至在 NIPS 2016 ...
DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习
DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习
近年来,深度强化学习方法给人工智能领域带来了很大的进展,在很多领域都超越了人类表现,比如雅达利游戏、围棋和无限制德扑。不过虽然它们很强大,但学习效率的低下让它们很难推广到更普遍的任务,也许结合「快」与 ...
人类全面溃败!AI训练4.5万年,DOTA 2人机大战大结局
人类全面溃败!AI训练4.5万年,DOTA 2人机大战大结局
OpenAI可以宣布自己是世界第一了。今天凌晨,OpenAI Five在Dota 2中以2:0击败了世界冠军团队OG,再次显示出了AI的强大威力,也正式宣告人类在Dota这种高难度游戏中成为AI的手下败将。这次比赛,OpenAI Five的表现出 ...
强化学习在智能对话上的应用
强化学习在智能对话上的应用
本文主要介绍深度强化学习在任务型对话上的应用,两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上,目前工业界普遍使用的策略都是基于规则的,显然基于规则的方法有人力成本高、泛化能力差等缺点,而 ...
OpenAI开发AI版《文明》,一块CPU就能重现AI生存战争史
OpenAI开发AI版《文明》,一块CPU就能重现AI生存战争史
如果把AI放在资源有限的世界里,他们也会像人类一样竞争。OpenAI就做了这样一款名叫Neural MMO的AI训练游戏,让AI在一块限定的土地上求生,我们发现,AI也一样可以演化出悲壮的生存史诗。这是一场12800个AI之间的生 ...
星际争霸2人类1:10输给AI!DeepMind “AlphaStar”进化神速
星际争霸2人类1:10输给AI!DeepMind “AlphaStar”进化神速
刚刚,我们见证了 AI 与人类 PK 的又一次重大进展!DeepMind 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar 5:0 战胜职业选手TLO ,5:0战胜 2018 年 WS ...
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
在 AlphaGo征服围棋之后,《星际争霸》一直被人工智能研究者视为下一个目标,因为它相比国际象棋与围棋更接近「复杂的现实世界」,DeepMind 科学家 Oriol Vinyals 曾表示:「能玩《星际争霸》的人工智能必须能够有效 ...
看漫画学强化学习
看漫画学强化学习
强化学习中最基础的四个概念:Agent, State, Action, Reward。Actor-Critic是一个混合算法,结合了Policy Gradient(Actor)与Value Function Approximation (Critic)两大类算法的优点。原漫画没有交待,一个agent为 ...
腾讯王者荣耀AI论文首次曝光:五AI王者局开黑与人类战队打成平手
腾讯王者荣耀AI论文首次曝光:五AI王者局开黑与人类战队打成平手
王者峡谷可能马上要被AI支配了!腾讯刚刚发布的一篇论文显示,王者荣耀AI在不声不响间,又掌握了新的技能:组团开黑。而且战绩不俗。5个各自独立的王者荣耀AI学会开黑技能后,5v5对阵《王者荣耀》王者段位人类玩家, ...
DeepMind贝叶斯优化调参AlphaGo,自弈胜率大涨16.5%
DeepMind贝叶斯优化调参AlphaGo,自弈胜率大涨16.5%
在AlphaGo的开发过程中,它的许多超参数都经过多次贝叶斯优化调整。这种自动调参过程使其棋力显著提高。在与李世乭的比赛之前,我们调整了最新的AlphaGo的参数,并在自弈对局测试中将胜率从50%提高到66.5%。这个经 ...
人体运动轨迹的人工智能动画模拟
人体运动轨迹的人工智能动画模拟
PBA非常类似于众所周知的强化学习(RL)领域。我们会创建一个实验对象,并希望它采取一些行动(比如,移动它的身体并创建一个动画)。但是,PBA和RL之间有着巨大的区别。在RL中,最重要的目标是最大化一些累积奖励信号 ...
AI新方向:对抗攻击
AI新方向:对抗攻击
对抗攻击的开山之作 Intriguing properties of neural networks中提到了神经网络的两个现象。第一个是高维神经网络的神经元并不是代表着某一个特征,而是所有特征混杂在所有神经元中;第二个是在原样本点上加上一些针 ...
快1万倍!伯克利提出用深度RL优化SQL查询
快1万倍!伯克利提出用深度RL优化SQL查询
数据库社区已经针对 SQL 查询优化问题进行了近 40 年的研究,可以追溯到 System R 的动态规划方法。查询优化的核心是连接排序问题。尽管这个问题由来已久,但仍然有很多研究项目尝试更好地理解多连接查询中的连接优 ...
强化学习AI滑翔机,不靠油,只靠风
强化学习AI滑翔机,不靠油,只靠风
从前天空是人类一直想要征服的地方,那一直都是云雾和彩虹的静谧之地,以及众神栖息的处所。从古希腊神话的天才工匠代达罗斯,到近代的自行车飞行器,再到后来的莱特兄弟,背后的索求可能是对自由孜孜以求之的勉励鸡 ...
1234下一页

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-5-27 04:03 , Processed in 0.125984 second(s), 16 queries .