炼数成金 商业智能强化学习
订阅

强化学习

DeepMind哈佛惊人发现!大脑中竟存在“分布强化学习”,靠多巴胺驱动
DeepMind哈佛惊人发现!大脑中竟存在“分布强化学习”,靠多巴胺驱动
学生时代,想必你肯定听过巴甫洛夫和狗的故事:每次给狗喂食之前,都先摇动一个铃铛。久而久之,狗学会了把铃铛当做进食的前奏。后来,只要铃铛一响,狗就会开始流口水,不管接下来有没有食物。这表明它们已经学会了 ...
深度强化学习走入「死胡同」,继续死磕电子游戏还是另辟蹊径?
深度强化学习走入「死胡同」,继续死磕电子游戏还是另辟蹊径?
2019 年,深度强化学习可以算得上 AI 研究的 Top 关键词之一。无论是 DeepMind 星际2 AI 「AlphaStar」血虐人类玩家,还是 OpenAI 最终因太过强大而被认为可能有风险所以不公开发布的语言模型 GPT-2,无疑都在过去一 ...
超有趣!LSTM之父团队最新力作:将强化学习“颠倒”过来
超有趣!LSTM之父团队最新力作:将强化学习“颠倒”过来
我们将强化学习(RL)转变为一种监督学习(SL)的形式,方法是将传统RL颠倒过来,称之为,或颠倒RL (Upside Down RL, UDRL)。标准RL预测奖励,而UDRL使用奖励作为任务定义的输入,以及时间范围的表示和历史数据以及可期 ...
OpenAI通过近5亿次“躲猫猫”游戏发现AI新潜能,或将用于医疗诊断等领域
OpenAI通过近5亿次“躲猫猫”游戏发现AI新潜能,或将用于医疗诊断等领域
由诸多硅谷大亨联合建立的人工智能非营利组织 OpenAI 正在验证一个假设:如果能在虚拟环境中模拟这种竞争,它是否也会像人一样产生更复杂的人工智能?在近日发表的一篇论文里,OpenAI 公布了它的初步结果。通过几亿 ...
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀
AI赌神完成了超进化!两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1。现在全新的赌神Pluribus,终于取得突破,称霸多人局:在六人无限注德扑比赛上击败人类顶尖玩家。结束了扑克AI只能一对一的局面 ...
战网AI危机!AlphaStar匿名潜入星际2天梯PK,进化版让人类玩家瑟瑟发抖
战网AI危机!AlphaStar匿名潜入星际2天梯PK,进化版让人类玩家瑟瑟发抖
把自己虐到爆的对手,到底是人还是AI?对于一些星际争霸II玩家来说,再也没法明确回答了。刚刚,星际争霸官方宣布,DeepMind研发的AI——AlphaStar将登录游戏平台战网,匿名进行天梯匹配。消息公布之后,哀嚎一片, ...
强化学习在携程酒店推荐排序中的应用探索
强化学习在携程酒店推荐排序中的应用探索
目前携程酒店绝大部分排序业务中所涉及的问题,基本可以通过应用排序学习完成。而其中模型训练步骤中所需的训练数据集,一般是通过线下收集数据来完成的。然而在实际当中,往往存在业务新增或者业务变更,这就使得使 ...
谷歌发布颠覆性研究:不训练不调参,AI自动构建超强网络
谷歌发布颠覆性研究:不训练不调参,AI自动构建超强网络
机器学习全靠调参?这个思路已经过时了。谷歌大脑团队发布了一项新研究:只靠神经网络架构搜索出的网络,不训练,不调参,就能直接执行任务。这样的网络叫做WANN,权重不可知神经网络。它在MNIST数字分类任务上,未 ...
谣言止于智者:基于深度强化学习的谣言早期检测模型
谣言止于智者:基于深度强化学习的谣言早期检测模型
谣言一般是指未经核实的陈述或说明,它往往与某一事件相关,在大众之间广泛传播。而随着社交媒体的发展,谣言可以通过社交媒体以核裂变的方式快速传播,这往往会引发诸多不安定因素,并对经济和社会产生巨大的影响。 ...
GAN初创者另有其人?IanGoodfellow:只是纯策略版本
GAN初创者另有其人?IanGoodfellow:只是纯策略版本
GAN是深度学习领域非常火爆的研究主题,大家普遍认为它最早是由Ian Goodfellow 于2014年提出的。当然,也存在异议,比如 LSTM 之父 Jurgen Schmidhuber 就认为 GAN 是其1992年提出的PM模型的变体,甚至在 NIPS 2016 ...
DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习
DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习
近年来,深度强化学习方法给人工智能领域带来了很大的进展,在很多领域都超越了人类表现,比如雅达利游戏、围棋和无限制德扑。不过虽然它们很强大,但学习效率的低下让它们很难推广到更普遍的任务,也许结合「快」与 ...
人类全面溃败!AI训练4.5万年,DOTA 2人机大战大结局
人类全面溃败!AI训练4.5万年,DOTA 2人机大战大结局
OpenAI可以宣布自己是世界第一了。今天凌晨,OpenAI Five在Dota 2中以2:0击败了世界冠军团队OG,再次显示出了AI的强大威力,也正式宣告人类在Dota这种高难度游戏中成为AI的手下败将。这次比赛,OpenAI Five的表现出 ...
强化学习在智能对话上的应用
强化学习在智能对话上的应用
本文主要介绍深度强化学习在任务型对话上的应用,两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上,目前工业界普遍使用的策略都是基于规则的,显然基于规则的方法有人力成本高、泛化能力差等缺点,而 ...
OpenAI开发AI版《文明》,一块CPU就能重现AI生存战争史
OpenAI开发AI版《文明》,一块CPU就能重现AI生存战争史
如果把AI放在资源有限的世界里,他们也会像人类一样竞争。OpenAI就做了这样一款名叫Neural MMO的AI训练游戏,让AI在一块限定的土地上求生,我们发现,AI也一样可以演化出悲壮的生存史诗。这是一场12800个AI之间的生 ...
星际争霸2人类1:10输给AI!DeepMind “AlphaStar”进化神速
星际争霸2人类1:10输给AI!DeepMind “AlphaStar”进化神速
刚刚,我们见证了 AI 与人类 PK 的又一次重大进展!DeepMind 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar 5:0 战胜职业选手TLO ,5:0战胜 2018 年 WS ...
1234下一页

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-2-20 20:13 , Processed in 0.156915 second(s), 16 queries .