忘记密码
免费注册
全部
课程
文章
帖子
用户
快捷导航
徽章
好友
帖子
收藏
道具
任务
充值
提现
课程
奖学金
抵价券
企业
学习中心
|- 我的课程
|- 我的专才计划
|- 我的普班
|- 我的快班
|- 我的关注
|- 我的专业
|- 我的求职
|- 我的招聘
|- 我的云实验室
首页
业界
培训
专才计划
特训营
课程
专业
企业服务
入职特训
创想基地
论坛
产品廊
大数据
商业智能
专家团
关于我们
入职特训计划
黄校长前沿人才培养计划
王文峰计算机视觉精英培训计划
郭一军“新DBA”精英培养计划
葛一鸣JAVA精英培养计划
人工智能专业
数据分析师专业
大数据攻城狮专业
Hadoop大数据攻城狮专业
Python数据分析师专业
全栈程序猿专业
DBA专业
企业菁英小团队培养计划
企业内训
炼数成金
›
商业智能
›
强化学习
订阅
强化学习
Facebook推基于NetHack的深度强化学习利器,超轻量级架构性价比远超GPT-2和BERT
近日,Facebook 的研究人员表示,NetHack这款游戏是专门为训练、测试和评估人工智能模型而设计的。为此,他们今日发布了 NetHack 学习环境,这是用于对强化学习智能体的鲁棒性和泛化性进行基准测试的研究工具。几十 ...
用强化学习寻找关键节点——复杂网络研究新范式
牵一发而动全身,网络中有些节点一旦被去除,就会对网络的连通性产生断崖式的影响。该如何找到这样的节点。近日,发表在 Nature Machine Intelligence 上的一篇论文“通过深度强化学习识别复杂网络中的关键节点”中 ...
DeepMind哈佛惊人发现!大脑中竟存在“分布强化学习”,靠多巴胺驱动
学生时代,想必你肯定听过巴甫洛夫和狗的故事:每次给狗喂食之前,都先摇动一个铃铛。久而久之,狗学会了把铃铛当做进食的前奏。后来,只要铃铛一响,狗就会开始流口水,不管接下来有没有食物。这表明它们已经学会了 ...
深度强化学习走入「死胡同」,继续死磕电子游戏还是另辟蹊径?
2019 年,深度强化学习可以算得上 AI 研究的 Top 关键词之一。无论是 DeepMind 星际2 AI 「AlphaStar」血虐人类玩家,还是 OpenAI 最终因太过强大而被认为可能有风险所以不公开发布的语言模型 GPT-2,无疑都在过去一 ...
超有趣!LSTM之父团队最新力作:将强化学习“颠倒”过来
我们将强化学习(RL)转变为一种监督学习(SL)的形式,方法是将传统RL颠倒过来,称之为,或颠倒RL (Upside Down RL, UDRL)。标准RL预测奖励,而UDRL使用奖励作为任务定义的输入,以及时间范围的表示和历史数据以及可期 ...
OpenAI通过近5亿次“躲猫猫”游戏发现AI新潜能,或将用于医疗诊断等领域
由诸多硅谷大亨联合建立的人工智能非营利组织 OpenAI 正在验证一个假设:如果能在虚拟环境中模拟这种竞争,它是否也会像人一样产生更复杂的人工智能?在近日发表的一篇论文里,OpenAI 公布了它的初步结果。通过几亿 ...
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀
AI赌神完成了超进化!两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1。现在全新的赌神Pluribus,终于取得突破,称霸多人局:在六人无限注德扑比赛上击败人类顶尖玩家。结束了扑克AI只能一对一的局面 ...
战网AI危机!AlphaStar匿名潜入星际2天梯PK,进化版让人类玩家瑟瑟发抖
把自己虐到爆的对手,到底是人还是AI?对于一些星际争霸II玩家来说,再也没法明确回答了。刚刚,星际争霸官方宣布,DeepMind研发的AI——AlphaStar将登录游戏平台战网,匿名进行天梯匹配。消息公布之后,哀嚎一片, ...
强化学习在携程酒店推荐排序中的应用探索
目前携程酒店绝大部分排序业务中所涉及的问题,基本可以通过应用排序学习完成。而其中模型训练步骤中所需的训练数据集,一般是通过线下收集数据来完成的。然而在实际当中,往往存在业务新增或者业务变更,这就使得使 ...
谷歌发布颠覆性研究:不训练不调参,AI自动构建超强网络
机器学习全靠调参?这个思路已经过时了。谷歌大脑团队发布了一项新研究:只靠神经网络架构搜索出的网络,不训练,不调参,就能直接执行任务。这样的网络叫做WANN,权重不可知神经网络。它在MNIST数字分类任务上,未 ...
谣言止于智者:基于深度强化学习的谣言早期检测模型
谣言一般是指未经核实的陈述或说明,它往往与某一事件相关,在大众之间广泛传播。而随着社交媒体的发展,谣言可以通过社交媒体以核裂变的方式快速传播,这往往会引发诸多不安定因素,并对经济和社会产生巨大的影响。 ...
GAN初创者另有其人?IanGoodfellow:只是纯策略版本
GAN是深度学习领域非常火爆的研究主题,大家普遍认为它最早是由Ian Goodfellow 于2014年提出的。当然,也存在异议,比如 LSTM 之父 Jurgen Schmidhuber 就认为 GAN 是其1992年提出的PM模型的变体,甚至在 NIPS 2016 ...
DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习
近年来,深度强化学习方法给人工智能领域带来了很大的进展,在很多领域都超越了人类表现,比如雅达利游戏、围棋和无限制德扑。不过虽然它们很强大,但学习效率的低下让它们很难推广到更普遍的任务,也许结合「快」与 ...
人类全面溃败!AI训练4.5万年,DOTA 2人机大战大结局
OpenAI可以宣布自己是世界第一了。今天凌晨,OpenAI Five在Dota 2中以2:0击败了世界冠军团队OG,再次显示出了AI的强大威力,也正式宣告人类在Dota这种高难度游戏中成为AI的手下败将。这次比赛,OpenAI Five的表现出 ...
强化学习在智能对话上的应用
本文主要介绍深度强化学习在任务型对话上的应用,两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上,目前工业界普遍使用的策略都是基于规则的,显然基于规则的方法有人力成本高、泛化能力差等缺点,而 ...
1
2
3
4
/ 4 页
下一页
热门频道
大数据
商业智能
量化投资
科学探索
创业
即将开课
•
Architecting on AWS架构与实践(第六期)
•
并行化计算与CUDA编程(第三期)
•
企业级大中台从设计到实现(下)(第二期)
•
基于Flink流处理的动态实时亿级电商全端用户画像系统(第二期)
•
Oracle DB Performance Tuning(DSI系列Ⅳ)(第11期)
•
端到端(End TO End)--由传统方法到深度学习(第九期)
•
股票投资基础之技术分析(第15期)
•
大话流式处理系统 Flink 核心原理(第九期)
•
Python金融业数据化运营实战(第11期)
•
Java Web开发精讲(第十期)
•
Python金融投资分析实践(第16期)
•
反内卷神器之RPA特训(第一期)
•
目标检测模型YOLOV3原理及实战(第七期)
•
敏捷Agile快速入门(第八期)
•
Oracle特殊恢复原理与实战(DSI系列)(第14期)
•
Python数据可视化实战(第11期)
•
DL4CV实战——构建基于深度学习的智能图像识别系统(第14期)
•
让服务飞起来:实时计算及其应用(第16期)
•
基于Flink+Hudi构建企业亿级云上实时数据湖教程(第一期)
•
高性能高扩展的千亿级实时数据仓库全实现(第六期)
•
Cloudera Hadoop管理认证实战(第七期)
•
Tensorflow工程师职场实战技(第13期)
•
PyTorch – 深度学习全栈工程师进阶案例实战(第六期)
•
突击pyspark:数据挖掘的力量倍增器(第16期)
•
知识图谱实战(第16期)
•
股票投资高手武器系列之缠论系统(第13期)
•
locust性能测试实战(第十期)
•
JAVA极客特训(第12期)
•
模型压缩知多少(第1期)
•
人人都是数据分析师——基于SAS Viya的机器学习与深度学习案例分析(第1期)
•
用AIOps打造你的智能工作伙伴(第1期)
热门文章
社区热帖
GMT+8, 2021-3-2 03:41
, Processed in 0.129365 second(s), 16 queries .
关于我们
新手指南
企业合作
联系我们
订阅号
服务号
关于我们
教育模式
企业会员
电话:4008-010-006
讲师招募
选课流程
内训合作
邮箱:kefu@dataguru.cn
校园大使
学费返还
媒体合作
客服QQ:
版权声明
奖学金激励
代理合作
售后QQ:
关于我们
手机版
友情链接
站点统计
文本模式
小游戏