qc302 xz05 90e0h
976 87932 x20104
当前位置:FX168财经网 >> 财经 >>

DeepMind用新AI超越自己:提速200倍,在所有雅达利游戏上胜过人

时间:2022-09-21 17:34  |  来源: IT之家

DeepMind又在攻击雅达利游戏了!

这次他们最新的agent MEME,效果一样,比两年前的Agent57快200倍!

DeepMind在2020年开发的代理Agent57有史以来第一次在全部57款雅达利游戏中超越了人类基准性能。

但它有一个致命的缺陷:效率低:需要近800亿帧的数据训练才能实现。

现在,模因的出现完美地解决了这个问题。

有网友看后表示:这才是真正的样本效率。

话不多说,我们来快速看一下。

新代理:MEME

Agent57作为Atari所有游戏中第一个超越人类基准性能的代理,性能足够先进。

但问题是,为了实现这个目标,背后需要780亿帧的庞大经验训练,无论从时间还是成本上来说,都是一笔不小的开支。

因此,以Agent57为出发点,DeepMind采取了一系列不同的策略来提高训练效率。

他们调查了还原数据系统中遇到的一系列不稳定因素和瓶颈,提出了有效的解决方案,最终建立了一个更强大,更高效的代理:MEME。

新的MEME agent主要在Agent57的四个方面进行了改进,即:

A.实现稀有事件相关学习信号的快速传播,

B.不同价值尺度下的稳定学习,

C.改进神经网络的结构,

D.使更新在快速变化的策略下更加健壮。

为了实现这四个目标,DeepMind采取了以下方法,分别对应以上四点。

A1。在线网络指导,

A2。带公差的目标计算,

B1。损失和优先级标准化,

B2。交叉混合训练,

C1。不规范的干线网络,

C2。综合损耗的共享干线,

D.由策略提炼的健壮行为。

这些方法旨在提高Agent57的数据效率,但这种效率的提高不能以牺牲终端性能为代价。

因此,为了测试上述步骤后agent MEME的效率和性能,研究团队分别在2亿帧,10亿帧,200亿帧和900亿帧环境下进行训练。

从下图中可以直观的看出,新agent MEME以3.9亿帧超越了人类基准,比Agent57快了两个数量级,在参数数量从90B减少到1B的情况下取得了类似的最终性能。

可以说,与Agent57相比,MEME不仅提高了效率,而且保持了性能。

研究团队

MEME的研究团队来自DeepMind。

值得一提的是Steven Kapturowski是这两篇论文中的一篇。

毕业于美国科罗拉多大学博尔德分校,曾就职于苹果,微软,Glassdoor等公司,现为DeepMind高级研究工程师。

涉及

编辑:柳暮雪