首页 > 财经 > 正文
Qzone
微博
微信

谷歌DeepMind的AlphaStar AI大秀智商 横扫《星级争霸2》职业玩家

财经 前瞻网 2019-01-26 17:47

 

谷歌DeepMind的AlphaStar AI大秀智商 横扫《星级争霸2》职业玩家

在理解和玩复杂的游戏时,计算机比以往任何时候都更加复杂。作为人工智能领导者之一的DeepMind今天通过其最新的AI agent AlphaStar再次证明这一点。在直播期间,这个程序与两名《星际争霸II》职业选手中分别进行了五场比赛,AlphaStar横扫了所有10场比赛。

《星际争霸II》职业选手Dario“TLO”Wünsch和Greegorz“MaNa”Komincz是世界顶级玩家之二。但在神经网络驱动的AlphaStar面前,两人不堪一击。暴雪去年向人工智能研究人员开放了《星际争霸2》,这导致了计算机性能的巨大飞跃。

DeepMind已经掌握了国际象棋和围棋,分别是AlphaZero和AlphaGo。这些棋类游戏已经非常复杂了,地球上没有任何计算机可以靠蛮力计算出对弈中下一步落子。而像《星际争霸2》这样的即时战略视频游戏,在每个时刻的可能性方面都呈指数级增长。这展示了深度学习的力量。像AlphaStar这样的人工智能不必学习《星际争霸》每一场比赛中每一个可能来理解它。相反,它专注于成功的策略。

AlphaStar如何学习

AlphaStar之所以如此重要,是因为它的学习方式。它使用多种技术,DeepMind详细介绍了它的工作原理。

“我们从专业人士和玩家那里获得了很多比赛视频,我们试图通过观察人类玩家所处的情况来让AlphaStar了解。”DeepMind研究联合负责人Oriol Vinyals说道,“然后我们试图让它模仿这些举动。”

DeepMind也不只是用于专业游戏。该公司还关注在公开比赛中得分较高的选手。

但模仿训练只能创造AlphaStar最基本的迭代。 DeepMind说这个版本0.1 agent相当于一个白金段位的玩家。

为了给AlphaStar的职业比赛做准备,DeepMind必须使用其神经网络训练。

AlphaStar League

你怎样才能在某方面做得更好?答案就是学习和实践。 AlphaStart通过模仿学习来确定学习部分。然而,对于这种做法,DeepMind建立了它所谓的AlphaStar League。这是一个神经网络训练计划,不同版本的AlphaStar会在一周内不间断地互相打游戏。

这是现代机器学习的核心。 DeepMind为AI程序设置成功参数。诸如“赢得比赛”。然后每个AI agent都会做出决定,以实现这一目标。然后,获胜的AI将留在AlphaStar League中持续下去。

但训练远不止于此。例如,DeepMind还通过设置特定的agent试图在支持特定单位类型的情况下获胜,从而增加了一代又一代AlphaStar发生突变的可能性。

DeepMind将其AlphaStar agent设置为随机突变,并呈现赢得最多的代理的特征。这个过程非常有效,因为A.I.能够快速连续进行多场比赛。在一周或两周的训练结束时,AlphaStar已经玩了200年的《星际争霸II》。

但是计算机不会作弊吗?

DeepMind知道一些星际争霸玩家对计算机控制的对手持怀疑态度。它请来了星际争霸的专家来讨论比赛,并提出了社区一直以来心中疑惑的问题。这些专家关注的是AlphaStar实际上是如何玩和感知游戏的。例如,它能看透战争迷雾吗?对人类玩家来说,这就像一层面纱。或者仅仅是按键的速度比人手的实际移动速度快1000倍?

但DeepMind表示,它试图保持水平。它限制了AlphaStar的每分钟动作(APM),以确保计算机无法通过纯粹的速度获胜。

“总的来说,AlphaStar使用的APMs要比专业人士少得多。,”DeepMind联合负责人David Silver表示,“这表明它不是通过疯狂点击,而是通过做一些比这更聪明的事情来获胜。”

AlphaStar也没有超人的反应时间。

“我们测量了它对事物的反应速度。” Silver说,“如果你测量AlphaStar感知游戏之间的时间。从它观察正在发生的事情开始,然后必须处理它,到将它选择的内容传达给游戏。那个时间实际上接近350毫秒。这个反应时间对于人类玩家来说,已经是行动迟缓了。”

最后,DeepMind解释了AlphaStar如何可视化游戏世界。它没有看代码,也不像人类玩家那样移动摄像头。相反,它一直看的是缩放地图,但它无法透过战争迷雾或类似的东西看到。它只能看到地图中有单位的部分。但DeepMind表示,AlphaStar仍然以与人类玩家相同的方式分割其注意力经济。

AlphaStar确实输了一场比赛

直播主要集中在几周前AlphaStar与TLO和MaNa的五场比赛。但是在YouTube和Twitch上收看的观众面前,DeepMind确实与MaNa进行了复赛。而这正是MaNa赢下机器报仇雪恨的时候。

但是上次比赛相比,MaNa和AlphaStar的现场比赛与有一些变化。 DeepMind使用了AlphaStar的新原型版本,它实际上使用与玩家完全相同的相机视图。这意味着AlphaStar不能只是守着缩小的视角,它必须接近行动才能看到战斗的细节。

这个版本的AlphaStar也没有那么多时间训练。因此,它没有经历200年的AlphaStar联盟,而是接近20年的游戏时间。但即使在这种“有限”的体验下,它仍然展示了让所有人震惊的策略。

“AlphaStar比赛的方式与我以前的经历完全不同。”MaNa说。 “这是一种与众不同的星际争霸。这是一个人从AI那里学到新东西的好机会。”

这是DeepMind最值得骄傲的事情之一。 专业玩家可以通过与计算机对战来获取新的战略构想,这是以前任何人都不会想到的。

“说到底,和人工智能比赛是一件很棒的事情。”Vinyals说。 “但是由于我们训练AlphaStar的方式,一些动作 - 比如过度饱和的探测器 - 也许这可能挑战一些在顶级玩家中流传的智慧。”

 

Emma Chou

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com)

 

责任编辑: 3976DBC

责任编辑: 3976DBC
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com