谷歌DeepMind的AlphaStar AI大秀智商横扫《星级争霸2》职业玩家

财经前瞻网 2019-01-26 17:47

谷歌DeepMind的AlphaStar AI大秀智商横扫《星级争霸2》职业玩家

在理解和玩复杂的游戏时，计算机比以往任何时候都更加复杂。作为人工智能领导者之一的DeepMind今天通过其最新的AI agent AlphaStar再次证明这一点。在直播期间，这个程序与两名《星际争霸II》职业选手中分别进行了五场比赛，AlphaStar横扫了所有10场比赛。

《星际争霸II》职业选手Dario“TLO”Wünsch和Greegorz“MaNa”Komincz是世界顶级玩家之二。但在神经网络驱动的AlphaStar面前，两人不堪一击。暴雪去年向人工智能研究人员开放了《星际争霸2》，这导致了计算机性能的巨大飞跃。

DeepMind已经掌握了国际象棋和围棋，分别是AlphaZero和AlphaGo。这些棋类游戏已经非常复杂了，地球上没有任何计算机可以靠蛮力计算出对弈中下一步落子。而像《星际争霸2》这样的即时战略视频游戏，在每个时刻的可能性方面都呈指数级增长。这展示了深度学习的力量。像AlphaStar这样的人工智能不必学习《星际争霸》每一场比赛中每一个可能来理解它。相反，它专注于成功的策略。

AlphaStar如何学习

AlphaStar之所以如此重要，是因为它的学习方式。它使用多种技术，DeepMind详细介绍了它的工作原理。

“我们从专业人士和玩家那里获得了很多比赛视频，我们试图通过观察人类玩家所处的情况来让AlphaStar了解。”DeepMind研究联合负责人Oriol Vinyals说道，“然后我们试图让它模仿这些举动。”

DeepMind也不只是用于专业游戏。该公司还关注在公开比赛中得分较高的选手。

但模仿训练只能创造AlphaStar最基本的迭代。 DeepMind说这个版本0.1 agent相当于一个白金段位的玩家。

为了给AlphaStar的职业比赛做准备，DeepMind必须使用其神经网络训练。

AlphaStar League

你怎样才能在某方面做得更好?答案就是学习和实践。 AlphaStart通过模仿学习来确定学习部分。然而，对于这种做法，DeepMind建立了它所谓的AlphaStar League。这是一个神经网络训练计划，不同版本的AlphaStar会在一周内不间断地互相打游戏。

这是现代机器学习的核心。 DeepMind为AI程序设置成功参数。诸如“赢得比赛”。然后每个AI agent都会做出决定，以实现这一目标。然后，获胜的AI将留在AlphaStar League中持续下去。

但训练远不止于此。例如，DeepMind还通过设置特定的agent试图在支持特定单位类型的情况下获胜，从而增加了一代又一代AlphaStar发生突变的可能性。

DeepMind将其AlphaStar agent设置为随机突变，并呈现赢得最多的代理的特征。这个过程非常有效，因为A.I.能够快速连续进行多场比赛。在一周或两周的训练结束时，AlphaStar已经玩了200年的《星际争霸II》。

但是计算机不会作弊吗?

DeepMind知道一些星际争霸玩家对计算机控制的对手持怀疑态度。它请来了星际争霸的专家来讨论比赛，并提出了社区一直以来心中疑惑的问题。这些专家关注的是AlphaStar实际上是如何玩和感知游戏的。例如，它能看透战争迷雾吗?对人类玩家来说，这就像一层面纱。或者仅仅是按键的速度比人手的实际移动速度快1000倍?

但DeepMind表示，它试图保持水平。它限制了AlphaStar的每分钟动作(APM)，以确保计算机无法通过纯粹的速度获胜。

“总的来说，AlphaStar使用的APMs要比专业人士少得多。，”DeepMind联合负责人David Silver表示，“这表明它不是通过疯狂点击，而是通过做一些比这更聪明的事情来获胜。”

AlphaStar也没有超人的反应时间。

“我们测量了它对事物的反应速度。” Silver说，“如果你测量AlphaStar感知游戏之间的时间。从它观察正在发生的事情开始，然后必须处理它，到将它选择的内容传达给游戏。那个时间实际上接近350毫秒。这个反应时间对于人类玩家来说，已经是行动迟缓了。”

最后，DeepMind解释了AlphaStar如何可视化游戏世界。它没有看代码，也不像人类玩家那样移动摄像头。相反，它一直看的是缩放地图，但它无法透过战争迷雾或类似的东西看到。它只能看到地图中有单位的部分。但DeepMind表示，AlphaStar仍然以与人类玩家相同的方式分割其注意力经济。

AlphaStar确实输了一场比赛

直播主要集中在几周前AlphaStar与TLO和MaNa的五场比赛。但是在YouTube和Twitch上收看的观众面前，DeepMind确实与MaNa进行了复赛。而这正是MaNa赢下机器报仇雪恨的时候。

但是上次比赛相比，MaNa和AlphaStar的现场比赛与有一些变化。 DeepMind使用了AlphaStar的新原型版本，它实际上使用与玩家完全相同的相机视图。这意味着AlphaStar不能只是守着缩小的视角，它必须接近行动才能看到战斗的细节。

这个版本的AlphaStar也没有那么多时间训练。因此，它没有经历200年的AlphaStar联盟，而是接近20年的游戏时间。但即使在这种“有限”的体验下，它仍然展示了让所有人震惊的策略。

“AlphaStar比赛的方式与我以前的经历完全不同。”MaNa说。 “这是一种与众不同的星际争霸。这是一个人从AI那里学到新东西的好机会。”

这是DeepMind最值得骄傲的事情之一。专业玩家可以通过与计算机对战来获取新的战略构想，这是以前任何人都不会想到的。

“说到底，和人工智能比赛是一件很棒的事情。”Vinyals说。 “但是由于我们训练AlphaStar的方式，一些动作 - 比如过度饱和的探测器 - 也许这可能挑战一些在顶级玩家中流传的智慧。”