Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了280,599,635字

最近回复

该文章投稿至Nemo社区   资讯  板块 复制链接


Alphastar再登Nature,战网狂虐99.8%《星际争霸II》人类玩家

发布于 2019/10/31 13:03 594浏览 0回复 3,062

星际争霸2上达到了最高的Grandmaster(宗师)段位。

AlphaStar成为了第一款在无限制情况下跻身电子竞技顶级联赛的AI。

今天,Deepmind在《自然》杂志发布最新研究:在不设限制的情况下,以Grandmaster级别玩一场完整游戏,并放出了相关游戏视频和论文,相关数据显示,AlphaStar在战网上的排名已超越99.8%的活跃玩家。

论文链接:

https://www.nature.com/articles/s41586-019-1724-z

年初,由DeepMind构建的另一算法AlphaStar击败了《星际争霸Ⅱ》的顶级人类选手MaNa和TLO。不同于围棋,《星际争霸Ⅱ》是一款即时战略而非回合制的游戏,玩家的信息隐蔽性和移动自由性较围棋更高。之后,Deepmind设立了更宏伟的目标:在不设限制的情况下,以Grandmaster级别玩一场完整游戏。

Deepmind也发布了相关博客,详细叙述了这次的新研究,称在几个关键方面超越了先前的工作:

1、AlphaStar现在通过与人类相同的摄像头视野观察地图,以及对AI动作频率进行了更严格限制(与星际争霸专业Dario“TLO”Wünsch合作)。

2、AlphaStar现在可以与星际争霸中三大种族——人族、神族和虫族进行一对一的对抗。

3、训练过程完全自动化,并且仅从通过监督学习培训的智能体开始,而不是从以前的实验中受过培训的智能体。

4、AlphaStar在官方游戏服务器Battle.net上使用与人类玩家相同的地图和条件进行游戏。所有游戏重播均已放出。

Deepmind称,使用通用的机器学习技术(包括神经网络,通过自己与自己游戏进行强化学习,多智能体学习和模仿学习)。从《自然》杂志中发表的论文可以看到,AlphaStar在Battle.net平台上排名高于99.8%的活跃玩家,并且在星际争霸II的神族、人族和虫族都达到了宗师级水平。

基于学习的系统和自我博弈是很好的研究概念,这促进了人工智能的显着进步。1992年IBM的研究人员开发了TD-Gammon,它将基于学习的系统与神经网络相结合来玩西洋双陆棋。TD-Gammon并非根据编码规则或无穷举例法来玩游戏,而是被设计为使用强化学习,通过反复试验来找出如何以最大化获胜概率的方式玩游戏。

它的开发人员使用自玩博弈的概念来使系统变得更加稳定:通过与自身进行对抗,系统越来越精通游戏,当与数据结合起来时,基于学习的系统和自我游戏的概念将提供开放式学习的强大范例。

自那时以来的许多研究取得的进展表明,这些方法可以扩展到其他有待突破的领域。例如,AlphaGo和AlphaZero确立了一种系统,可以在围棋、国际象棋上实现超越人类的表现,而OpenAI Five和DeepMind的FTW则在Dota 2和Quake的现代游戏中展示了全新的能力。

DeepMind研究了开放式学习的潜力和局限性,进而能够开发稳定而灵活的AI,以应对更加复杂的领域。《星际争霸》就是验证并发展这些方法的绝佳训练场,因为玩家必须使用有限的信息来做出实时且关键的决定,从而在多个层次和时间尺度上对战局产生影响。

尽管取得了成功,但自玩游戏仍存在众所周知的缺点。其中最大的问题是——遗忘:一个与自博弈争的智能体可能会不断进步,但也可能会很快忘记如何与先前的自身竞争。遗忘会造成不断“追逐尾巴”的循环,而永远不会收敛或取得真正的进步。

例如,在游戏剪刀石头布中,智能体目前可能更喜欢出“石头”。随着自我玩法的发展,新的智能体将选择转用“布”,因为它会赢得胜利。稍后,智能体将切换到“剪刀”上,最后回到“石头”,从而形成一个循环。虚拟自我游戏-与以前所有策略综合对抗-是应对这一挑战的一种解决方案。

Deepmind称,在首次将StarCraft II开源作为研究环境之后发现,即使虚拟的自玩技术也不足以产生强大的智能体,因此着手开发更好的通用解决方案。

Deepmind在《自然》杂志发布论文的中心思想,是将虚构的自学游戏这一概念扩展到一组智能体–联盟。

通常,在自学游戏中,每个智能体都希望最大程度地赢得对手。但这其实只是解决方案中的一部分。现实世界中,尝试在《星际争霸》中精进的玩家一般会选择与朋友合作,训练特定的策略,一起获取胜利。因此,你的战友不一定在与所有对手对抗中竞争,而是帮助你发现你的缺点,以使整个团队更加强大。合作的主要策略是,不仅仅要赢得胜利。一只强大的团队不仅需要与所有人抗衡的“核心”智能体,也需要“剥削者”智能体,他们专注于通过揭示其缺陷而不是最大程度地帮助“核心”智能体变得更强大。通过这种训练方法,整个队伍以端到端的全自动方式学习了复杂的《星际争霸II》策略。

在星际争霸的复杂环境中,探索是另一个关键挑战。每个智能体在每个步骤中最多可以执行1026种操作,并且该智能体必须先进行数千次操作之后,然后才能知道它是赢了还是输了。

在如此庞大的方案处理领域中,寻找制胜战略确实是一项挑战。即使拥有强大的自我博弈系统,如果没有一些先验知识,在如此复杂的环境中,系统几乎就不可能制定出成功的策略。

学习人的策略,并确保智能体在整个游戏过程中不断学习这些策略,这是提升AlphaStar能力的关键。为此,Deepmind使用了模仿学习,再加上基于语言建模的高级神经网络的体系结构和技术,来制定初始策略,使智能体把游戏玩得比84%的活跃玩家更好。另外deepmind还使用了一个潜在变量,该变量确定了策略并对人类游戏的开局动作分布进行编码,这有助于保留一些开局的高级策略。然后,AlphaStar在整个自我游戏过程中使用一种distillation手段,这种方法使AlphaStar可以在单个神经网络中展现许多策略(每个种族一个)。在评估过程中,神经网络不以任何特定的开局动作为条件。

视频链接:

https://youtu.be/KPLYhRBCcvk

此外,Deepmind称,由于星际争霸具有巨大的动作空间,许多先前的强化学习方法均无效。尤其是AlphaStar使用了一种新的算法进行政策外强化学习(Off-Policy),使其能够在游戏中有效地更新策略。

视频链接:

https://youtu.be/xP7LwZxq0ss

有助于现实“战略推理”研究,已被五角大楼看中

利用自我学习智能体的开放式学习系统在越来越具有挑战性的领域中取得了令人印象深刻的结果。deepmind称,这多亏了模仿学习,强化学习和联盟的进步,才得以训练出AlphaStar Final,这是在整个《星际争霸II》完整游戏中达到宗师级水平的智能体,如上面的视频所示。该智能体使用游戏平台战网匿名在线玩游戏,并通过三场《星际争霸II》竞赛达到了宗师级水平。

AlphaStar通过摄像头界面进行播放,具有与人类玩家类似的信息,并且对其动作速度有所限制,以使其与人类玩家具有可比性。界面和限制都已获专业玩家批准,因此这些结果为证明通用学习技术可以扩展AI系统提供了有力的证据,它们能够在涉及多个参与者的复杂动态环境中工作。

总体而言,Deepmind称,用于开发AlphaStar的技术将有助于进一步提高AI系统的安全性和鲁棒性,并且可能有助于推进在现实世界中的研究。比如,五角大楼中负责开发商业技术的国防创新部主任Michael Brown表示,利用AI实现“战略推理”是他们的重点研究方向之一。


本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/453/693.htm]

点赞(0)
点了个评