AlphaZero:在国际象棋,将棋和围棋的盛大游戏中崭露头角

时间:2019-03-10 14:05:40 阅读:5次

   2017年末,我们推出了AlphaZero,这是一个单独的系统,从头开始教你如何掌握国际象棋,日本国际象棋和Go的游戏,在每种情况下击败世界冠军计划。我们对初步结果感到非常兴奋,并很高兴看到国际象棋界成员的回应,他们在AlphaZero的游戏中看到了一种突破性的,高度动态的和“非传统的”游戏风格,与之前的任何国际象棋游戏引擎都不同

  今天,我们很高兴地介绍AlphaZero的完整评估,该评估发表在Science(开放获取版本)杂志上,该期刊确认并更新了这些初步结果。它描述了AlphaZero如何快速学习每个游戏,成为历史上最强大的玩家,尽管从随机游戏开始训练,没有内置的领域知识,但游戏的基本规则。

  科学

国际象棋,推理的果蝇
Garry Kasparov on AlphaZero
Chess,一个推理的果蝇

  我无法掩饰我的满足感,它以非常有活力的风格演绎,就像我自己的风格一样!“

Garry Kasparov,前世界国际象棋冠军

  这种重新学习每场比赛的能力,不受规范的限制人类游戏,带来独特,非正统,但富有创造力和动态的游戏风格。国际象棋大师马修·萨德勒和女性国际大师娜塔莎·里根已经分析了数以千计的AlphaZero国际象棋游戏,他们即将出版的书籍Game Changer(国际象棋新品,2019年1月)表示,它的风格与任何传统的国际象棋引擎不同。“这就像发现秘密一样过去一些伟大球员的笔记本,“马修说。”

play AlphaZero:播放器和潜在的

  传统的国际象棋引擎 - 包括世界计算机国际象棋冠军Stockfish和IBM突破性的Deep Blue--依赖于成千上万的规则和由强大的人类手工制作的启发式试图解释游戏中每个可能性的玩家。 Shogi程序也是游戏特定的,使用与国际象棋程序类似的搜索引擎和算法。

   AlphaZero采用了一种完全不同的方法,用深度神经网络和通用算法取代了这些手工制作的规则,这些算法对基本规则之外的游戏一无所知。

全屏 fullscreen_mobile 在国际象棋中,AlphaZero仅用了4个小时便首次超越了Stockfish;在shogi,AlphaZero在2小时后首次超越Elmo;在Go中,AlphaZero首次超越了AlphaGo版本,该版本在30小时后击败了传奇玩家Lee Sedol。注意:每个训练步骤代表4,096个棋盘位置。

  为了学习每个游戏,一个未经训练的神经网络通过一个称为强化学习的试验和错误过程来对抗自己数百万个游戏。起初,它完全随机播放,但随着时间的推移,系统从胜利,损失和绘制中学习,以调整神经网络的参数,使其更有可能在未来选择有利的动作。网络所需的培训数量取决于游戏的风格和复杂程度,国际象棋大约需要9个小时,棋子大约需要12个小时,Go需要13天。

  其中一些举动,例如将国王推向董事会的中心,反对将棋理论,并且 - 从人的角度来看 - 似乎使AlphaZero处于危险的位置。但令人难以置信的是,它仍然掌控着董事会。其独特的游戏风格向我们展示了游戏的新可能性。“

Yoshiharu Habu,9-dan职业,历史上唯一一位持有所有七个主要将棋冠军的球员

  训练有素的网络用于指导搜索算法 - 称为蒙特卡罗树搜索(MCTS) - 以选择游戏中最有希望的移动。对于每次移动,AlphaZero仅搜索传统国际象棋引擎所考虑的一小部分位置。例如,在国际象棋中,它在国际象棋中每秒仅搜索6万个位置,相比之下,对于Stockfish大约有6千万个位置。

全屏 fullscreen_mobile

  经过全面训练的系统针对国际象棋(Stockfish)和shogi(Elmo)最强大的手工制作引擎进行了测试,以及我们之前的自学系统AlphaGo Zero,最强的Go玩家。

每个程序都在他们设计的硬件上运行。 Stockfish和Elmo使用44个CPU核心(如TCEC世界锦标赛),而AlphaZero和AlphaGo Zero使用一台机器,配备4个第一代TPU和44个CPU核心。第一代TPU的推理速度大致类似于商用硬件,如NVIDIA Titan V GPU,尽管这些架构不能直接比较。

所有比赛均使用每场比赛3小时的时间控制,每次移动额外15秒。
下载数百AlphaZero的游戏
下载数百个AlphaZero的游戏

  在每次评估中,AlphaZero都令人信服地击败了对手:

在国际象棋中,AlphaZero击败了2016 TCEC(第9季)世界冠军Stockfish,赢得了155场比赛,仅输掉了1000场比赛中的6场比赛。为了验证AlphaZero的稳健性,我们还开展了一系列从人类普通开端开始的比赛。在每个开场,AlphaZero击败了Stockfish。我们还参加了从2016年TCEC世界锦标赛中使用的一系列开局位置开始的比赛,以及针对最新开发版本的Stockfish的一系列额外比赛,以及使用强劲开场书的Stockfish变种。在所有比赛中,AlphaZero赢了。
在将棋中,AlphaZero击败了2017年CSA世界冠军版Elmo,赢得了91.2%的比赛。在Go中,AlphaZero击败了AlphaGo Zero,赢得了61%的比赛。
全屏 fullscreen_mobile

  然而,这是AlphaZero玩这些游戏的风格,玩家可能会发现这些游戏最吸引人。例如,在国际象棋中,AlphaZero在其自我发挥训练中独立发现并演奏了常见的人类图案,如开口,国王安全和典当结构。但是,由于自学成才并因此不受传统观念的影响,它还发展了自己的直觉和策略,增加了一系列令人兴奋的新颖想法,增加了几个世纪以来对国际象棋战略的思考。

  一个多世纪以来,国际象棋一直被用作人类和机器认知的罗塞塔石碑。 AlphaZero通过做一些非凡的事情,更新了古老的棋盘游戏和尖端科学之间的显着联系。“

Garry Kasparov,前世界国际象棋冠军

  玩家将注意到的第一件事是AlphaZero的风格,马修说萨德勒 - “它的作品以目的和力量围绕对手的国王的方式”。他说,支撑着AlphaZero的高度动态游戏,最大限度地提高了自身作品的活动性和移动性,同时最大限度地减少了对手作品的活动和移动性。与直觉相反,AlphaZero似乎对“材料”的重视程度较低,这一想法是现代游戏的基础,每一件作品都具有价值,如果一个玩家在棋盘上的棋子价值高于另一个,那么他们就具有物质优势。相反,AlphaZero愿意在游戏早期牺牲材料,以获得长期收获的收益。

  科学

掌握棋盘游戏
Deep Blue联合创作者Murray Campbell的观点
掌握棋盘游戏

  “令人印象深刻的是,它设法将其戏剧风格强加于各种各样的位置和开口,”马修说道,他也观察到它从一开始就以非常人性化的方式进行了非常刻意的演绎。一贯的目的“。

  “传统发动机特别强大,几乎不会出现明显错误,但在面对没有具体和可计算解决方案的位置时可能会漂移,”他说。 “正是在这样的位置,AlphaZero才能实现'感觉','洞察'或'直觉'。”

  其影响远远超出了我心爱的棋盘......这些自学成才的专家机器不仅表现得非常好,而且我们实际上可以从他们所产生的新知识中学习。“

Garry Kasparov,前世界国际象棋冠军

  这种独特的能力,在其他传统国际象棋引擎中看不到,已经被利用给国际象棋迷们最近的关于Magnus Carlsen和Fabiano Caruana之间世界国际象棋锦标赛比赛的见解和评论,并将在Game Changer中进一步探讨。 “看看AlphaZero的分析与顶级国际象棋引擎甚至顶级大师级游戏的分析有何不同,这真是令人着迷,”娜塔莎·里根说。 “AlphaZero可以成为整个社区的强大教学工具。”

   AlphaZero的教诲与我们在2016年AlphaGo与传奇冠军Lee Sedol的比赛中所看到的相呼应。在比赛期间,AlphaGo发挥了许多极具创造性的胜利动作,包括在第二场比赛中取得37分,这推翻了数百年的思考。这些动作 - 以及其他许多动作 - 已经被包括Lee Sedol本人在内的所有级别的玩家研究过,他们对Move 37说:“我认为AlphaGo是基于概率计算的,它只是一台机器。但当我看到这一举动时,我改变了主意。当然AlphaGo很有创意。“

  与Go一样,我们对AlphaZero对国际象棋的创造性反应感到兴奋,自从计算机时代开始以来,人工智能面临着巨大的挑战,包括Babbage,Turing,Shannon和von Neumann在内的早期开拓者都在尝试设计国际象棋程序。但AlphaZero不仅仅是象棋,棋牌或围棋。为了创建能够解决各种现实问题的智能系统,我们需要它们灵活并适应新情况。虽然在实现这一目标方面取得了一些进展,但在人工智能研究方面仍然是一项重大挑战,其系统能够以非常高的标准掌握特定技能,但在呈现甚至略微修改的任务时往往会失败。

   AlphaZero掌握三种不同复杂游戏的能力 - 可能是任何完美的信息游戏 - 是克服这一问题的重要一步。它表明单个算法可以学习如何在一系列设置中发现新知识。而且,尽管还处于早期阶段,AlphaZero的创意见解加上我们在AlphaFold等其他项目中看到的令人鼓舞的结果,让我们对创建通用学习系统的使命充满信心,有朝一日我们会帮助我们找到一些新的解决方案。最重要和最复杂的科学问题。


阅读科学论文
下载开放获取版本的论文[PDF]

阅读Garry Kasparov随附的科学社论
阅读深蓝联合创始人默里坎贝尔在“科学”杂志上发表的观点文章。
下载由大师马修·萨德勒选择的前20名AlphaZero-Stockfish游戏[.zip]

下载前10名由Shogi Master Yoshiharu Habu选择的AlphaZero-Elmo游戏[.zip]
下载210 AlphaZero-Stockfish国际象棋游戏和100个AlphaZero-Elmo棋面游戏
下载随附的艺术作品
了解有关AlphaZero的更多信息Book Game Changer(国际象棋新品,2019年1月)

   这项工作由David Silver,Thomas Hubert,Julian Schrittwieser,Ioannis Antonoglou,Matthew Lai,Arthur Guez,Marc Lanctot,Laurent Sifre, Dharshan Kumaran,Thore Graepel,Timothy Lillicrap,Karen Simonyan和Demis Hassabis。

AlphaZero:在国际象棋,将棋和围棋的盛大游戏中崭露头角所属专题:崭露专题 头角专题 《AlphaZero:在国际象棋,将棋和围棋的盛大游戏中崭露头角》链接:http://www.zhouchuanxiong.net/1068

AlphaZero:在国际象棋,将棋和围棋的盛大游戏中崭露头角相关文章

  • AlphaZero:在国际象棋,将棋和围棋的盛大游戏中崭露头角