谷歌围棋AI5-0横扫欧洲冠军 3月挑战李世石奖金百万美元

资讯

谷歌围棋AI5-0横扫欧洲冠军 3月挑战李世石奖金百万美元

　　北京时间1月28日，《Nature》杂志以封面论文的形式，介绍了 Google DeepMind 开发的人工智能程序 AlphaGo，它击败了欧洲围棋冠军樊麾，并将在3月和世界冠军李世石对战！Google特地为此准备了100万美元奖金。这一消息引爆了围棋朋友圈。

　　从国际象棋的经验看，1997 年人工智能第一次打败人类后，2006 年成为了人类在国际象棋的绝唱，自此之后人类没有战胜过最顶尖的人工智能国际象棋选手。在 AlphaGo 打败了欧洲围棋冠军后，世界冠军李世乭和 AlphaGo 的对弈，是否会成为人类在围棋领域的绝唱？

　　>>> AlphaGo胜樊麾棋谱

　　AlphaGo 给围棋带来了新方法，它背后主要的方法是 Value Networks（价值网络）和 Policy Networks（策略网络），其中 Value Networks 评估棋盘位置，Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练，结合人类专家比赛中学到的监督学习，以及在自己和自己下棋（Self-Play）中学到强化学习。这不需要任何前瞻式的 Lookahead Search，神经网络玩围棋游戏的能力，就达到了最先进的蒙特卡洛树搜索算法的级别（这种算法模拟了上千种随机自己和自己下棋的结果）。我们也引入了一种新搜索算法，这种算法将蒙特卡洛模拟和价值、策略网络结合起来。
　　通过这种搜索算法，AlphaGo 在和其他围棋程序比赛的胜率达到了 99.8%，并以 5：0 的比分击败了人类欧洲围棋冠军樊麾。这是电脑程序第一次在全尺寸（19X19）的棋盘上击败了人类专业选手，这一成果过去认为至少需要 10 年才能实现。
欧洲围棋冠军樊麾：2005 年樊麾被正式聘任为法国围棋队和少年围棋队的总教练，那一年的他才24岁。他是2013、2014和2015 欧洲围棋赛冠军。

　　通过将 Value Networks、Policy Networks 与树搜索结合起来，AlphaGo 达到了专业围棋水准，让我们看到了希望：在其他看起来无法完成的领域中，AI 也可以达到人类级别的表现！

　　DeepMind 团队对围棋项目的介绍：
　　论文简介
　　所有完全信息（perfect information）博弈都有一个最优值函数（optimal value function），，它决定了在所有参与博弈的玩家都做出了完美表现的情况下，博弈的结果是什么：无论你在棋盘的哪个位置落子（或者说是状态s）。这些博弈游戏是可能通过在含有大约个可能行动序列（其中b是博弈的宽度，也就是在每个位置能够移动的步数，而d是博弈的深度）的搜索树（search tree）上反复计算最优值函数来解决的。在象棋（）和围棋之类（）的大型博弈游戏中，穷尽地搜索是不合适的，但是有效搜索空间是可以通过2种普遍规则得到降低的。首先，搜索的深度可能通过位置估计（position evaluation）来降低：在状态s时截取搜索树，将随后的子树部分（subtree）替换为根据状态s来预测结果的近似的值函数。这种方法使程序在象棋、跳棋、翻转棋（Othello）的游戏中表现超越了人类，但人们认为它无法应用于围棋，因为围棋极其复杂。其次，搜索的宽度可能通过从策略概率——一种在位置s时表示出所有可能的行动的概率分布——中抽样行动来降低。比如，蒙特卡洛法通过从策略概率p中为博弈游戏双方抽样长序列的行动来让搜索达到深度的极限、没有任何分支树。将这些模拟结果进行平均，能够提供有效的位置估计，让程序在西洋双陆棋（backgammon）和拼字棋（Scrabble）的游戏中展现出超越人类的表现，在围棋方面也能达到低级业余爱好者水平。

网友评论（0条）

谷歌围棋AI5-0横扫欧洲冠军 3月挑战李世石奖金百万美元

相关推荐