40天 零基础 从入门到封神 自学版本“阿法零”震惊棋界

编辑:小石 2017-10-19 19:29

又是一个凌晨,《Nature》杂志,DeepMind团队再次爆出惊天新闻。


全新版本,完全脱离人类经验,全新算法驱动,被命名为AlphaGo Zero的新版本AI。从零开始,创造了3小时入门,36个小时碾压对阵李世石的AlphaGo v18版本,21天媲美Master,40天对战Master胜率达到90%的惊人成绩。


传说中的自学成才版一夜成真,突如其来的大新闻,难免让人们的第一反应变得多愁善感。


作为关键词,“柯洁 人类太多余了”一夜之间成为新浪微博热搜。


然而身处DeepMind团队的黄士杰(Aja Huang)博士并不这么认为

从围棋技术的角度來说,AlphaGo Zero所发现的圍棋观念、下法与定式等等,绝大部分与人类的围棋观念是一致的,这也间接呼应了人类几千年以來围棋研究的价值。



《Nature》论文显示,自学版本的AlphaGo Zero仅仅只需4个TPU,远远小于击败李世石版本的48个。算法上,AlphaGo Zero最重大的改动,是将原版本AlphaGo使用的策略网络和价值网络,合二为一。

整合后的神经网络表现堪称完美。从零开始的训练过程中,三天里生成490万盘自我对局,每个MCTS(蒙特卡洛树)使用1600次模拟,相当于每下一步思考0.4秒。三天后,AlphaGo Zero的实力已经胜过了去年三月份击败李世石的AlphaGo Lee(v18)版本,而v18版本训练了数个月时间。



与论文一同发表的,是80张涵盖AlphaGo Zero不同阶段实力的棋谱包。从令人捧腹大笑的入门水平,到高山仰止的大师风范,应有尽有。

腾讯围棋(野狐)第一时间将这些棋谱放到网站和棋谱库中,供棋迷学习欣赏。并邀请野狐金牌解说张学斌六段,配合国内顶尖围棋AI“绝艺”,选登其中对局,为棋迷分享解读。




仅谈第一印象,职业棋手们普遍反映,“自学成才”的AlphaGo Zero更为平易近人。五月份对战柯洁后,AlphaGo v22版放出的55盘自战对局,令在场的世界冠军们惊呼“来自未来的棋谱”。如今自我摸索的AlphaGo Zero,招法反倒更合理,更“易懂”,与人类产生更多共鸣。


当然相对于围棋AI高山仰止的造诣,第一印象无异于管中窥豹。接下来的很长时间里,对AlphaGo Zero版80局的解读,势必将成为棋界的重中之重。新时代的大门缓缓开启,无论围棋,还是人类,都必须开足马力跟上日新月异的黑科技,把握住未来的脉搏。