AlphaGO迭代 人机围棋对决迎“终章”

21世纪经济报道 汪传鸿 乌镇报道
2017-05-24 07:00

这一版本的AlphaGo进行了大量的“自我对弈棋局”,这一过程循环往复,积累了大量的数据。

柯洁苦笑着摇了摇头,不时和坐其对面、代AlphaGO执子的黄士杰博士谈两句。随后,他将眼前的黑棋子全部收拢,装进棋盒后,起身离开了座位。

5月23日下午,上午10点半开始的这场围棋赛,在持续四个多小时后终于落幕,当今围棋界排名世界第一的柯洁0:1 败于AlphaGO。这原本是一场五至六个小时的围棋对决,但由于AlphaGO异于人类的落子速度,时间得以大大缩短。

柯洁赛后坦承,输给AlphaGO在意料之中,但其意料之外的是,新版本的AlphaGO和去年战胜韩国顶级棋手李世石的版本,几乎是两个完全不同的“人”。

AI再下一城

柯洁的“悲情”在比赛前一天晚上已有显露,22日晚上,柯洁通过个人微博发文称,“AI进步之快远超我们的想象”,其相信“未来是属于人工智能”的。

今年年初,柯洁已同AlphaGO扮演的马甲“Master”有过交手,柯洁均以落败而告终。“第一盘不知对手是谁,心态还好,后面因为知道对手不是人,心态就坏了。当时也吃不下饭,后来就住院了。”柯洁在采访中称,人机对决给了他更大压力。

多位业内人士认为,柯洁在当天的比赛中发挥出了正常水平。围棋专业人士潘达告诉记者,当天“柯洁发挥还可以,布局有备而来,前半盘基本达成先捞实地的预定目标”。但是AlphaGo整盘棋表现得相当稳定。

最终,柯洁以约四分之一子的劣势输给了AlphaGo。尽管AlphaGo是以微弱优势取胜,但柯洁在陷入逆境之后,即知道对于不会犯错的AlphaGo而言,拿下胜利只是时间的问题。

赛后,柯洁在接受媒体采访时也表示,此前其总结AlphaGo的弱点在于,“非常贪恋实地”,因此其制定的策略是“贯穿先捞后起”,但开局后在有些地方反而被阿尔法狗先捞实地,导致一下陷入了被动。柯洁称,通过第一局比赛,未能找出AlphaGo的破绽。

潘达告诉记者,目前版本的AlphaGo稳定性明显好于对战李世石的版本,但“具体实力进步了多少,一盘棋不能说明问题”。

柯洁坦承,输掉比赛在其意料之中。赛前,包括聂卫平在内的重量级棋手均预测,柯洁取胜AlphaGo的概率在10%左右,此外大家认为,若柯洁能够赢下一场比赛,则可作为载入围棋历史的事件。

两天之后,柯洁将再度迎战AlphaGo。柯洁则早已在赛前宣布,同AlphaGO的三场对决,也将是其最后三场人机大战。

人机对决无悬念?

尽管输棋在意料之中,但柯洁仍惊异于一年以后AlphaGo发生的变化。

恰如DeepMind创始人兼CEO哈萨比斯在当天所说,AlphaGo不是一个预编程的围棋程序,而是采用人类相似的方式进行学习。据悉,AlphaGo所采用的机器学习,结合了监督学习和强化学习。首先,AlphaGo搭建了一个策略网络(policy network),对所有可落子区域进行概率分布,并且训练出一个价值网络(value network)对自我对弈进行预测。

早期AlphaGo仍通过学习六段以上的围棋选手下法来进行学习,但如今版本的AlphaGo可怕之处在于,强大的自我迭代和更新能力。

上述基础上,这一版本的AlphaGo进行了大量的“自我对弈棋局”,这一过程循环往复,积累了大量的数据。当天比赛的解说嘉宾华以刚,在白棋的一个落子后,也忍不出感叹“AlphaGo对于落子效率的高度重视”。

如果说在AlphaGo、李世石的对决中,外界仍以支持人类和支持机器形成两大派别,那么在AlphaGo和柯洁的对决中,这几乎已经是一个失去了悬念的答案。“很荣幸和AlphaGo对决,接下来我仍将全力以赴。”柯洁在赛后说。

他在赛后再度表示,当天比赛让他发现了围棋下法的更多可能性。数千年以来,历史留下了关于围棋的无数玩法和总结,但AlphaGo的出现使得不少固有的观念被打破。不少棋手在当天观棋时感叹,AlphaGo的下法突破了个人对于围棋的理解。

此次围棋峰会上,还将开展多位棋手对决AlphaGo的“群战”,以及“棋手+AlphaGo”的混搭对决。施密特将这场峰会定义为“人机合作时代的开启”。“去年我在韩国就说,不管胜负如何,人性终将获胜。电脑有自己擅长的事情,人类有自己的专长。”谷歌母公司Alphabet执行董事长施密特在当天赛前的致辞上称。

早在AlphaGo对决韩国棋手李世石时,即有不少业内人士向记者评述:谷歌通过AlphaGo完成了一起全球性的AI普及,并且树立了谷歌之于AI在普罗大众心目中的地位。而通过AlphaGo和柯洁的对决,谷歌再度深化了这一过程。

(编辑:黄锴,邮箱:huangk@21jingji.com)

X

分享成功