围棋“人机大战”首轮3月9日于首尔结束 它1∶0他
北京时间3月9日,李世石VS谷歌围棋AlphaGo的人机大战如约而至。在韩国首尔四季酒店,人工智能迈出了划时代的一步,Alpha-Go执白中盘战胜当今世界围棋第一人李世石,暂时以1比0领先。
在这场人类智商与人工智能的终极较量中,人类一上来就阵地失守!双方将在3月10日进行五番棋的第二场对局,李世石能扳回一局,捍卫人类最后的尊严吗?
赛前改口一语成谶
2016年1月底,当谷歌围棋软件阿尔法“狗”(AlphaGo)5比0胜欧洲围棋冠军樊麾二段的消息在《自然》杂志公开后,《自然》杂志写道:“面对谷歌围棋AI,人类最后的智力骄傲崩塌了。”3月9日,近十年来获得世界冠军最多(14个)的李世石九段在对AlphaGo的五番棋比赛首局中落败,人类智力骄傲真的像是要崩塌了。
人工智能分别在20年前和10年前打败了国际象棋和象棋的顶尖职业棋手,但在围棋领域,一直被认为人工智能还只是业余水准,要想战胜人类高手仍然遥遥无期。2015年10月,谷歌AlphaGo与欧洲围棋冠军樊麾二段进行了一场秘密五番棋大战,樊麾0比5大败,顿时成为棋界热议话题。在经历短暂的震惊甚至惶恐之后,职业高手们渐渐回归理性,一致认可阿尔法“狗”的实力仍停留在业余高手阶段,尚不具备与职业高手对抗的能力。“神猪”罗洗河九段甚至放言:可以让AlphaGo四个子。
此次李世石与阿尔法“狗”的五番棋大战引发了棋界内外的关注热潮,在3月8日的新闻发布会上,共有来自世界400多家媒体的记者到达现场采访。国内所有大网站都请职业高手对此次五番棋直播讲解,此前一直宣称“输一盘即失败”的李世石九段不知为何,改口为“可能会输”,从结果来看,这简直就是一语成谶。
李世石投子认输
北京时间3月9日中午12点,比赛正式开始。围棋猜先的礼仪是,围棋界地位高或者年龄长者抓子,面对不到2岁的AlphaGo,33岁“高龄”李世石作为世界冠军显然是上手。结果AlphaGo猜错,如果对手是人,李世石肯定毫不犹豫选白棋,因为在中国规则贴7.5目的情况下,执白更从容已经是职业棋手的共识。但是李世石选择了黑棋,可能是想借先行主导布局。
从棋局进程来看,李世石开局起心态有些失衡,他在右上角选择了激烈的作战,常昊九段说,不看对局者的话,还以为黑棋是AlphaGo,着法显得生硬,其后更是撑得极满。“如果阿尔法狗下得更好一些的话,布局阶段李世石的黑棋很可能就已经不大行了。上边大块棋甚至有可能被杀。”
不过,之后AlphaGo弈得亦很生硬,在棋盘上紧贴着黑棋弈出一根“棍子”,效率低下。李世石趁机在中腹围出大空后,棋局形势逆转。现在局面的焦点是李世石如何处理右下角的孤子。
此时,一直观看实战进程的常昊九段、王元八段、张璇八段等都认为,只要李世石在右下角简单处理好孤子,守住角空,黑棋赢定。国家围棋队微信群里,时越九段、江维杰九段等亦判断“ 黑棋要赢”,但此后令人震惊的一幕发生了,李世石在右下角的选择非常业余,他放白棋进角活棋,而黑棋所获不过是一根“棍子”,效率甚为低下。常昊判断,仅此一役,黑棋亏损10目左右!
本来双方形势就很接近,李世石优势有限,现在瞬间亏损10目,黑棋贴目已经成为大负担。之后官子,AlphaGo根本不犯一点错误,着着精准,国家围棋队高手都已算准黑棋盘面4目,正常进行下去的话,黑棋将输3目半左右,李世石算清后投子认输。
AlphaGo进化迅速
从本局我们可以看到,与5个月前和樊麾的对局相比,AlphaGo明显成长迅速。有关AlphaGo在这几个月的“进化程度”,谷歌官方并没有给出任何确切的介绍。
但是有位名叫安德斯·可鲁夫(Anders Kierulf)的围棋游戏设计师给出了这样的猜测:在深蓝对战卡斯帕罗夫的过程中,工程师们可以在比赛期间调整深蓝的算法,比如修复bug。对AlphaGo来说,这可能并非易事。围棋每一步的可能下法非常多:围棋手在起手时就有19×19=361种落子选择,在比赛的任意阶段,也都有数以百计的可能下法,最多有3361种局面,这个数字大概是10170,而已经观测到的宇宙中,原子的数量才1080。
在去年10月,AlphaGo并没有使用开放的库,但在3月的比赛前,Google大可以把库添加进去,至少可以在比赛间调整(如果一盘棋里走错,就在下一盘前手动添加,这样下一盘棋就不会再错),这样李世石就无法连续几盘利用同一个定式错误。
舆论还猜测,Deepmid改进了AlphaGo的神经网络。对樊麾的比赛中,他们使用了3000万个位置作为原始数据,来训练AlphaGo的价值网络;在对李世石的位置中,他们可以使用1亿个位置训练;另外,也投入了更大的运算量。
李世石输了第一局,但不等于AlphaGo的实力已经超过了李世石。常昊说:“李世石的败因主要是心理有些失衡,开局选择激战不太自然,之后又在右下角出现莫名其妙的失误,随便怎么下也比实战结果强。”柯洁九段表示:“从Alpha-Go在这盘棋中表现出来的水平来看,我能赢它。”
常昊九段等认为,只要李世石调整好心态,正常发挥出水平,以他的实力,最终还是能战胜AlphaGo的。
据《体坛周报》
把李世石逼到认输的是怎样的AI?
Q:为什么要研究围棋AI?
A:1997年,国际象棋AI第一次打败顶尖的人类;2006年,人类最后一次打败顶尖的国际象棋AI。欧美传统中的顶级人类智力试金石,在电脑面前终于一败涂地,应了四十多年前计算机科学家的预言。
但有一个游戏始终是人类大脑的专利——古老的围棋。围棋AI长期以来举步维艰,顶级AI甚至不能打败稍强的业余选手。
Q:研究下棋AI,需要研究人员的下棋水平很高吗?
A:不需要。AlphaGo背后是一群杰出的计算机科学家,确切地说,是机器学习(machine learing)算法领域的专家。科学家利用神经网络算法,将棋类专家的比赛记录输入计算机,并让计算机自己与自己进行比赛,在这个过程中不断学习训练。某种程度上讲,AlphaGo的棋艺不是开发者教给他的,而是自学成才。
Q:AlphaGo算法里的“神经网络”是个啥?
A:AlphaGo的核心是两种不同的深度神经网络。“策略网络”(policy network)和“价值网络”(value network)。它们的任务在于合作“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里——本质上,这和人类棋手所做的一样。
其中,“ 价值网络”负责减少搜索的深度——AI会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑。
而“策略网络”负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。
AlphaGo利用这两个工具来分析局面,判断每种下子策略的优劣,就像人类棋手会判断当前局面以及推断未来的局面一样。这样AlphaGo在分析了比如未来20步的情况下,就能判断在哪里下子赢的概率会高。
Q:今天的AlphaGo和过去的深蓝谁更厉害?
A:我们先来看看围棋和国际象棋之间有什么差别:
第一,围棋的下法、可能局面数量远远多于国际象棋。
第二,国际象棋只需要把目前棋盘上剩余棋子的价值总和算出来,就能大概知道孰优孰劣。但这种方法对围棋来说行不通,计算机很难分辨当下棋局的优势方和弱势方。
可见,同样是下棋,对付围棋要比对付国际象棋棘手得多。
Q:在战胜樊麾之后的5个月里,AlphaGo可能在哪些方面“进化”?
A:除了改进AlphaGo的神经网络,还可能额外训练AlphaGo的投骰(rollout)策略,然后将改进过的投骰策略加入到价值网络的训练中,并调整投骰和价值网络之间的平衡,也可以在比赛当中投入更大的运算量。
Q:AlphaGo的超强学习能力有没有上限?
A:对于这个问题,英国曼彻斯特大学计算机科学教授凯文·柯伦表达了否定态度。他认为,我们没有理由相信技术会有极限,特别是在AlphaGo这样的特定领域。
而来自南京大学计算机系的两位专家,周志华和俞扬则都认为,上限是客观存在的。周志华表示,“强化学习”奏效的关键,是两个模型都不错,而且有足够大的“差异”。当模型性能提升以后,其差异会显著下降,到了一定程度必然会使性能无法继续通过这种机制提升。其上限取决于高质量“有标记”样本(相当于李世石水平棋手的棋局)的数量。
俞扬的观点是,上限不仅存在,而且已经和AlphaGo当下的水平极其接近。从AlphaGo的报道来看,DeepMind已经在想办法避免过拟合(即越学越差),这说明他们可能已经碰到了上限。
Q:如果AlphaGo以5∶0战胜李世石,对人工智能而言意味着什么?
A:正如本文开头所说,未来已经来临。无论最终的结果如何,都无法阻止更多的人类终于开始用警惕的目光打量AI……围棋职业八段刘菁的评论是:“还来不及反应,一切来的似乎是太快了!面对毫无表情,连厕所都不上的阿尔法狗,4000年围棋的终结者今天就来了吗?空气中弥漫着机器的味道。”
就算AI输了,难道你们就松口气了吗?
据果壳网