首页 > IT业界 > 正文

李世石为什么会在“人机世纪大战”中输？！

2016-03-09 17:43

来源:腾讯科技

　　“人机世纪大战”第一局落下帷幕，李世石认输，这是让很多人没有想到的。原本被寄以厚望的李世石，到底为什么会输于古力口中“业余六七段”的Alphago?

　　Alphago深度学习发挥作用

　　“国际象棋每步大约会出现35种左右的走位可能，而围棋的走位可能则高达250种，每一步250种相乘就意味着整局比赛会出现多到几乎无穷尽的走位方案。”谷歌(微博)DeepMind实验室主管德米斯-哈撒比斯(Demis Hassabis)说道。Alphago在击败欧洲围棋冠军樊麾时学习了3000万盘棋，而经过将近半年的学习，这个数量已经增长到1亿以上。

　　AlphaGo 的核心是两种不同的深度神经网络。“策略网络”(policy network)和 “值网络”(value network)。它们的任务在于合作“挑选”出那些比较有前途的棋步，抛弃明显的差棋，从而将计算量控制在计算机可以完成的范围里，本质上和人类棋手所做的一样。

　　其中，“值网络”负责减少搜索的深度——AI会一边推算一边判断局面，局面明显劣势的时候，就直接抛弃某些路线，不用一条道算到黑;而“策略网络”负责减少搜索的宽度——面对眼前的一盘棋，有些棋步是明显不该走的，比如不该随便送子给别人吃。利用蒙特卡洛拟合，将这些信息放入一个概率函数，AI就不用给每一步以同样的重视程度，而可以重点分析那些有戏的棋着。

　　这意味着Alphago属于典型的力战型棋风，善于敏锐地抓住对手的弱处主动出击，以强大的力量击垮对手。李开复(微博)先生说现在的AlphaGo和1997年击败世界象棋冠军的深蓝相比，从围棋到象棋的难度高了很多，是难度非常大的跳升。

　　近年来深度学习的技术，非常大的数据量和计算量可以扩张地使用，超过了我们的想象。同时我们也对人所谓的智力，当时有一些错误的幻想，实际上深度学习的成长非常快速，它可以非常好地利用更多地机器。所以在任何客观、科学工程评估的领域，包括游戏，其实是金融、搜索、广告等各方面的应用，人类基本上不会再有更多的机会跟机器来竞争了。

　　而今天AlphaGo 在战术和策略上的选择证明了这一点，在落后的情况下它也有策略，而不是在心理上打心理战。今天AlphaGo 先出现失误，随后追赶而上，令我们不得不重新去思考机器的学习和优化能力。

　　Alphago前期的“表现”让李世石轻敌

　　但是李世石不同，李世石似乎出现情绪上的波动。李世石出生在韩国一个鸟岛上，坚韧不认输，这让他成为愈挫愈勇的棋手。每个棋手都有自己的棋风，今天他占优势之后反而出现失误。这个时候出现戏剧性变化令我们大跌眼镜。

　　古力认为，李世石在中期时的优势很大，而Alphago则屡屡出现一些很奇怪的下法，犯一些低级错误，这导致了李世石的轻敌，比赛结束时，李世石还剩半个小时左右的时间，而Alphago只剩不到十分钟，这说明李世石没有花很多时间用来思考，这也是他轻敌的一个证据。

　　不过，轻敌的不只是李世石，古力九段在中期也乐观的表示，Alphago的水平大约在业余六七段左右，优缺点都很明显，但进入后半程后，Alphago的优势显然体现了出来。

　　CSDN创始人蒋涛在现场表示，Alphago展现出来的实力忽高忽低，导致李世石出现了误判，过于轻敌，导致后期一发不可收拾。据蒋涛介绍，在围棋盘面的局部处理上一直是Alphago的强项所在，现场的古力也表示，Alphago在局部的处理上他也自愧不如。

　　比赛开始后不久，李开复曾对李世石的走法给了一些建议，“根据大家的分析，李世石在尝试新的打法，这个是非常的不明智，机器人是非常周密的，不要认为棋谱没有出现过的你就去尝试，你没有尝试的东西机器懂得比你多，切忌铤而走险。”对于机器人未来的前景，李开复充满信心，“这次下棋输赢不是最重要的，机器只要达到二段专业水平，打败人类是早晚的事情。”

　　在前期AlphaGo有重大失误的局面下，李世石求赢不想输。在求稳的心态下出现失误，心理波动很大，下到后来会觉得，即使优势再大最后也会输。很多情况下李世石自己也已经觉得无力翻盘了。

　　智力消耗、体力消耗、精神压力呈递增趋势，再加上舆论环境等，Alphago可以“两耳不闻窗外事，一心只下好围棋”，但人类是高感知生物，情绪易受到外界环境的干扰。

　　曾数次击败李世石的柯洁九段就表示“程序强于人类很重要的一点就是不会受情感因素干扰。”机器的水平大概就是冲职业段之前的水平，虽然职业还到不了，但是无限接近于职业了。再加上机器大量的学习和算法，感情上没有波动，这令高级的棋手面对机器时是和以往面对人类对手完全不同。

　　今天这个局面很多人都没有想到，胜利在望之际，李世石却因为轻敌而输掉比赛。不过经此一役，接下来的四场比赛更值得期待。