首页 > IT业界 > 正文

"世纪围棋大赛"——AlphaGo V.S. 李世石之技术贴

2016-03-09 10:03

来源:爱范儿

　　今天将会有一场必定载入史册的比赛——AlphaGo V.S. 李世石，可能有些男朋友们已经开始琢磨：

　　我不懂围棋，人工智能这种高概念领域也只是略有听闻。明天女朋友问起来“围棋怎么下?”、“ AlphaGo 下围棋的原理?”、“李世石是谁?”这些问题时，哑口无言多丢人啊!

　　别慌!

　　小编早已准备了一篇女朋友也能看得懂的知识贴。

　　好了，我们先看看对战双方究竟是什么来头吧。

　　虽然李世石很厉害，但 AlphaGo 有高科技啊

　　李世石

　　不关注围棋的人可能不知道李世石。李世石是围棋专业九段棋手，这个段位已是专业围棋棋手中的最高级别。

　　当然，李世石厉害不在于他的段位，而是他能长年保持一流的水准。自 2002 年加冕富士通杯以来，他 10 年时间里共获 14 个世界冠军，是最近 10 年中获得世界第一头衔最多的棋手，公认的围棋传奇。

　　反正，知道李世石下围棋的水平在人类中数一数二就是了，并且他总能在最后一刻反败为胜。

　　AlphaGo

　　AlphaGo 是 Google 研发一个计算机程序，说得高大上点，就是围棋 AI(人工智能)。

　　AlphaGo 于 2015 年 10 月份战胜了职业二段樊麾。这句描述看起来不起眼，可这是围棋 AI 第一次在没有让子的情况下战胜职业围棋选手。至于它是怎么做到的，我们后面再告诉你。

　　总而言之，李世石对战 AlphaGo 是人类智力代表和高科技拼个高低，很多媒体都渲染成了“捍卫人类尊严之战” 。

　　看完对战双方，我们来看看围棋究竟是怎么下的。

　　围棋的一点小知识

　　围棋采用黑白两色棋子在方形棋盘上进行，这个应该没有人不知道吧。

　　职业围棋赛通常采用 19×19 路棋盘，棋局在空棋盘上开始，对战双方力求在棋局结束时比对手控制更多的地域。

　　贴目

　　“目”指在棋盘上的棋子所占有的交叉点。

　　比赛开始，执黑子一方先行。这样黑子一方就会有优势，为了消除黑方的先行优势、尽可能使黑白双方胜率一致，在终局计算胜负时黑方需要贴目。为避免和棋，贴目的目数通常包括半目。

　　这次 AlphaGo 和李世石的比赛采用贴 7.5 目的中国规则，也就是说，在计算胜负时黑子贴 7.5 目给白子。至于为什么是中国规则，业内专家猜测是编程非常方便。

　　吃子

　　被完全包围的棋子将被吃掉并从棋盘上移走。比如，白棋可以下在 A 位吃掉黑子。

　　垂直或水平相连的棋子可作为整体被吃掉。比如白棋下在 A 位可吃掉三个黑子。

　　劫

　　不能同型重复：劫的规则禁止对局双方反复提劫而形成同型重复。对手提劫后，你不能马上提回来。但是你可以在棋盘其他地方下子后再提回。也就是说你可以找劫材，对手应劫后你可以再把劫提回来。

　　气

　　气是与一块棋相邻的交叉点。比如下面白棋在 A、B 和 C 处有三口气。一块棋没有气会被提掉。一块棋只有一口气称为“叫吃”。

　　计算结果

　　棋局结束时有两种计算胜负的方法：

　　数子法计算围取的地域，即双方占领的交叉点的数目。

　　数目法计算双方围取的目数，包括死子。

　　如果双方手数相同，两种计算方法结果相同。

　　AlphaGo 是怎么下围棋的?

　　AlphaGO 以大量的棋谱数据为基础进行深度学习，不断完善，又通过自我模拟比赛提高实力。背后涉及到三个主要概念：穷举、蒙特卡罗树搜索和深度学习。

　　穷举

　　面对任何棋类，AI 一种直观又偷懒的思路是穷举所有能赢的方案。

　　穷举，是一种数学计算方法，根据部分条件确定答案的大致范围，并在此范围内对所有可能的情况逐一验证，直到全部情况验证完毕。

　　比如，穷举应用在密码学上被称为暴力破解法。密码如果只有 1 位数字，穷举最多 10 次：1, 2, 3, 4, 5, 6, 7, 8, 9, 0。

　　2 位数字的密码，穷举最多 99 次(00-99)就能破解。

　　蒙特卡罗树搜索

　　穷举的方案会形成一个树形地图，为计算机围棋博弈而发明的树形地图叫作蒙特卡罗树搜索(Monte Carlo Tree Search，简称 MCTS)。大致的原理是：通过统计大量的蒙特卡罗抽样结果，来选择较好的走法。

　　蒙特卡罗算法是对一类随机算法的特性的概括，它诞生于上个世纪 40 年代美国的 “曼哈顿计划”，名字来源于赌城蒙特卡罗，象征着“概率”。

　　知乎用户苏椰帮助我们理解蒙特卡罗算法：

　　假如筐里有 100 个苹果，让我每次闭眼拿 1 个，挑出最大的。于是我随机拿 1 个，再随机拿 1 个跟它比，留下大的，再随机拿 1 个…… 我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿 100 次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法——尽量找好的，但不保证是最好的。