伊莉討論區

標題: AlphaGo之父：關于圍棋，人類3000年來犯了一個錯 [打印本頁]

作者: 新任掌柜 時間: 2018-6-7 04:36 AM 標題: AlphaGo之父：關于圍棋，人類3000年來犯了一個錯

4月10日，“人機大戰”的消息再次傳出，關于人類和AI的對抗再次牽動世界的神經。

“我會抱必勝心態、必死信念。我一定要擊敗阿爾法狗！”對于5月23日至27日與圍棋人工智能程序AlphaGo（阿爾法狗）的對弈，目前世界排名第一的中國職業九段柯潔放出豪言。

然而，AlphaGo（阿爾法狗）之父卻說，“我們發明阿爾法狗，並不是為了贏取圍棋比賽。”

據澎湃新聞4月13日報道，近日，AlphaGo之父杰米斯·哈薩比斯（Demis Hassabis）在母校英國劍橋大學做了一場題為“超越人類認知的極限”的演講，解答了世人對于人工智能，對于阿爾法狗的諸多疑問——過去3000年里人類低估了棋局哪個區域的重要性？阿爾法狗去年贏了韓國職業九段李世石靠哪几個絕招？今年年初拿下數位國際大師的神秘棋手Master究竟是不是阿爾法狗？為什麼圍棋是人工智能難解之謎？

杰米斯·哈薩比斯，Deep Mind創始人， AlphaGo之父

杰米斯·哈薩比斯，Deep Mind創始人，AlphaGo（阿爾法狗）之父， 4歲開始下象棋，8歲時在棋盤上的成功促使他開始思考兩個至今令他困擾的問題：第一，人腦是如何學會完成復雜任務的？第二，電腦能否做到這一點？

17歲時，哈薩比斯就負責了經典模擬游戲《主題公園》的開發，並在1994年發布。他隨后讀完了劍橋大學計算機科學學位，2005年進入倫敦大學學院，攻讀神經科學博士學位，希望了解真正的大腦究竟是如何工作的，以此促進人工智能的發展。2014年他創辦的公司Deep Mind被谷歌收購, 公司產品阿爾法狗在2016年大戰圍棋冠軍李世石事件上一舉成名。

哈薩比斯在當天的演講中透露了韓國棋手李世石去年輸給阿爾法狗的致命原因，他最后也提到了阿爾法狗即將迎戰的中國棋手柯潔，他說，“柯潔也在網上和阿爾法狗對決過，比賽之后柯潔說人類已經研究圍棋研究了几千年了，然而人工智能卻告訴我們，我們甚至連其表皮都沒揭開。異曲同工，柯潔提到了圍棋的真理，我們在這里談的是科學的真理。”

世界圍棋冠軍柯潔即將迎戰阿爾法狗

澎湃新聞現場聆聽了AlphaGo（阿爾法狗）之父在劍橋大學歷時45分鐘的演講，干貨滿滿，請不要漏掉任何一個細節：

非常感謝大家今天能夠到場，今天，我將談談人工智能，以及DeepMind近期在做些什麼，我把這場報告命名為“超越人類認知的極限”，我希望到了報告結束的時候，大家都清晰了解我想傳達的思想。

1、你真的知道什麼是人工智能嗎？

對于不知道DeepMind公司的朋友，我做個簡單介紹，我們是在2010年于倫敦成立了這家公司，在2014年我們被谷歌收購，希望借此加快我們人工智能技术的腳步。我們的使命是什麼呢？我們的首要使命便是解決人工智能問題；一旦這個問題解決了，理論上任何問題都可以被解決。這就是我們的兩大使命了，聽起來可能有點狡猾，但是我們真的相信，如果人工智能最基本的問題都解決了的話，沒有什麼問題是困難的。

那麼我們准備怎樣實現這個目標呢？DeepMind現在在努力制造世界上第一台通用學習機，大体上學習可以分為兩類：一種就是直接從輸入和經驗中學習，沒有既定的程序或者規則可循，系統需要從原始數據自己進行學習；第二種學習系統就是通用學習系統，指的是一種算法可以用于不同的任務和領域，甚至是一些從未見過的全新領域。大家肯定會問，系統是怎麼做到這一點的？

其實，人腦就是一個非常明顯的例子，這是可能的，關鍵在于如何通過大量的數據資源，尋找到最合適的解決方式和算法。我們把這種系統叫做通用人工智能，來區別于如今我們當前大部分人在用的僅在某一領域發揮特長的狹義人工智能，這種狹義人工智能在過去的40-50年非常流行。

IBM發明的深藍系統（DeepBlue）就是一個很好的狹義人工智能的例子，他在上世紀90年代末期曾打敗了國際象棋冠軍加里·卡斯帕羅夫（GaryKasporov）。如今，我們到了人工智能的新的轉折點，我們有著更加先進、更加匹配的技术。

1997年5月，IBM與世界國際象棋冠軍加里·卡斯帕羅夫對決

2.如何讓機器聽從人類的命令？

大家可能想問機器是如何聽從人類的命令的，其實並不是機器或者算法本身，而是一群聰明的編程者智慧的結晶。他們與每一位國際象棋大師對話，汲取他們的經驗，把其轉化成代碼和規則，組建了人類最强的象棋大師團隊。但是這樣的系統僅限于象棋，不能用于其他游戲。對于新的游戲，你需要重新開始編程。在某種程度上，這些技术仍然不夠完美，並不是傳統意義上的完全人工智能，其中所缺失的就是普適性和學習性。我們想通過“增强學習”來解決這一難題。在這里我解釋一下增强學習，我相信很多人都了解這個算法。

首先，想像一下有一個主体，在AI領域我們稱我們的人工智能系統為主体，它需要了解自己所處的環境，並盡力找出自己要達到的目的。這里的環境可以指真實事件，可以是機器人，也可以是虛擬世界，比如游戲環境；主体通過兩種方式與周圍環境接觸；它先通過觀察熟悉環境，我們起初通過視覺，也可以通過聽覺、觸覺等，我們也在發展多感覺的系統；

第二個任務，就是在此基礎上，建模並找出最佳選擇。這可能涉及到對未來的預期，想像，以及假設檢驗。這個主体經常處在真實環境中，當時間節點到了的時候，系統需要輸出當前找到的最佳方案。這個方案可能或多或少會改變所處環境，從而進一步驅動觀察的結果，並反饋給主体。

簡單來說，這就是增强學習的原則，示意圖雖然簡單，但是其中卻涉及了極其復雜的算法和原理。如果我們能夠解決大部分問題，我們就能夠搭建普適人工智能。這是因為兩個主要原因：首先，從數學角度來講，我的合伙人，一名博士，他搭建了一個系統叫‘AI-XI’，用這個模型，他證明了在計算機硬件條件和時間無限的情況下，搭建一個普適人工智能，需要的信息。另外，從生物角度來講，動物和人類等，人類的大腦是多巴胺控制的，它在執行增强學習的行為。因此，不論是從數學的角度，還是生物的角度，增强學習是一個有效的解決人工智能問題的工具。

3.為什麼圍棋是人工智能難解之謎？

接下來，我要主要講講我們最近的技术，那就是去年誕生的阿爾法狗；希望在座的大家了解這個游戲，並嘗試玩玩，這是個非常棒的游戲。

圍棋使用方形格狀棋盤及黑白二色圓形棋子進行對弈，棋盤上有縱橫各19條直線將棋盤分成361個交叉點，棋子走在交叉點上，雙方交替行棋，以圍地多者為勝。圍棋規則沒有多復雜，我可以在五分鐘之內教給大家。

這張圖展示的就是一局已結束，整個棋盤基本布滿棋子，然后數一下你的棋子圈出的空間以及對方棋子圈出的空間，誰的空間大，誰就獲勝。在圖示的這場勢均力敵的比賽中，白棋一格之差險勝。

白棋以一格之差險勝

其實，了解這個游戲的最終目的非常難，因為它並不像象棋那樣，有著直接明確的目標，在圍棋里，完全是憑直覺的，甚至連如何決定游戲結束對于初學者來說，都很難。圍棋是個歷史悠久的游戲，有著3000多年的歷史，起源于中國，在亞洲，圍棋有著很深的文化意義。孔子還曾指出，圍棋是每一個真正的學者都應該掌握的四大技能之一（琴棋書畫），所以在亞洲圍棋是種藝术，專家們都會玩。

如今，這個游戲更加流行，有4000万人在玩圍棋，超過2000多個頂級專家，如果你在4-5歲的時候就展示了圍棋的天賦，這些小孩將會被選中，並進入特殊的專業圍棋學校，在那里，學生從6歲起，每天花12個小時學習圍棋，一周七天，天天如此。直到你成為這個領域的專家，才可以離開學校畢業。這些專家基本是投入人生全部的精力，去揣摩學習掌握這門技巧，我認為圍棋也許是最優雅的一種游戲了。

像我說的那樣，這個游戲只有兩個非常簡單的規則，而其復雜性卻是難以想象的，一共有10170 （10的170次方）種可能性，這個數字比整個宇宙中的原子數1080（10的80次方）都多的去了，是沒有辦法窮舉出圍棋所有的可能結果的。

我們需要一種更加聰明的方法。你也許會問為什麼計算機進行圍棋的游戲會如此困難，1997年，IBM的人工智能DeepBlue（深藍）打敗了當時的象棋世界冠軍加里·卡斯帕羅夫，圍棋一直是人工智能領域的難解之謎。我們能否做出一個算法來與世界圍棋冠軍競爭呢？要做到這一點，有兩個大的挑戰：

一、搜索空間龐大（分支因數就有200），一個很好的例子，就是在圍棋中，平均每一個棋子有兩百個可能的位置，而象棋僅僅是20. 圍棋的分支因數遠大于象棋。

二、比這個更難的是，几乎沒有一個合適的評價函數來定義誰是贏家，贏了多少；這個評價函數對于該系統是至關重要的。而對于象棋來說，寫一個評價函數是非常簡單的，因為象棋不僅是個相對簡單的游戲，而且是實体的，只用數一下雙方的棋子，就能輕而易舉得出結論了。你也可以通過其他指標來評價象棋，比如棋子移動性等。

所有的這些在圍棋里都是不可能的，並不是所有的部分都一樣，甚至一個小小部分的變動，會完全變化格局，所以每一個小的棋子都對棋局有著至關重要的影響。最難的部分是，我稱象棋為毀滅性的游戲，游戲開始的時候，所有的棋子都在棋盤上了，隨著游戲的進行，棋子被對方吃掉，棋子數目不斷減少，游戲也變得越來越簡單。相反，圍棋是個建設性的游戲，開始的時候，棋盤是空的，慢慢的下棋雙方把棋盤填滿。

因此，如果你准備在中場判斷一下當前形勢，在象棋里，你只需看現在的棋盤，就能告訴你大致情況；在圍棋里，你必須評估未來可能會發生什麼，才能評估當前局勢，所以相比較而言，圍棋難得多。也有很多人試著將DeepBlue的技术應用在圍棋上，但是結果並不理想，這些技术連一個專業的圍棋手都打不贏，更別說世界冠軍了。

所以大家就要問了，連電腦操作起來都這麼難，人類是怎樣解決這個問題的？其實，人類是靠直覺的，而圍棋一開始就是一個靠直覺而非計算的游戲。所以，如果你問一個象棋選手，為什麼這步這樣走，他會告訴你，這樣走完之后，下一步和下下一步會怎樣走，就可以達到什麼樣的目的。這樣的計划，有時候也許不盡如人意，但是起碼選手是有原因的。

然而圍棋就不同了，如果你去問世界級的大師，為什麼走這一步，他們經常回答你直覺告訴他這麼走，這是真的，他們是沒法描述其中的原因的。我們通過用加强學習的方式來提高人工神經網絡算法，希望能夠解決這一問題。

我們試圖通過深度神經網絡模仿人類的這種直覺行為，在這里，需要訓練兩個神經網絡，一種是決策網絡，我們從網上下載了成百万的業余圍棋游戲，通過監督學習，我們讓阿爾法狗模擬人類下圍棋的行為；我們從棋盤上任意選擇一個落子點，訓練系統去預測下一步人類將作出的決定；系統的輸入是在那個特殊位置最有可能發生的前五或者前十的位置移動；這樣，你只需看那5-10種可能性，而不用分析所有的200種可能性了。

一旦我們有了這個，我們對系統進行几百万次的訓練，通過誤差加强學習，對于贏了的情況，讓系統意識到，下次出現類似的情形時，更有可能做相似的決定。相反，如果系統輸了，那麼下次再出現類似的情況，就不會選擇這種走法。我們建立了自己的游戲數據庫，通過百万次的游戲，對系統進行訓練，得到第二種神經網絡。選擇不同的落子點，經過置信區間進行學習，選出能夠贏的情況，這個几率介于0-1之間，0是根本不可能贏，1是百分之百贏。

通過把這兩個神經網絡結合起來（決策網絡和數值網絡），我們可以大致預估出當前的情況。這兩個神經網絡樹，通過蒙特卡洛算法，把這種本來不能解決的問題，變得可以解決。我們網羅了大部分的圍棋下法，然后和歐洲的圍棋冠軍比賽，結果是阿爾法狗贏了，那是我們的第一次突破，而且相關算法還被發表在《自然》科學雜志。

接下來，我們在韓國設立了100万美元的獎金，並在2016年3月，與世界圍棋冠軍李世石進行了對決。李世石先生是圍棋界的傳奇，在過去的10年里都被認為是最頂級的圍棋專家。我們與他進行對決，發現他有非常多創新的玩法，有的時候阿爾法狗很難掌控。

比賽開始之前，世界上每個人（包括他本人在內）都認為他一定會很輕松就打贏這五場比賽，但實際結果是我們的阿爾法狗以4:1獲勝。圍棋專家和人工智能領域的專家都稱這具有划時代的意義。對于業界人員來說，之前根本沒想到。

4.棋局哪個關鍵區域被人類忽視了？

這對于我們來說也是一生僅有一次的偶然事件。這場比賽，全世界28億人在關注，35000多篇關于此的報道。整個韓國那一周都在圍繞這個話題。真是一件非常美妙的事情。對于我們而言，重要的不是阿爾法狗贏了這個比賽，而是了解分析他是如何贏的，這個系統有多强的創新能力。

阿爾法狗不僅僅只是模仿其他人類選手的下法，他在不斷創新。在這里舉個例子，這是第二局里的一個情況，第37步，這一步是我整個比賽中最喜歡的一步。在這里，黑棋代表阿爾法狗，他將棋子落在了圖中三角標出的位置。為什麼這步這麼關鍵呢?為什麼大家都被震驚到了。

圖左：第二局里，第37步，黑棋的落子位置圖右：之前貌似陷入困境的兩個棋子

其實在圍棋中有兩條至關重要的分界線，從右數第三根線。如果在第三根線上移動棋子，意味著你將占領這個線右邊的領域。而如果是在第四根線上落子，意味著你想向棋盤中部進軍，潛在的，未來你會占棋盤上其他部分的領域，可能和你在第三根線上得到的領域相當。

所以在過去的3000多年里，人們認為在第三根線上落子和第四根線上落子有著相同的重要性。但是在這場游戲中，大家看到在這第37步中，阿爾法狗落子在了第五條線，進軍棋局的中部區域。與第四根線相比，這根線離中部區域更近。這可能意味著，在几千年里，人們低估了棋局中部區域的重要性。

有趣的是，圍棋就是一門藝术，是一種客觀的藝术。我們坐在這里的每一個人，都可能因為心情好壞產生成千上百種的新想法，但並不意味著每一種想法都是好的。而阿爾法狗卻是客觀的，他的目標就是贏得游戲。

5.阿爾法狗拿下李世石靠哪几個絕招？

大家看到在當前的棋局下，左下角那兩個用三角標出的棋子看起來好像陷入了困難，而15步之后，這兩個棋子的力量擴散到了棋局中心，一直延續到棋盤的右邊，使得這第37步恰恰落在這里，成為一個獲勝的決定性因素。在這一步上阿爾法狗非常具有創新性。

我本人是一個很業余的棋手，讓我們看看一位世界級專家Michael Redmond對這一步的評價。 Michael是一位9段選手（圍棋最高段），就像是功夫中的黑段一樣，他說：“這是非常令人震驚的一步，就像是一個錯誤的決定。”在實際模擬中，Michael其實一開始把棋子放在了另外一個地方，根本沒想到阿爾法狗會走這一步。像這樣的創新，在這個比賽中，阿爾法狗還有許多。在這里，我特別感謝李世石先生，其實在我們贏了前三局的時候，他下去了。

2016年3月阿爾法狗大戰世界圍棋冠軍李世石，以4:1的總分戰勝了人類

那是三場非常艱難的比賽，尤其是第一場。因為我們需要不斷訓練我們的算法，阿爾法狗之前打贏了歐洲冠軍，經過這場比賽，我們知道了歐洲冠軍和世界冠軍的差別。理論上來講，我們的系統也進步了。

但是當你訓練這個系統的時候，我們不知道有多少是過度擬合的，因此，在第一局比賽結束之前，系統是不知道自己的統計結果的。所以，其實第一局，我們非常緊張，因為如果第一局輸了，很有可能我們的算法存在巨大漏洞，有可能會連輸五局。但是如果我們第一局贏了，證明我們的加權系統是對的。

不過，李世石先生在第四場的時候，回來了，也許壓力緩解了許多，他做出了一步非常創新性的舉動，我認為這是歷史上的創新之舉。這一步迷惑了阿爾法狗，使他的決策樹進行了錯誤估計，一些中國的專家甚至稱之為“黃金之舉”。

通過這個例子，我們可以看到多少的哲理蘊含于圍棋中。這些頂級專家，用盡必生的精力，去找出這種黃金之舉。其實，在這步里，阿爾法狗知道這是非常不尋常的一步，他當時估計李世石通過這步贏的可能性是0.007%，阿爾法狗之前沒有見過這樣的落子方式，在那2分鐘里，他需要重新搜索決策計算。

我剛剛已經提到過這個游戲的影響：28億人觀看，35000相關文章的媒体報道，在西方網售的圍棋被一搶而空，我聽說MIT（美國麻省理工學院）還有其他很多高校，許多人新加入了圍棋社。

第四局里，李世石第78步的創新之舉

我剛才談到了直覺和創新，直覺是一種含蓄的表達，它是基于人類的經歷和本能的一種思維形式，不需要精確計算。這一決策的准確性可以通過行為進行評判。在圍棋里很簡單，我們給系統輸入棋子的位置，來評估其重要性。阿爾法狗就是在模擬人類這種直覺行為。創新，我認為就是在已有知識和經驗的基礎上，產生一種原始的，創新的觀點。阿爾法狗很明顯的示范了這兩種能力。

6.神秘棋手Master究竟是不是阿爾法狗？

那麼我們今天的主題是“超越人類認知的極限”，下一步應該是什麼呢？從去年三月以來，我們一直在不斷完善和改進阿爾法狗，大家肯定會問，既然我們已經是世界冠軍了，還有什麼可完善的？其實，我們認為阿爾法狗還不是完美的，還需要做更多的研究。

首先，我們想要繼續研究剛才提到的和李世石的第四局的比賽，來填充知識的空白；這個問題其實已經被解決了，我們建立了一個新的阿爾法狗分系統，不同于主系統，這個分支系統是用來困惑主系統的。我們也優化了系統的行為，以前我們需要花至少3個月來訓練系統，現在只需要一周時間。

第二，我們需要理解阿爾法狗所采取的決定，並對其進行解釋；阿爾法狗這樣做的原因是什麼，是否符合人類的想法等等；我們通過對比人類大腦對于不同落子位置的反應以及阿爾法狗對于棋子位置的反應，以期找到一些新的知識；本質上就是想讓系統更專業。

我們在網絡上與世界頂級的專家對決，一開始我們使用了一個假名（Master），在連勝之后被大家猜出是阿爾法狗。這些都是頂級的專家，我們至今已贏了60位大師了。如果你做個簡單的貝葉斯分析，你會發現阿爾法狗贏不同對手的難易也不一樣。而且，阿爾法狗也在不斷自我創新，比如說圖中右下角這個棋子（圓圈標處），落在第二根線里，以往我們並不認為這是個有效的位置。實際上，韓國有的團隊預約了這些游戲，想研究其中新的意義和信息。

阿爾法狗自我創新，落在第二格線的旗子

柯潔，既是中國的圍棋冠軍，也是目前的世界圍棋冠軍，他才19歲。

他也在網上和阿爾法狗對決過，比賽之后他說人類已經研究圍棋研究了几千年了，然而人工智能卻告訴我們，我們甚至連其表皮都沒揭開。他也說人類和人工智能的聯合將會開創一個新紀元，將共同發現圍棋的真諦。異曲同工，柯潔提到了圍棋的真理，我們在這里談的是科學的真理。

歡迎光臨伊莉討論區 (http://10.eyny.com/)