今天,Deepmind 如約在 Nature 發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識制霸圍棋)的論文中,Deepmind 展示了他們更強大的新版本圍棋程式「AlphaGo Zero」,驗證了即使在像圍棋這樣最具挑戰性的領域,也可以通過純強化學習的方法自我完善達到目的。
這篇論文的最大亮點,在於無需任何人類指導,通過全新的強化學習方式,人工智慧的程式自己成為自己的老師,在圍棋這一個最具挑戰性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據,這一個新的演算法訓練時間更短,僅用 3 天時間就達到了擊敗李世乭的 AlphaGo Lee 的水準,21 天就達到了之前擊敗柯潔的 AlphaGo Master 的水準。
在 3 天內——也就是 AlphaGo Zero 在擊敗 AlphaGo Lee 之前,曾進行過 490 萬次自我對弈練習。相比之下,AlphaGo Lee 的訓練時間長達數月之久。AlphaGo Zero 不僅發現了人類數千年來已有的許多圍棋策略,還設計了人類玩家以前未知的的策略。
[attach]120756143[/attach]
據 Deepmind 部落格 介紹,AlphaGo Zero 採用了新的強化學習方法,從一個不知道圍棋遊戲規則的神經網路開始,通過將這個神經網路與強大的搜尋演算法結合,然後就可以實現自我對弈了。在這樣的訓練過程中,神經網路不斷被更新和調整,並用於預測下一步落子和最終的輸贏。
這一更新後的神經網路將再度與搜尋演算法組合,過程不斷重複,最後建立了一個新的、更強大版本的 AlphaGo Zero。在每次迭代中,系統的性能和自我對弈的品質均能夠有部分提高。「日拱一卒,功不唐捐」,最終的神經網路越來越精確,AlphaGo Zero 也變得更強。
AlphaGo Zero 與之前版本有如下不同:
AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入,而之前版本 AlphaGo 的輸入均包含部分人工特徵;
AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」來選擇落子的位置,並使用另一個「價值網路」來預測遊戲的輸贏結果。而在 AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行,從而使其可以更好地進行訓練和評估。
AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋程式中廣泛使用於勝負的快速隨機策略,從而通過比較確定每一手之後輸贏的機率,選擇最佳落子位置。相反地,它依賴於高品質的神經網路來評估落子位置。
上述差異均有主於提高系統的性能和通用性,但使最關鍵的仍是演算法上的改進,不僅使得 AlphaGo Zero 更加強大,在功耗上也更為高效。
Google 系列企業 DeepMind 開發的 AlphaGo 圍棋 AI 系統,在人機對戰贏了中國棋手柯潔之後退役。不過 DeepMind 已經準備好用全新技術製作的「AlphaGo Zero」AI 系統,最大的進化是它毋須學習人類對弈,僅透過自我強化學習的演算法,就能學成精通的圍棋技藝。
以往的 AlphaGo 學習圍棋,使用了大量人類圍棋對局的資料進行學習,另外再加上自我對弈以加強學習效果。但今次 DeepMind 在科學雜誌《Nature》就發表了題為《Mastering the game of Go without human knowledge》(毋須人類智識就能掌握圍棋)的論文。當中提到了進化版的「AlphaGo Zero」人工智能系統,可以只單靠自我學習來達到掌握圍棋技藝。
在全新技術當中,AlphaGo Zero 神經網絡從一塊連圍棋規則也不知道的「白板」開始,技術人員再將這個網絡跟搜尋演算法結合,然後就開始了自我學習。AI 人工智能系統不斷進行自我對弈,把自己的下棋方法加以學習、改進,不斷增強下棋的判定。它只從一塊「白板」開始學習,用了 3 天的時間,就達到了他的上兩代「AlphaGo Lee」(擊敗棋手李世乭的系統),而只利用了 21 日的時間,就達到了他的上一代「AlphaGo Master」(擊敗柯潔的系統)相同的水準。
從開始就能自我學習的 AlphaGo Zero,厲害之處除了靠自我學習就得到了人類長久以來累積的圍棋策略經驗之外,更獲得了一些人類棋手未知的策略技術。AlphaGo Zero 系統只用了 40 日,就成為了世界最強的圍棋棋手。
[attach]120756204[/attach]
▲AlphaGo Zero的自我學習流程
深度學習需要有大量資料輔助,例如以前 AlphaGo 需要的對局資料,有時候資料的成本高昂,而且知識有時也未必輕易得到。AlphaGo Zero 這項技術突破,日後可利用於解決人類未曾認識的重大挑戰。