伊莉討論區

標題: 〈Nature 刊登 Deepmind 論文， AlphaGo Zero 已無需人類知識，AlphaGo 慘敗〉〈INSIDE〉〈2017-10-19〉 [打印本頁]

作者: iiifgh 時間: 2017-10-23 12:42 PM 標題: 〈Nature 刊登 Deepmind 論文， AlphaGo Zero 已無需人類知識，AlphaGo 慘敗〉〈INSIDE〉〈2017-10-19〉

本帖最後由 iiifgh 於 2017-10-23 12:51 PM 編輯

【AlphaGo Zero】AI有自我學習能力　人工智能電影可有天會成真？
香港01 撰文：羅偉強
發佈日期：2017-10-21 19:22
最後更新日期：2017-10-21 19:33

[attach]120756147[/attach]

AlphaGo Zero近日打敗上代AlphaGo引起世界熱論，而當中最重要的是AlphaGo Zero是在無師自通下，花40天便擊敗了AlphaGo，成為新任「棋王」令人感到可喜又可怕。可喜的是憑人工智慧，可能破解更多單靠人類智慧無法解決的疑難。而可怕的是，當人工智慧更聰明的時候，會否有天A.I.擺脫人類的控制，反過來操控人類呢？就像很多電影中的情節一樣。

而以下筆者挑選了幾套講述A.I.人工智慧帶來破壞的電影，其中《攻殼機動隊》及《銀翼殺手2049》就是今年才上映的作品，大家應該記憶猶新。無論如何，希望這些電影不會成為「警世預言」吧！

[attach]120756148[/attach]
人工智慧機械人到底應否當成人類般看待，是A.I.電影老生常談的話題。（網上圖片）

1.《人工智慧》

這套由大師史提芬史匹堡導演的作品，在2001年上映。對比很多同類電影，《人工智慧》並不執著於A.I.如何操控人類，影響人類生活。反而以更感性的角度出發，講述由人類製造的人工機械人如何有人類的情感，如何融入一個家庭的生活後卻被拋棄。擁有人類的細膩情感卻無法擁有人類應有的待遇，反映了人類的殘酷及自私，亦讓人反思人工智慧可能帶來的道德問題。

2.《攻殼機動隊》

由漫畫走到動畫電影，再走到今年有電影版出現，每一版的《攻殼》也獲得不錯的評價，除了2017電影版的評價比較差以外。但無論如何，《攻殼》開啟了CyberPunk風格的風潮。《攻殼機動隊》探討了A.I.帶來了便利的同時，亦帶來了破壞，新的網絡犯罪與入侵帶來了極大的破壞，而機械人的身驅到底有沒有靈魂，而有人類的靈魂，身驅卻是機械也能否稱為人類，這種反思成為《攻殼》其中一個迷人之處。但2017年版本普遍被認為不能反映漫畫與動畫版的深刻思考而為人詬病，然而其畫面上的CyberPunk風格仍為其挽回不少分數。

3.《銀翼殺手》／《銀翼殺手2049》

算是最近期有關人工會能的電影，《銀翼殺手2049》是源自1982年上映的《銀翼殺手》續作。人類創造出具智慧的機械人為己服務，但卻不視他們為人，甚至加以追捕、毀滅。複製人為求苟延殘存，智慧、體能上都較人類為佳的機械人在對決上有極大的優勢，而據目前劇情發展，人類與複製人的大戰會人觸即發。《銀翼殺手》作為一套黑色科幻電影，雖然1982年版的票房麻麻，但卻成為cult film，被一部分人所祟拜，更有不少影評人視其為「有史以來最佳的科幻電影」之一。

4.《廿二世紀殺人網絡》

這部電影絕對風靡一時，其特殊慢鏡的處理手法為人所稱頌，亦被很多後世作品仿效。《廿二世紀殺人網絡》沒有複製人，卻以由電腦程式所創造的模擬世界為背景，講述這個虛擬世界控制人類的思想與意識，慢慢吸受人類的能源。雖然電影中不見一個複製人，但單以程式製成的意識卻更為可怕。在精彩的動作中，令人反思A.I.可能帶來的後果。

[attach]120756149[/attach]
《智能叛變》節奏明快易懂，是很好的A.I.電影入門。（網上圖片）

5.《智能叛變》

講述人類在2035年已全面使用機械人作為工具與夥伴，機械人被「機械人三定律」所約束，而被人類普遍認為值得信賴。然而，隨著一宗兇殺案的發生，探員漸漸發現到兇手是機械人，慢慢揭發了一個陰謀，導致機械人們的叛變。《智能叛變》是一套相當流暢的科幻電影，一切都簡單易明。然而，太過顯淺亦為人所詬病，認為沒帶出原著小說中的深度與思考。

6.《觸不到的她》

相對於前幾套沉重的A.I.題材電影，《觸不到的她》傾向於小品形式表現人工智能所帶來的道德問題。故事講述因離婚而深受打擊的男主角，在偶然的機會下接觸了最新的人工智能系統。在人類與人工智能的溝通過程中，慢慢發展出一段不被世人認可的愛情。即使對方沒有身驅，沒有外表，但憑著雙方相知相惜而又投緣，又能夠發展出愛情。然而，若你同意愛情不能物化，那麼這段人與人工智能的非物質愛情，是否比很多比較金錢的愛情來得更純潔呢？

這些故事令人聯想起若果AlphaGo Zero可以有自己的思想，那麼用40天就可以學會人類3000年圍棋文化的它，會不會有天它能學習人類只有不足100年歷史的電腦技術，使用電腦反控制人類呢？

而當科學家提出不久的未來會製造出性愛機械人、家務機械人等等新科技，《攻殼機動隊》、《人工智能》這些電影的劇情又會否有一天降臨到我們身上呢？人類，真的有需要懶到連性交、做家務都要完全依賴機械人嗎？這種種，也很值得現今的我們思考，當年看這些電影覺得天方夜譚，但今日再看也似乎並非完全不可能，到底如何防止像AlphaGo Zero如此聰明的程式有一天「叛變」呢？人類是否有絕對的把握可以反控制它們呢？科學家們可能在開發的同時也要先考量這些問題……

擺脫人類經驗限制：AlphaGo Zero打敗了被人類誤導的AlphaGo
2017/10/21

[attach]120756134[/attach]
photo credit: DeepMind, AlphaGo Zero
powerd by Cyberon

我們想讓你知道的是

「AlphaGo Zero更加強大，原因是他不再受到人類經驗的限制（no longer constrained by human knowledge），能自由的發展新知和策略。」

文：吳宗仁（Darren Wu，原文發表於作者Medium）

AlphaGo打敗世界棋王李世乭，從此罕逢敵手。然而Google的AI實驗室DeepMind最新開發成果，已經可以擊敗曾站上圍棋高峰的AlphaGo。他是AlphaGo Zero，號稱是AlphaGo的弟弟，有著比哥哥更卓越的下棋功力，而且學習的過程也與眾不同。

AlphaGo是透過以人類經驗為基礎的學習，訓練出更強大的能力。弟弟AlphaGo Zero則是透過自主學習，不需要餵養資料給他，透過與自己對打，將勝場輸入系統，以此學習到弈棋能力。他在三天的時間用4個TPU，和自己對打490萬場棋，最後以100比0擊敗了他的哥哥AlphaGo；但AlphaGo用48個TPU，花了數個月時間學習3,000萬場棋局，才打敗人類。

局部與有限的樣本經驗

記載這個研究結果的論文是＜Mastering the game of Go without human knowledge＞，第一通訊作者David Silver認為，

「AlphaGo Zero更加強大，原因是他不再受到人類經驗的限制（no longer constrained by human knowledge），能自由的發展新知和策略。」

這告訴我們一個重要的思考面向：人類的經驗所發展出來的認知甚至策略，其實是有限的。

人類的經驗受制於有限的樣本，只有在「局部」的情況下某些判斷或定理才能被滿足。我們所能觀察的、記載的、施展出的以及歸納而來的方法或定理，其實都是極其有限的（進行推斷的樣本有限）；只在特定條件下，才能成立。局部是相對於「一般」或「整體」的概念，假如我們所說的真相或事實是一個整體，大家可能都會看到其中的一個面向，那就是局部。由於個體所能觸及的資訊是有限的，所以人也只能做出局部的理解與判斷。

為了方便理解，我們可以思考，有個人一生都沒看過黑天鵝，只看過白天鵝，他能夠做出世上沒有黑天鵝的判斷嗎？我們或許可以否決他，因為我們看過黑天鵝，世上有黑天鵝，只不過他所居住的地方沒有黑天鵝，所以他不知道。如果他看過的樣本數量夠多，例如他有特權看盡世上所有天鵝，他才能做出精確完整判斷。我們從這裡看出，人的認知、判斷甚至是衍伸出來的策略，都受到經驗（樣本）足夠與否的影響。

在我們視為是定理的理論也是，尤其是社會科學。有些人對於理論是「局部」的這個事實，並不是很清楚。有的人喜愛用單一經濟理論來解釋經濟現象。聽的人甚至還聽得津津有味。像是未來台北房價會跌，因為沒有人住，價格就會下跌。這個供需理論用的熟稔，房子確實也是商品，可是影響房價的變數不只是房子供需數量，像是利率也很重要。如果市場流通貨幣過多導致利率下降，像房子這類相對較能保值或相對高報酬的資產仍受青睞，價格會如何被需求影響還不好說。當然，如果仔細看一下教科書，就會發現經濟理論很多的「假定XXX條件不變的情況下」，這就是「局部」的概念（局部均衡）。

而我們對人類局部有限的認知，我們可以呼應到AlphaGo Zero技術評價上。杜克大學的陳怡然教授說：

「這證明了人類經驗由於樣本空間大小的限制，往往都收斂於局部最優而不自知（或無法發現），而機器學習可以突破這個限制……。實際更優或者最優的下法與人類的下法存在一些本質的不同，人類實際誤導了AlphaGo。」

框架、錨定與選擇困難

人類的認知不只有限，而且還相當容易受到操作。心理學的研究認為我們的認知受到「框架」的影響。因為我們的思考，深受相對參考點的影響，心理學家稱這效應為「定錨」。有次在山頭上被朋友亂帶路走不回去，我回憶到一個有趣的實驗，問居民走到目的地要多久，提示對方，是30分鐘嗎？對方會回答快25分鐘；再問另一個路人同樣問題，定錨為20分鐘，而他回答15分鐘就可以了。得到了兩組被亂引導的答案，那一次，我花約20分鐘就走到了。定的錨越高，所回答的基準也越高，反之亦然。　

我們也認為人們能夠比較商品對他們的價值，進而做出選擇。但是心理學家在實驗上也發現，當選項只有3到5個時，人們還可以做出選擇；但當選擇超過7個和以上，人就無法做出選擇。因為對損失太過於敏感，選了一個，似乎就意味著放棄其他6個的價值總和。我們似乎不是靠著機會成本的觀念在做選擇。

傳統經濟學告訴我們，人能清楚知道自己的偏好，清楚地做出自己想要的選擇。然而我們從上面例子可以看到，人的認知是受到外在框架而變化的，且有時人們可能根本不清楚自己要什麼，以及他所要的東西到底多有價值。我們所透過有限經驗歸納出來的結論，某種程度上框限我們的創造力；定錨、框架和選擇的困難，也大大影響我們對現實的理性判斷和經驗累積。

說人類經驗是錯的那就太過武斷了，只是AI在自己摸索屬於自己的套路有更豐富的樣本支持，更理性了些，走出了不一樣的路。

兩位美國的棋手觀看AI兄弟檔對決時做出評論：AlphaGo Zero在開局和收官並沒有差異，但相對的，在中盤的時候下的比較怪異。

對於「事實」，永遠要保持謙虛敬畏

至此，AI的發展又邁進一步，有人充滿信心，但也有人換了另一個面向來看，認為他們雖然補足人類的不足，但會不會反過來取代或壓制人類。

專家對這項發展也有些回應，密西根大學AI實驗室主任Satinder Singh認為AI與人和動物相比，所知所能還非常有限（extremely limited）；北卡羅萊納大學的洪韜教授認為這股熱潮燃燒多久，還得看神經網絡能解決多少問題，新的工具未必能經得起長時間的考驗。

當然，工具也取決於人的價值觀和使用，事態如何發展無法定論，但有些命題已經慢慢顯現，大略整理了幾個方向：我們究竟怎麼在AI面前看待處處缺漏的人類認知？聽從AI在各方面給我們的裁決和建議，我們能過上更想要的生活嗎？我們道德觀念和法律規範要如何因應調整？智能和意識，誰比較重要？

而我想的是，環境變得讓我們某些特質不太有助於生存，因此找到並強化我們與群體適合生存的特質，也是不可忽視的。

另外，我們也可以得到重要的概念：我們對於「事實」，永遠要保持謙虛敬畏。基於僅有的工具和經驗，只掌握有限的變數，也不清楚是否會有隨機變數產生（隨機變數可否被預測此不討論），所以無法得出通用、普遍又能準確應用的原則，突破了局部，也可能只是通往更大的局部。

責任編輯：朱家儀
核稿編輯：翁世航

AlphaGo Zero自學圍棋三天創棋步
LTN 2017-10-20

〔編譯陳正健／綜合報導〕網路搜尋引擎巨擘谷歌（Google）旗下的英國科技公司「Google DeepMind」十八日在英國期刊《自然》發表論文指出，已開發出新版的人工智慧圍棋程式，名為「AlphaGo Zero」，能在三天內就「自學」精通圍棋，無須以人類為師，且能自創新的棋步，完勝舊版「AlphaGo」。

[attach]120756145[/attach]
中國棋王柯潔今年五月在烏鎮圍棋峰會上，與人工智慧「AlphaGo」對弈時吞敗。（法新社檔案照）

領導此一最新人工智慧程式發展的研究員席佛（David Silver）指出，「AlphaGo Zero」能夠從零開始自學，只要告知規則後，完全靠自己與自己對戰數百萬回棋賽，從中發現致勝策略。相較之下，舊版「AlphaGo」需先從人類棋手的幾千回對戰資料中學習，之後才能與自己下棋。

經過三天訓練的「AlphaGo Zero」先在對弈中完勝二○一五年版的「AlphaGo」，比數是一百比零。二○一五年版「AlphaGo」是在二○一六年三月，與十八次贏得世界棋王的李世石對戰時，以四勝一敗戰績震驚世人而聞名於世。隨後「AlphaGo Zero」再接受四十天的訓練，又擊敗升級版的「AlphaGo」，該升級版「AlphaGo」與中國圍棋世界冠軍柯潔在今年五月對戰三場全勝。

得知此消息的柯潔十九日在微博上感嘆表示，「一個純淨、純粹自我學習的AlphaGo是最強的……對於AlphaGo的自我進步來講……人類太多餘了」。

AI棋藝是靠反覆演算

席佛十八日透過視訊解釋「AlphaGo Zero」的運作，是靠「強化學習法」（reinforcement learning），從反覆嘗試中精通棋藝，程式中設有獎勵機制，自我對弈時只要下了好棋，就會得到正分，反之會得負分。

研究人員在《自然》中指出，「AlphaGo Zero」不僅重新發現人類傾向使用的共同模式與開局棋步，而且還拋棄這些棋招，自創人們未知的新招。Google DeepMind共同創辦人兼執行長哈薩比斯在部落格上指出，有別於先前版本，「AlphaGo Zero」已不再受到人類知識限制。

「AlphaGo Zero」的程式核心是一套神經網路系統，哈薩比斯強調，許多人以為機器學習與大數據有關，但在「AlphaGo Zero」根本不是這麼回事，「演算法反而更重要」。和擊敗李世石的程式相比，「AlphaGo Zero」只使用一部機器，有四個資料處理器，「AlphaGo」則使用多部機器，有四十八個資料處理器。

英國謝菲爾德大學計算神經科學學者瓦西拉基強調，電腦能在複雜及精準的比賽中擊敗人類，但在其他項目上仍無法與人類相比，機器人只能從事走路、跑步及踢球等活動，這些對人類都是極其簡單之任務。

哈薩比斯則表示，人工智慧在多項任務上要與人類匹敵，仍有很長一段路要走。預計未來十年將用於幫助人類發現新藥和物質、粒子物理學，解開粒子物理學的謎團。

Nature 刊登 Deepmind 論文，最強 AlphaGo Zero 已無需人類知識，AlphaGo 慘敗
INSIDE 2017/10/19 【合作媒體】雷鋒網作者岑大師。

AlphaGo「退役」了，但 Deepmind 在圍棋上的探索並沒有停止。

今年 5 月的烏鎮大會的「人機對局」中，中國棋手、世界冠軍柯潔 9 段以 0:3 不敵 AlphaGo。隨後 Deepmind 創辦人 Hassabis 宣布，AlphaGo 將永久退出競技舞台，不再進行比賽。

Hassbis 當時表示：「我們計劃在今年稍晚發布最後一篇學術論文，詳細介紹我們在演算法效率上所取得的一系列進展，以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣，我們希望更多的開發者能夠接過接力棒，利用這些全新的進展開發出屬於自己的強大圍棋程式。」

今天，Deepmind 如約在 Nature 發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》（不使用人類知識制霸圍棋）的論文中，Deepmind 展示了他們更強大的新版本圍棋程式「AlphaGo Zero」，驗證了即使在像圍棋這樣最具挑戰性的領域，也可以通過純強化學習的方法自我完善達到目的。

[attach]120756136[/attach]

論文摘要

人工智慧的一個長期目標是通過後天的自主學習（注：tabula rasa，意為「白板」，指所有的知識都是逐漸從他們的感官和經驗而來），在一個具有挑戰性的領域創造出超越人類的精通程度學習的演算法。之前，AlphaGo 成為首個戰勝人類圍棋世界冠軍的程式，當時的 AlphaGo 通過深層神經網路進行決策，並使用人類專家下棋的資料進行監督學習，同時也通過自我對弈進行強化學習。在這篇論文中，我們將介紹一種僅基於強化學習的演算法，而不使用人類的資料、指導或規則以外的領域知識。AlphaGo 成為自己的老師，這一神經網路被訓練用於預測 AlphaGo 自己的落子選擇，提高了決策樹搜尋的強度，使得落子品質更高，具有更強的自我對弈迭代能力。從一塊白板開始，我們的新程式 AlphaGo Zero 表現驚人，並以 100：0 擊敗了之前版本的 AlphaGo。

全新強化學習算法：無需任何人類指導

這篇論文的最大亮點，在於無需任何人類指導，通過全新的強化學習方式，人工智慧的程式自己成為自己的老師，在圍棋這一個最具挑戰性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據，這一個新的演算法訓練時間更短，僅用 3 天時間就達到了擊敗李世乭的 AlphaGo Lee 的水準，21 天就達到了之前擊敗柯潔的 AlphaGo Master 的水準。

在 3 天內——也就是 AlphaGo Zero 在擊敗 AlphaGo Lee 之前，曾進行過 490 萬次自我對弈練習。相比之下，AlphaGo Lee 的訓練時間長達數月之久。AlphaGo Zero 不僅發現了人類數千年來已有的許多圍棋策略，還設計了人類玩家以前未知的的策略。

[attach]120756143[/attach]

據 Deepmind 部落格介紹，AlphaGo Zero 採用了新的強化學習方法，從一個不知道圍棋遊戲規則的神經網路開始，通過將這個神經網路與強大的搜尋演算法結合，然後就可以實現自我對弈了。在這樣的訓練過程中，神經網路不斷被更新和調整，並用於預測下一步落子和最終的輸贏。

這一更新後的神經網路將再度與搜尋演算法組合，過程不斷重複，最後建立了一個新的、更強大版本的 AlphaGo Zero。在每次迭代中，系統的性能和自我對弈的品質均能夠有部分提高。「日拱一卒，功不唐捐」，最終的神經網路越來越精確，AlphaGo Zero 也變得更強。

AlphaGo Zero 與之前版本有如下不同：

AlphaGo Zero 只使用棋盤上的黑子和白子作為輸入，而之前版本 AlphaGo 的輸入均包含部分人工特徵；
AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」來選擇落子的位置，並使用另一個「價值網路」來預測遊戲的輸贏結果。而在 AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行，從而使其可以更好地進行訓練和評估。
AlphaGo Zero 無需進行隨機推演（Rollout）——這是一種在其他圍棋程式中廣泛使用於勝負的快速隨機策略，從而通過比較確定每一手之後輸贏的機率，選擇最佳落子位置。相反地，它依賴於高品質的神經網路來評估落子位置。

上述差異均有主於提高系統的性能和通用性，但使最關鍵的仍是演算法上的改進，不僅使得 AlphaGo Zero 更加強大，在功耗上也更為高效。

[attach]120756144[/attach]
AlphaGo 不同版本所需的 GPU/TPU 資源

雖然這一技術還處於早期階段，但 AlphaGo Zero 的突破使得我們在未來面對人類面對的一些重大挑戰（如蛋白質折疊、減少能源消耗、尋找革命性的新材料等）充滿信心。

眾所周知，深度學習需要大量的資料，而在很多情況下，獲得大量資料的成本過於高昂，甚至根本難以獲得。如果將該技術應用到其他問題上，將會有可能對我們的生活產生根本性的影響。

新 AlphaGo Zero 自學 21 日擊敗上代 AlphaGo　不靠人類知識
UNWIRE.HK-十月 19, 2017 •生活科技 •

Google 系列企業 DeepMind 開發的 AlphaGo 圍棋 AI 系統，在人機對戰贏了中國棋手柯潔之後退役。不過 DeepMind 已經準備好用全新技術製作的「AlphaGo Zero」AI 系統，最大的進化是它毋須學習人類對弈，僅透過自我強化學習的演算法，就能學成精通的圍棋技藝。

以往的 AlphaGo 學習圍棋，使用了大量人類圍棋對局的資料進行學習，另外再加上自我對弈以加強學習效果。但今次 DeepMind 在科學雜誌《Nature》就發表了題為《Mastering the game of Go without human knowledge》（毋須人類智識就能掌握圍棋）的論文。當中提到了進化版的「AlphaGo Zero」人工智能系統，可以只單靠自我學習來達到掌握圍棋技藝。

在全新技術當中，AlphaGo Zero 神經網絡從一塊連圍棋規則也不知道的「白板」開始，技術人員再將這個網絡跟搜尋演算法結合，然後就開始了自我學習。AI 人工智能系統不斷進行自我對弈，把自己的下棋方法加以學習、改進，不斷增強下棋的判定。它只從一塊「白板」開始學習，用了 3 天的時間，就達到了他的上兩代「AlphaGo Lee」（擊敗棋手李世乭的系統），而只利用了 21 日的時間，就達到了他的上一代「AlphaGo Master」（擊敗柯潔的系統）相同的水準。

從開始就能自我學習的 AlphaGo Zero，厲害之處除了靠自我學習就得到了人類長久以來累積的圍棋策略經驗之外，更獲得了一些人類棋手未知的策略技術。AlphaGo Zero 系統只用了 40 日，就成為了世界最強的圍棋棋手。

[attach]120756204[/attach]
▲AlphaGo Zero的自我學習流程

深度學習需要有大量資料輔助，例如以前 AlphaGo 需要的對局資料，有時候資料的成本高昂，而且知識有時也未必輕易得到。AlphaGo Zero 這項技術突破，日後可利用於解決人類未曾認識的重大挑戰。

資料來源：YouTube, Google, NPR

歡迎光臨伊莉討論區 (http://10.eyny.com/)