close

從零開始,全憑自學,它用40天完虐AlphaGo!

人工智能棋手 AlphaGo 先後台中通馬桶推薦戰勝瞭兩位頂尖圍棋高手李世乭和柯潔。在這場猛烈風暴席卷瞭世界後,AlphaGo 宣佈不再和人下棋。但它的制造者並沒有因此停下腳步,AlphaGo 還在成長,今天Deepmind 又在《自然》期刊上發表瞭關於 AlphaGo 的新論文。

這篇論文中的 AlphaGo 是全新的,它不是戰勝柯潔的那個最強的Master,但卻是孿生兄弟。它的名字叫AlphaGo Zero,是AlphaGo 的最後一個版本。

和以前的 AlphaGo 相比,它:

從零開始學習,不需要任何人類的經驗使用更少的算力得到瞭更好的結果發現瞭新的圍棋定式將策略網絡和值網絡合並使用瞭深度殘差網絡
白板理論(Tabula rasa)哲學上有種觀點認為,嬰兒生下來是白板一塊,通過不斷訓練、成長獲得知識和智力。

作為 AI 領域的先驅,圖靈使用瞭這個想法。在提出瞭著名的“圖靈測試”的論文中,他從嬰兒是一塊白板出發,認為隻要能用機器制造一個類似小孩的 AI,然後加以訓練,就能得到一個近似成人智力,甚至超越人類智力的AI。

現代科學瞭解到的事實並不是這樣,嬰兒生下來就有先天的一些能力,他們偏愛高熱量的食物,餓瞭就會哭鬧希望得到註意。這是DNA在億萬年的演化中學來的。

監督和無監督學習(Supervised Unsupervised Learning)計算機則完全不同,它沒有億萬年的演化,因此也沒有這些先天的知識,是真正的“白板一塊”。監督學習和無監督學習是鏡子的兩面,兩者都想解決同一個問題——如何讓機器從零開始獲得智能?

監督學習認為人要把自己的經驗教給機器。拿分辨貓貓和狗狗的 AI 來說,你需要準備幾千張照片,然後手把手教機器——哪張照片是貓,哪張照片是狗。機器會從中學習到分辨貓狗的細節,從毛發到眼睛到耳朵,然後舉一反三得去判斷一張它從沒見過的照片是貓貓還是狗狗。社區公寓大廈抽肥

而無監督學習認為機器要去自己摸索,自己發現規律。人的經驗或許能幫助機器掌握智能,但或許人的經驗是有缺陷的,不如讓機器自己發現新的,更好的規律。人的經驗就放一邊吧。

從無知到無敵就像這篇新論文中講述的那樣。AlphaGo Zero 是無監督學習的產物,而它的雙胞胎兄弟 Master 則用瞭監督學習的方法。在訓練瞭72小時後 AlphaGo Zero 就能打敗戰勝李世乭的 AlphaGo Lee,相比較 AlphaGo Lee 訓練瞭幾個月。而40天後,它能以89:11的成績,將戰勝瞭所有人類高手的 Master 甩在後面。

圖靈的白板假設雖然無法用在人身上,但是 AlphaGo Zero 證明瞭,一個白板 AI 能夠被訓練成超越人類的圍棋高手。

強化學習(Reinforcement Learning)強化學習是一種模仿人類學習方式的模型,它的基本方法是:要是機器得到瞭好的結果就能得到獎勵,要是得到差的結果就得到懲罰。AlphaGo Zero 並沒有像之前的兄弟姐妹一樣被教育瞭人類的圍棋知識。它隻是和不同版本的自己下棋,然後用勝者的思路來訓練新的版本,如此不斷重復。

通過這一方法,AlphaGo Zero 完全自己摸索出瞭開局,收官,定式等以前人類已知的圍棋知識,也摸索出瞭新的定勢。

算法和性能如何高效合理得利用計算資源?這是算法要解決的一個重要問題。AlphaGo Lee 使用瞭 48個TPU,更早版本的 AlphaGo Fan 使用瞭 176個 GPU,而 Master 和 AlphaGo Zero 僅僅用瞭 4個 TPU,也就是說一臺電腦足夠!

AlphaGo Zero 在 72小時內就能超越 AlphaGo Lee 也表明,優秀的算法不僅僅能降低能耗,也能極大提高效率。另外這也說明,圍棋問題的復雜度並不需要動用大規模的計算能力,那是隻浪費。

AlphaGo Zero 的算法有兩處核心優化:將策略網絡(計算下子的概率)和值網絡(計算勝率)這兩個神經網絡結合,其實在第一篇 AlphaGo 的論文中,這兩種網絡已經使用瞭類似的架構。另外,引入瞭深度殘差網絡(DeepResidual Network),比起之前的多層神經網絡效果更好。

Deepmind 的歷程

這不是 Deepmind 第一次在《自然》期刊上投稿,他們還發表過《利用深度神經網絡和搜索樹的圍棋AI》和《AI 電腦遊戲大師》等幾篇論文。

我們可以從中一窺 Deepmind 的思路,他們尋找人類還沒有理解原理的遊戲,遊戲比起現實世界的問題要簡單很多。然後他們選擇瞭兩條路,一條道路是優化算法,另外一條道路是讓機器不受人類先入為主經驗的影響。

這兩條路交匯的終點,是那個超人的 AI。

結語這是AlphaGo 的終曲,也是一個全新的開始,相關技術將被用於造福人類,幫助科學傢認識蛋白質折疊,制造出治療疑難雜癥的藥物,開發新材料,以制造以出更好的產品。(編輯:明天)

台中抽化糞池

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運

X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片

arrow
arrow

    qam071n3v8 發表在 痞客邦 留言(0) 人氣()