小猫咪影视,国产97人人超碰CAO蜜芽PR,日本黄页精品大全

德?lián)銩I之父：贏不贏柯潔，阿爾法狗都缺乏實(shí)際用處

時(shí)間：2017-04-12 10:23 來源：澎湃新聞網(wǎng) 責(zé)任編輯：毛青青

　　因此，雖然一盤德?lián)涞臎Q策點(diǎn)數(shù)量是10的160次方，要少于圍棋，但光靠搜索是打不了德?lián)涞�。德�(lián)溆纱颂隽嗽谒阉髁可系妮^量，對(duì)AI提出了另一個(gè)方向上的考驗(yàn)：應(yīng)對(duì)隱藏的信息。

　　阿爾法狗和冷撲大師的原理有何不同?

　　谷歌曾在《自然》雜志上發(fā)表文章，公布阿爾法狗的幾個(gè)基本原理，分別為：走棋網(wǎng)絡(luò)(Policy Network)，給定當(dāng)前局面，預(yù)測(cè)和采樣下一步的走棋;快速走子(Fast rollout)，在適當(dāng)犧牲走棋質(zhì)量的條件下提高速度;價(jià)值網(wǎng)絡(luò)(Value Network)，給定當(dāng)前局面，估計(jì)雙方勝率;蒙特卡羅樹搜索(Monte Carlo Tree Search，MCTS)，把以上三個(gè)部分串聯(lián)成一個(gè)完整的系統(tǒng)。

　　冷撲大師的算法則主要基于以下三個(gè)模塊產(chǎn)生：

　　首先，納什均衡是德?lián)渌惴ǖ暮诵模碅I的目標(biāo)是找到一個(gè)無論對(duì)方怎么做，自己都不會(huì)產(chǎn)生損失的策略。根據(jù)博弈論，像一對(duì)一撲克這種零和游戲永遠(yuǎn)存在這樣的最優(yōu)解，就像在經(jīng)典的博弈論模型“囚徒困境”中，招認(rèn)罪行就是一個(gè)無論對(duì)方招認(rèn)不招認(rèn)都最優(yōu)的策略。因此，冷撲大師的開發(fā)團(tuán)隊(duì)提前在龐大的決策樹上利用虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)推算出了均衡，即通過多次迭代計(jì)算博弈樹中每個(gè)信息集的動(dòng)作遺憾值和平均策略值,預(yù)測(cè)下一時(shí)刻的決策動(dòng)作,使其是當(dāng)前最小遺憾動(dòng)作。

　　此外，冷撲大師還有殘局解算器(end-game solver)和自我強(qiáng)化學(xué)習(xí)這兩個(gè)模塊來輔助第一個(gè)模塊。殘局解算器會(huì)在殘局時(shí)實(shí)時(shí)評(píng)估場(chǎng)上的情況，以判斷第一模塊中算出的納什均衡是否符合實(shí)時(shí)情況。而自我強(qiáng)化學(xué)習(xí)會(huì)反思AI在比賽中的表現(xiàn)，找出曾被人類利用過的“套路”，清除這些可循的痕跡。

　　總體來說，阿爾法狗和冷撲大師的算法有三大明顯不同。

　　第一，阿爾法狗的訓(xùn)練過程中用到了大量數(shù)據(jù)的深度學(xué)習(xí)，即通過大量給定的輸入和輸出形成穩(wěn)定的處理。但計(jì)算機(jī)的處理過程本身是一個(gè)黑匣子。而冷撲大師沒有用到時(shí)髦的深度學(xué)習(xí)，而是通過傳統(tǒng)的線性規(guī)劃提前算出納什均衡，是一個(gè)“老式但好用的人工智能”(Good Old-Fashioned Artificial Intelligence)。

　　第二，阿爾法狗在深度學(xué)習(xí)過程中參考了數(shù)千萬張人類棋譜，可以說是靠模仿人類高手起步的。雖然阿爾法狗也運(yùn)用到了一些自我強(qiáng)化學(xué)習(xí)，但比重并不大。而冷撲大師完全是通過自我強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的。開發(fā)者從未教給它人類打牌的方法，只是向它描述了德?lián)涞囊?guī)則，由它“左右互搏”，摸索出德?lián)鋺?yīng)該怎么玩。因而，冷撲大師的打法完全脫離了人類經(jīng)驗(yàn)。值得注意的是，即將與柯潔在烏鎮(zhèn)對(duì)戰(zhàn)的阿爾法狗2.0將擯棄人類棋譜，完全采用一套自我摸索出來的下法。

　　第三，雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招，但它們的難度不一樣。圍棋下到殘局，可走的招數(shù)越來越少，計(jì)算量也越來越簡(jiǎn)單;而德?lián)溟_到轉(zhuǎn)牌和河牌時(shí)，可能性更多，局面變得更為復(fù)雜。因此，冷撲大師經(jīng)常在轉(zhuǎn)牌階段做出長時(shí)間的停頓。

　　阿爾法狗和冷撲大師哪個(gè)更有用?

　　在冷撲大師的開發(fā)者、美國卡內(nèi)基梅隆大學(xué)(CMU)計(jì)算機(jī)系教授托馬斯桑德霍姆(Tuomas Sandholm)和其博士生諾姆布朗(Noam Brown)看來，這個(gè)問題的答案十分明顯。在現(xiàn)實(shí)生活中，幾乎不存在像圍棋這樣給出所有信息的完美情境，因而像阿爾法狗這樣的算法也很難直接派上用場(chǎng)。

　　在現(xiàn)實(shí)生活中，我們遇到的事情會(huì)更像玩德?lián)洌荷虡I(yè)談判時(shí)對(duì)方未知的底牌、房屋拍賣時(shí)競(jìng)爭(zhēng)對(duì)手難測(cè)的舉動(dòng)、股票交易中一些隱藏的內(nèi)部消息。桑德霍姆認(rèn)為，德?lián)銩I打開了靠人工智能解決隨機(jī)事件和隱藏信息的大門。這樣的AI，才有望離開虛擬的棋牌世界，成為人類在現(xiàn)實(shí)生活中談判、博弈和投資的好幫手。

　　桑德霍姆自己就成立了一家戰(zhàn)略計(jì)算公司，希望利用人工智能解決金融上的一些戰(zhàn)略計(jì)算問題。首先，金融交易拼的是速度，AI在量化交易上具有巨大優(yōu)勢(shì)。其次，像股票交易中經(jīng)常會(huì)存在一些隱藏的信息，AI能在交易者較少的情況下，幫助人類在隱藏的信息面前做出決策。

　　阿爾法狗和冷撲大師哪個(gè)更厲害?

　　諾姆布朗說道，每一種游戲從計(jì)算機(jī)科學(xué)的角度來說，都存在一些核心問題，而掌握這個(gè)游戲的AI相當(dāng)于解決了這個(gè)核心的問題。圍棋和德?lián)浯砹藘深愅耆煌挠螒�，阿爾法狗和冷撲大師也在朝完全不同的兩個(gè)方向探索。

　　只不過，圍棋在“完美信息游戲”中屬于高難度水平，因而阿爾法狗也在搜索這個(gè)核心問題上取得了巔峰成就。而冷撲大師剛剛打開了“非完美信息游戲”的大門，對(duì)于解決隱藏信息這個(gè)問題來說，德?lián)銩I只是個(gè)開始。光就游戲而言，與德?lián)漕愃频膴W馬哈，就比德?lián)涓鼮閺?fù)雜一些。布朗說，他們對(duì)中國的麻將略知一二，麻將也是一種充滿了隱藏信息的游戲。

投稿郵箱：chuanbeiol@163.com 詳情請(qǐng)?jiān)L問川北在線：http://sanmuled.cn/

>>相關(guān)文章

逆天了：橫掃中日韓頂尖棋手 Master就是阿爾法狗AlphaGo

谷歌發(fā)公告：升級(jí)版阿爾法狗非官方測(cè)試已經(jīng)完成

阿爾法狗挑戰(zhàn)星際難度更大圍棋大佬不服

川北在線-川北全搜索版權(quán)與免責(zé)聲明

①凡注明"來源：XXX(非在線)"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用，不構(gòu)成任何投資建議，文章觀點(diǎn)不代表本站立場(chǎng)，其真實(shí)性由作者或稿源方負(fù)責(zé)，本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評(píng)。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的，本站不原創(chuàng)、不存儲(chǔ)視頻，所有視頻均分享自其他視頻分享網(wǎng)站，如涉及到您的版權(quán)問題，請(qǐng)與本網(wǎng)聯(lián)系，我站將及時(shí)進(jìn)行刪除處理。

娛樂百科

更多>>