《蒙特祖瑪?shù)膹?fù)仇》是一個(gè)出了名困難的游戲,是強(qiáng)化學(xué)習(xí)的一大挑戰(zhàn)。本文作者長(zhǎng)期從事深度強(qiáng)化學(xué)習(xí)研究,他認(rèn)為DeepMind和OpenAI攻克蒙特祖瑪?shù)膹?fù)仇并沒(méi)有看上去意義那么重大,深度強(qiáng)化學(xué)習(xí)的長(zhǎng)期目標(biāo)是讓智能體具備先驗(yàn)知識(shí),可以從零開(kāi)始玩游戲。
最近,DeepMind和OpenAI都宣布他們開(kāi)發(fā)了可以學(xué)習(xí)完成Atari 2600游戲《蒙特祖瑪?shù)膹?fù)仇》第一關(guān)的智能體。他們這些宣稱很重要,因?yàn)椤睹商刈娆數(shù)膹?fù)仇》這個(gè)游戲?qū)τ贏I研究來(lái)說(shuō)很重要。與街機(jī)學(xué)習(xí)環(huán)境(Arcade Learning Environment,ALE)里的絕大多數(shù)游戲不同,大多數(shù)游戲現(xiàn)在很容易被利用深度學(xué)習(xí)的agent解決掉,達(dá)到超越人類水平的表現(xiàn)。但《蒙特祖瑪?shù)膹?fù)仇》一直沒(méi)有被深度強(qiáng)化學(xué)習(xí)方法解決,而且被一些人認(rèn)為在未來(lái)的幾年里都無(wú)法解決。
蒙特祖瑪?shù)膹?fù)仇的第一個(gè)房間
蒙特祖瑪?shù)膹?fù)仇與ALE中其他游戲的區(qū)別在于,它的獎(jiǎng)勵(lì)(rewards)相對(duì)少。這意味著agent只在長(zhǎng)時(shí)間完成特定的一系列動(dòng)作之后才會(huì)收到獎(jiǎng)勵(lì)信號(hào)。在蒙特祖瑪?shù)膹?fù)仇的第一個(gè)房間里(見(jiàn)上圖1),這意味著agent要從梯子上下來(lái),用繩子跳過(guò)一個(gè)空地,從另一個(gè)梯子下來(lái),跳過(guò)一個(gè)會(huì)移動(dòng)的敵人,最后還要爬上另一個(gè)梯子。所有這些只是為了在第一個(gè)房間里拿到第一把鑰匙!
在游戲的第一關(guān),有23個(gè)這樣的房間,agent要在這些房間里拿到所有鑰匙,才能完成這個(gè)關(guān)卡(見(jiàn)圖2)。更復(fù)雜的是,游戲中導(dǎo)致失敗的條件也相當(dāng)嚴(yán)格,agent會(huì)由于很多可能的事件導(dǎo)致死亡,其中最累人的是從高的地方墜落。不熟悉這個(gè)游戲的人可以試著玩一下,看看你要花多長(zhǎng)時(shí)間才能通過(guò)第一個(gè)房間,更不用說(shuō)通過(guò)第一個(gè)關(guān)卡了。
蒙特祖瑪?shù)膹?fù)仇第一關(guān)
由于難度太高,《蒙特祖瑪?shù)膹?fù)仇》游戲被視為Deep RL方法的一大挑戰(zhàn)。事實(shí)上,這款游戲激發(fā)了一些更有趣的方法的開(kāi)發(fā),這些方法可以對(duì)傳統(tǒng)的Deep RL算法進(jìn)行增強(qiáng)或重構(gòu),利用新的方法進(jìn)行分層控制、探索和體驗(yàn)回放。因此,當(dāng)DeepMind和OpenAI各自聲稱已經(jīng)開(kāi)發(fā)出能夠如此出色地玩這個(gè)游戲的算法時(shí),就成了大新聞(至少在有些領(lǐng)域是如此)。
DeepMind和OpenAI在這個(gè)游戲到底達(dá)到了多厲害的水平呢?是這樣先前的技術(shù)最高水平是2600分(DeepMind的FuN模型),而新方法可以達(dá)到數(shù)萬(wàn)分。從工程和理論的角度來(lái)看,所有這三種方法都得到了令人印象深刻的結(jié)果,所有方法都需要學(xué)習(xí)。
但是,用深度強(qiáng)化學(xué)習(xí)來(lái)解決蒙特祖瑪?shù)膹?fù)仇的說(shuō)法并不像它們看起來(lái)的那樣。在這三種情況下(DeepMind的兩篇論文和OpenAI的一篇博客文章),使用人類專家演示都是他們的算法的一個(gè)組成部分,這從根本上改變了學(xué)習(xí)問(wèn)題的本質(zhì)。
在這篇文章中,我想討論的是,這些方法是為了解決蒙特祖瑪?shù)膹?fù)仇游戲的第一個(gè)關(guān)卡,以及為什么在游戲環(huán)境以及Deep RL的長(zhǎng)期目標(biāo)中,這些方法并沒(méi)有看上去意義重大。最后,我將簡(jiǎn)要地討論一下這個(gè)出了名困難的游戲中真正重大的結(jié)果是什么,這將為這個(gè)領(lǐng)域指明前進(jìn)的方向。
DeepMind的結(jié)果:從YouTube學(xué)習(xí)和Q-Learning
從YouTube學(xué)習(xí)
DeepMind在5月份發(fā)布了一篇引人注目的論文“通過(guò)觀看YouTube來(lái)玩困難的探索游戲”(Playing hard exploration games by watching YouTube),里面提出了我們今天介紹的解決蒙特祖瑪?shù)膹?fù)仇的三種方法中最有趣的一種。正如題目所示,研究小組設(shè)計(jì)了一種方法,可以使用專業(yè)玩家通關(guān)游戲第一關(guān)的視頻來(lái)輔助學(xué)習(xí)過(guò)程。
“從視頻學(xué)習(xí)”這個(gè)問(wèn)題本身就是一個(gè)有趣的挑戰(zhàn),完全超出了游戲本身的挑戰(zhàn)。正如作者所指出的,在YouTube上發(fā)現(xiàn)的視頻包含了各種各樣的artifacts,它們可以阻止在視頻中發(fā)生的事情與在ALE中玩游戲的agent可能觀察到的事情之間進(jìn)行映射。為了解決這一“差距”,他們創(chuàng)建了一種方法,能夠?qū)?duì)游戲狀態(tài)(視覺(jué)的和聽(tīng)覺(jué)的)的觀察結(jié)果嵌入到一個(gè)共同的嵌入空間中。
不同的演示視頻和模擬器圖像的比較
然后,利用這個(gè)嵌入空間為學(xué)習(xí)智能體提供獎(jiǎng)勵(lì)。agent不再只接受原始游戲提供的稀疏獎(jiǎng)勵(lì),而是還能獲得中間獎(jiǎng)勵(lì),該中間獎(jiǎng)勵(lì)對(duì)應(yīng)于沿著專家玩家提供的路徑到達(dá)檢查點(diǎn)。通過(guò)這種方式,agent可以獲得更強(qiáng)的學(xué)習(xí)信號(hào),最終以41000的分?jǐn)?shù)通過(guò)了游戲的第一關(guān)。
Q-Learning
大約在YouTube論文發(fā)表的同時(shí),DeepMind分享了另一組實(shí)驗(yàn)的結(jié)果,這次的論文標(biāo)題不那么引人注目:“Observe and Look Further: Achieving Consistent Performance on Atari”。
在論文中,他們提出一系列有趣的算法改進(jìn)Deep Q-learning,提高算法的穩(wěn)定性和能力。第一個(gè)是在Q-update中增加折扣因子(discount factor),這樣就可以學(xué)習(xí)更長(zhǎng)期的時(shí)間依賴性,而不需要考慮高折扣因子的典型缺點(diǎn)。第二種方法是使Deep Q-learning能夠解釋不同數(shù)量級(jí)的獎(jiǎng)勵(lì)信號(hào),從而使算法能夠解決最優(yōu)策略涉及學(xué)習(xí)這些不同獎(jiǎng)勵(lì)的任務(wù)。
除了這兩項(xiàng)改進(jìn)之外,他們還建議使用人類演示(human demonstrations)作為增強(qiáng)探索過(guò)程的一種手段,自動(dòng)向網(wǎng)絡(luò)提供專業(yè)玩家會(huì)遵循的狀態(tài)空間軌跡的信息。結(jié)合這三種改進(jìn),作者最終得到一個(gè)能夠以38000分的成績(jī)完成蒙特祖瑪?shù)膹?fù)仇第一關(guān)的agent。值得注意的是,只使用前兩項(xiàng)改進(jìn)(沒(méi)有人類演示)不足以在游戲中獲得矚目的表現(xiàn),得分只有2000多分。
OpenAI的結(jié)果:近端策略優(yōu)化
訓(xùn)練期間使用restart
在DeepMind的結(jié)果發(fā)表幾周后,OpenAI發(fā)布了一篇博客文章,描述了一種也可以訓(xùn)練智能體完成蒙特祖瑪?shù)膹?fù)仇第一關(guān)的方法。該方法也依賴于人類的演示,但他們的方法與DeepMind的方法稍有不同。
在OpenAI的方法中,人類演示不是作為獎(jiǎng)勵(lì)或?qū)W習(xí)信號(hào)的一部分,而是作為智能體重新啟動(dòng)(restart)的一種手段。在游戲中給定人類專家的移動(dòng)軌跡,agent在游戲接近尾聲時(shí)啟動(dòng),然后在每次重新啟動(dòng)的過(guò)程中緩慢地往回移動(dòng)軌跡。這樣做的好處是,僅將agent暴露給游戲中人類玩家已經(jīng)探索過(guò)的部分,并隨著agent本身變得更強(qiáng)而擴(kuò)大范圍。因?yàn)槭褂昧四J(rèn)的近端策略優(yōu)化(PPO算法),這種方法對(duì)實(shí)際學(xué)習(xí)算法沒(méi)有任何改變。只要在“正確”的位置啟動(dòng)agent,就足以確保它找到正確的解決方案,最終,該方法獲得了歷史最高的74500分。
模仿學(xué)習(xí)的局限性
上述所有方法都有一個(gè)共同點(diǎn),就是它們都使用了一組人類專家的演示。第一種方法利用演示來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)信號(hào),第二種方法利用演示來(lái)學(xué)習(xí)更準(zhǔn)確的Q值,第三種方法利用演示來(lái)更智能地重新啟動(dòng)agent。在這三種情況下,演示對(duì)學(xué)習(xí)過(guò)程都至關(guān)重要。一般來(lái)說(shuō),使用演示是為agent提供關(guān)于任務(wù)的有意義的知識(shí)的好方法。實(shí)際上,這就是我們?nèi)祟惸軌驅(qū)W習(xí)無(wú)數(shù)任務(wù)的方法。人類從演示中學(xué)習(xí)的能力的關(guān)鍵是,我們能夠?qū)蝹€(gè)演示進(jìn)行抽象和歸納,并在新的情況中利用。就《蒙特祖瑪?shù)膹?fù)仇》這個(gè)游戲而言,與其開(kāi)發(fā)一種通用的游戲解決方案(如DeepMind的兩篇論文所指出的那樣),真正被開(kāi)發(fā)出來(lái)的是一種利用游戲的關(guān)鍵弱點(diǎn)作為實(shí)驗(yàn)平臺(tái)的聰明方法:游戲的確定性(determinism)。
不管是人類還是AI智能體,每次玩《蒙特祖瑪?shù)膹?fù)仇》時(shí),都會(huì)看到很多完全相同的房間,每個(gè)房間都有完全相同的障礙和謎題。因此,對(duì)每個(gè)房間里的動(dòng)作進(jìn)行簡(jiǎn)單的記憶就足以讓你獲得高分,并且能夠通過(guò)這一關(guān)。雖然如果智能體被迫從頭開(kāi)始學(xué)習(xí)不一定是明顯的缺陷,但當(dāng)這種情況加入了專家演示時(shí),就變成了一個(gè)缺陷。這三種解決方案都利用了游戲的確定性,使智能體能夠更輕松地學(xué)習(xí)解決方案的路徑。最終它學(xué)到的不是如何玩困難的游戲,而是如何執(zhí)行預(yù)先確定的一套動(dòng)作,以完成特定的游戲。
OpenAI的博客文章簡(jiǎn)要地提到了確定性的問(wèn)題,但它是在Atari 模擬器本身的層面,而不是在特定的游戲?qū)用妗K麄兊慕鉀Q方案是使用一個(gè)隨機(jī)的跳幀控制(frame-skip)來(lái)阻止agent記住軌跡。雖然這阻止了agent記憶一系列的動(dòng)作,但它并不阻止通過(guò)狀態(tài)空間來(lái)記憶一般軌跡。
在所有這些情況下,《蒙特祖瑪?shù)膹?fù)仇》這個(gè)游戲不再是稀疏獎(jiǎng)勵(lì)問(wèn)題的一個(gè)很難解決的問(wèn)題,而是變成了通過(guò)固定的狀態(tài)空間學(xué)習(xí)軌跡一個(gè)更容易的問(wèn)題。這是令人遺憾的,因?yàn)樵谧畛醯臉?gòu)想中,這個(gè)游戲仍然可能為深度強(qiáng)化學(xué)習(xí)的研究者提供更具吸引力的挑戰(zhàn)。
解決蒙特祖瑪?shù)膹?fù)仇——艱難的道路
幾年來(lái),我一直密切關(guān)注著蒙特祖瑪?shù)膹?fù)仇的結(jié)果,因?yàn)槲野阉鼈兛醋魇且环N試金石,用來(lái)檢驗(yàn)深度強(qiáng)化學(xué)習(xí)是否開(kāi)始顯示出更一般的推理和學(xué)習(xí)能力的跡象。許多結(jié)果表明,給定足夠的計(jì)算能力,深度強(qiáng)化學(xué)習(xí),甚至隨機(jī)搜索都能解決簡(jiǎn)單的優(yōu)化問(wèn)題。然而,許多研究人員對(duì)人類水平的智能感興趣,而這不僅是簡(jiǎn)單的優(yōu)化。它涉及在多個(gè)抽象層次上學(xué)習(xí)和推理概念,包括將從一個(gè)問(wèn)題空間學(xué)到的概念知識(shí)以一種可適應(yīng)的方式推廣到許多問(wèn)題空間。
當(dāng)你把蒙特祖瑪?shù)膹?fù)仇的第一個(gè)房間呈現(xiàn)給任何人,并問(wèn)他們需要做什么時(shí),他們很快就會(huì)開(kāi)始向你描述一系列的行動(dòng)和觀察,這表明人類對(duì)游戲可能的動(dòng)態(tài)有復(fù)雜的理解。最明顯的表現(xiàn)他們會(huì)認(rèn)識(shí)到鑰匙是理想的物體,骷髏頭是需要避免的東西,梯子是有活動(dòng)能力的東西。然后鑰匙暗示打開(kāi)鎖著的門的能力,突然出現(xiàn)復(fù)雜的多步驟計(jì)劃以及如何完成關(guān)卡的方式。這種推理和計(jì)劃不僅適用于游戲的某個(gè)特定關(guān)卡,還適用于我們所遇到的任何類似的關(guān)卡或游戲。這些技能對(duì)于人類智能而言至關(guān)重要,而且對(duì)于那些試圖將深度強(qiáng)化學(xué)習(xí)推廣到一套簡(jiǎn)單的優(yōu)化算法之外的人來(lái)說(shuō)也很感興趣。然而,在確定性環(huán)境中使用人類演示完全繞過(guò)了對(duì)這些技能的需要。
如果沒(méi)有用來(lái)解釋視覺(jué)場(chǎng)景的先驗(yàn)知識(shí),像《蒙特祖瑪?shù)膹?fù)仇》這類游戲看起來(lái)可能是這樣的
當(dāng)然,這些技能也是最難以用算法形式表達(dá)的,尤其是它們的人類表現(xiàn)形式尚沒(méi)有被完全理解。特別是在概念學(xué)習(xí)的情況下,通常需要把外部的一般知識(shí)引入到新的問(wèn)題上。正如伯克利的一個(gè)研究團(tuán)隊(duì)所指出的那樣,如果我們沒(méi)有先驗(yàn)知識(shí)(無(wú)論是與生俱來(lái)來(lái)說(shuō)后天學(xué)習(xí)的),許多我們認(rèn)為理所當(dāng)然的視頻游戲會(huì)變得更加復(fù)雜。
然后問(wèn)題就變成了,AI智能體如何才能自然地學(xué)習(xí)像《蒙特祖瑪?shù)膹?fù)仇》這樣的游戲所需要的先驗(yàn)知識(shí)。此外,這些習(xí)得的先驗(yàn)知識(shí)如何不僅僅被用于玩一個(gè)特定游戲的特定關(guān)卡,而是可以玩任何類似游戲的任何關(guān)卡。表示學(xué)習(xí)和概念基礎(chǔ)方面正在進(jìn)行一些有趣的工作,我認(rèn)為這對(duì)解決這些問(wèn)題是至關(guān)重要的。還有一些工作正在開(kāi)發(fā)更多的隨機(jī)環(huán)境,以更好地測(cè)試智能體的泛化能力,其中最引人注目的是GVGAI競(jìng)賽(通用視頻游戲AI競(jìng)賽)。
我熱切地期待有一天我們可以毫無(wú)疑問(wèn)地說(shuō),AI智能體可以學(xué)會(huì)從頭開(kāi)始玩《蒙特祖瑪?shù)膹?fù)仇》。當(dāng)那一天到來(lái)時(shí),會(huì)有很多令人興奮的事情。
-
智能體
+關(guān)注
關(guān)注
1文章
476瀏覽量
11604 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
270瀏覽量
11967
原文標(biāo)題:深度強(qiáng)化學(xué)習(xí)試金石:DeepMind和OpenAI攻克蒙特祖瑪復(fù)仇的真正意義
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
揭秘:快充并沒(méi)有看上去的那么簡(jiǎn)單
LMH6502仿真結(jié)果顯示信號(hào)不但沒(méi)有放大,反而衰減了,為什么?
自己想做個(gè)顯示器,看上去并沒(méi)有那么難!
電動(dòng)自行車?看上去就是普通的單車啊!
【Intel Edison試用體驗(yàn)】開(kāi)箱--看上去有點(diǎn)美
什么是注冊(cè)表
華為p10新機(jī)曝光,或采用970麒麟芯片
OpenAI宣布他們的AI僅通過(guò)一次人類演示,蒙特祖瑪的復(fù)仇游戲中玩出歷史最高分
三星Note10曝光采用真全面屏設(shè)計(jì)支持5G擁有10GB+512GB大存儲(chǔ)
AirPods2的做工并沒(méi)有想象中的那么好
這款“養(yǎng)豬機(jī)器人”,外形看上去是一臺(tái)平常的喂料機(jī)
董明珠表態(tài):格力手機(jī)并沒(méi)有失敗
三星Z Flip3的設(shè)計(jì)從主屏幕看上去好像沒(méi)什么變化
客戶改了一個(gè)電阻就炸機(jī)?原因并沒(méi)有那么簡(jiǎn)單
DeepMind和OpenAI攻克蒙特祖瑪?shù)膹?fù)仇并沒(méi)有看上去意義那么重大
評(píng)論