編者按:數據科學家Shayaan Jagtap以馬里奧和精靈寶可夢為例,解釋了當前的AI還不擅長處理哪些種類的問題。
你大概早就聽說機器能以超人的水平玩游戲。這些機器可能經過明確編程,對設定的輸入作出反應,給出設定的輸出,也可能自行學習演化,以不同的方式對相同的輸入作出反應,希望找到最優的反應。
一些著名的例子:
AlphaZero,24小時訓練之后,成為地球上最強大的國際象棋選手。
AlphaGo,著名的圍棋機器人,擊敗了世界級棋手李世乭和柯潔。
MarI/O,可自行學習以任意等級進行游戲的超級馬里奧機器人。
這些游戲很復雜,訓練上面的機器需要精心組合復雜的算法,反復模擬,大量時間。本文將重點討論MarI/O,以及為何我們無法使用相似的方法通關精靈寶可夢游戲。
在這方面,馬里奧和精靈寶可夢有三個關鍵不同:
目標數量
分支因子
全局優化與局部優化
目標數量
機器學習的方式是優化某種目標函數。不管它是最大化獎勵函數(強化學習)、適應度函數(遺傳算法),還是最小化代價函數(監督學習),目標都是類似的:取得盡可能好的分數。
馬里奧只有一個目標:到達本級別的終點。簡單來說,在死亡之前,到達的地方越靠右,表現就越好。這是一個單一的目標函數,模型的能力可以由這一個數字直接衡量。
精靈寶可夢的目標……有很多。擊敗精英4級?捕獲所有寶可夢?訓練最強團隊?上面所有這些?還是其他完全不同的目標?
我們不僅需要定義什么是最終目標,還要定義進展看起來是什么樣的?這樣,任意時刻,大量可能選擇之中的每種行動才能和獎勵或損失對應起來。
這引出了下一項主題。
分支因子
簡單說,分支因子是任意一步可以做出的可能選擇數量。國際象棋的分支因子平均是35,圍棋是250. 額外考慮的未來每一步,都有(分支因子)步數項選擇需要評估。
馬里奧中,要么向左,要么向右,要么起跳,要么什么也不做。機器需要評估的選擇數很小。同時,從算力上說,分支因子越小,機器人可以預計的步數就越多。
精靈寶可夢則是一個開放世界游戲,這意味著,任意給定時刻都有大量選擇。簡單的向上、向下、向左、向右無法有效計算分支因子數量。相反,我們需要查看下一個有意義的行動。下一個行動是進入戰斗,和NPC交談,還是進入左/右/上/下方的小地圖?隨著游戲的進行,可能的選擇范圍越來越大。
創建一個可以找到最佳選擇組合的機器,需要考慮短期和長期目標,這引出了最后一項主題。
全局優化與局部優化
局部優化與全局優化既包括空間層面,也包括時間層面。短期目標和周圍地理區域屬于局部,長期目標和城市、全地圖這樣較大的區域屬于全局。
拆分每一步可以是一種分解精靈寶可夢問題的方式。如何從A點到B點的局部優化是容易的,但決定哪個目的地是最優的B點則是一個困難得多的問題。貪心算法在這里無法奏效,因為局部最優的決策不一定導向全局最優。

馬里奧地圖很小,而且是線性的。而精靈寶可夢卻有著錯綜復雜的非線性大地圖。為了達到高階目標,當前優先級會隨著時間而改變,將全局目標轉換為優先局部優化問題不是一項容易的任務。這不是我們當前的模型具有足夠能力可以處理的事情。
最后一點
從機器人的角度來說,精靈寶可夢不是一個游戲。機器人都是專門的,當你遭遇要戰斗的NPC時,幫助你在地圖上移動的機器人對此束手無策——這是兩個完全不同的任務。
在戰斗階段,每個回合有許多選項。選擇如何移動,切換到哪個寶可夢,何時使用不同的物品,本身就是一個復雜的優化問題。我看到過一篇介紹如何創建戰斗模擬器的文章,考慮得很周到,在沒有考慮物品使用這一決定戰斗結果的關鍵因素的前提下,復雜度已經高得驚人了。
目前,我們能夠創造出能夠在我們自己的游戲中戰勝我們的機器人,我們該為此感到高興。這些游戲在數學上很復雜,但在目標上很簡單。隨著AI技術的進展,我們將創造能夠解決有越來越大影響力的真實世界問題的機器人,這些機器人將通過自行學習復雜優化問題來解決真實世界問題。可以放心的是,還是有很多事情我們要比機器更擅長,其中包括我們童年時玩的游戲——至少到目前為止是這樣。感謝閱讀!
-
機器人
+關注
關注
213文章
31092瀏覽量
222350 -
AI
+關注
關注
91文章
39820瀏覽量
301497 -
函數
+關注
關注
3文章
4417瀏覽量
67541
原文標題:為什么AI可以通關馬里奧,卻玩不好精靈寶可夢?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
觸控按鍵之無須做特別的絕緣處理
CPU和GPU擅長和不擅長的地方
CPU和GPU擅長和不擅長的地方
AD蛇形布線和等長處理技巧
為什么AI設計師要特別區分:相關性 VS. 因果性呢?
詮釋AI的兩大特征:黑盒子與不確定性
為什么大多數流行的目標檢測模型不擅長檢測小目標?
我擅長PCB畫板但不擅長APP開發,如何才能克服不足,將家用電器改造成智能電器呢?
蘋果發布研究論文:揭示Ferret-UI AI系統,破解MLLMs移動應用理解難題
李開復:中國擅長打造經濟實惠的AI推理引擎
如何利用NPU與模型壓縮技術優化邊緣AI
當前的AI還不擅長處理哪些種類的問題?
評論