国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepMind團隊游戲新突破,AI和人類進行組隊

8g3K_AI_Thinker ? 來源:未知 ? 作者:胡薇 ? 2018-07-05 09:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們還時常感嘆兩年前 AlphaGo 的一舉成名,今天Deep Mind 的另一個游戲項目獲得新的突破。不僅和人類進行一對一作戰,還可以進行團隊作戰,與人類進行組隊。

Deep Mind 在周二發表推文 “ 我們最新的工作演示了如何在一個復雜的第一人稱多人游戲中實現多人游戲的性能,甚至可以與人類隊友進行合作!”Deep Mind 開發了創新和強化學習技術,是人工智能系統在奪旗游戲中達到人類的水平,不僅各個人工智能獨立行動,同時學會配合,進行團隊戰。Deep Mind 表示這項工作凸顯了多智能體培訓對促進人工智能發展的潛力。不得不說,在看完模擬游戲的視頻確實覺得挺有意思的,今天人工智能頭條就為大家介紹這個首款具有“團隊精神” 的智能代理。

▌背景

Quake III Arena Capture the Flag——Quake III Arena 中文名稱:雷神之錘III競技場,是 1999 年在 PC 上推出的 一款FPS(第一人稱射擊類游戲)大作。Capture the flag 簡稱 CTF,CTF 在Quake 3 里分成藍紅兩邊在通常是一個對稱的(也有不對稱的)地圖中競賽。

競賽的目的是將對方的旗子帶回來,并且碰觸未被移動過的我方旗子,我隊就得一分,稱作一個 capture。一般會設定兩個要素,得分的極限以及時間極限,先到達分數極限的隊伍獲勝,若是兩隊勢均力敵而難以得分,則通常會由時間的設定來結束一個游戲(match)。在奪旗模式中,殺死對手得1分,自己非正常死亡扣1分,奪取對方旗子得3分,殺死奪旗者得2分,重新拿到己方旗子得1分,成功奪取一次旗子(將旗子送回己方基地中)得5分。

▌前言

掌握多人視頻游戲中涉及的策略,戰術理解和團隊配合一直是AI研究的關鍵性挑戰。如今,隨著強化學習的不斷發展,DeepMind 提出的的智能代理能夠在雷神之錘 III競技場奪旗游戲(Quake III Arena Capture the Flag) 中實現人類玩家的水平。

該游戲涉及復雜的多智能體環境,也是一個典型的 3D第一人稱視角的多人游戲。DeepMind 提出的智能代理展示了與人工智能體及人類玩家合作的能力。

下面我們將解讀 DeppMind 最新的這篇博文,進一步了解這個 AI 智能體背后的技術及其在游戲中的表現。

所謂的多智能體學習的設置:指的是多個單智能體必須獨立行動,并學會與其他智能體進行互動與合作。通過共適適應智能體,世界在不斷變化,因而這是一個非常困難的問題。

我們的智能代理面臨的挑戰是直接從原始像素中進行學習并產生動作,這種復雜性使得第一人稱視角的多人游戲,成為AI社區的一個碩果累累且活躍的研究領域。

在這項工作中,我們關注的游戲是 Quake III Arena(雷神之錘 III 競技場,我們從美學的角度對游戲進行部分修改,但所有游戲機制都保持不變。)Quake III Arena是現代許多第一人稱視頻游戲的基礎,并吸引了具備長期競爭力的電子競技場景。

我們訓練了一些能夠單獨學習并采取行動的智能代理,但它們必須要能夠在游戲中共同協作,以便抵御其他智能體 (不論是人工智能體還是人類游戲玩家) 的攻擊。

在這里CTF的規則很簡單,但其具有復雜的動態性。兩隊的游戲玩家要在給定的地圖上競爭,目標是在保護己方旗幟不被奪走的同時,奪取對方的旗幟。為了獲得戰術優勢,玩家可以射擊對方戰隊的玩家,并將它們送回復活點 (spawn point)。游戲時長為五分鐘,最終擁有旗幟最多的隊伍將獲勝。

從多智能代理的角度來看,CTF既要求玩家們能與己方隊友妥善合作,又要與敵方玩家相互競爭,同時還要靈活應變可能遇到的游戲風格的轉變。

為了讓這件事情更有意思,在這項工作中我們考慮CTF游戲的一種變體,其中每場游戲中的地圖布局都會發生變化。因此,我們的智能代理必須要學會一種通用的策略,而非記住某種游戲地圖的布局。此外,為了保證游戲競爭環境的公平,我們的智能體需要以與人類玩家類似的方式體驗CTF游戲世界:即通過觀察圖像的像素流,模擬游戲控制器并采取相應的行動。

▌FTW 智能體

奪旗游戲是在程序生成的不同環境中進行的,因此智能體必須能夠泛化到未知的地圖。智能體必須從零開始學習如何在未知的環境中進行觀察,行動,合作及競爭,每場游戲都是一個單獨的強化信號:他們的團隊是否獲得勝利。這是一個具有挑戰性的學習問題,其解決方案主要基于強化學習的三個基本概念:

我們不是訓練一個單獨的智能體,而是訓練一群的智能體。他們互相學習,合作,甚至競爭,彼此成為隊友或對手,以便適應多樣化的游戲方式。

智能體們都需要各自學習自身內部的獎勵信號,這將促使智能體能夠生成自身內部的目標,如奪取一面旗幟。雙重優化過程 (two-tier) 可直接優化智能體內部的獲勝獎勵,并基于內部獎勵,運用強化學習方法來進一步地學習智能體的游戲策略。

智能體分別以快速和慢速兩種時間尺度開始游戲,這有助于提高它們使用內存和生成一致動作序列的能力。

FTW(for the win) 智能體的結構示意圖

該智能體的結構結合了快速和慢速時間尺度上的循環神經網絡(Fast RNN & Slow RNN),其中包括一個共享記憶模塊,并學習從游戲點到內部的獎勵轉換。

由此產生的智能體,我們稱之為For The Win(FTW) 智能體,它學會了以非常高的標準玩CTF。更重要的是,該智能體學習到的游戲策略對地圖的大小,隊友的數量以及團隊中的其他玩家都是穩健魯棒的。

▌FTW的性能

下面演示了探索一些室外環境的游戲(其中FTW智能體互相競爭),以及一些智能體與人類玩家在室內環境中一起玩的游戲。

交互式的CTF 游戲瀏覽器,具有室內和室外的程序生成環境游戲

室外環境的游戲是 FTW 智能體之間的游戲,而室內環境下則是混合了人類玩家和 FTW 智能體的游戲。

在原文中通過6個不同場景,每個場景下3個不同角度的攝像頭為大家呈現更多的游戲過程,如果大家希望看到所有場景與角度的視頻,可以通過文章最后的原文鏈接進行查看。

我們進行了一場包括 40 名人類玩家的游戲比賽,在比賽中人類和智能體隨機配對,既有可能成為對手,也可能成為隊友。

在早前的一場 CTF 測試賽中,比賽雙方是經過訓練的智能體與人類玩家組成的隊伍

經過訓練學習,FTW 智能體已經比強大的基線方法更強大,并且超過了人類玩家的勝率。事實上,在一份對游戲參與者的調查報告中顯示它們比人類玩家更具有合作性。

智能體在訓練中的表現

FTW智能體的 Elo 評級 -- 獲勝概率超過了人類玩家和 Self-play + RS、Self-play 等基線方法。

此外,我們不僅僅只對智能體進行了性能評估,還進一步探索了這些智能體的行為及內部表征的復雜度。

▌FTW的表征

為了理解智能體內部是如何表征游戲狀態,我們觀察并在平面上繪制智能體中神經網絡的激活模式。下圖中的點表示游戲中的情形,鄰近的點表示相似的激活模式。這些點根據不同的 CTF 游戲狀態進行相應地著色,這些狀態包括:智能體在哪個房間?旗幟的狀態怎樣?可以看到哪些隊友和對手?我們觀察到同樣顏色的簇表示該智能體以相似的方式表示類似的高級游戲狀態。

智能體是如何表征游戲世界狀態?智能體將不同情況下相同的游戲狀態進行相似的表征。訓練后的智能體甚至能夠直接用一些人工神經元來編碼特定情況。

我們的智能體從未得知任何的游戲規則,卻能夠學習基本的游戲概念并有效地發展對CTF游戲的直觀認識。實際上,我們可以發現,智能體中某些特定的神經元可直接對最重要的游戲狀態進行編碼,例如當智能體的旗幟被奪走時,某個神經元就會被激活;或者當智能體的隊友奪取旗幟時,某個神經元就將被激活等。我們的論文提供了進一步的分析,涉及的內容包括智能體在游戲過程中是如何利用記憶和視覺注意力機制的。

▌FTW的行為

除了豐富的游戲狀態表征外,智能體在游戲中又是如何采取行動的呢?

首先,需要注意的是我們的智能體有非常快的反應時間及非常準確的命中率,這能解釋它們在游戲中的卓越表現。人為地減少反應時間并降低命中率后,這僅是智能體獲得成功的其中一個因素。

訓練后,我們人為地減少反應時間和降低命中率,智能體所取得的游戲表現。即使是與人類玩家保持相近的反應時間和準確率,我們的智能體的游戲表現也優于人類玩家。

通過無監督學習的方式,我們在智能體和人類的原型行為之間建立聯系,研究發現實際上智能體能夠學習了類似人類的行為,例如跟隨隊友并敵方的基地扎營等行為。

已訓練的智能體所展示的三個行為示例行為

在訓練過程中,這些行為是伴隨著強化學習和群體級進化而出現的。隨著智能體以更加互補的方式進行學習合作,諸如在訓練初期跟隨隊友的類似行為將逐漸變少。

FTW 智能體群體的訓練進展

左上角展示了 30 個智能體在訓練和互相演化過程中的 Elo 評級評分。右上角展示了這些演化事件的遺傳樹。底部展示了智能體訓練過程中知識、內部獎勵和行為概率的情況。

▌結束語

研究界最近在星際爭霸II 和 Dota 2這樣的復雜游戲中做了非常令人印象深刻的工作,雖然我們的研究側重于奪旗游戲,但研究貢獻是具有普遍性的,我們很高興看到其他人如何在不同的復雜環境中建立我們的技術。在未來,我們還希望進一步改進目前的強化學習和基于人口的培訓方法。總的來說,我們認為這項工作突出了多智能體培訓推動人工智能發展的潛力

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265395

原文標題:DeepMind在團隊游戲領域取得新突破,AI和人類一起游戲真是越來越6了

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI智能體管理系統:當企業擁有了一支會思考、會協作的數字團隊

    清晨七點,某跨國制造企業的數字控制中心悄然啟動。這不是傳統意義上的IT系統上線,而是一支由87個AI智能體組成的數字團隊開始了一天的工作。它們不像人類員工需要咖啡提神,卻同樣具備專業領域的知識
    的頭像 發表于 12-23 13:48 ?225次閱讀

    AI賦能6G與衛星通信:開啟智能天網新時代

    了30%,用戶平均體驗速度提高了25%。更重要的是,AI能夠根據用戶行為模式進行個性化優化,例如為經常使用視頻會議的商務人士提供更高帶寬,為游戲玩家提供更低延遲的網絡服務。 增強信號處理:讓衛星通信
    發表于 10-11 16:01

    代理式AI提升團隊績效的六種方式

    根據凱捷(Capgemini)預測,未來三年內,AI 智能體有望參與到企業的大多數業務中,而有效的人機協作預計將使人類參與高價值任務的比例提升 65%。
    的頭像 發表于 09-23 14:28 ?644次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    復制人類智能的AI---AGI。 走向AGI的五個層次發現階段: ①L1,聊天機器人:具備基礎的對話能力,能夠理解和回應簡單的文本輸入 ②L2,推理者:具備基本的邏輯推理能力,能夠分析復雜信息并進行推斷
    發表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予了人的智能,科學家們希望在沒有人類的引導下,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅動科學被認為是科學發現的第五個范式了,與實驗科學、理論科學、計算科學、數據驅
    發表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    生物化學計算機,它通過離子、分子間的相互作用來進行復雜的并行計算。因而未來可期的前景是AI硬件將走向AI濕件。 根據研究,估算出大腦的功率是20W,在進行智力活動時,其功率會增大到25
    發表于 09-06 19:12

    突破傳統桎梏,PPEC Workbench 開啟電源智能化設計新路徑

    創新與性能突破,而非重復性底層開發。 ▌AI智能體輔助開發: 打造專注電源領域設計開發的 AI 智能助手,為工程師在提供專業支持。 ▌行業資源整合協同: 連接開發者與芯片、器件廠,實現需求與資源的快速
    發表于 08-26 11:40

    AI Coding + TuyaOpen,1小時快速打造AI女友和2048游戲

    七夕快到了,涂鴉本次準備教大家用AI給自己做個虛擬女友,它能根據對話情緒顯示不同表情;在你游戲癮上來的時候,還能秒變2048游戲機,讓你一邊玩游戲,一邊和
    的頭像 發表于 08-21 18:53 ?1674次閱讀
    <b class='flag-5'>AI</b> Coding + TuyaOpen,1小時快速打造<b class='flag-5'>AI</b>女友和2048<b class='flag-5'>游戲</b>

    AI開啟更逼真的游戲時代

    本文編譯自semiengineering神經網絡負責圖形渲染,AI智能體指導玩法,而‘幻覺’則用于填補缺失的細節,讓游戲世界更加完整。隨著處理性能和內存的大幅提升,以及數據傳輸速度的顯著加快
    的頭像 發表于 08-20 11:22 ?1301次閱讀
    <b class='flag-5'>AI</b>開啟更逼真的<b class='flag-5'>游戲</b>時代

    NVIDIA AI助力科學研究領域持續突破

    隨著 AI 技術的廣泛應用,AI 正在成為科學研究的引擎。NVIDIA 作為重要的技術推手,持續驅動著 AI 系統解鎖更多領域的科學突破
    的頭像 發表于 08-05 16:30 ?1189次閱讀

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    發現從 “偶然突破” 走向 “可控產出”。 系統創新 這部分介紹了云端神經形態計算架構、超導與非超導低溫類腦芯片、自旋波類腦芯片。這些技術讓芯片運行模式更接近人類大腦,為低功耗、高智能AI奠定
    發表于 07-28 13:54

    制作團隊如何借助NVIDIA RTX AI讓創意成真

    藝術家和開發者已經在利用生成式 AI 簡化工作、突破創意邊界,無論是探索概念、設計虛擬世界還是構建智能應用。借助 RTX AI PC,用戶能夠將最新、最強大的模型和工具,以及強大的 AI
    的頭像 發表于 07-09 16:28 ?812次閱讀

    八天三次收購!AMD收購AI芯片制造商Untether AI團隊,刺激創新

    speedAI產品和imAIgine軟件開發工具包的販賣與支持,同時Untether AI團隊成員都將加入AMD,助力AMD研發指令周期更快、能效率更佳的AI芯片。 AMD收購AI
    的頭像 發表于 06-08 07:01 ?6178次閱讀
    八天三次收購!AMD收購<b class='flag-5'>AI</b>芯片制造商Untether <b class='flag-5'>AI</b><b class='flag-5'>團隊</b>,刺激創新

    AI時代:不可替代的“人類+”職業技能

    當生成式人工智能能夠撰寫報告、編寫代碼甚至設計產品時,一個根本性的焦慮開始蔓延:人類工作者是否正在被算法取代?這個問題的答案或許比簡單的“是”或“否”更為復雜——AI確實在重塑職業版圖,但真正的挑戰
    的頭像 發表于 05-20 16:13 ?761次閱讀

    光子 AI 處理器的核心原理及突破性進展

    ,光子 AI 處理器依靠光信號的傳輸、調制及檢測來完成計算任務,因其具備高速、低功耗、高帶寬等突出優勢,被視作突破現有計算瓶頸的關鍵技術之一。 核心原理及面臨的技術挑戰 光子 AI 處理器的核心原理,是用光子取代電子
    的頭像 發表于 04-19 00:40 ?4167次閱讀