国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI發(fā)布Neural MMO—一個(gè)強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境

電子工程師 ? 來(lái)源:lp ? 2019-03-06 15:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今日凌晨,OpenAI發(fā)布Neural MMO—一個(gè)強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境。這一平臺(tái)可以在持久性和開(kāi)放式任務(wù)中支持大量可變數(shù)量的智能體。

一直以來(lái),人工智能研究者都希望讓智能體(agent)學(xué)會(huì)合作競(jìng)爭(zhēng),一些研究者也認(rèn)為這是實(shí)現(xiàn)通用人工智能(AGI)的必要條件。

17年7月份,OpenAI、麥吉爾大學(xué)和 UC Berkeley 聯(lián)合提出了一種“用于合作-競(jìng)爭(zhēng)混合環(huán)境的多智能體 actor-critic”,可用于多智能體環(huán)境中的中心化學(xué)習(xí)(centralized learning)和去中心化執(zhí)行(decentralized execution),讓智能體可以學(xué)會(huì)彼此合作和競(jìng)爭(zhēng)。

論文地址:

https://arxiv.org/pdf/1706.02275.pdf

之后,OpenAI也一直沒(méi)有放棄對(duì)多智能體學(xué)習(xí)環(huán)境的探索。

今日凌晨,OpenAI宣稱發(fā)布Neural MMO——一個(gè)強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境。這一多智能體的環(huán)境可以探索更兼容和高效的整體環(huán)境,力求在復(fù)雜度和智能體人數(shù)上獲取難得的平衡。

近年來(lái),多重代理設(shè)置已成為深度強(qiáng)化學(xué)習(xí)研究的一個(gè)有效平臺(tái)。盡管進(jìn)展頗豐,但其仍存在兩個(gè)主要挑戰(zhàn):當(dāng)前環(huán)境要么復(fù)雜但過(guò)于受限,要么開(kāi)放但過(guò)于簡(jiǎn)單。

其中,持久性和規(guī)模化將是探討的關(guān)鍵屬性,但研究者們還需要更好的基準(zhǔn)測(cè)試環(huán)境,在存在大量人口規(guī)模和持久性的情況下量化學(xué)習(xí)進(jìn)度。這一游戲類型(MMO:大型多人在線游戲)模擬了在持續(xù)和廣泛環(huán)境中可變數(shù)量玩家進(jìn)行競(jìng)爭(zhēng)的大型生態(tài)系統(tǒng)。

為了應(yīng)對(duì)這些挑戰(zhàn),OpenAI構(gòu)建了神經(jīng)MMO以滿足以下標(biāo)準(zhǔn):

持久性:在沒(méi)有環(huán)境重置的情況下,代理可以在其他學(xué)習(xí)代理存在的情況下同時(shí)學(xué)習(xí)。策略必須具有遠(yuǎn)見(jiàn)思維,并適應(yīng)其他代理行為的潛在快速變化。

比例:環(huán)境支持大量且可變數(shù)量的實(shí)體。實(shí)驗(yàn)考慮了100個(gè)并發(fā)服務(wù)器中每個(gè)服務(wù)器128個(gè)并發(fā)代理且長(zhǎng)達(dá)100M的生命周期。

效率:進(jìn)入的計(jì)算障礙很低。可以在單個(gè)桌面CPU上培訓(xùn)有效的策略。

擴(kuò)展:與現(xiàn)有MMO類似,Neural MMO旨在更新內(nèi)容。目前的核心功能包括基于拼接單元塊(tile-based)的地形的程序生成,食物和水覓食系統(tǒng)以及戰(zhàn)略戰(zhàn)斗系統(tǒng)。未來(lái)有機(jī)會(huì)進(jìn)行開(kāi)源驅(qū)動(dòng)的擴(kuò)展。

OpenAI在博客中詳細(xì)介紹了這一新環(huán)境。

環(huán)境

玩家(代理)可以加入任何可用的服務(wù)器(環(huán)境),每個(gè)都會(huì)包含一個(gè)可配置大小、且自動(dòng)生成的基于圖塊的游戲地圖。一些障礙塊,例如森林和草,是可穿越的;其他的如水和實(shí)心巖石,則不能穿越。

代理在環(huán)境邊緣的隨機(jī)位置產(chǎn)生。他們需要獲得食物和水,并避免其他代理的戰(zhàn)斗傷害,以維持自己的生存。踩在森林地塊上或出現(xiàn)在水資源地塊的旁邊會(huì)分別填充一部分代理的食物和水供應(yīng)。然而,森林的食物供應(yīng)有限,隨著時(shí)間的推移會(huì)緩慢再生。這意味著代理必須競(jìng)爭(zhēng)食品塊,同時(shí)定期補(bǔ)充水源。玩家還可以使用三種戰(zhàn)斗風(fēng)格參與戰(zhàn)斗,分別為混戰(zhàn),游獵及魔法。

輸入:代理觀察以其當(dāng)前位置為中心的方形區(qū)域。這包括地塊類型和占用代理的選擇屬性(健康,食物,水和位置)。

輸出:代理為下一個(gè)游戲單位時(shí)間(timestep)輸出操作選項(xiàng)。該操作由一個(gè)動(dòng)作和一個(gè)攻擊組成。

模型

作為一個(gè)簡(jiǎn)單的基準(zhǔn),我們使用vanilla策略梯度訓(xùn)練一個(gè)小型,完全連接的架構(gòu),并把值函數(shù)基準(zhǔn)和獎(jiǎng)勵(lì)折扣作為唯一的增強(qiáng)功能。在這個(gè)模型中,獎(jiǎng)勵(lì)策略并不針對(duì)實(shí)現(xiàn)特定目標(biāo),而是針對(duì)其生命周期(軌跡長(zhǎng)度)進(jìn)行優(yōu)化:他們?cè)谄渖芷诘拿總€(gè)單位時(shí)間上獲得獎(jiǎng)勵(lì)1。我們通過(guò)計(jì)算所有代理的最大值來(lái)將可變長(zhǎng)度觀測(cè)值(例如周圍代理列表)轉(zhuǎn)換為單個(gè)長(zhǎng)度向量(OpenAI Five也使用了這個(gè)技巧)。基于PyTorch和Ray,源版本包括我們完整分布式培訓(xùn)的實(shí)現(xiàn)。

訓(xùn)練中最大種群數(shù)量在(16,32,64,128)之間變化。為了提高效率,在測(cè)試時(shí),將在一對(duì)實(shí)驗(yàn)中學(xué)到的特定群進(jìn)行合并,并在一個(gè)固定的范圍內(nèi)進(jìn)行評(píng)估。只對(duì)作戰(zhàn)策略進(jìn)行評(píng)估,因?yàn)橹苯恿炕鲬?zhàn)策略比較困難。通常來(lái)說(shuō),在更大的分布范圍內(nèi)進(jìn)行訓(xùn)練效果會(huì)更好。

代理的策略是從多個(gè)種群中簡(jiǎn)單抽樣——不同種群中的代理共享體系結(jié)構(gòu),但只有相同種群中的代理共享權(quán)重。初步實(shí)驗(yàn)表明,隨著多智能體相互作用的增加,智能體的能力也隨之增加。增加并發(fā)智能體的最大數(shù)量將放大探索行為;增加種群的數(shù)量將放大生態(tài)位形成——也就是說(shuō),種群在地圖的不同部分?jǐn)U散和覓食的趨勢(shì)。

在評(píng)估跨多臺(tái)服務(wù)器的玩家能力方面,并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。然而,有時(shí),MMO服務(wù)器會(huì)進(jìn)行合并。我們通過(guò)合并在不同服務(wù)器中訓(xùn)練的玩家基地來(lái)實(shí)現(xiàn)“錦標(biāo)賽”風(fēng)格的評(píng)估。這使得我們可以直接比較在不同實(shí)驗(yàn)環(huán)境中學(xué)到的策略。改變了測(cè)試時(shí)間范圍,發(fā)現(xiàn)在較大環(huán)境下訓(xùn)練的代理一直優(yōu)于在較小環(huán)境中訓(xùn)練的代理。

評(píng)估結(jié)果

訓(xùn)練中最大種群數(shù)量在(16,32,64,128)之間變化。為了提高效率,在測(cè)試時(shí),將在一對(duì)實(shí)驗(yàn)中學(xué)到的特定群進(jìn)行合并,并在一個(gè)固定的范圍內(nèi)進(jìn)行評(píng)估。只對(duì)作戰(zhàn)策略進(jìn)行評(píng)估,因?yàn)橹苯恿炕鲬?zhàn)策略比較困難。通常來(lái)說(shuō),在更大的分布范圍內(nèi)進(jìn)行訓(xùn)練效果會(huì)更好。

代理的策略是從多個(gè)種群中簡(jiǎn)單抽樣——不同種群中的代理共享體系結(jié)構(gòu),但只有相同種群中的代理共享權(quán)重。初步實(shí)驗(yàn)表明,隨著多智能體相互作用的增加,智能體的能力也隨之增加。增加并發(fā)智能體的最大數(shù)量將放大探索行為;增加種群的數(shù)量將放大生態(tài)位形成——也就是說(shuō),種群在地圖的不同部分?jǐn)U散和覓食的趨勢(shì)。

服務(wù)器合并條件下的錦標(biāo)賽:多代理放大了競(jìng)爭(zhēng)行為

在跨多臺(tái)服務(wù)器隊(duì)玩家能力的能力進(jìn)行評(píng)估時(shí),我們并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。然而,有時(shí)MMO服務(wù)器會(huì)進(jìn)行合并。我們通過(guò)合并在不同服務(wù)器中訓(xùn)練的玩家基地來(lái)實(shí)現(xiàn)“錦標(biāo)賽”風(fēng)格的評(píng)估。這使得我們可以直接比較在不同實(shí)驗(yàn)環(huán)境中學(xué)到的策略。改變了測(cè)試時(shí)間范圍后,我們發(fā)現(xiàn),在較大環(huán)境下訓(xùn)練的代理一直優(yōu)于在較小環(huán)境中訓(xùn)練的代理。

種群規(guī)模的增加放大了探索行為

種群規(guī)模放大了探索行為:代理表現(xiàn)出分散開(kāi)來(lái)的特征以避免競(jìng)爭(zhēng)。最后幾幀顯示學(xué)習(xí)值函數(shù)疊加。有關(guān)其他參數(shù),請(qǐng)參閱論文:

https://s3-us-west-2.amazonaws.com/openai-assets/neural-mmo/neural-mmo-arxiv.pdf

在自然世界中,動(dòng)物之間的競(jìng)爭(zhēng)可以激勵(lì)它們分散開(kāi)來(lái)以避免沖突。我們觀察到,隨著并發(fā)代理數(shù)量的增加,映射覆蓋率增加。代理學(xué)習(xí)探索僅僅是因?yàn)槠渌淼拇嬖谔峁┝诉@樣做的自然動(dòng)機(jī)。物種數(shù)量的增加擴(kuò)大了生態(tài)位形成的幾率。

物種數(shù)量的增加擴(kuò)大了生態(tài)位的形成。

物種數(shù)量(種群數(shù)量)放大了生態(tài)位的形成。上圖中訪問(wèn)地圖覆蓋了游戲地圖;不同的顏色對(duì)應(yīng)不同的物種。訓(xùn)練單一物種傾向于產(chǎn)生單一的深度探索路徑。訓(xùn)練八個(gè)物種則會(huì)導(dǎo)致許多較淺的探索路徑:種群擴(kuò)散以避免物種之間的競(jìng)爭(zhēng)。

鑒于環(huán)境足夠大且資源豐富,我們發(fā)現(xiàn)不同的代理群在地圖上呈現(xiàn)分散的特點(diǎn),以避免隨著數(shù)量的增加與其他代理產(chǎn)生競(jìng)爭(zhēng)。由于代理不能與自己種群中的其他代理競(jìng)爭(zhēng)(即與他們共享權(quán)重的代理),他們傾向于尋找包含足夠資源來(lái)維持其種群數(shù)量的地圖區(qū)域。在DeepMind的并發(fā)多代理研究中也獨(dú)立地觀察到類似的效果。

并發(fā)多代理研究:

https://arxiv.org/abs/1812.07019

其他見(jiàn)解

每個(gè)方形圖顯示位于中心的代理對(duì)其周圍代理的存在的響應(yīng)。我們?cè)诔跏蓟陀?xùn)練早期展示覓食地圖;額外的依賴圖對(duì)應(yīng)于覓食和戰(zhàn)斗的不同表述。

我們通過(guò)將代理固定在假設(shè)的地圖中心來(lái)對(duì)代理進(jìn)行可視化。對(duì)于該代理可見(jiàn)的每個(gè)位置,我們將顯示在該位置有第二個(gè)代理時(shí)的值函數(shù)。

我們發(fā)現(xiàn)代理商在覓食和戰(zhàn)斗環(huán)境中,可以學(xué)習(xí)依賴于其他代理的策略。代理學(xué)習(xí)“插眼(bull’s eye)”行為時(shí),在幾分鐘的訓(xùn)練后就能更有效地開(kāi)始覓食。當(dāng)代理學(xué)習(xí)環(huán)境的戰(zhàn)斗力學(xué)時(shí),他們開(kāi)始適當(dāng)?shù)卦u(píng)估有效的接觸范圍和接近角度。

下一步

Neural MMO解決了之前基于游戲環(huán)境的兩個(gè)主要限制,但仍有許多尚未解決。這種Neural MMO在環(huán)境復(fù)雜性和人口規(guī)模之間盡力尋求平衡。OpenAI在設(shè)計(jì)這個(gè)環(huán)境時(shí)考慮了開(kāi)源擴(kuò)展,并為研究社區(qū)提供了基礎(chǔ)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50094

    瀏覽量

    265267
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    476

    瀏覽量

    11604
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    270

    瀏覽量

    11967

原文標(biāo)題:OpenAI發(fā)布Neural MMO :大型多智能體游戲環(huán)境

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    開(kāi)發(fā)智能調(diào)試與預(yù)覽---真機(jī)測(cè)試

    重新啟動(dòng)小藝,在對(duì)話列表中看到“開(kāi)發(fā)中”標(biāo)簽的智能。 4、發(fā)布真機(jī)測(cè)試后,智能的開(kāi)發(fā)態(tài)15天內(nèi)有效(即端側(cè)可見(jiàn)“開(kāi)發(fā)中”狀態(tài)有效期1
    發(fā)表于 02-09 15:37

    自動(dòng)駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

    ,圖片源自:網(wǎng)絡(luò) 但強(qiáng)化學(xué)習(xí)本身是需要不斷試錯(cuò)的,如果采用這種學(xué)習(xí)方式在真實(shí)道路中不斷嘗試,定會(huì)導(dǎo)致不可控的事故。于是就有人提出種猜測(cè),能不能利用已經(jīng)存在的大量行駛?cè)罩尽⒎抡嬗涗浐?/div>
    的頭像 發(fā)表于 02-07 09:21 ?202次閱讀
    自動(dòng)駕駛中常提的離線<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?

    強(qiáng)化學(xué)習(xí)會(huì)讓自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    種讓機(jī)器通過(guò)“試錯(cuò)”學(xué)會(huì)決策的辦法。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)是有人提供示范答案,讓模型去模仿;而強(qiáng)化學(xué)習(xí)不會(huì)把每步的“正確答案”都告訴
    的頭像 發(fā)表于 01-31 09:34 ?641次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會(huì)讓自動(dòng)駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    智能強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個(gè)RL智能的過(guò)程非常簡(jiǎn)單,那么我們現(xiàn)在換一個(gè)場(chǎng)景,同時(shí)訓(xùn)練五個(gè)智能,而且每個(gè)都有自己的
    的頭像 發(fā)表于 01-21 16:21 ?192次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>體</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型

    別克至境家族迎來(lái)新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型,帶來(lái)全場(chǎng)景的智能出行體驗(yàn)。
    的頭像 發(fā)表于 01-12 16:23 ?324次閱讀

    智能設(shè)計(jì)模式和智能框架,你會(huì)了么?

    、新聞 先播放條最新新聞,通義團(tuán)隊(duì)官宣開(kāi)源了兩個(gè)智能 Alias-Agent 和 Data-Juicer Agent 。 Alias-
    的頭像 發(fā)表于 11-12 16:30 ?1227次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>設(shè)計(jì)模式和<b class='flag-5'>智能</b><b class='flag-5'>體</b>框架,你會(huì)了么?

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國(guó)軟件公司SAS退出中國(guó)市場(chǎng)

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機(jī)強(qiáng)化學(xué)習(xí)方案,機(jī)器人
    發(fā)表于 11-05 09:44 ?1088次閱讀

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    下,就是個(gè)智能環(huán)境里行動(dòng),它能觀察到環(huán)境
    的頭像 發(fā)表于 10-23 09:00 ?662次閱讀
    自動(dòng)駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是<b class='flag-5'>個(gè)</b>啥?

    SuperX全新發(fā)布多種規(guī)格的模型一體機(jī):全新定義企業(yè)級(jí)智能生產(chǎn)力

    一體機(jī)將預(yù)搭載OpenAI最新發(fā)布的GPT-OSS-120B 和 GPT-OSS-20B性能卓越的大語(yǔ)言模型(LLM),也可選擇下載全球其他熱門的開(kāi)源模型 新加坡2025年8月7日 /美通社
    的頭像 發(fā)表于 08-08 08:52 ?604次閱讀
    SuperX全新<b class='flag-5'>發(fā)布</b>多種規(guī)格的<b class='flag-5'>多</b>模型<b class='flag-5'>一體</b>機(jī):全新定義企業(yè)級(jí)<b class='flag-5'>智能</b>生產(chǎn)力

    AI智能的技術(shù)應(yīng)用與未來(lái)圖景

    深度學(xué)習(xí)與邏輯推理,實(shí)現(xiàn)復(fù)雜情境的語(yǔ)義解析與因果推斷;行動(dòng)層依托強(qiáng)化學(xué)習(xí)框架驅(qū)動(dòng)自主決策鏈,形成感知-決策-執(zhí)行的閉環(huán)能力。這種架構(gòu)演進(jìn)使智能具備了
    的頭像 發(fā)表于 07-24 11:04 ?989次閱讀

    OpenAI發(fā)布智能!實(shí)現(xiàn)在線購(gòu)物和創(chuàng)建PPT演示文稿

    電子發(fā)燒友原創(chuàng) 章鷹 7月17日,美國(guó)OpenAI公司為其聊天機(jī)器人ChatGPT推出了款人工智能,可以完成復(fù)雜的任務(wù),這家微軟支持的人工智能
    的頭像 發(fā)表于 07-20 00:05 ?6514次閱讀
    <b class='flag-5'>OpenAI</b><b class='flag-5'>發(fā)布</b>新<b class='flag-5'>智能</b><b class='flag-5'>體</b>!實(shí)現(xiàn)在線購(gòu)物和創(chuàng)建PPT演示文稿

    NVIDIA Isaac Lab可用環(huán)境強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和
    的頭像 發(fā)表于 07-14 15:29 ?2345次閱讀
    NVIDIA Isaac Lab可用<b class='flag-5'>環(huán)境</b>與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    【「零基礎(chǔ)開(kāi)發(fā)AI Agent」閱讀體驗(yàn)】操作實(shí)戰(zhàn),開(kāi)發(fā)個(gè)編程助手智能

    . 首先要理解智能的相關(guān)概念 ,比如角色,限定,技能:包括插件等,知識(shí):包括知識(shí)庫(kù),文檔等等. 創(chuàng)建步驟: 二.創(chuàng)建智能: 預(yù)覽和
    發(fā)表于 05-27 11:16

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1608次閱讀
    18<b class='flag-5'>個(gè)</b>常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    學(xué)習(xí)智能開(kāi)發(fā)

    智能是大模型的應(yīng)用落地,正在學(xué)習(xí)中,這本書太及時(shí)了,非常想看看。
    發(fā)表于 03-27 15:48