国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智能體的連接問題,如何創(chuàng)建能符合人類目標的智能體?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-24 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

將強化學習算法應用到現(xiàn)實問題中的一個障礙就是缺少合適的獎勵函數(shù),而設計獎勵函數(shù)又比較困難,因為用戶只能自己理解任務的目標,很難傳達給強化學習智能體。這就引出了智能體和用戶的連接問題(agent alignment problem):我們如何創(chuàng)建一款符合用戶想法的智能體呢?

近日,DeepMind的新論文Scalable agent alignment via reward modeling: a research direction就提出了一種研究方向,本文對該論文進行了概述總結。簡單來說,本次提出的方法依靠獎勵模型的循環(huán)應用,通過連接(align)用戶的目的解決復雜的現(xiàn)實世界問題。以下是論智對原文的詳細編譯:

最近幾年,強化學習在復雜的游戲環(huán)境中得到了不錯的表現(xiàn),例如雅達利游戲、圍棋、象棋、Dota 2、星際爭霸II等等,AI智能體在這些復雜領域的表現(xiàn)甚至超過了人類水平。游戲是開發(fā)和測試機器學習算法的理想平臺,其中有很多挑戰(zhàn)性的任務,需要具備多種認知能力才能完成。機器學習研究者可以在云端同時運行數(shù)千個模擬實驗,生成足夠多的訓練數(shù)據(jù)供系統(tǒng)學習。

重要的是,游戲通常有清晰的目標,還有可以表現(xiàn)距離目標遠近的分數(shù)。分數(shù)能為強化學習智能體提供有用的獎勵函數(shù),當選擇了正確的算法或架構時,能讓我們獲得快速的反饋。

智能體的連接問題

總的來說,AI的目標是不斷具備解決現(xiàn)實中復雜問題的能力,從而造福人類。但是現(xiàn)實生活中的任務并沒有內置的獎勵函數(shù)。這樣一來,智能體在任務中的表現(xiàn)就無法輕易地定義,所以我們需要一種好方法提供反饋,讓智能體確切地了解我們想要什么,從而幫我們實現(xiàn)目標。換句話說,我們想用人類的反饋訓練AI系統(tǒng),用這種方法將系統(tǒng)的行為和我們的目標聯(lián)系在一起。針對這一目標,于是”智能體的連接“問題的定義如下:

如何創(chuàng)建能符合人類目標的智能體?

連接問題可以在強化學習框架中進行,只不過其中要接受數(shù)字類型的獎勵信號,智能體可以通過交互協(xié)議和用戶進行互動,從而讓用戶將他們的想法傳遞給智能體。該協(xié)議有多種形式,用戶可以提供示范、偏好、最佳行為或者提供獎勵函數(shù)。解決智能體連接問題的一種方法就是根據(jù)用戶目標作出動作。

DeepMind的新論文對這一問題指明了研究方向。基于此前的AI安全性問題和各種相關研究,我們設想了這些研究成果能為智能體的連接問題做出哪些幫助。這為了解如何與用戶互動打開了新的大門,即從他們的反饋中學習并預測偏好,這些都是更復雜、更抽象的話題,需要用超越人類水平的方式去理解。

用獎勵建模進行連接

研究方向的重點是基于獎勵建模:我們用用戶反饋訓練了一個獎勵模型,來捕捉他們的意圖。同時,我們還訓練了一個帶有強化學習的策略,用來讓獎勵最大化。換句話說,我們將“學習做什么”從“學習怎么做”中分離出來。

獎勵建模圖示

例如,在之前的研究中我們教智能體如何根據(jù)用戶的要求進行后空翻、根據(jù)目標狀態(tài)放置目標物體、根據(jù)用戶選擇和專業(yè)玩家示范玩雅達利游戲。未來,我們想設計的算法能夠學習適應用戶提供反饋的方式(例如使用自然語言)。

擴大規(guī)模

長期來看,我們會擴大獎勵建模的規(guī)模,將其應用于人類難以評估的領域。為了做到這一點,我們需要增強用戶衡量輸出的能力。我們討論了如何循環(huán)應用獎勵建模:我們可以用獎勵建模訓練智能體,幫助用戶進行評估。如果評估過程比做出動作更容易,我們就能從簡單的任務中轉移到更復雜的任務上。這也可以看作是迭代增強的例子。

循環(huán)獎勵建模圖示

例如,假設我們現(xiàn)在想訓練智能體設計一款計算機芯片,為了檢測一款芯片設計,我們訓練了其他帶有獎勵模型的智能體,模擬測試芯片的性能,計算熱損耗、估計芯片的使用壽命、尋找安全漏洞等等。最后,智能體的輸出能讓用戶訓練出符合要求的智能體。盡管每個智能體都要解決很多比當前機器學習系統(tǒng)更難的任務,但這些任務會比設計芯片要簡單。因為設計一款計算機芯片,你要理解每種評估任務,但是反之則不是必要的。在這種情況下,循環(huán)獎勵模型可以讓我們的智能體解決更復雜的任務,同時保留和用戶目標之間的聯(lián)系。

研究挑戰(zhàn)

想將獎勵建模擴大到復雜問題中,我們會遇到一些挑戰(zhàn)。下圖列出了五種主要問題以及可能的解決方法,論文對這些問題進行了深入的講解。

這也是智能體匹配問題中最后一個重要因素:當將智能體應用在現(xiàn)實世界中時,我們需要向用戶充分證明我們的智能體的確和用戶目標完全匹配。論文中提到了五種不同的方法,幫助用戶增加對智能體的信心:設計選擇、測試、可解釋性、正式驗證以及理論保證。

結語

雖然我們相信循環(huán)獎勵建模是訓練相連智能體的正確方向,但目前我們還不知道它擴展的情況如何。幸運的是,我們還有一些與智能體連接相關的研究方向:

模仿學習

短期強化學習

反向強化學習

協(xié)作反向強化學習

迭代增強

辯論

智能體基礎

論文中對它們的相似之處和不同點都做了更深介紹。

正如對抗輸入對計算機視覺系統(tǒng)的穩(wěn)健性一樣,在復雜的顯示領域中部署機器學習系統(tǒng)也是未來需要面對的難題。盡管我們會在擴展獎勵建模時遇到挑戰(zhàn),但這些挑戰(zhàn)是可以從中獲取進展的具體技術性問題。從這個意義上講,我們的研究方向已經(jīng)準備就緒,可以開展深層強化學習智能體的實證研究了。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8554

    瀏覽量

    136979
  • 智能體
    +關注

    關注

    1

    文章

    477

    瀏覽量

    11608
  • 強化學習
    +關注

    關注

    4

    文章

    270

    瀏覽量

    11970

原文標題:如何讓智能體了解用戶意圖?DeepMind提出獎勵建模

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    學習智能開發(fā)

    智能是大模型的應用落地,正在學習中,這本書太及時了,非常想看看。
    發(fā)表于 03-27 15:48

    【「零基礎開發(fā)AI Agent」閱讀體驗】操作實戰(zhàn),開發(fā)一個編程助手智能

    一. 首先要理解智能的相關概念 ,比如角色,限定,技能:包括插件等,知識:包括知識庫,文檔等等. 創(chuàng)建步驟: 二.創(chuàng)建智能
    發(fā)表于 05-27 11:16

    小藝開放平臺快速創(chuàng)建鴻蒙智能

    1.登錄小藝開放平臺,進入小藝智能平臺頁面,點擊立即體驗,進入創(chuàng)建頁面。 2.點擊左上角【+創(chuàng)建智能
    發(fā)表于 01-19 11:00

    小藝智能調試與預覽---真機測試

    和所選用戶組為準。 6、取消真機測試:只需進入到智能編排頁面,再次點擊【真機測試】-【取消發(fā)布】即可。 創(chuàng)建真機測試用戶組列表 入口1:在智能
    發(fā)表于 01-28 14:16

    小藝開放平臺鴻蒙智能開發(fā)智能配置-基礎信息

    創(chuàng)建智能后,開發(fā)者可以進入智能配置頁面對智能
    發(fā)表于 02-02 16:47

    開發(fā)智能配置-隱私協(xié)議服務

    聲明創(chuàng)建和托管能力,可以進行配置。 通過智能【配置】-【隱私協(xié)議服務】頁面,在隱私聲明處選擇“隱私托管”,點擊【協(xié)議服務】,跳轉到智能
    發(fā)表于 02-03 15:54

    開發(fā)智能配置-內容合規(guī)

    智能上架前,需完成“人工智能生成合成內容標識”和“大模型備案信息”填寫 ,以供平臺審核;可在智能【配置】-【內容合規(guī)】中填寫。 人工
    發(fā)表于 02-07 11:44

    開發(fā)智能調試與預覽---真機測試

    1、開發(fā)者可在智能調試與預覽區(qū)域,點擊真機測試圖標-點擊【白名單】跳轉至智能白名單配置頁面。 2、勾選用于測試的群組,點擊屏幕左側【編排】返回
    發(fā)表于 02-09 15:37

    鴻蒙智能上/下架、升級流程介紹

    執(zhí)行上架操作,并且已經(jīng)審核通過的智能,才能被其他用戶搜索并使用。 升級審核未通過的智能,線上依舊保留上一次通過審核的智能
    發(fā)表于 02-10 10:38

    藝開放平臺鴻蒙智能版本管理

    智能的版本管理功能,包括查看、回退到歷史版本。版本記錄中包括智能上下架及撤回審核時的版本。 查看歷史版本 點擊智能
    發(fā)表于 02-27 19:18

    如何讓AI符合人類的意圖?如何創(chuàng)建符合用戶意圖的智能

    近年來,強化學習在許多復雜游戲環(huán)境中取得了令人矚目的成績,從Atari游戲、圍棋、象棋到Dota 2和星際爭霸II,AI智能在越來越復雜的領域迅速超越了人類水平。游戲是開發(fā)和測試機器學習算法的理想
    的頭像 發(fā)表于 11-24 10:24 ?4886次閱讀

    人工智能的倫理智能應用及相關研究

    智能家居、智慧醫(yī)療、戰(zhàn)爭武器等人類生活密切相關的領域。這些應用中,智能與環(huán)境、尤其是與人類和社會的交互愈來愈突出,其中的倫理和道德問題日
    發(fā)表于 03-24 15:25 ?7次下載
    人工<b class='flag-5'>智能</b>的倫理<b class='flag-5'>智能</b><b class='flag-5'>體</b>應用及相關研究

    聯(lián)匯科技發(fā)布自主智能 OmBot 歐姆智能及 OmBot OS 操作系統(tǒng)

    智能的發(fā)展都表現(xiàn)出極大興趣,并寄予厚望。 大語言模型的出現(xiàn),無疑給 AI 智能的發(fā)展帶來了全新的想象力,因此盡管在眾多 AI 智能
    的頭像 發(fā)表于 07-11 14:07 ?1267次閱讀
    聯(lián)匯科技發(fā)布自主<b class='flag-5'>智能</b><b class='flag-5'>體</b> OmBot 歐姆<b class='flag-5'>智能</b><b class='flag-5'>體</b>及 OmBot OS 操作系統(tǒng)

    AI智能逼真模擬人類行為

    近日,據(jù)外媒最新報道,斯坦福大學、華盛頓大學與Google DeepMind的科研團隊攜手合作,成功開發(fā)出一種能夠高度逼真模擬人類行為的AI智能。 該智能
    的頭像 發(fā)表于 11-26 10:24 ?1381次閱讀

    智能設計模式和智能框架,你會了么?

    一、新聞 先播放一條最新新聞,通義團隊官宣開源了兩個智能 Alias-Agent 和 Data-Juicer Agent 。 Alias-Agent 提供了RaAct,Planner
    的頭像 發(fā)表于 11-12 16:30 ?1236次閱讀
    多<b class='flag-5'>智能</b><b class='flag-5'>體</b>設計模式和<b class='flag-5'>智能</b><b class='flag-5'>體</b>框架,你會了么?