国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器人接入大模型直接聽懂人話,日常操作輕松完成!

CVer ? 來源:量子位(QbitAI) ? 2023-07-11 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

李飛飛團隊具身智能最新成果來了:

大模型接入機器人,把復雜指令轉化成具體行動規劃,無需額外數據和訓練。

42ef34d6-1fa9-11ee-962d-dac502259ad0.png

從此,人類可以很隨意地用自然語言給機器人下達指令,如:

打開上面的抽屜,小心花瓶!

430c81c6-1fa9-11ee-962d-dac502259ad0.gif

大語言模型+視覺語言模型就能從3D空間中分析出目標和需要繞過的障礙,幫助機器人做行動規劃。

480c09b2-1fa9-11ee-962d-dac502259ad0.gif

然后重點來了,真實世界中的機器人在未經“訓練”的情況下,就能直接執行這個任務。

4b43432a-1fa9-11ee-962d-dac502259ad0.gif

新方法實現了零樣本的日常操作任務軌跡合成,也就是機器人從沒見過的任務也能一次執行,連給他做個示范都不需要。

可操作的物體也是開放的,不用事先劃定范圍,開瓶子、按開關、拔充電線都能完成。

4e6515ec-1fa9-11ee-962d-dac502259ad0.gif

目前項目主頁和論文都已上線,代碼即將推出,并且已經引起學術界廣泛興趣。

4fd5cbba-1fa9-11ee-962d-dac502259ad0.png

論文地址:
https://voxposer.github.io/voxposer.pdf
項目主頁:
https://voxposer.github.io/

一位前微軟研究員評價到:這項研究走在了人工智能系統最重要和最復雜的前沿。

4ffd5dba-1fa9-11ee-962d-dac502259ad0.png

具體到機器人研究界也有同行表示:給運動規劃領域開辟了新世界。

5009c104-1fa9-11ee-962d-dac502259ad0.png

還有本來沒看到AI危險性的人,因為這項AI結合機器人的研究而改變看法。

501ed6de-1fa9-11ee-962d-dac502259ad0.png

機器人如何直接聽懂人話?

李飛飛團隊將該系統命名為VoxPoser,如下圖所示,它的原理非常簡單。

502fe406-1fa9-11ee-962d-dac502259ad0.png

首先,給定環境信息(用相機采集RGB-D圖像)和我們要執行的自然語言指令。

接著,LLM(大語言模型)根據這些內容編寫代碼,所生成代碼與VLM(視覺語言模型)進行交互,指導系統生成相應的操作指示地圖,即3D Value Map。

5072ff8e-1fa9-11ee-962d-dac502259ad0.png

所謂3D Value Map,它是Affordance Map和Constraint Map的總稱,既標記了“在哪里行動”,也標記了“如何行動”。

509f2276-1fa9-11ee-962d-dac502259ad0.png

如此一來,再搬出動作規劃器,將生成的3D地圖作為其目標函數,便能夠合成最終要執行的操作軌跡了。

而從這個過程我們可以看到,相比傳統方法需要進行額外的預訓練,這個方法用大模型指導機器人如何與環境進行交互,所以直接解決了機器人訓練數據稀缺的問題。

更進一步,正是由于這個特點,它也實現了零樣本能力,只要掌握了以上基本流程,就能hold任何給定任務。

在具體實現中,作者將VoxPoser的思路轉化為一個優化問題,即下面這樣一個復雜的公式:

50f7ae78-1fa9-11ee-962d-dac502259ad0.png

它考慮到了人類下達的指令可能范圍很大,并且需要上下文理解,于是將指令拆解成很多子任務,比如開頭第一個示例就由“抓住抽屜把手”和“拉開抽屜”組成。

VoxPoser要實現的就是優化每一個子任務,獲得一系列機器人軌跡,最終最小化總的工作量和工作時間。

而在用LLM和VLM將語言指令映射為3D地圖的過程中,系統考慮到語言可以傳達豐富的語義空間,便利用“感興趣的實體(entity of interest)”來引導機器人進行操作,也就是通過3DValue Map中標記的值來反應哪個物體是對它具有“吸引力”的,那些物體是具有“排斥性”。

510f2ba2-1fa9-11ee-962d-dac502259ad0.png

還是以開頭的例子舉,抽屜就是“吸引”的,花瓶是“排斥”的。

當然,這些值如何生成,就靠大語言模型的理解能力了。

而在最后的軌跡合成過程中,由于語言模型的輸出在整個任務中保持不變,所以我們可以通過緩存其輸出,并使用閉環視覺反饋重新評估生成的代碼,從而在遇到干擾時快速進行重新規劃。

因此,VoxPoser有著很強的抗干擾能力。

?

51468480-1fa9-11ee-962d-dac502259ad0.gif

?△ 將廢紙放進藍色托盤

以下分別是VoxPoser在真實和模擬環境中的表現(衡量指標為平均成功率):

575ebaae-1fa9-11ee-962d-dac502259ad0.png

可以看到,無論是哪種環境哪種情況(有無干擾、指令是否可見),它都顯著高于基于原語的基線任務。

最后,作者還驚喜地發現,VoxPoser產生了4個“涌現能力”:

(1)評估物理特性,比如給定兩個質量未知的方塊,讓機器人使用工具進行物理實驗,確定哪個塊更重;

(2)行為常識推理,比如在擺餐具的任務中,告訴機器人“我是左撇子”,它就能通過上下文理解其含義;

(3)細粒度校正,比如執行“給茶壺蓋上蓋子”這種精度要求較高的任務時,我們可以向機器人發出“你偏離了1厘米”等精確指令來校正它的操作;

(4)基于視覺的多步操作,比如叫機器人將抽屜精準地打開成一半,由于沒有對象模型導致的信息不足可能讓機器人無法執行這樣的任務,但VoxPoser可以根據視覺反饋提出多步操作策略,即首先完全打開抽屜同時記錄手柄位移,然后將其推回至中點就可以滿足要求了。

578669e6-1fa9-11ee-962d-dac502259ad0.png

李飛飛:計算機視覺的3顆北極星

大約一年前,李飛飛在美國文理學會會刊上撰文,指出計算機視覺發展的三個方向:

具身智能(Embodied AI)

視覺推理(Visual Reasoning)

場景理解(Scene Understanding)

57ab97ac-1fa9-11ee-962d-dac502259ad0.png

李飛飛認為,具身智能不單指人形機器人,任何能在空間中移動的有形智能機器都是人工智能的一種形式。

正如ImageNet旨在表示廣泛且多樣化的現實世界圖像一樣,具身智能研究也需要解決復雜多樣的人類任務,從疊衣服到探索新城市。

遵循指令執行這些任務需要視覺,但需要的不僅僅是視覺,也需要視覺推理理解場景中的三維關系。

最后機器還要做到理解場景中的人,包括人類意圖和社會關系。比如看到一個人打開冰箱能判斷出他餓了,或者看到一個小孩坐在大人腿上能判斷出他們是親子關系。

機器人結合大模型可能正是解決這些問題的一個途徑。

57bf5a6c-1fa9-11ee-962d-dac502259ad0.png

除李飛飛外,參與本次研究的還有清華姚班校友吳佳俊,博士畢業于MIT,現為斯坦福大學助理教授。

論文一作Wenlong Huang現為斯坦福博士生,在谷歌實習期間參與了PaLM-E研究。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31073

    瀏覽量

    222169
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11310
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5179

原文標題:李飛飛團隊「具身智能」新成果!機器人接入大模型直接聽懂人話,日常操作輕松完成!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    探索RISC-V在機器人領域的潛力

    應用,特別是機器人操作系統領域的可行性。MUSE Pi Pro以其強大的K1 AI CPU和官方對主流開源軟件棧的積極適配,成為了一個非常有吸引力的選擇。 二、 硬件初窺:性能小鋼炮 MUSE Pi Pro
    發表于 12-03 14:40

    機器人看點:智元機器人公司完成股改 湃特納機器人完成數千萬元A輪融資

    給大家帶來一些機器人行業的消息: 智元機器人公司完成股改 智元機器人上市在即?據企查查APP信息顯示智元機器人公司已
    的頭像 發表于 11-10 14:28 ?1445次閱讀

    RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知

    。· 多屏顯示:顯示配送狀態、路徑信息及簡單的觸摸操作界面,方便工作人員監控與交互。 開啟您的下一代機器人項目綜上所述,瑞芯微RK3576憑借其卓越的多屏支持、強大的多攝像頭接入能力和高效的低功耗表現
    發表于 10-29 16:41

    小蘿卜機器人的故事

    經過我的申請, 馬老師發放了, 小蘿卜機器人的, 開發權限, 原來的小蘿卜公司, 因為經營不善倒閉, 作為科研產品, 幾個技術對此惋惜, 自掏腰包, 要讓小蘿卜機器人, 再生, 每次聽到小蘿卜說
    發表于 10-23 05:24

    什么是機器人?追溯機器人技術的演變和未來

    作者: Aswin S Babu 什么是機器人? 在日常生活里,“機器人”一詞我們都不陌生,日常交談中也常常脫口而出。但大家可曾細想過,這個詞的真正含義究竟為何?接下來,不妨花些時間,
    的頭像 發表于 10-02 16:32 ?5186次閱讀
    什么是<b class='flag-5'>機器人</b>?追溯<b class='flag-5'>機器人</b>技術的演變和未來

    工業機器人的特點

    生產可以提高產品品質。通過設定相同的程序,機器人可實現重復操作,保證了產品的標準化;在精細化生產方面,工業機器人可實現低于0.1毫米的運動精度,可以完成精細的雕刻工作。提高產出 由于
    發表于 07-26 11:22

    RDK × 腿臂機器人:這只 “機械汪” 竟會說人話、走花路!

    ,基于RDKX3平臺進行AI大模型算法開發,提出了一種融合AI大模型的創新性解決方案,提升腿臂機器人的綜合性能。-項目首先強化了機器人的多模態感知能力,利用雷達、攝像
    的頭像 發表于 07-01 20:27 ?1259次閱讀
    RDK × 腿臂<b class='flag-5'>機器人</b>:這只 “機械汪” 竟會說<b class='flag-5'>人話</b>、走花路!

    艾摩星機器人完成首個具身智能產品全鏈路功能驗證

    近日,知行科技旗下專注機器人研發與商業化的全資子公司艾摩星機器人完成首個具身智能產品 —— “充電機器人”的全鏈路功能驗證。該機器人能夠高可
    的頭像 發表于 06-13 16:21 ?770次閱讀

    輪式移動機器人電機驅動系統的研究與開發

    【摘 要】以嵌入式運動控制體系為基礎,以移動機器人為研究對象,結合三輪結構輪式移動機器人,對二輪差速驅動轉向自主移動機器人運動學和動力學空間模型進行了分析和計算,研究和設計了自主移動
    發表于 06-11 14:30

    盤點#機器人開發平臺

    地瓜機器人RDK X5開發套件地瓜機器人RDK X5開發套件產品介紹 旭日5芯片10TOPs算力-電子發燒友網機器人開發套件 Kria KR260機器人開發套件 Kria KR260-
    發表于 05-13 15:02

    【「# ROS 2智能機器人開發實踐」閱讀體驗】視覺實現的基礎算法的應用

    的cv_bridge庫,可以輕松實現ROS圖像消息與OpenCV格式的轉換,這在實際開發中極為便利。 視覺巡線與二維碼識別的應用 視覺巡線是機器人自主導航的經典案例,書中從仿真到真實機器人
    發表于 05-03 19:41

    【「# ROS 2智能機器人開發實踐」閱讀體驗】機器人入門的引路書

    ROS的全稱:Robot Operating System 機器人操作系統 ROS的 目的 :ROS支持通用庫,是通信總線,協調多個傳感器 為了解決機器人里各廠商模塊不通用的問題,讓機器人
    發表于 04-30 01:05

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

    識別聯調。 進迭時空致力于為智能機器人提供完整全棧優化的RISC-V AI軟硬件解決方案,第一代RISC-V AI CPU芯片K1已完成AI視覺感知、AI語音處理、自動避障、路徑規劃、運動控制等
    發表于 04-25 17:59

    深開鴻推出全國首個基于開源鴻蒙的機器人操作系統

    在智能制造浪潮的推動下,機器人已成為工業升級的核心驅動力。然而,操作系統作為機器人產業的“魂”,直接決定了機器人的智能化水平、協同能力和生態
    的頭像 發表于 04-19 15:07 ?1501次閱讀

    智能機器人加速進化:AI大模型與傳感器的雙重buff加成

    發布的追覓S50系列掃地機器人也成為市面上首批搭載DeepSeek-R1的智能清潔類產品。 對于普通消費者而言,AI大模型不再只是聊天機器人、內容生成的工具,而是逐漸升級為日常生活中可
    的頭像 發表于 03-07 17:58 ?855次閱讀
    智能<b class='flag-5'>機器人</b>加速進化:AI大<b class='flag-5'>模型</b>與傳感器的雙重buff加成