人類的手是數(shù)百萬年進(jìn)化過程中最了不起的成果之一。我們能夠拿起各種物體并將它們作為工具使用,這是我們與其他動物的最大區(qū)別之一,這也使我們能夠改變周圍的世界。
要想讓機(jī)器人在人類的日常生活中工作,機(jī)器人必須能夠與我們的工具和周圍的環(huán)境進(jìn)行靈巧的互動。如果沒有這種能力,它們就只能繼續(xù)留在工廠、倉庫等專門的領(lǐng)域發(fā)揮作用。
雖然有腿的機(jī)器人只需要一段時間就可以學(xué)會如何行走,但實(shí)踐證明有手的機(jī)器人控制起來的難度要大得多。帶有手指的機(jī)器人手有更多的關(guān)節(jié),它們的運(yùn)動必須經(jīng)過特定的協(xié)調(diào)后才能完成指定的任務(wù)。傳統(tǒng)的機(jī)器人控制方法需要預(yù)先對抓取和運(yùn)動進(jìn)行精確的編程,因此無法實(shí)現(xiàn)人類認(rèn)為理所當(dāng)然的那種“普通”精細(xì)運(yùn)動控制技能。
解決這些問題的方法之一是采用深度強(qiáng)化學(xué)習(xí)(RL)技術(shù)訓(xùn)練一個控制機(jī)器人關(guān)節(jié)的神經(jīng)網(wǎng)絡(luò)。通過深度強(qiáng)化學(xué)習(xí),機(jī)器人能夠從試驗(yàn)和錯誤中學(xué)習(xí),并在成功完成指定任務(wù)后得到獎勵。然而學(xué)習(xí)這種技術(shù)可能需要數(shù)百萬甚至數(shù)十億樣本,因此它幾乎不可能直接應(yīng)用于現(xiàn)實(shí)中的機(jī)器人。

DeXtreme 將模擬環(huán)境中的靈巧操作轉(zhuǎn)移到現(xiàn)實(shí)世界
模擬的應(yīng)用
NVIDIA 的 Isaac 機(jī)器人模擬器能夠創(chuàng)造一個用于訓(xùn)練機(jī)器人的模擬空間,這個空間的運(yùn)行速度比現(xiàn)實(shí)世界快 1 萬多倍,但是遵守物理法則。
從事 DeXtreme 項(xiàng)目的 NVIDIA 研究者們,利用 RL 機(jī)器人訓(xùn)練模擬器 Isaac Gym 教機(jī)器人手如何將一個立方體擺放到指定的目標(biāo)位置和方向或姿態(tài)。神經(jīng)網(wǎng)絡(luò)大腦可以在模擬中學(xué)會這一操作之后,再被移植到現(xiàn)實(shí)世界中控制機(jī)器人。
之前,只有 OpenAI 的研究者們展示過一次類似的工作。不過,他們的工作需要一個更復(fù)雜、更昂貴的機(jī)器人手,一個帶有精確運(yùn)動控制傳感器的立方體,而且需要使用由數(shù)百臺計算機(jī)組成的超級計算集群進(jìn)行訓(xùn)練。
靈巧性訓(xùn)練的大眾化
為了使世界各地的研究者都能夠復(fù)制我們的實(shí)驗(yàn),DeXtreme 項(xiàng)目選擇了盡可能簡單、便宜的硬件。機(jī)器人本身是一臺 Allegro Hand,其成本只有其他一些機(jī)器人的 1/10,它有四根手指并且沒有可以移動的手腕。我們使用現(xiàn)成的 RGB 攝像頭作為追蹤立方體的“眼睛”,這樣就可以在不使用特殊硬件的情況下根據(jù)需要輕松移動立方體。立方體是 3D 打印的,每個面都有貼紙。

一個簡單、可負(fù)擔(dān)的現(xiàn)成系統(tǒng)是實(shí)現(xiàn)可復(fù)制性的關(guān)鍵。DeXtreme 使用的是三個 RGB 攝像頭、一個 3D 打印的立方體和一個高性價比的機(jī)器人手,所以大家也應(yīng)該可以輕松嘗試。
DeXtreme 使用 Isaac Gym 進(jìn)行訓(xùn)練,該模擬器可提供一個用于強(qiáng)化學(xué)習(xí)的端到端 GPU 加速模擬環(huán)境。NVIDIA PhysX 在 GPU 上模擬出場景。在深度學(xué)習(xí)控制策略網(wǎng)絡(luò)的訓(xùn)練過程中,結(jié)果會保留在 GPU 內(nèi)存中。因此,這項(xiàng)訓(xùn)練可以在一臺 Omniverse OVX 服務(wù)器上進(jìn)行。在這個系統(tǒng)上訓(xùn)練一個好的策略大約需要 32 小時,相當(dāng)于一個機(jī)器人在現(xiàn)實(shí)世界中 42 年的經(jīng)驗(yàn)。
由于不需要單獨(dú)的 CPU 集群進(jìn)行模擬,因此在目前的云租賃價格下,訓(xùn)練所產(chǎn)生的計算成本降低了 10-200 倍。使用 Isaac Gym 訓(xùn)練模型大大減少了訓(xùn)練的時間和成本。
感知和合成數(shù)據(jù)
為了讓機(jī)器人知道它所持的立方體的位置和方向,需要為機(jī)器人加上一個感知系統(tǒng)。為了控制成本并為將來操控其他物體留出余地,DeXtreme使用了三個現(xiàn)成的攝像頭和一個可以解釋立方體姿態(tài)的神經(jīng)網(wǎng)絡(luò)。
該網(wǎng)絡(luò)通過使用 Omniverse Replicator 生成的約 500 萬幀合成數(shù)據(jù)訓(xùn)練而成,沒有使用任何真實(shí)的圖像。它學(xué)習(xí)了如何在具有挑戰(zhàn)性的真實(shí)環(huán)境中執(zhí)行任務(wù)。為了使訓(xùn)練更加有效,我們使用了一種叫做域隨機(jī)化的技術(shù)來改變照明和攝像機(jī)的位置,同時使用數(shù)據(jù)增強(qiáng)技術(shù)添加隨機(jī)裁剪、旋轉(zhuǎn)和背景。

DeXtreme NVIDIA Omniverse Replicator 合成數(shù)據(jù)通過隨機(jī)改變背景、照明和攝像機(jī)角度來訓(xùn)練一個強(qiáng)大的感知網(wǎng)絡(luò)
DeXtreme 姿態(tài)估計系統(tǒng)非??煽?,即便是在目標(biāo)物體被部分遮擋或者圖像有明顯運(yùn)動模糊的情況下也能準(zhǔn)確感知到姿態(tài)。

現(xiàn)實(shí)世界中的機(jī)器人訓(xùn)練依然困難重重
使用模擬的主要原因之一是直接在現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人會產(chǎn)生各種難題。例如機(jī)器人硬件在過度使用后容易損壞、實(shí)驗(yàn)的迭代周期和周轉(zhuǎn)時間可能很長等。

除了模擬之外,機(jī)器人還必須解決所有現(xiàn)實(shí)中的機(jī)械和物理學(xué)問題
我們在實(shí)驗(yàn)中經(jīng)常發(fā)現(xiàn)在長期使用后需要對機(jī)械手進(jìn)行修理,例如擰緊松動的螺絲、更換帶狀電纜、在進(jìn)行 10-15 次試驗(yàn)后需要讓機(jī)械手休息并等待它冷卻等。在模擬中,我們是在一個不會損壞的機(jī)器人上進(jìn)行訓(xùn)練,所以能夠避開許多這樣的問題,同時還能獲得學(xué)習(xí)高難度任務(wù)所需的大量數(shù)據(jù)。而且模擬的運(yùn)行速度比實(shí)時訓(xùn)練快得多,所以迭代周期大幅縮短。
在模擬環(huán)境中訓(xùn)練的最大問題是需要縮小模擬和現(xiàn)實(shí)世界之間的差距。為了解決這個問題,DeXtreme 對模擬器中設(shè)置的物理屬性使用了域隨機(jī)化,可一次在超過十萬個模擬環(huán)境中大規(guī)模地改變物體的質(zhì)量、摩擦水平和其他屬性。
隨機(jī)化所帶來的好處之一是讓我們可以使用各種不常見的場景組合來訓(xùn)練人工智能,這能保證機(jī)器人在現(xiàn)實(shí)世界執(zhí)行任務(wù)時的穩(wěn)健性。例如,我們在現(xiàn)實(shí)機(jī)器人上的大部分實(shí)驗(yàn)都是在由于電路板上的連接松動而導(dǎo)致拇指輕微失靈的情況下進(jìn)行的。盡管如此,我們還是對這些策略能夠從模擬可靠地轉(zhuǎn)移到現(xiàn)實(shí)世界而感到驚訝。

經(jīng)過超過 32 小時的強(qiáng)化學(xué)習(xí),DeXtreme 機(jī)器人能夠在根據(jù)指定目標(biāo)旋轉(zhuǎn)立方體的任務(wù)中反復(fù)取得成功
從模擬到現(xiàn)實(shí)
未來機(jī)器人操作領(lǐng)域的突破將催生出新一批不僅限于傳統(tǒng)工業(yè)用途的機(jī)器人應(yīng)用。DeXtreme 項(xiàng)目所傳達(dá)的核心信息是:模擬可以成為訓(xùn)練復(fù)雜機(jī)器人系統(tǒng)的一個非常有效的工具,包括需要不斷接觸環(huán)境中的物體的機(jī)器人系統(tǒng)。我們使用成本相對較低的硬件來證明這一點(diǎn)是為了鼓勵大家使用我們的模擬工具并在此基礎(chǔ)上繼續(xù)努力。
關(guān)于 DeXtreme 項(xiàng)目的更多細(xì)節(jié),請查看論文并訪問項(xiàng)目網(wǎng)頁:https://dextreme.org/
原文標(biāo)題:加強(qiáng)模擬的更大價值 —— 給真實(shí)機(jī)器人一雙靈巧的“手”
文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4087瀏覽量
99224
原文標(biāo)題:加強(qiáng)模擬的更大價值 —— 給真實(shí)機(jī)器人一雙靈巧的“手”
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
人形機(jī)器人“靈巧手”,正在接近27個自由度的人手
使用恩智浦MCU實(shí)現(xiàn)創(chuàng)新人形機(jī)器人靈巧手解決方案
從概念到落地:靈巧手為何是人形機(jī)器人產(chǎn)業(yè)化的決勝環(huán)節(jié)?
人形機(jī)器人市場火爆!雷賽智能重磅推出“20自由度”靈巧手方案
時識科技類腦視觸覺方案破解機(jī)器人靈巧操作難題
RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知
年均增長64.6%,機(jī)器人靈巧手賽道高燃爆發(fā)
機(jī)器人電子皮膚,五大技術(shù)方向
我國發(fā)布全球首款輕量化重載機(jī)器人仿生靈巧手
工業(yè)機(jī)器人的特點(diǎn)
價值量占人形機(jī)器人超30%,十大國產(chǎn)靈巧手方案匯總
盤點(diǎn)#機(jī)器人開發(fā)平臺
LD Gen2 Lite激光雷達(dá):賦予機(jī)器人 “感知力” 的關(guān)鍵
EtherCAT科普系列(4):EtherCAT技術(shù)在人形機(jī)器人靈巧手領(lǐng)域應(yīng)用
機(jī)器人靈巧手進(jìn)入規(guī)模量產(chǎn)時刻!4款新品亮相
加強(qiáng)模擬的更大價值 —— 給真實(shí)機(jī)器人一雙靈巧的“手”
評論