7月12日,國際科技界傳來新動態(tài),谷歌正借助其先進的Gemini AI系統(tǒng),深化對旗下機器人的訓練,旨在顯著提升它們的導航能力和任務執(zhí)行能力。DeepMind機器人團隊最新發(fā)布的研究論文,詳細闡述了如何利用Gemini 1.5 Pro的強化長上下文窗口功能,極大地優(yōu)化了用戶通過自然語言指令與RT-2機器人交互的體驗。
這一創(chuàng)新技術(shù)的核心在于,機器人首先通過拍攝并分析家庭或辦公室等指定區(qū)域的視頻,利用Gemini 1.5 Pro的強大能力來“學習”并理解其所在環(huán)境。隨后,機器人能夠基于這些視覺信息,靈活運用語音和/或圖像反饋,執(zhí)行用戶的復雜指令。例如,當用戶詢問“我在哪里可以給手機充電?”時,機器人能迅速識別環(huán)境,并引導用戶至最近的電源插座。
據(jù)DeepMind透露,在覆蓋超過9,000平方英尺的測試區(qū)域內(nèi),這些由Gemini驅(qū)動的機器人成功響應并完成了50多項不同用戶指令,成功率高達90%,展現(xiàn)了極高的準確性和效率。
更令人振奮的是,初步研究還揭示了Gemini 1.5 Pro賦予機器人的額外能力——即除了精準導航外,還能規(guī)劃并執(zhí)行更為復雜的任務指令。例如,面對詢問是否有特定飲料的用戶,機器人能夠自主決定前往冰箱檢查,隨后返回并報告結(jié)果,這一連串動作展現(xiàn)了其強大的決策與執(zhí)行能力。
盡管在視頻演示中,機器人對每條指令的迅速確認給人留下了深刻印象,但研究報告也誠實地指出了背后隱藏的“秘密”——處理這些復雜指令實際上需要10至30秒的時間。這表明,盡管技術(shù)進步顯著,但實現(xiàn)完全無縫的人機交互仍需時日。
不過,這一系列的進展無疑為我們描繪了一幅未來生活的美好圖景:或許不久的將來,我們就能與這些高度智能化的機器人共享家園,讓它們幫助我們找到遺失的鑰匙、錢包,甚至是執(zhí)行更多日常生活中的瑣碎任務,極大地提升生活的便捷性與舒適度。
-
機器人
+關(guān)注
關(guān)注
213文章
31073瀏覽量
222162 -
谷歌
+關(guān)注
關(guān)注
27文章
6254瀏覽量
111360 -
AI
+關(guān)注
關(guān)注
91文章
39755瀏覽量
301349
發(fā)布評論請先 登錄
再談低溫燒結(jié)銀的應用:從春晚四家機器人出鏡的幕后推手說起
Gemini CLI 中轉(zhuǎn)站配置使用教程
探索RISC-V在機器人領(lǐng)域的潛力
高精度機器人控制的核心——基于 MYD-LT536 開發(fā)板的精密運動控制方案
RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知
小蘿卜機器人的故事
如何在NVIDIA Isaac Lab中使用Newton訓練四足機器人
機器人競技幕后:磁傳感器芯片激活 “精準感知力”
工業(yè)機器人的特點
明遠智睿SSD2351開發(fā)板:語音機器人領(lǐng)域的變革力量
盤點#機器人開發(fā)平臺
詳細介紹機場智能指路機器人的工作原理
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書
大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產(chǎn)品
NVIDIA推出AI醫(yī)療健康機器人開發(fā)平臺
谷歌借助Gemini AI系統(tǒng)深化對機器人的訓練
評論