
過去兩年,具身智能幾乎成了全球機(jī)器人領(lǐng)域最不缺討論、卻最難落地的方向。
在北美,Embodied AI被頻繁寫進(jìn)通往AGI的路線圖;在歐洲,實驗室里的機(jī)器人已經(jīng)能完成越來越復(fù)雜的多步操作;而在中國,從大廠到創(chuàng)業(yè)公司,幾乎所有與智能有關(guān)的發(fā)布里都開始出現(xiàn)“embodied”“VLA”“世界模型”等關(guān)鍵詞。
IDC預(yù)測,2026年的全球人形機(jī)器人市場將翻倍,中國具身智能支出規(guī)模或?qū)⒊^110億美元,從千臺級向萬臺級躍遷。
2026春節(jié)前夕已經(jīng)傳出多家具身智能企業(yè)的機(jī)器人將集體上春晚斗舞的消息。
看上去,一切都在加速。但一個略顯尷尬的現(xiàn)實是,熱度雖高,真正能穩(wěn)定跑在真實場景里的系統(tǒng)卻寥寥無幾,大多數(shù)方案仍是在通用大模型上拼湊感知、控制和執(zhí)行模塊。
行業(yè)逐漸意識到,研發(fā)新技術(shù)并不意味著真實的量產(chǎn)能力,具身智能的瓶頸正從算力Infra轉(zhuǎn)向算法Infra,也就是支撐開發(fā)、驗證和持續(xù)迭代的底層工具鏈。有沒有好用的開發(fā)框架?有沒有統(tǒng)一的評測標(biāo)準(zhǔn)?模型能不能在真實環(huán)境中越用越聰明?
換句話說,具身智能要走向大規(guī)模部署,需要的不是更多單點技術(shù),而是一套原生的、端到端的系統(tǒng)。
那么,這套系統(tǒng)應(yīng)該如何構(gòu)建?實驗室到量產(chǎn)之間還有哪些鴻溝需要跨越?

在剛剛結(jié)束的Dexmal Open Day 2026上,原力靈機(jī)發(fā)布的系列產(chǎn)品給出了一些不同的答案。

明明技術(shù)和發(fā)布會層出不窮,大規(guī)模部署卻遲遲難以落地,具身智能究竟被困在了哪里?
如果回顧過去兩年具身智能的技術(shù)脈絡(luò),會發(fā)現(xiàn)幾乎所有玩家都走上了同一條路——拼湊主義。
簡單來說,拼湊主義就是從大模型出發(fā),引入視覺、語言,再試圖通過動作頭或策略網(wǎng)絡(luò),把智能延伸到物理世界。這種方式能讓機(jī)器人快速學(xué)會看圖說話,卻難以讓它進(jìn)行常識推理。一旦現(xiàn)場環(huán)境發(fā)生變化,或遇到訓(xùn)練數(shù)據(jù)中未覆蓋的長尾場景,系統(tǒng)就會失效。
模型技術(shù)之外,另一個阻礙行業(yè)爆發(fā)的頑疾是行業(yè)碎片化。現(xiàn)在具身智能的開發(fā)就像是在原始森林里開路,各家的感知、規(guī)劃和控制模塊深度綁定。如果想給機(jī)器人換一個更好的視覺方案,就需要把整套控制邏輯重寫一遍。極高的重復(fù)造輪子成本讓很多初創(chuàng)團(tuán)隊還沒走到交付階段就耗盡了資源。在這個節(jié)點上,開發(fā)者們真正渴望的,其實是一個像PyTorch那樣統(tǒng)一、開放且解耦的開發(fā)底座。
除了技術(shù)和開發(fā)工具,目前行業(yè)還缺乏一套能夠?qū)⒓夹g(shù)轉(zhuǎn)化為經(jīng)濟(jì)價值的衡量標(biāo)準(zhǔn)。目前主流的具身智能公司都無法回答客戶最關(guān)心的指標(biāo)問題。而缺乏指標(biāo),自然難有客戶愿意為大規(guī)模量產(chǎn)買單。
正因如此,行業(yè)逐漸意識到:具身智能不能被視為大模型的下游應(yīng)用,而必須是一套具備原生技術(shù)、開發(fā)工具和商業(yè)評估標(biāo)準(zhǔn)的面向物理世界的系統(tǒng)工程。

面對碎片化的難題,誰能給出新解法?
一個值得注意的變化是,在這輪具身智能討論中,中國團(tuán)隊的身影愈發(fā)清晰。
早期,中國公司更多被視為快速部署和落地的代表,而具身智能的底層范式往往由海外實驗室主導(dǎo)。但在最近一兩年,這種分工正在被打破。
從跨機(jī)型VLA訓(xùn)練到真機(jī)評測基準(zhǔn)、再到開源框架和數(shù)據(jù)標(biāo)準(zhǔn),越來越多中國團(tuán)隊開始直接參與到方法論層的構(gòu)建。
但這些構(gòu)建大多還停留在爭論用哪個大模型改,那么能不能直接跳出這個問題,從第一行代碼就直接為機(jī)器人而寫呢?
在剛剛結(jié)束的 Dexmal Open Day 2026 上,這個問題已經(jīng)有了一些新的思考。
Dexmal Open Day2026 是原力靈機(jī)成立之后首次面向行業(yè)專家、技術(shù)開發(fā)者、媒體等舉行的技術(shù)開放日。

開放日上,原力靈機(jī)給出的答案可以概括為一個關(guān)鍵點——以infra為底座構(gòu)建具身原生。該系統(tǒng)以DM0為原生智能內(nèi)核,以Dexbotic 2.0為算法開發(fā)Infra,以RoboChallenge為評測Infra,再以DFOL為持續(xù)進(jìn)化引擎,四者共同構(gòu)成一套自洽、可擴(kuò)展、可進(jìn)化的具身智能基礎(chǔ)設(shè)施體系。

這一思路最直接的體現(xiàn)是其具身原生大模型DM0。與行業(yè)中常見的單任務(wù)訓(xùn)練方式不同,DM0是從0開始訓(xùn)練的具身原生大模型。其在預(yù)訓(xùn)練階段就引入多任務(wù)、跨機(jī)型的混合訓(xùn)練,覆蓋抓取、導(dǎo)航、全身控制等核心能力,并橫跨8種結(jié)構(gòu)差異顯著的機(jī)器人本體。例如,在A平臺上學(xué)會處理易碎品的經(jīng)驗,能夠有效遷移到B平臺處理類似物體,無需重新標(biāo)注海量數(shù)據(jù)。

有意思的是,DM0只有2.4 B參數(shù),卻在真機(jī)測評里拿了單任務(wù)和多任務(wù)雙項第一。為什么?關(guān)鍵在于它用了一種叫空間推理思維鏈(Spatial CoT) 的方式來思考。
舉個例子,“把桌上的商品掃個碼計價”這句話其實很模糊,桌上可能有好幾個商品,有的被遮擋,有的反光,掃碼槍的角度也得對。DM0能夠像人一樣一步步拆解:先看清楚有哪些東西,判斷哪個是目標(biāo)商品,再想“我該從哪邊靠近?手怎么動才能穩(wěn)穩(wěn)拿起它并轉(zhuǎn)到掃碼位置?”接著生成一條平滑的視覺軌跡,最后轉(zhuǎn)換成機(jī)械臂能執(zhí)行的三維動作。正因如此,它不僅能完成特定任務(wù),還能內(nèi)化物理常識,具備更強(qiáng)的泛化能力和魯棒性。
目前,DM0 2.4B版本代碼、模型已分別在GitHub、Hugging Face開源,模型測試任務(wù)RoboChallenge Table30的全部30個任務(wù)的參數(shù)和推理代碼也同步開源。

如果說DM0解決的是底層技術(shù),Dexbotic 2.0解決的就是如何讓能力被復(fù)用。
作為全球首個具身原生開發(fā)框架,Dexbotic 2.0的出現(xiàn)某種程度上解決了開發(fā)碎片化的難題。過去,感知、規(guī)劃與控制模塊往往深度耦合,換一個視覺模型可能就得重寫整套控制邏輯。而Dexbotic 2.0通過模塊化設(shè)計,將整個系統(tǒng)清晰拆解為三大可插拔組件:V(Vision Encoder)、L(LLM )和A(Action Expert),實現(xiàn)真正的解耦。

在此基礎(chǔ)上,它還統(tǒng)一了數(shù)據(jù)格式、訓(xùn)練流程和評測標(biāo)準(zhǔn)。無論是模仿學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),都能在同一個框架內(nèi)高效協(xié)同,仿真訓(xùn)練的結(jié)果也能無縫遷移到真機(jī)部署。這種端到端打通的思路顯著降低了具身智能系統(tǒng)的工程復(fù)雜度。
但研發(fā)與開發(fā)之后,什么能讓具身智能真正被大規(guī)模復(fù)制、走向?qū)嶋H生產(chǎn)生活場景?
真正將這一切推向商業(yè)語境的是具身原生應(yīng)用量產(chǎn)工作流DFOL(Distributed Field Online Learning)。傳統(tǒng)模式中,真實場景只是模型的考場,系統(tǒng)部署后,表現(xiàn)好就留下,表現(xiàn)差就退貨。DFOL構(gòu)建了一個“云端-現(xiàn)場”協(xié)同的持續(xù)學(xué)習(xí)閉環(huán),將成功率、動作精度、節(jié)拍(吞吐效率)等工業(yè)客戶最關(guān)心的指標(biāo)直接嵌入學(xué)習(xí)目標(biāo)中。

這樣一來,具身智能不再是交付即終結(jié)的一次性產(chǎn)品,而變成一種可進(jìn)化、可度量、可解鎖具身應(yīng)用量產(chǎn)工作流。客戶按效果付費,廠商通過數(shù)據(jù)飛輪持續(xù)優(yōu)化體驗,形成正向商業(yè)循環(huán)。
當(dāng)然,要讓這一模式被廣泛采納,還需要行業(yè)共識。原力靈機(jī)聯(lián)合Hugging Face共同發(fā)起RoboChallenge,旨在建立全球首個聚焦真機(jī)性能的大規(guī)模評測平臺。未來,各家公司不再自說自話,而是用同一套標(biāo)準(zhǔn)衡量成功率、精度與節(jié)拍,推動行業(yè)透明化與良性競爭。
這樣一來,從模型、研發(fā)到商業(yè)化、評測,具身智能就有了自己的一套原生系統(tǒng)。

站在今天回看具身智能,競爭焦點已經(jīng)發(fā)生了變化。
具身智能的上半場,拼的是單點突破,語言理解、視覺識別、運動控制輪番登場,每一項技術(shù)進(jìn)步都足以掀起一輪融資熱潮。
但熱潮褪去,客戶開始更加關(guān)注技術(shù)落地能力和算法層面的開發(fā)框架。
在下半場,具身智能不再比誰的單項技術(shù)最亮眼,而是比誰擁有更強(qiáng)的系統(tǒng)能力、誰有更強(qiáng)的開發(fā)基礎(chǔ)設(shè)施。所謂系統(tǒng)能力,不是模塊的簡單堆砌,而是感知、決策、執(zhí)行、反饋各環(huán)節(jié)能否在真實物理世界中形成高效、魯棒、可進(jìn)化的閉環(huán)。
2026年不是具身智能的元年,而是具身原生的元年。
所謂具身原生,意味著不再將通用AI“外掛”到機(jī)器人上,而是從第一行代碼起,就讓智能在物理交互中生長,理解重力、摩擦、碰撞,適應(yīng)光照變化、物料變異與環(huán)境擾動。

在這一意義上,原力靈機(jī)的技術(shù)產(chǎn)品矩陣提供了一條值得被認(rèn)真審視的樣本路徑:用具身原生大模型彌合語義與動作的鴻溝,用開源框架降低創(chuàng)新門檻,再通過DFOL這樣的閉環(huán)機(jī)制,將工業(yè)客戶關(guān)心的成功率、精度與節(jié)拍直接轉(zhuǎn)化為可優(yōu)化的學(xué)習(xí)目標(biāo)。而RoboChallenge作為真機(jī)評測Infra,用統(tǒng)一標(biāo)準(zhǔn)衡量實效,確保所有技術(shù)進(jìn)步可驗證、可比較、可對齊商業(yè)需求。
歷史經(jīng)驗表明,真正的技術(shù)革命往往始于Infra的成熟。深度學(xué)習(xí)因PyTorch而爆發(fā),自動駕駛因CARLA而加速。如今,具身智能正站在自己的Infra拐點上。得Infra者,得天下。誰構(gòu)建了更開放、更高效、更貼近物理世界的基礎(chǔ)設(shè)施,誰就掌握了定義下一代智能體的能力。
而這,或許正是克服具身智能“最后一公里”難題的關(guān)鍵解法。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31071瀏覽量
222162 -
AI
+關(guān)注
關(guān)注
91文章
39754瀏覽量
301344 -
具身智能
+關(guān)注
關(guān)注
0文章
388瀏覽量
857
發(fā)布評論請先 登錄
《具身智能發(fā)展報告(2025年)》
具身智能交流會
資訊速遞 | 具身智能PMC(籌)發(fā)布“零成本”開源鴻蒙智能機(jī)器人系統(tǒng)
RT-Thread OS混合部署暨具身智能應(yīng)用開發(fā)師資培訓(xùn)通知 | 雄鷹計劃
2025開放原子開發(fā)者大會具身智能分論壇成功舉辦
2025年中國具身智能產(chǎn)業(yè)發(fā)展規(guī)劃與場景應(yīng)用洞察
什么樣的智能體才能稱為具身智能?
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
復(fù)合機(jī)器人發(fā)貨前測試 #復(fù)合機(jī)器人 #工業(yè)機(jī)器人 #機(jī)器人測試 #智能機(jī)器人 #具身智能
英特爾? 具身智能大小腦融合方案發(fā)布:構(gòu)建具身智能落地新范式
?具身智能(Embodied AI)?解析
激活具身智能創(chuàng)新加速度,九章云極DataCanvas公司領(lǐng)航CEAI 2025中國具身智能大會
具身智能的PyTorch時刻,還需要哪些“原力”?
評論