最近具身智能這個概念很火。那么,究竟什么是具身智能?它包括哪些類別和關鍵技術?
通過這篇文章,我們來深入了解一下。
什么是具身智能
“智能”,大家都懂,也就是AI。那么,什么是“具身”?
“具身”是一個很小眾的名詞,通常都出現在哲學、認知科學領域。它的英文叫Embodied,是embody的過去式和過去分詞。
em-表示“進入,使……”,-body表示“身體”。組合起來,就是“使……進入身體”。
Embodied Intelligence(具身智能),顧名思義,就是“使智能進入身體”、“給智能一個身體”的意思。
那么,具身智能,是不是就是“AI+身體”呢?
這樣說并不準確。
根據業界的普遍共識——具身智能,除了物理身體之外,更關鍵的是在于能夠“與環境進行交互,在交互中不斷調整優化”。
也就是說,具身智能是一種基于物理身體進行感知和行動的智能系統。它通過實體智能體與環境的交互,獲取信息、理解問題、做出決策,并實現行動,從而產生智能行為和適應性。
本體、智能、環境,被稱為具身智能的三要素。AI領域著名大佬李飛飛也曾明確指出:“具身的含義不是身體本身,而是與環境交互以及在環境中做事的整體需求和功能。”

舉個例子來解釋一下:
我們通過手機和電腦使用的大模型(例如ChatGPT和DeepSeek)或虛擬智能體(AI Agent),擅長處理文字、圖片、視頻等數據,能與我們進行交流并輸出信息,功能非常強大。然而,手機和電腦的感知能力很弱,行動能力幾乎為零。所以,無法與環境進行交互。
這種智能,就不是具身智能,而是離身智能(Disembodied Intelligence,智能和身體分離、解耦)。
我們打造一個實體機器身體,在上面部署了AI大腦。如果,只有感知能力(有攝像頭、傳感器等),沒有行動能力(沒有手、腳、輪子等),或者,只有行動能力,沒有感知能力。那么,它也不屬于具身智能。
只有同時具備了AI大腦,以及有感知能力、行動能力的身體,能夠和外部環境進行實時互動,才是真正的具身智能。
具身智能的發展歷程
具身智能并不是一個新概念。它的起源,可以追溯到1950年。
那一年,著名科學家艾倫?圖靈發表了經典的《計算機器與智能》一文,標志著人工智能理論的奠基。在這篇論文的最后兩個段落里,圖靈展望了人工智能未來可能的兩種發展途徑。一種是比較抽象的、像下棋所需的智能,一種則是擁有最好的感官、能學習甚至能說英語的智能。
沒錯,這兩種智能,分別就是離身智能和具身智能。
在那之后,人工智能經歷了非常波折的發展階段。受限于當時的科技發展水平,人工智能的主要研究方向,還是以離身智能為主。
至于身體(機器人),當時完全是一條獨立的技術路線,沒有什么智能可言,行動能力很弱,感知能力更弱。
1986年,美國計算機科學家羅德尼?布魯克斯提出了一種全新的智能理念。他認為,智能不一定要依賴于復雜的符號表征和推理,智能體可以通過與環境進行直接的物理交互,以一種更加簡單、有效的方式產生智能行為。
羅德尼?布魯克斯的理論,給具身智能的發展提供了重要的理論支撐。后來,他也開發了一系列機器人,能夠在復雜的環境中自主導航和行動,展示了具身智能的可行性和潛力。
羅德尼?布魯克斯因此被譽為“具身智能之父”。
具身智能真正爆發,是進入21世紀之后。
隨著信息技術、電子技術、傳感器技術以及機械技術的高速發展,發展具身智能所需的基礎條件逐漸成熟。
一方面,AI浪潮爆發,出現了功能強大的大模型和智能體,能夠對大量的感知數據進行高效學習和處理。
大家都知道AI現在越來越強,但想要將AI能力真正用起來,就必須讓它在物理世界落地。這肯定需要一個物理載體。
另一方面,傳統的自動化機械,只能完成死板的程序指令,大大限制了它的應用場景。
引入強大的AGI(通用人工智能)大腦,能夠提升泛化能力,讓機器變得真正聰明,擴大應用場景和范圍。
所以說,具身智能是AI發展到一定階段的產物,是一種新的AI范式。
2023年,英偉達創始人兼CEO黃仁勛表示,人工智能發展的下一個浪潮是具身智能,是能理解、推理、并與物理世界互動的智能系統。這一觀點迅速引起了全世界對于具身智能的關注。
2024年,工信部印發《人形機器人創新發展指導意見》,提出要推動人形機器人產業高質量發展。2025年,具身智能更是被寫進了政府工作報告,提出要“培育具身智能產業”和“大力發展智能機器人”。
在政策與資本的雙重驅動下,具身智能就開始全面爆發了。
今年以來,從年初的春晚機器人扭秧歌,到4月份的機器人馬拉松,再到前不久的WAIC(世界人工智能大會)、WRC(世界機器人大會)和世界機器人運動會。我們看到各種各樣的機器人刷屏網絡和社交媒體,掀起了一股前所未有的“具身智能”熱。

業界普遍認為,具身智能有望成為繼PC、智能手機、新能源汽車之后的下一個典型智能終端,帶來顛覆性的產業升級機會。
█具身智能包括哪些類別?
具身智能的類別非常多。從功能上,可以分為工業機器人、服務機器人、特種機器人等。從形態上,又可以分為人形機器人、輪式機器人、多足機器人等。
我們來看看這幾種常見的形態類別:
●人形機器人
人形機器人是目前最常見,也最引人矚目的類別。
之所以很多具身智能廠商都喜歡研發人形機器人,并不是單純因為它酷炫,而是因為它的通用性很強。
人形機器人因為有類似人類的身體結構,可以更方便地使用門把手、樓梯、工具等設施,也能夠適應人類工作場景。
人形機器人在交互上也有天然優勢。它們可以通過表情、動作與人類交流,比如點頭、揮手,甚至模仿人類的情緒,更容易被用戶接納。
目前,有很多廠商正在研發人形機器人,用于家庭服務、醫療護理、工業生產、物流分揀、零售服務等場景。
各種各樣的機器人體育競賽,例如機器人拳擊、賽跑、足球,也是以人形機器人為主,非常考驗產品和團隊的技術水平。
●輪式機器人
輪式機器人主要依靠輪子進行移動,常見于倉儲物流、巡檢安防等領域。
為了方便工作,制造廠商往往會開發那種“下面是輪子,上面是手臂”的輪式機器人,也叫做輪臂機器人。
輪式機器人的優點主要是移動速度較快,能夠快速穿梭在倉庫或工廠中,完成貨物的搬運、分揀等工作。它們具備較好的環境感知能力,能夠在復雜環境中自主導航和避障。
●多足機器人
比較常見的機器狗,其實就屬于多足機器人(四足機器人)。
多足機器人模仿了昆蟲或爬行動物的行走方式,具備較強的地形適應能力,靈活性和穩定性更強,可以在崎嶇不平的山路、廢墟等環境中自由行走,執行勘探、救援等任務。
像機器狗這樣的四足機器人,也適合扮演AI寵物這樣的角色,用于家庭服務或特殊人群服務(導盲)場景。
●智能汽車/無人機/無人船……
沒錯,智能汽車和無人機等設備,本質上也屬于具身智能。
它們通過傳感器(攝像頭、雷達等)實時感知周圍環境,并利用AI算法進行數據處理和分析,從而實現自動駕駛、自主導航、自動避障等功能,符合前面說的具身智能定義。
除了以上幾種常見類別外,具身智能還包括很多仿生形態。不同的形態,會用于不同的使用場景。
具身智能的關鍵技術
業界現在經常會將具身智能的技術體系分為環境感知模塊、運動控制模塊和人機交互模塊等多個模塊。從整體來看,也可以分為本體、大腦和小腦。
一個大致的結構組成范例,如下圖所示:

我們來具體看看本體、大腦和小腦這三大核心部分:
●本體
本體,包括頭、軀干、四肢、關節、靈巧手等組成部分,本質上就是機械結構、傳感器、執行器、驅動與能源系統、通信系統等。
機械系統是本體的物理框架,決定了機器人的機械強度、運動能力和整體外觀。
傳感器負責獲取外部信息和自身狀態信息,包括外部傳感器和內部傳感器,主要包括攝像頭、麥克風、壓力傳感器、關節角度傳感器等。
驅動和能源系統負責提供動力,一般都采用電機、液壓等驅動方式。能源則是鋰電池、燃料電池之類。
這塊的技術非常多,簡單羅列如下:

●大腦
大腦,負責感知、理解和規劃,主要通過大語言模型、視覺語言動作(VLA)大模型來驅動。
感知,是基于傳感器反饋的信息,實時監測自身的位置、姿態、運動速度等狀態,避免動作失衡。這是一個多模態數據融合的過程,難度極大。
在感知的基礎上,再進行決策。決策算法需要根據具身智能的結構進行設計,常用的技術包括強化學習(讓智能體在交互中試錯學習)、模仿學習(模仿人類動作)。
具身智能的算法方案也可以分為分層決策模型和端到端模型兩種路線。前者將任務分解成不同層級,以多個神經網絡訓練,再以流程管線的方式組合。后者則只通過一個神經網絡,完成從任務目標輸入到行為指令輸出的全過程。
大腦的本質就是計算芯片和搭載的算法。因為對算力的要求很高,有時候也會分為云端大腦和本地大腦兩個部分,協同完成計算任務。
●小腦
小腦,負責將決策轉化為具體動作,也就是運動控制和動作生成。
這些主要通過運動控制算法、反饋控制系統來實現。我們可以把小腦理解為是將大腦的一部分功能給獨立出來,減少大腦的工作負荷。
小腦的關鍵技術包括模型預測控制(MPC)、力控與柔順控制、實時響應優化等,技術實現難度同樣很大。

具身智能面臨的技術挑戰
具身智能目前的發展熱度很高,但它所面臨的挑戰也非常巨大。
首先,是技術方面的挑戰。
剛才,小棗君介紹了具身智能的一些關鍵技術。里面的很多細分領域,都有極高的實現難度。
例如,在傳感器方面,如何在復雜多變的環境中準確地感知和理解外部信息,就是一個大難題。在光線變化、遮擋、噪聲等干擾因素存在的情況下,很難保證感知的準確性和魯棒性。
再例如,在運動控制方面,涉及到力學、動力學、控制理論等多個學科的知識,是一個復雜而艱巨的任務。如何設計穩定的運動控制算法,使具身智能能夠在各種場景下靈活、準確地運動,是實現具身智能應用的關鍵。
我們經常在網上看到有的機器人走路搖晃,步履蹣跚,甚至倒地不起、暴走,都說明產品在“感知-決策-執行”環節仍然存在不少問題,背后還有很多的工作要做。
其次,是數據方面的挑戰。
AIGC需要大量的數據集進行訓練。具身智能也是一樣。
事實上,具身智能的真實環境數據獲取成本非常高昂,難以滿足廣泛、高質量和多樣化的需求。
現在,除了基于真實環境的數據采集之外,業界也大量采用基于仿真世界的數據采集。也就是創造一個虛擬世界,在里面進行場景建模,然后訓練和學習。
這種方式的數據真實性雖然較差,但規模更大,成本也更低,適合起步階段使用。
第三,是安全方面的挑戰。
我們經常會看到具身智能相關題材的電影。在有些電影中,具身智能也扮演了反派的角色,例如掌握了力量之后,開始反殺人類。
現在公眾對具身智能也同樣充滿顧慮。一方面,擔心它被壞人利用(被掌握控制權),竊取了我們的隱私。另一方面,也害怕它真的出現意識覺醒,危害人類生存。
沒有什么系統是絕對安全的。具身智能如果要規模普及,必須在安全上得到可靠保證。
第四,是資金和人才方面的挑戰。
這主要針對目前大量的具身智能創業企業。說白了,具身智能是一門燒錢的生意。技術研發需要長期的資金投入,需要招聘和維持高質量研發團隊。
現在行業熱度高,資本追捧,什么都好說。等到時間長了,技術遇到瓶頸,市場打不開局面,很多團隊就會死掉,留下一地雞毛。
除了以上挑戰之外,具身智能在工具鏈、標準化、倫理道德、能源效率等各個方面,都面臨很多問題需要解決。這些問題都不是短時間內可以搞定的,需要漫長的摸索和嘗試。所以,對于具身智能這個新興領域,切記不要頭腦發熱、盲目樂觀。
最后的話
好啦,以上就是關于具身智能的一些基本知識。大家都看明白了沒?
根據業界有關機構的數據,2023年,全球人工智能(AI)機器人市場規模達到143.0億美元,預計到2032年,將達到824.7億美元左右,復合年增長率為21.50%。
這是一個巨大的市場,充滿了機遇和挑戰。你是否打算躬身入局,去試一試呢?
參考文獻:
1、《具身智能發展報告(2024)》,中國信通院;
2、《中國具身智能創投報告》,量子位智庫;
3、《人形機器人行業深度報告》,國元證券;
4、《具身智能,邁向廣闊藍海市場》,中泰證券;
5、百度百科、維基百科、廠商官網等。
文章來源于鮮棗課堂,作者小棗君
-
AI
+關注
關注
91文章
39747瀏覽量
301338 -
人工智能
+關注
關注
1817文章
50093瀏覽量
265251 -
具身智能
+關注
關注
0文章
388瀏覽量
857
發布評論請先 登錄
【「具身智能機器人系統」閱讀體驗】+初品的體驗
【「具身智能機器人系統」閱讀體驗】1.初步理解具身智能
【「具身智能機器人系統」閱讀體驗】2.具身智能機器人的基礎模塊
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
具身智能交流會
寫給小白們的FPGA入門設計實驗
寫給小白們的FPGA入門設計實驗
寫給小白的“具身智能”入門科普
評論