原文標(biāo)題:《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》
原文鏈接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
1950 年,當(dāng)計(jì)算機(jī)不過是自動化算術(shù)和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍有回響的問題:機(jī)器能思考嗎?他以非凡的想象力預(yù)見到了我們今天所見的景象:智能或許可以被構(gòu)建,而非與生俱來。這一洞見后來啟動了一場被稱為人工智能的不懈科學(xué)探索。在我自己從事 AI 工作的第二十五年里,我仍然受到圖靈愿景的啟發(fā)。但我們離目標(biāo)有多近?答案并不簡單。
今天,大語言模型(Large Language Models,LLMs)等領(lǐng)先的 AI 技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而,它們?nèi)匀皇呛诎抵械奈淖纸橙耍恍坜q但缺乏經(jīng)驗(yàn),博學(xué)但未能落地。空間智能將改變我們創(chuàng)造和交互真實(shí)與虛擬世界的方式——革新敘事、創(chuàng)意、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等等。這是 AI 的下一個前沿。
自踏入這個領(lǐng)域伊始,對視覺與空間智能的求索,便是我念茲在茲、一路前行的“北極星”。為此,我投入數(shù)年時間構(gòu)建了 ImageNet,這是首個大規(guī)模視覺學(xué)習(xí)與基準(zhǔn)測試數(shù)據(jù)集,它與神經(jīng)網(wǎng)絡(luò)算法、圖形處理器(GPUs)等現(xiàn)代計(jì)算技術(shù)一道,成為催生現(xiàn)代 AI 誕生的三大關(guān)鍵要素之一。為此,我在斯坦福的學(xué)術(shù)實(shí)驗(yàn)室在過去十年間,致力于將計(jì)算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。也正是為此,一年多以前,我與聯(lián)合創(chuàng)始人 Justin Johnson, Christoph Lassner 和 Ben Mildenhall 共同創(chuàng)立了 World Labs,旨在首次將這一可能性完整地變?yōu)楝F(xiàn)實(shí)。
在這篇文章中,我將解釋什么是空間智能,為什么它重要,以及我們?nèi)绾螛?gòu)建將解鎖它的世界模型——其影響將重塑創(chuàng)造力、具身智能和人類進(jìn)步。
空間智能:人類認(rèn)知的基礎(chǔ)架構(gòu)
AI 從未如此令人興奮。大語言模型等生成式 AI 模型已經(jīng)從研究實(shí)驗(yàn)室走向日常生活,成為數(shù)十億人的創(chuàng)造力、生產(chǎn)力和溝通工具。它們展示了曾被認(rèn)為不可能的能力,輕松生成連貫的文本、大量代碼、照片級逼真的圖像,甚至短視頻片段。AI 是否會改變世界已不再是問題。以任何合理的標(biāo)準(zhǔn)來衡量,它已經(jīng)改變了。
然而,仍有太多東西超出我們的能力范圍。自主機(jī)器人的愿景仍然引人入勝但充滿猜測,遠(yuǎn)未成為未來學(xué)家們長期承諾的日常設(shè)備。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域大規(guī)模加速研究的夢想在很大程度上仍未實(shí)現(xiàn)。而那種能夠真正理解并賦能人類創(chuàng)造者的 AI——無論是幫助學(xué)生理解復(fù)雜的分子化學(xué)概念,協(xié)助建筑師將空間可視化,輔助電影制作人構(gòu)建世界,還是讓任何人尋求完全沉浸式的虛擬體驗(yàn)——其承諾也仍未兌現(xiàn)。
要了解為什么這些能力仍然難以捉摸,我們需要考察空間智能是如何進(jìn)化的,以及它如何塑造我們對世界的理解。
視覺一直是人類智能的基石之一,但它的力量源自更為基礎(chǔ)的某種東西。在動物學(xué)會筑巢、照料幼崽、用語言溝通或建立文明之前很久,“感知”這一看似孤立的能力——感受到一縷微光,觸到某種紋理——就悄然點(diǎn)燃了一條通往智能的演化之路。
從外部世界獲取信息的這個簡單動作,在感知與生存之間搭起了一座橋梁,隨著時代演進(jìn),這座橋愈加堅(jiān)固、愈加精巧。一層又一層的神經(jīng)元從那座橋梁生長出來,形成解釋世界并協(xié)調(diào)生物體與其環(huán)境之間互動的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測,感知和行動成為驅(qū)動智能進(jìn)化的核心循環(huán),以及自然界創(chuàng)造我們?nèi)祟愡@一感知、學(xué)習(xí)、思考和行動的終極化身的基礎(chǔ)。
空間智能在我們與物理世界的互動方式中扮演著核心角色。每一天,我們都依賴它來完成最普通的行為:通過想象保險杠與路緣之間的距離來停車,接住拋過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或是在睡意朦朧中將咖啡倒入杯中而無需凝視。在更極端的情況下,消防員在煙霧彌漫、結(jié)構(gòu)不穩(wěn)的倒塌建筑中穿行,瞬間判斷穩(wěn)定性和生存可能,并通過手勢、肢體語言和一種沒有語言替代的職業(yè)直覺進(jìn)行溝通。而孩子們在牙牙學(xué)語前的幾年里,通過與環(huán)境的玩耍互動來學(xué)習(xí)世界。所有這一切都發(fā)生得直觀且自然——這種流暢性是機(jī)器尚未達(dá)到的。
空間智能同樣是我們想象力與創(chuàng)造力的基礎(chǔ)。故事講述者在腦海中創(chuàng)造出豐富多樣的世界,并利用從古代洞穴壁畫到現(xiàn)代電影,再到沉浸式視頻游戲等多種視覺媒介,將它們呈現(xiàn)給他人。無論是孩子在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基于空間的想象力構(gòu)成了真實(shí)或虛擬世界中互動體驗(yàn)的基礎(chǔ)。在許多行業(yè)應(yīng)用中,對物體、場景和動態(tài)互動環(huán)境的模擬,為從工業(yè)設(shè)計(jì)到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵業(yè)務(wù)提供了動力。
歷史上,那些真正塑造文明走向的時刻,往往都能看到空間智能的身影。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽直射賽因城(Syene)的同一時刻,測量出亞歷山大港 7 度的太陽夾角——從而計(jì)算出地球的周長。哈格里夫斯的“珍妮紡紗機(jī)”,憑借一項(xiàng)空間布局的巧思,徹底改寫了紡織業(yè)的歷史:將多個紡錘并排排列在同一個框架中,使得一名工人能同時紡織多根紗線,生產(chǎn)效率提升了八倍。
沃森(Watson)和克里克(Crick)則通過親手搭建 3D 分子模型發(fā)現(xiàn)了 DNA 的結(jié)構(gòu),他們不斷操控金屬板和金屬絲,直到堿基對的空間排列“咔噠”一聲完美契合。在每一個案例中,空間智能都推動著文明的進(jìn)步,科學(xué)家和發(fā)明家們必須操控物體、將結(jié)構(gòu)可視化、并對物理空間進(jìn)行推理——所有這些都無法單憑文字來捕捉。
空間智能是我們認(rèn)知構(gòu)建的基礎(chǔ)架構(gòu)。無論我們是被動觀察還是主動尋求創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動我們的推理和規(guī)劃,即使是在最抽象的話題上。它對我們互動的方式——無論是言語的還是身體的,與同伴的還是與環(huán)境的——都至關(guān)重要。雖然我們大多數(shù)人平日里并不會像埃拉托斯特尼那樣揭示新的真理,但我們每天都在以同樣的方式思考——通過感官感知一個復(fù)雜的世界,然后利用對它在物理、空間維度上如何運(yùn)作的直觀理解來認(rèn)識它。遺憾的是,今天的 AI 還不會這樣思考。
過去幾年確實(shí)取得了巨大進(jìn)步。多模態(tài)大語言模型(Multimodal LLMs,MLLMs)除了文本數(shù)據(jù)外,還使用海量多媒體數(shù)據(jù)進(jìn)行訓(xùn)練,引入了一些基本的空間意識,今天的 AI 可以分析圖片、回答有關(guān)它們的問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人可以開始在高度受限的環(huán)境中操縱物體和工具。
但坦白而言,AI 的空間能力仍遠(yuǎn)未達(dá)到人類水平。其局限性很快就會顯現(xiàn)。最先進(jìn)的 MLLM 模型在估計(jì)距離、方向和大小(或"在腦海中"通過從新角度重新生成物體來旋轉(zhuǎn)它們)方面的表現(xiàn)很少好于隨機(jī)猜測。它們無法導(dǎo)航迷宮、識別捷徑或預(yù)測基本物理現(xiàn)象。AI 生成的視頻都很新穎且確實(shí)很酷,但往往在幾秒鐘后就失去連貫性。
雖然當(dāng)前最先進(jìn)的 AI 在閱讀、寫作、研究和數(shù)據(jù)模式識別方面表現(xiàn)出色,但這些相同的模型在表示或與物理世界互動時存在根本性限制。我們對世界的看法是整體的——不僅僅是我們正在看的東西,還包括一切事物在空間上如何關(guān)聯(lián)、它意味著什么以及為什么重要。通過想象、推理、創(chuàng)造和互動——而非僅僅描述——來理解這一點(diǎn),正是空間智能的力量。沒有它,AI 就與其試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無法有效駕駛我們的汽車、引導(dǎo)我們家中和醫(yī)院中的機(jī)器人、實(shí)現(xiàn)全新的沉浸式和互動式學(xué)習(xí)娛樂體驗(yàn)方式,或加速材料科學(xué)和醫(yī)學(xué)的發(fā)現(xiàn)。
哲學(xué)家維特根斯坦曾寫道:“我的語言的界限意味著我的世界的界限。”我不是哲學(xué)家。但我至少知道對 AI 而言,不僅僅只有語言。空間智能代表著語言之外的前沿——連接想象、感知和行動的能力,為機(jī)器真正增強(qiáng)人類生活開啟可能性,從醫(yī)療保健到創(chuàng)造力,從科學(xué)發(fā)現(xiàn)到日常協(xié)助。
AI 的下一個十年:構(gòu)建真正空間智能的機(jī)器
那么,我們該如何構(gòu)建具備空間智能的 AI?要打造出能像埃拉托斯特尼般洞察幾何、如工業(yè)設(shè)計(jì)師般精工巧思、似故事家般揮灑想象、同急救員般自如行動的模型,其路徑何在?
構(gòu)建空間智能 AI 需要比大語言模型更雄心勃勃的東西:世界模型,一種新型生成模型,其在理解、推理、生成以及與語義、物理、幾何和動態(tài)復(fù)雜的世界(虛擬或真實(shí))交互方面的能力遠(yuǎn)超當(dāng)今 LLMs 的能力范圍。該領(lǐng)域尚處于初期,當(dāng)前方法從抽象推理模型到視頻生成系統(tǒng)不等。World Labs 于 2024 年初基于這一信念成立:基礎(chǔ)方法仍在建立中,這使之成為下一個十年的決定性挑戰(zhàn)。
在這個新興領(lǐng)域,最重要的是建立指導(dǎo)發(fā)展的原則。對于空間智能,我通過三個基本能力來定義世界模型:
1、生成性:世界模型可以生成具有感知、幾何和物理一致性的世界
解鎖空間理解和推理的世界模型也必須生成自己的模擬世界。它們必須能夠產(chǎn)生無限多樣化的模擬世界,這些世界遵循語義或感知指令——同時保持幾何、物理和動態(tài)一致性——無論是表示真實(shí)還是虛擬空間。研究界正在積極探索這些世界在固有幾何結(jié)構(gòu)方面應(yīng)該隱式還是顯式表示。此外,除了強(qiáng)大的潛在表示外,我相信通用世界模型的輸出還必須允許為許多不同用例生成世界的顯式、可觀察狀態(tài)。特別是,其對當(dāng)前的理解必須與其過去連貫地聯(lián)系;與導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)相聯(lián)系。
2、多模態(tài):世界模型在設(shè)計(jì)上是多模態(tài)的
正如動物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域中稱為“提示”(prompts)。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)盡可能完整地預(yù)測或生成世界狀態(tài)。這要求以真實(shí)視覺的保真度處理視覺輸入,同時以同等的能力解讀語義指令。這使得智能體和人類能夠通過多樣的輸入與模型就世界進(jìn)行交流,并反過來接收多樣的輸出。
3、交互性:世界模型可以基于輸入動作輸出下一個狀態(tài)
最后,如果動作和/或目標(biāo)是世界模型提示的一部分,其輸出必須包含世界的下一個狀態(tài),無論是隱式還是顯式表示。當(dāng)僅給定一個動作(無論有無目標(biāo)狀態(tài))作為輸入時,世界模型應(yīng)產(chǎn)生一個與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)(如有),及其語義含義、物理定律和動態(tài)行為相一致的輸出。隨著空間智能世界模型在其推理和生成能力上變得更加強(qiáng)大和穩(wěn)健,可以想象,在給定一個目標(biāo)的情況下,世界模型本身將能夠不僅預(yù)測世界的下一個狀態(tài),還能基于新狀態(tài)預(yù)測下一步的行動。
這項(xiàng)挑戰(zhàn)的范圍超越了 AI 以往面臨的任何挑戰(zhàn)。
語言,作為人類認(rèn)知中一種純粹的生成現(xiàn)象,其規(guī)則相對簡單;而世界的運(yùn)行規(guī)則要復(fù)雜得多。例如,在地球上,引力支配著運(yùn)動,原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無數(shù)的物理定律約束著每一次互動。即使是最具想象力的世界,也是由遵循定義它們的物理定律和動態(tài)行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態(tài)和物理——一致地協(xié)調(diào)起來,需要全新的方法。表現(xiàn)一個世界的維度,遠(yuǎn)比表現(xiàn)像語言這樣的一維順序信號要復(fù)雜得多。
要實(shí)現(xiàn)能提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型,需要克服幾個艱巨的技術(shù)障礙。在 World Labs,我們的研究團(tuán)隊(duì)正致力于在實(shí)現(xiàn)這一目標(biāo)的道路上取得根本性的進(jìn)展。
目前,我們在幾個方向上開展研究。
其一,是為訓(xùn)練找到一種新的“通用任務(wù)函數(shù)”。將通用任務(wù)函數(shù)定義得像大語言模型中的下一個詞元預(yù)測一樣簡單和優(yōu)雅,長期以來一直是世界模型研究的核心目標(biāo)。在世界模型這里,輸入和輸出空間的復(fù)雜性讓這樣的目標(biāo)函數(shù)變得難以定義。但無論如何,它以及與之對應(yīng)的表征方式,都必須忠實(shí)反映幾何與物理定律,尊重世界模型作為“扎根于想象與現(xiàn)實(shí)”的表征這一根本屬性。
其二,是大規(guī)模訓(xùn)練數(shù)據(jù)。訓(xùn)練世界模型所需的數(shù)據(jù),比文本清洗要復(fù)雜得多。好消息是:龐大的數(shù)據(jù)源其實(shí)早已存在。互聯(lián)網(wǎng)上規(guī)模驚人的圖像和視頻,為我們提供了觸手可及的訓(xùn)練素材——難點(diǎn)在于,要發(fā)明出能從這些二維的圖像或視頻幀信號(也就是 RGB)中,抽取更深層空間信息的算法。過去十年的研究已經(jīng)表明,在語言模型上,數(shù)據(jù)體量與模型規(guī)模存在清晰的“縮放定律”;對世界模型而言,關(guān)鍵在于構(gòu)建能夠以類似規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。除此之外,我也不會低估高質(zhì)量合成數(shù)據(jù)以及深度、觸覺等額外模態(tài)的作用。它們在訓(xùn)練的關(guān)鍵階段可以補(bǔ)充互聯(lián)網(wǎng)級數(shù)據(jù)。但要走通這條路,前提是更好的傳感器系統(tǒng)、更可靠的信號提取算法,以及強(qiáng)大得多的神經(jīng)模擬方法。
其三,是新的模型架構(gòu)和表征學(xué)習(xí)。世界模型的研究必然會推動架構(gòu)與學(xué)習(xí)算法的演進(jìn),尤其是在現(xiàn)有 MLLM 和視頻擴(kuò)散模型范式之外。當(dāng)前這些主流方法往往把數(shù)據(jù)切成一維或二維的 Token 序列,這會把一些原本簡單的空間任務(wù)變得異常困難——比如在一段短視頻里數(shù)清有幾把不同的椅子,或者記住一個房間一小時之前的樣子。替代性的架構(gòu)也許能幫上忙,比如在 Token 化、上下文建模和記憶機(jī)制上,采用具備 3D 或 4D 意識的方法。舉例來說,在 World Labs,我們最近在一個名為 RTFM 的實(shí)時生成框架模型上做了一些嘗試,它使用帶空間錨點(diǎn)的“幀”作為一種空間記憶,在保持生成世界持續(xù)性的同時,實(shí)現(xiàn)高效的實(shí)時生成。
顯然,在通過世界建模徹底釋放空間智能之前,我們?nèi)砸鎸薮蟮奶魬?zhàn)。但這些研究絕不只是理論層面的練習(xí),它們將成為一整個新類別創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs 內(nèi)部取得的進(jìn)展讓人鼓舞。最近,我們向一小部分用戶展示了 Marble,一個首創(chuàng)的世界模型:它可以接受多模態(tài)輸入作為提示,生成并維持一致的 3D 環(huán)境,供用戶和講故事的人探索、互動,并在各自的創(chuàng)作流程中進(jìn)一步搭建。我們正努力盡快把它帶到更廣泛的公眾面前。
Marble 只是我們創(chuàng)建真正空間智能世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商業(yè)領(lǐng)袖都開始認(rèn)識到其非凡的潛力。下一代世界模型將使機(jī)器在全新水平上實(shí)現(xiàn)空間智能——這一成就將解鎖今天的 AI 系統(tǒng)中仍在很大程度上缺失的基本能力。
使用世界模型為人類構(gòu)建更好的世界
驅(qū)動 AI 發(fā)展的動機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代 AI 時代的科學(xué)家之一,我的動機(jī)一直很明確:AI 必須增強(qiáng)人類能力,而非取代它。多年來,我一直致力于使 AI 的開發(fā)、部署和治理與人類需求保持一致。如今技術(shù)烏托邦和末日論的極端敘事比比皆是,但我繼續(xù)持有更務(wù)實(shí)的觀點(diǎn):AI 由人開發(fā)、被人使用、由人治理。它必須始終尊重人的主體性和尊嚴(yán)。其魔力在于擴(kuò)展我們的能力;使我們更具創(chuàng)造力、聯(lián)系更緊密、更有生產(chǎn)力、更充實(shí)。空間智能代表了這一愿景——賦能人類創(chuàng)作者、照護(hù)者、科學(xué)家和夢想家實(shí)現(xiàn)曾經(jīng)不可能的事情。這種信念是我致力于將空間智能作為 AI 下一個偉大前沿的驅(qū)動力。
空間智能的應(yīng)用跨越不同的時間線。創(chuàng)意工具正在涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到創(chuàng)作者和講故事者手中。機(jī)器人代表著一個雄心勃勃的中期目標(biāo),因?yàn)槲覀冋谕晟聘兄托袆又g的循環(huán)。最具變革性的科學(xué)應(yīng)用將需要更長時間,但承諾對人類繁榮產(chǎn)生深遠(yuǎn)影響。
在這些時間軸上,有幾個領(lǐng)域尤其值得期待,它們可能重新定義人類能力。當(dāng)然,實(shí)現(xiàn)這一愿景需要巨大的集體努力,遠(yuǎn)遠(yuǎn)超出任何一支團(tuán)隊(duì)或一家公司的能力邊界。它需要整個 AI 生態(tài)——研究者、創(chuàng)新者、創(chuàng)業(yè)者、企業(yè)乃至政策制定者——共同參與,朝著一個共享的愿景前進(jìn)。但這個愿景值得我們投入。我們可以這樣想象未來。
創(chuàng)意:增強(qiáng)講故事和沉浸式體驗(yàn)
我個人的偶像愛因斯坦曾說過一句我很喜歡的話:“創(chuàng)造力是智能的樂趣。”在文字出現(xiàn)很久之前,人類就開始講故事——把故事畫在洞穴墻壁上,一代代口耳相傳,在共同敘事中塑造文化。故事是我們理解世界、跨越時間與距離建立連接、探索作為人的意義的方式,也是我們在生活與愛中尋找意義的途徑。如今,空間智能有機(jī)會以一種不辜負(fù)故事重要性的方式,改變我們創(chuàng)造和體驗(yàn)敘事的方式,并把這種影響從娛樂擴(kuò)展到教育,從設(shè)計(jì)延伸到建造。
World Labs 的 Marble 平臺會把前所未有的空間能力和可控性交到電影制作人、游戲開發(fā)者、建筑師以及各種講故事者手中,讓他們在無需傳統(tǒng) 3D 設(shè)計(jì)軟件那些繁瑣開銷的前提下,快速搭建并迭代可自由探索的三維世界。在這一過程中,創(chuàng)作行為本身依舊是鮮活而“人”的;AI 工具做的,只是放大和加速創(chuàng)作者原本就能做到的事情。比如,敘事體驗(yàn)可以在全新的維度展開。
電影人和游戲設(shè)計(jì)師可以借助 Marble 在不同世界之間穿梭,而不再受限于預(yù)算或地理?xiàng)l件,探索在傳統(tǒng)制作流程中幾乎不可能試驗(yàn)的大量場景和視角。隨著不同媒介與娛樂形式之間的邊界被不斷打破,我們正在接近一種全新的交互體驗(yàn):藝術(shù)、模擬和游戲彼此融合,任何人——而不僅僅是大工作室——都能創(chuàng)造并棲居于屬于自己的故事世界。隨著從概念和分鏡到完整體驗(yàn)的過程被極大加速,敘事將不再被束縛在某一種媒介里,創(chuàng)作者可以在多種載體與平臺上構(gòu)建具有共同“底層世界”的作品。
在設(shè)計(jì)層面,幾乎所有制造出來的物體或建造出來的空間,都必須先在虛擬 3D 中完成設(shè)計(jì),再落到物理世界。這一流程高度迭代,且在時間和金錢上成本都極高。有了具備空間智能的模型,建筑師可以在投入數(shù)月時間完善方案之前,就快速可視化結(jié)構(gòu),并走進(jìn)這些尚不存在的空間中“先行體驗(yàn)”,本質(zhì)上是在講述我們未來如何工作、生活與聚集的故事。工業(yè)設(shè)計(jì)師和時裝設(shè)計(jì)師,可以即時把想象轉(zhuǎn)化為形態(tài),嘗試物體如何與人體以及空間互動。
在體驗(yàn)層面,體驗(yàn)本身是我們這個物種創(chuàng)造意義的最深刻途徑之一。在幾乎整個人類歷史中,我們共享的三維世界只有一個:我們共同生活的這個物理世界。直到最近幾十年,通過游戲和早期虛擬現(xiàn)實(shí),我們才開始隱約窺見共創(chuàng)“另一個世界”的樣子。如今,當(dāng)空間智能與新的硬件形態(tài)結(jié)合在一起,比如 VR 頭顯、XR 頭顯以及沉浸式顯示設(shè)備,這種體驗(yàn)被提升到了前所未有的高度。我們正在走向這樣一個未來:走進(jìn)一個完全構(gòu)筑起來的多維世界,就像打開一本書一樣自然。空間智能讓“造世界”的能力不再只服務(wù)于擁有專業(yè)制作團(tuán)隊(duì)的大型工作室,而是普惠給個體創(chuàng)作者、教育者,以及任何想要分享自己構(gòu)想的人。
機(jī)器人技術(shù):具身智能在行動
從昆蟲到人類,動物理解、導(dǎo)航和操控世界,無不依賴空間智能。機(jī)器人也不會例外。自這個領(lǐng)域誕生之初,具備空間意識的機(jī)器就一直是人們的夢想,包括我與學(xué)生、合作者在斯坦福實(shí)驗(yàn)室做的很多工作。正因如此,我對用 World Labs 正在構(gòu)建的這類模型來實(shí)現(xiàn)它們,感到格外興奮。
要讓機(jī)器人成熟起來,關(guān)鍵在于找到可擴(kuò)展的學(xué)習(xí)路徑,而這背后的前提,是可行的訓(xùn)練數(shù)據(jù)解法。鑒于機(jī)器人必須面對的狀態(tài)空間極其龐大,它們要學(xué)會理解、推理、規(guī)劃和交互,許多人推測,真正具備泛化能力的機(jī)器人,很可能需要互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實(shí)世界中人類示范的結(jié)合。但和語言模型不同,機(jī)器人研究今天面臨的最大瓶頸之一,恰恰是訓(xùn)練數(shù)據(jù)的匱乏。世界模型會在這里發(fā)揮決定性的作用。隨著世界模型在感知精度和計(jì)算效率上的提升,它們生成的輸出可以在很大程度上縮小模擬與現(xiàn)實(shí)之間的鴻溝,幫助機(jī)器人在無數(shù)不同狀態(tài)、交互和環(huán)境的模擬中高效學(xué)習(xí)。
未來,機(jī)器人作為人類的伙伴與協(xié)作者——無論是在實(shí)驗(yàn)臺前輔助科學(xué)家,還是在家中陪伴獨(dú)居老人——都有可能在勞動力緊缺的領(lǐng)域拓展出一部分“新增勞動力”和生產(chǎn)力。但要做到這一點(diǎn),機(jī)器人必須具備空間智能,能夠感知、推理、規(guī)劃和行動,更重要的是:在這一切的同時,與人類目標(biāo)和行為保持一種富有同理心的一致。比如,在實(shí)驗(yàn)室里,一個機(jī)器人助手可以負(fù)責(zé)處理儀器,讓科學(xué)家把注意力集中到更需要靈巧操作或復(fù)雜思考的環(huán)節(jié);在家中,一個機(jī)器人可以幫年長者準(zhǔn)備晚餐,卻又不剝奪對方在廚房中獲得快樂與自主的空間。真正具備空間智能的世界模型,能夠預(yù)測“下一步世界狀態(tài)”,甚至在某些情況下給出與期望相符的下一步動作,這是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。
再往遠(yuǎn)一點(diǎn)看,機(jī)器人的形態(tài)本身也會極大豐富。人形機(jī)器人在我們已經(jīng)建成的這個世界里當(dāng)然有一席之地,但真正釋放創(chuàng)新潛力的,恐怕是一整個形態(tài)的譜系:在體內(nèi)遞送藥物的納米機(jī)器人、能穿梭于狹窄空間的軟體機(jī)器人、專為深海或外太空環(huán)境設(shè)計(jì)的機(jī)器體。不論形態(tài)如何,未來的空間智能模型都必須同時吸納機(jī)器人所處環(huán)境的特性,以及它們自身具身感知和運(yùn)動的限制。但開發(fā)這類機(jī)器人面臨的一個關(guān)鍵難題,是在這些形態(tài)各異的具身形式上嚴(yán)重缺乏訓(xùn)練數(shù)據(jù)。世界模型將在生成模擬數(shù)據(jù)、搭建訓(xùn)練環(huán)境和構(gòu)建評測基準(zhǔn)方面發(fā)揮關(guān)鍵作用。
更長遠(yuǎn)的視野:科學(xué)、醫(yī)療保健和教育
在科學(xué)研究中,具備空間智能的系統(tǒng)可以模擬實(shí)驗(yàn)、并行檢驗(yàn)假設(shè),還可以探索人類難以直接抵達(dá)的環(huán)境——從深海到遙遠(yuǎn)行星。它們有望改變諸如氣候科學(xué)、材料研究等領(lǐng)域的計(jì)算建模方式。通過把多維度模擬與真實(shí)世界的數(shù)據(jù)采集結(jié)合起來,這類工具可以有效降低算力門檻,擴(kuò)展每一個實(shí)驗(yàn)室的“可見范圍”。
在醫(yī)療領(lǐng)域,從實(shí)驗(yàn)室到病床,空間智能都將重塑流程。在斯坦福,我與學(xué)生、合作者多年來一直與醫(yī)院、養(yǎng)老院以及居家患者合作。這些經(jīng)歷讓我愈發(fā)確信,空間智能在這里有著巨大的變革潛力。AI 可以通過多維建模分子相互作用,加速藥物發(fā)現(xiàn);通過幫助放射科醫(yī)生發(fā)現(xiàn)醫(yī)學(xué)影像中的復(fù)雜模式,提升診斷能力;通過構(gòu)建“環(huán)境感知”的長期監(jiān)護(hù)系統(tǒng),在不替代人際鏈接的前提下,為患者和照護(hù)者提供支持,更不用說機(jī)器人在各類醫(yī)療場景中為醫(yī)護(hù)和病患提供幫助的可能性。
在教育領(lǐng)域,空間智能可以把抽象或復(fù)雜的概念變成可感、可操作的對象,構(gòu)建出符合我們大腦和身體學(xué)習(xí)方式的迭代體驗(yàn)。在 AI 時代,更快、更高效的學(xué)習(xí)和再培訓(xùn)需求,對在校學(xué)生和成年人都尤為迫切。學(xué)生可以走進(jìn)“細(xì)胞工廠”,在多維空間里觀察分子機(jī)器如何運(yùn)轉(zhuǎn),或以一種“親臨現(xiàn)場”的方式走進(jìn)歷史事件。教師則獲得了一整套工具,用互動環(huán)境來實(shí)現(xiàn)更個性化的教學(xué)。從外科醫(yī)生到工程師,各種專業(yè)人士都可以在高度逼真的模擬中反復(fù)練習(xí)復(fù)雜技能,而不會給現(xiàn)實(shí)世界帶來風(fēng)險。
在所有這些領(lǐng)域,潛在的應(yīng)用場景幾乎無窮無盡,但目標(biāo)卻始終如一:構(gòu)建那種能增強(qiáng)人類專業(yè)能力、加速人類發(fā)現(xiàn)、放大人類關(guān)懷的 AI,而不是取代人類判斷、創(chuàng)造力與共情——這些是作為人的核心所在。
結(jié)論
過去十年見證了 AI 成為全球現(xiàn)象,成為技術(shù)、經(jīng)濟(jì)甚至地緣政治的拐點(diǎn)。但作為研究者、教育者和現(xiàn)在的企業(yè)家,圖靈 75 年前那個問題背后的精神仍然最能激勵我。我仍然分享著他的驚奇感。這正是空間智能的挑戰(zhàn)每天給予我的活力。
有史以來第一次,我們準(zhǔn)備好構(gòu)建與物理世界如此協(xié)調(diào)的機(jī)器,以至于我們可以依靠它們作為我們面臨的最大挑戰(zhàn)中的真正伙伴。無論是加速我們在實(shí)驗(yàn)室理解疾病的方式、革新我們講述故事的方式,還是在我們因疾病、傷害或年齡而最脆弱的時刻支持我們,我們正處于提升我們最關(guān)心的生活方面的技術(shù)的風(fēng)口浪尖。這是一個更深刻、更豐富、更有力量的生活的愿景。
在自然界在祖先動物身上釋放空間智能的第一縷曙光近五億年后,我們有幸發(fā)現(xiàn)自己處于可能很快賦予機(jī)器相同能力的技術(shù)人員這一代中——并且有特權(quán)將這些能力用于世界各地人民的利益。如果沒有空間智能,我們對真正智能機(jī)器的夢想將不會完整。
本文轉(zhuǎn)自:超算百科
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7756瀏覽量
92619 -
AI
+關(guān)注
關(guān)注
89文章
37814瀏覽量
294922 -
語言模型
+關(guān)注
關(guān)注
0文章
570瀏覽量
11244
發(fā)布評論請先 登錄
華為五大創(chuàng)新開啟非洲移動產(chǎn)業(yè)黃金十年
萬字長文AI智能體:17種體架構(gòu)詳細(xì)實(shí)現(xiàn)
Redis Sentinel和Cluster模式如何選擇
科技云報到:西湖大學(xué)、智元機(jī)器人都選它,存儲成為AI下一個風(fēng)口
3萬字長文!深度解析大語言模型LLM原理
十年積淀,DPVR AI眼鏡將正式亮相
機(jī)器視覺的下一個十年:三大創(chuàng)新趨勢與產(chǎn)業(yè)突破
AI玩具或成為下一個萬億新賽道
魯大師2025年新能源汽車半年報:理想霸榜,零跑上分
【萬字長文】物聯(lián)網(wǎng)的激蕩二十年
《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》
萬字長文!工業(yè)5.0的內(nèi)涵、體系架構(gòu)和使能技術(shù)
【6千字長文】車載芯片的技術(shù)沿革與趨勢分析

李飛飛萬字長文:空間智能是AI的下一個十年
評論