4虎影视亚洲精品国产一区二区,国产一区二区美女视频,精品无人区一区二区三区

商湯科技正式開源空間智能模型日日新SenseNova-SI-1.3，在空間測量、視角轉換、綜合推理等核心任務中展現出顯著提升，另外對比之前的版本增強了回答簡答題的能力。

在集成多項權威空間智能榜單的綜合評測平臺EASI上，SenseNova-SI-1.3綜合性能超越Gemini-3-Pro，均分斬獲EASI-8（八個權威空間智能榜單的混合評測）標準第一，在多個高難度空間任務（尤其是視角轉換）中表現優異。

刁鉆考題驗證:SenseNova-SI-1.3

精準突破空間智能核心難點

EASI-8包含一系列專門考察空間理解能力的高難度測試題，讓Gemini-3-Pro等模型都頻頻踩坑。那么SenseNova-SI-1.3表現如何呢？（下列問題在測試模型時使用的原題為英文，為便于讀者理解翻譯為中文）。

題目要求統計兩張照片中建筑模型的總數量，核心難點是理解兩張圖的對應關系，以此避免遮擋漏數和重復多數。圖2視角下顯現出圖1中被遮擋的深灰色建筑，且部分模型在兩圖中重復出現。Gemini-3-Pro未完全去重，誤數為6個；SenseNova-SI-1.3則給出“4 個”的準確答案。

題目給出兩張書房局部照片，已知iMac 位于房間北部，詢問學生寫作業區域的方位。需先理解兩張圖片屬于同一空間，再通過視覺線索拼接場景。Gemini-3-Pro誤判學習區在西側；SenseNova-SI-1.3精準定位 “西北角”，完全符合空間邏輯。

題目要求以“未戴眼鏡男士的自身視角” 判斷身旁戴眼鏡男士的方位，考察“參照系轉換” 能力，模型很容易以“觀察者視角”來判斷方向。Gemini-3-Pro就誤選了“右邊”；SenseNova-SI-1.3則能正確給出“左邊” 的正確答案。

題目給出粉色瓶子前、后、左、右4張照片，詢問圖4角度下瓶子左邊物體。這道題需整合多視角線索重構房間全局布局，再切換至目標視角判斷方位—— 第4張照片中瓶子左側完全處于視覺盲區，僅能通過前3張圖中的窗戶、床、衣柜等線索還原空間關系。Gemini-3-Pro誤選 “窗戶和藍色窗簾”，SenseNova-SI-1.3精準鎖定正確答案 “衣柜和門”。

以雙層巴士與公交站的場景為題，需避免陷入“英國巴士靠左行駛，因此靠站的是左側”的常識陷阱，而是通過實際的視覺畫面判斷方位。Gemini-3-Pro誤判 “左側” 為答案；而 SenseNova-SI-1.3則準確理解“右側” 為正確答案。

空間智能是極其獨特的多模態能力

Core Knowledge Deficits in Multi-Modal Language Models (2025)發現視角轉換任務與其它多模態任務的相關性（紅框內）呈藍色，即代表相關性較低

一篇2025年發表于機器學習頂會ICML的論文《Core Knowledge Deficits in Multi-Modal Language Models》揭示了一個有趣的發現：視角轉換（Perspective）和所有傳統多模態模型的能力的相關性均異常得低，這代表主流算法路徑可能不是空間智能的形成的有效路徑，這也解釋了為什么領先的多模態大模型在空間智能相關的任務上表現不佳。

Core Knowledge Deficits in Multi-Modal Language Models (2025)發現增大模型尺寸對提升視角轉換任務效果不佳

這篇論文也發現，空間智能似乎存在反尺度效應的現象：更大的模型并不能更好地解決空間智能任務。另外，在EASI的官方報告中也可以找到相似的描述，指出視角轉換任務（Perspective-taking）依然是最具挑戰的基礎能力之一。

空間智能需要全新的學習范式。

從3D世界數據匱乏

到空間智能的尺度效應

空間智能的核心——視角轉換任務被拆解成了三個關鍵步驟：建立跨視角關聯、理解視角移動、想象視角變換，并圍繞著解決這三個基礎能力構造大量訓練數據

學術界現有數據集多著重于目標識別與場景理解，模型往往停留在圖像模式匹配階段，難以形成穩定的空間理解能力。基于這一洞察，想要解決空間智能尤其是視角轉換任務，簡單擴充相關數據規模是不夠的。

為了解決這一根本問題，我們將視角轉換看作從二維視覺信息邁向三維空間關系理解的關鍵橋梁，并將其拆解為遞進的能力階段，由易到難、難度遞增的三個任務層級（建立跨視角關聯、理解視角移動、想象視角變換），并構造大量且層次分明的訓練數據，使模型建立完備的空間理解能力。

同時，在數據規模持續擴大的過程中，SenseNova-SI團隊挖掘并重組多視角學術數據資源，將許多過去未被充分利用的標注轉化為視角轉換訓練數據。例如，多目關聯數據集MessyTable提供了高物體復雜度場景，其中跨視角物體一致性信息與精確的相機位姿標注，可用于訓練物體對應與相機運動推理能力；而部分室內場景掃描數據如CA-1M中包含物體自身朝向標注的樣本，則被用于補充模型進行視角轉換與想象所需的稀缺數據。這種跨數據源的重組與再利用，使積累大量豐富而系統的空間理解數據成為可能。

空間智能的尺度效應：SenseNova-SI在視角轉換任務上超越GPT-5

大規模高質量的空間智能數據在SenseNova-SI團隊的手中最終驗證了空間智能的尺度效應：SenseNova-SI的8B參數基模型最終超越了強閉源模型如GPT-5，而2B參數的小模型也表現不俗，在相同數據規模下，甚至超越了紐約大學的Cambrian-S和字節的VST兩個7B參數的模型。

只在Ego-Exo4D上訓練第一/第三人稱視角匹配的模型可以大幅提升(+90.4%)在MMSI的2D迷宮導航問題上的表現

更有趣的是，團隊在研究中似乎發現了一些智能涌現的先兆：一些看起來毫無關聯的但也許細想之下有底層能力聯系的任務可以協同發展。另外，團隊也發現在視角轉換任務上訓練的模型也可以增強如心智重建（Mental Reconstruction）、綜合空間推理（Comprehensive Reasoning）等能力。

商湯引領空間智能普惠生態

SenseNova-SI-1.3模型的升級發布背后，是商湯科技始終致力于打破技術壁壘，讓頂尖空間智能技術惠及更多開發者與企業。

對科研人員而言，SenseNova-SI-1.3通過在空間智能上驗證數據尺度效應提供了一個與現有基座模型完全兼容，但又長于空間智能的強力預訓練模型和基線（SenseNova-SI已被VSI-Bench, MMSI-Bench等權威榜單官方收錄），可以直接在其之上設計創新算法或者續訓，推動空間智能向人類水平邁進；

對企業來說，可直接基于SenseNova-SI-1.3快速落地應用，縮短研發周期、降低技術門檻；

對普通用戶而言，未來將有更多搭載先進空間智能的產品走進生活——從智能家電到自動駕駛，從工業機器人到教育設備，都將更懂 “空間邏輯”、更貼合實際需求。

SenseNova-SI在具身任務上的探索了空間智能的重要性

開源地址

SenseNova-SI模型家族（點擊閱讀原文跳轉）：

https://huggingface.co/collections/sensenova/sensenova-si

SenseNova-SI開源代碼：

https://github.com/OpenSenseNova/SenseNova-SI

Discord 社區邀請碼：

https://discord.gg/WBzH62bk

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴