国产亚洲婷婷香蕉久久精品,91精品国产91久久久麻豆,久久激情成人

案例簡介

蘇州湯元科技有限公司（以下簡稱“湯元科技”）是一家專注于三維重建與世界模型的科技公司，為自動駕駛與具身智能提供高質量、多樣化的訓練數據。通過將自研的世界模型技術與NVIDIA Cosmos結合，實現真實物理世界的三維重建、場景泛化，并提升數據生成的效率與擬真度。

本案例主要應用NVIDIA GPU和 NVIDIA Cosmos 平臺。

湯元科技成立于 2024 年 3 月，是一家專注于“世界模型 + AI”的創新型科技公司，致力于實現真實物理世界的三維重建與數據生成，推動物理 AI 的發展。公司核心業務是利用路側傳感器信息，將物理世界的全要素數字化重建，并以此構建高質量、可泛化的訓練數據，服務于自動駕駛和具身智能等前沿領域。

在智能駕駛方向，湯元科技推出了自研的“Yootta 數據平臺”，基于“Real2Sim2Real”的三維重建與視頻擴散生成框架，將城市級多源感知數據自動化轉化為多樣化、高保真、結構一致的車側視角訓練數據。該框架能夠涵蓋不同天氣、光照、道路結構等復雜場景。

傳統三維重建受限于視角和環境，往往存在天空信息缺失及復雜場景泛化不足等問題。湯元科技通過引入 Cosmos，實現了缺失信息補全、多樣化視角生成與復雜環境的泛化，為“感知在環”訓練奠定了技術基礎。

湯元科技基于 Cosmos 對交通場景的光照、天氣、環境等進行重構。

智能駕駛數據獲取與生成面臨的挑戰

數據是智能駕駛訓練的燃料。在端到端和 VLA 等新一代技術體系推動下，智能駕駛對高質量、多樣化、物理一致的訓練數據提出了更高要求。當前，數據獲取與生成面臨多重挑戰，成為制約技術突破的關鍵瓶頸。

1. 數據采集方式

傳統依賴車隊實采的方式存在高成本、低效率問題，且難以覆蓋長尾場景；而純生成式數據雖然成本低，但其物理一致性與行為真實度難以保障，難以滿足模型對真實性和泛化能力的雙重要求。通過路側傳感器采集數據并重建真實世界模型的方案，可以在滿足智能駕駛對數據需求的同時，大幅降低采集成本。

2. 數據格式

智能駕駛的主流算法（如：端到端模型和 VLA 模型）需要“感知在環”的方式進行模型訓練和測試。傳統的智能駕駛數據集（如：nuScenes）是由自動駕駛車輛事先采集的日志數據，而非實時模擬環境。傳感器信息一旦固定，當自動駕駛模型生成新的行駛軌跡后，傳感器數據無法改變。因此，需要引入 4D場景數據，以便在車輛位姿變化時，能夠重新渲染傳感器視角下的數據。

3. 數據源本身

無論是路側還是車載采集都存在物理限制。路側設備受部署密度和視角范圍影響，生成數據常缺乏天空等關鍵環境要素；而車載視角則受遮擋影響較大，存在重建障礙物幾何信息缺失、姿態估計不準等問題。

左圖為通過路側相機重建后渲染的車端視角視頻，天空因視角受限而缺失；右圖為經Cosmos補全天空等缺失信息后，呈現完整場景。

面對上述挑戰，湯元科技自研“Real2Sim2Real”三維重建與視頻擴散生成框架，構建了以 3D Gaussian Splatting 為核心、動靜分離建模為支撐的四維動態重建能力。通過對靜態背景與動態物體的時序建模與融合，確保重建結果具備空間一致性與時間連續性。同時，結合 Cosmos，實現了缺失信息補全、多樣化視角生成和復雜環境泛化，突破了傳統數據生成的瓶頸。相較于傳統采集方式，湯元科技的解決方案在三個維度實現了顯著提升：

技術上，通過路側傳感器信息實現真實物理世界的還原，具備更優的紋理、幾何與光照一致性以及新視角的時空一致性；

業務上，提升了對場景密度、行為模態、長尾交互的還原能力；

效率與成本上，依托路側數據采集與自動生成，數據采集效率提升 5 倍，綜合成本下降超 80%。

NVIDIA Cosmos 助力突破 4D 重建瓶頸

為了突破三維生成與四維重建在效率、質量及泛化能力上的瓶頸，湯元科技引入了 NVIDIA 最新的軟硬件產品，包括多卡 GPU 集群、Cosmos 引擎與擴散模型，構建出一套高效、真實、穩定的 4D 數據生成與增強系統。其在自動駕駛及具身智能的數據供給中表現出顯著優勢，具體包括：

基于 Cosmos 的物理級光影建模，提升視覺真實感

利用 Cosmos 引擎，湯元科技在構建 4D 動態場景時實現了跨時間幀一致的光照與材質表現，顯著解決了傳統 4D 合成中光影不自然與材質漂移的問題，極大增強了視覺擬真度。

4D資產重建常因相機參數誤差、稀疏視圖和曝光不一致而導致質量下降。為此，湯元科技在初始車輛模型的360 度環視范圍內采樣虛擬視角，并借鑒NVIDIA擴散模型思路進行修復；修復后的視角圖像進一步用于訓練3D Gaussian Splatting（3DGS），從而提升車輛重建的幾何精度與外觀一致性。

2. 修復時空漂移，顯著提升重建質量

針對 4D 重建中的跨幀結構漂移與紋理不一致問題，湯元科技結合 Cosmos-Transfer1-7B-Sample-AV 模型與擴散模型，進行了校正優化。在實際評估中，圖像質量指標實現了大幅提升：

PSNR（峰值信噪比，Peak Signal-to-Noise Ratio）從 25.6 提升至 35.9

SSIM（結構相似性指標，Structural Similarity Index Measure）從 0.68 提升至 0.91

NTA-IoU（用于評估新視角的時空一致性，Novel Trajectory Agent IoU）從 0.613 提升至 0.804

LPIPS（感知相似性指標，Learned Perceptual Image Patch Similarity）從 0.137 降低至 0.021

FID（衡量生成圖像與真實圖像整體分布差異的指標，Frechet Inception Distance）從 130.4 降低至 23.1

這一提升在視覺質量、結構保真度與感知一致性方面均體現出突破性效果。

3. 高質量大規模風格遷移，實現數據泛化

通過 Cosmos 的風格遷移能力，湯元科技在保持空間結構穩定的前提下，生成了多樣性極高的圖像樣本，實現超過 10 倍的數據增強效率。該能力有效覆蓋了雨天、雪天、黃昏等邊緣駕駛場景，極大拓展了模型的風格學習空間，顯著提升了感知模型的泛化性能。

4. 打破“感知訓練不在環”傳統限制，實現“數據與模型”協同進化

傳統感知模型的訓練通常依賴于預先采集的靜態離線數據集，這種離線訓練方案難以適配VLA（Vision-Language-Action）、RL（Reinforcement Learning）等需“感知在環”的模型。對此，湯元科技基于Cosmos構建的可交互式訓練數據平臺，提出了針對性解決方案：通過對真實物理世界進行4D重建，可實時渲染生成任意新視角的傳感器數據，從而精準滿足“感知在環”對動態、多維度感知輸入的核心需求。該方案突破了傳統離線數據的局限，推動了需要與動態環境持續交互的智能駕駛相關模型（如VLA、RL）的研發進程。

借助 Cosmos 平臺，湯元科技極大地提升了物理世界重建與泛化過程中的效率與精度。湯元科技還是 NVIDIA 初創加速計劃的成員企業，得到了該項目的全方位支持。在技術方面，通過對 NVIDIA OpenUSD 課程的學習，提升了生成式模型構建與模塊化 3D 資產利用能力。在市場與生態層面，通過參與 NVIDIA 初創加速計劃的活動與演講，不僅展示了技術實力，還拓展了合作伙伴網絡，進一步提升了在世界模型與自動駕駛訓練數據領域的影響力。

湯元科技聯合創始人兼首席執行官任冬淳表示：“物理 AI 是未來最大的方向，所有的智能體都需具備感知、理解和執行的能力。在智能駕駛上，通過 Cosmos 的能力，我們可以更好、更快地交付客戶所需的數據。同時，感謝 NVIDIA 初創加速計劃，為我們開放了一個優秀的技術與市場平臺，幫助我們連接產業資源、快速成長。”

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴