本文轉自:CAICT人工智能
引言
人工智能經歷符號主義與連接主義等范式演進,在規模擴展定律(Scaling Law)驗證后進入以大模型為核心的新階段,呈現出強擴展性、多任務適應性與能力可塑性等關鍵特征。當前,大模型技術的演進主要聚焦于五大方向:語言模型持續增強、多模態融合突破、智能體形態崛起、具身智能深化、AI4S專用模型創新。同時,新學習范式、非Transformer架構及新型計算硬件等前沿探索也有望帶來下一輪關鍵突破,推動通用人工智能發展進程。
1. 人工智能技術發展的“大模型范式”
人造機器和智能的夢想由來已久,最早可以追溯到古代哲學家對邏輯和推理的探索。在20世紀40年代以后,電子計算機的誕生,為真正實現機器智能提供了技術基礎,激發了一大批數學、心理學、語言學和經濟學等不同領域的科學家投身機器智能研究。1950年,阿蘭·圖靈在提出“圖靈測試”,首次嘗試定義機器智能的標準。1956年達特茅斯會議正式提出“人工智能”概念,開啟了模擬、延伸和擴展人類智能的理論、方法、技術及應用之路。
經過70多年來的探索,人工智能逐漸走上以深度神經網絡為主導的技術路線,特別是2020年前后規模擴展定律被驗證有效后,大模型成為人工智能技術新范式。這一范式與以往相比,有三方面的顯著特征:
1)規模可擴展性強,參數規模、計算量和訓練數據增加可帶來模型性能持續提升(Scaling Law);
2)多任務適應性強,一個模型能同時支持多種任務和多個模態,甚至實現跨模態;
3)能力可塑性強,通過模型微調、思維鏈提示等措施即可實現能力進一步增強。
02、大模型演進的五個主要方向
當前正處在通用智能時代的開端。近期,以大模型為核心的人工智能前沿發展主要有5個重點方向。
2.1 大語言模型的持續增強
語言處理是大模型率先取得突破的領域,也是規模定律比較顯著的方向。過去一年,根據中國信通院“方升”大模型基準測試的結果,全球前沿語言模型的基礎能力提升了30%。隨著OpenAI o1和DeepSeek-R1這類思考模型的出現,語言模型的復雜推理、高難度數學問題求解、高質量代碼生成等取得明顯進步,驗證了Post-Training優化(如監督微調、強化學習)、自我反思機制和測試時間擴展的潛力。近期預計仍然會延續這樣的路徑發展,重點是增強邏輯能力,降低幻覺,提升可控生成和安全對齊能力。
一是基礎語言大模型處理能力的增強和知識密度不斷提升。大模型的上下文窗口(Context Window)長度擴展,對于理解和生成更復雜、更長的連貫、一致且準確的文本具有重要意義,這直接有助于提升模型的邏輯連貫性和減少因上下文不足導致的幻覺。當前,國內外主流大語言模型均具備128k以上的上下文長度處理能力,可一次性處理數十萬單詞或漢字。同時,大模型知識密度持續增強,知識儲量不斷增大,平均每8個月翻一番。2020年6月發布的GPT-3大模型有1750億個參數,2024年2月面壁智能發布MiniCPM-2.4B模型,在實現同等性能的情況下參數規模降至24億,相當于知識密度提高了約86倍。這種高效的知識壓縮和更精準的參數利用,是提升模型事實準確性、降低幻覺的基礎。
二是通過強化學習將思維鏈內化進模型,持續提升復雜推理能力并減少推理錯誤。2024年9月以后OpenAI發布的o1/o3系列模型、2025年1月深度求索(DeepSeek)發布的DeepSeek-R1模型,在后訓練(Post-Training)階段采用強化學習和思維鏈的技術方案,具有較好的自我反思與錯誤修正能力,在“慢思考”后回答復雜問題的表現優異,顯著提升了模型的推理能力。這些“思考型”模型的核心進步,是將復雜的、多步驟的推理過程內化為模型的本能,并通過自我反思機制顯著降低了推理過程中的幻覺和錯誤,成為提升邏輯能力、降低幻覺的關鍵路徑。
三是語言大模型的發展呈現從通用到垂域演進、開源閉源協同和端側大模型加速部署的趨勢。語言大模型不再局限于提供通用的基礎語言能力,而是開始深入到特定行業和領域,如醫療、金融、法律、教育等,以滿足特定領域對專業知識和精準服務的需求。這種垂直化要求模型在特定領域的輸出必須高度準確、符合規范且安全可控,推動了領域專屬對齊技術和可控生成方法的發展。閉源模型依托商業化的高性能API服務占據企業市場,通常提供更嚴格的安全護欄和內容審查機制;而開源模型憑借靈活性和低成本優勢,吸引全球開發者參與優化與場景適配,其安全對齊和可控性則依賴于活躍社區的共同維護與持續改進。開源生態與閉源服務協同構建更健康和可持續的AI生態。同時,模型輕量化是平衡性能與效率的關鍵路徑,降低了計算資源需求,提升了推理效率,加速大模型在端側應用部署。
2.2 原生多模態模型
從圖像、視頻和音樂生成,到集聽說讀寫看于一體,多模態大模型正成為實現類人感知與交互能力的核心研發焦點。這類模型通過深度融合文本、圖像、語音、視頻等多種模態數據,進行深度的跨模態語義理解與關聯推理,并實現跨模態的生成與交互。這不僅是提升人機交互自然度與效率的關鍵,更是通向通用人工智能(AGI)的重要基石。OpenAI的GPT-4o展示了強大的端到端多模態統一處理能力,具備文本、視覺、語音的理解與生成能力,能通過視頻實時感知環境并流利對話。同時,視頻生成領域如國外的Sora、國內的可靈也在快速迭代,推動著高質量內容的創造。
一是多模態理解模型通過跨模態特征對齊實現統一語義理解。
其核心在于將不同模態的信息映射到共享的語義空間,建立模態間的關聯。實現路徑主要有二:一方面,基于強大的語言模型底座,集成調用各類專業視覺、語音模型(如Visual ChatGPT整合ChatGPT與22種視覺模型),形成協同系統,突破單一模態限制,支持復雜的多模態交互(如基于聊天的圖像編輯);另一方面,直接進行跨模態預訓練對齊,如OpenAI的CLIP 模型,通過對比學習將圖像和文本編碼在向量空間中緊密對齊,使其能深刻理解圖文關系,廣泛應用于圖像檢索、視覺問答等任務。這兩種方式都致力于彌合模態鴻溝,為后續的推理和生成奠定語義基礎。
二是多模態生成模型基于統一語義理解,實現多樣態內容的創造。
技術進步體現在架構革新上:一方面,DiT架構(Diffusion Transformer)成功融合擴散模型的高質量生成能力與Transformer的強序列建模優勢,取代了傳統U-Net,成為當前視頻生成的主流架構。OpenAI的Sora、谷歌的Veo、快手的可靈等模型基于DiT已能生成長度超一分鐘、分辨率達1080P的高清視頻。另一方面,端到端統一多模態架構(如GPT-4o, Gemini)采用單一模型學習所有模態的統一表征,顯著降低了模態轉換延遲,實現了近乎實時的跨模態交互響應(如語音輸入、視覺理解、語音/文本輸出無縫銜接),極大提升了交互流暢度。
三是多模態大模型架構與機制持續向統一化、深度化演進。
當前主流方案仍需組合不同模型(如Transformer理解+擴散模型生成),存在效率與協同瓶頸。從“組合式多模態”走向“原生多模態”是業界積極探索的方向,目標是在單一模型框架內原生支持所有模態的聯合感知、理解與生成。這種架構通過將不同模態數據映射到同一語義空間進行處理,有望顯著提升模型的效率、一致性與實用性。同時,為應對復雜任務,“慢思考”機制被引入多模態模型,通過在測試/推理階段進行深度規劃與反思(類似CoT在多模態的擴展),模型能有效處理針對多模態數據的開放式推理和長鏈條問題。
2.3 智能體與代理型人工智能(Agentic AI)模型
當前,以大型語言模型為中樞的智能體,通過自主調用外部工具、訪問實時數據與集成第三方API,實現了任務的規劃、組織、執行與學習閉環,正迅速成為大模型賦能實際應用的關鍵軟件形態。2025年以來,隨著Manus、OpenAI DeepResearch等智能體平臺的涌現,智能體執行長周期、高復雜度任務的能力顯著增強。特別是MCP(模型調用工具)和A2A(跨智能體通信)協議的推出,標志著大模型原生具備工具調用與多智能體協作能力已成為基座模型訓練的核心目標,正在驅動大模型從生成式AI(Generative AI)向代理式AI(Agentic AI) 轉變。
一是智能體作為大模型與場景融合的橋梁,是釋放生產力潛能的核心路徑。
智能體通過在復雜環境中主動執行任務,為大模型的研發與技術演進提供了真實的反饋循環,直接驅動了大模型在任務分解、多步規劃、動態執行與反思學習等關鍵能力的快速提升。同時,智能體加速了大模型向通用智能基礎設施的轉化。智能體的開發與應用已成為大模型落地的“標配”,大模型通過模型即服務(MaaS) 為上層智能體提供核心智能支持,大幅降低了智能體的開發門檻與應用成本。更重要的是,智能體賦予大模型“行動之手”,通過強大的工具調用和任務執行能力,有效解決了大模型“有腦無手”的局限,極大拓展了應用深度,并通過標準化的協作協議(如A2A)保障了多智能體間高效協同完成復雜任務。
二是智能體技術棧的完善打通AI落地“最后一公里”。
依托大模型的技術底座,產業界正加速構建完整的智能體技術生態,包括智能體構建平臺、工作流引擎、多智能體協同框架、大小模型協同機制以及自然交互接口等關鍵組件。同時,開源生態的蓬勃發展顯著降低了智能體技術的準入門檻。國內外涌現的眾多智能體創業公司積極擁抱開源,推出豐富的智能體開發套件與工具,極大簡化了開發者的二次開發流程,加速了智能體從實驗室到實際場景的部署速度。這些智能體產品不僅為終端用戶帶來了革命性的交互體驗,也促進了健康智能體生態的形成,增強了企業的商業價值與影響力。
三是智能體部署由虛擬向物理世界深度滲透。
得益于多模態大模型感知能力的突破和世界模型對物理環境理解的深化,2025年作為“智能體元年”,標志著智能體開始與人類社會實現深度協同共生。智能體能夠控制物理實體,在復雜的現實動態環境中與人類進行自然互動并可靠執行任務,其應用場景正從純數字領域加速拓展至物理世界。在能力層面,智能體的工作流從單步響應演進至多輪反思迭代,顯著提升了任務執行的可靠性與輸出質量。同時,隨著模型輕量化、云邊端協同計算和能效優化技術的進步,智能體正高效部署于資源受限的端側設備(如智能家居、移動終端、工業設備),為用戶提供高度個性化與專業化的實時服務,深化智能體在物理世界的滲透。
2.4 面向具身智能的端到端大模型
具身智能的核心目標是將先進人工智能(尤其是大模型能力)與機器人等物理實體深度融合,賦予其類人的環境感知、自主決策與靈巧操控能力,使其能在復雜、動態的物理世界中高效、安全地執行多樣化任務。具身智能機器人,可在柔性制造產線、高強度勞動、危險環境作業等情形下工作,在服務、康養等領域也有巨大價值,是AI從信息處理工具向具備實體執行力的“生產工具”的轉變的關鍵,是將人工智能轉化為現實生產力的有效途徑。
一是端到端大模型成為重要方向。傳統機器人系統通常采用模塊化設計(感知、規劃、控制等模塊分離),而近年來出現了將大型模型引入機器人感知與控制的新思路。例如將視覺語言模型(Vision-Language Model,VLM)中的豐富常識知識轉化為機器人行動。同時,端到端的視覺—語言—動作模型(Vision-Language-Action,VLA)開始成為新趨勢,這類模型能直接將從多模態傳感器(視覺、觸覺、力覺等)獲取的環境信息,結合自然語言指令與任務目標,映射為精細、連續、自適應的機器人動作控制序列。Figure.ai推出的Helix正是一個通用VLA模型,它通過單一神經網絡實現了機器人上肢和手指的連續控制,無需針對每個任務單獨訓練,從而能夠通過自然語言指令完成拾取、放置、協同搬運等復雜操作。具備任務無關、精細化操作和環境自適應能力的端到端架構代表了具身智能發展的重要方向。
二是世界模型與因果推理賦能深度認知,實現復雜任務自主規劃與泛化。為應對長周期、多步驟、強依賴環境動態的復雜任務(如“整理雜亂房間并回收可回收物”),具身智能體需具備深度環境理解與因果推理能力。未來趨勢是深度集成:1)具身世界模型:通過多模態輸入學習物理環境的可預測、可交互的動力學模型,能在“腦海”中模擬動作后果,支持安全高效的規劃;2)分層任務分解與因果推理:利用大模型的強推理能力,將抽象任務目標分解為可執行的子任務序列,理解任務步驟間的因果依賴,并在執行中動態調整;3)自我反思與經驗學習:任務執行后基于結果反饋進行反思,更新模型或策略庫,實現持續進化。這將使智能體能像人類一樣“思考后行動”,顯著提升在開放、動態環境中的任務成功率和效率。
三是云邊端協同與輕量化部署加速具身智能規模化滲透。具身智能的廣泛應用需克服算力、成本與功耗約束。關鍵發展方向是:
1)模型高效輕量化:通過模型壓縮(剪枝、量化)、知識蒸餾、高效架構設計(如MoE),在保持核心性能前提下大幅降低模型計算需求與存儲占用;
2)云—邊—端智能協同:復雜感知、深度規劃在云端或邊緣服務器完成,實時低延遲控制指令下發至端側執行器,實現性能與效率最優平衡;
3)專用硬件加速:開發針對具身智能計算負載(如多模態融合、實時控制)優化的AI芯片與傳感器模組,提升能效比。
這將推動具身智能從實驗室和高端工業場景,快速向成本敏感的制造業產線、物流中心、商業服務乃至家庭場景規模化部署,釋放巨大經濟與社會價值。
2.5 面向特定領域科研需求的專用基礎模型
以AlphaFold為代表的成果獲得2024年諾貝爾化學獎,標志著AI for Science(AI4S)已成為顛覆性科學突破的核心驅動力。AI不僅在基礎科學發現中扮演關鍵角色,更在新材料設計、新藥物研發與篩選、高效合成路徑規劃、高精度流體仿真等產業研發創新環節展現出巨大潛力。然而,解決科研與產品開發中的深層次、特定實現。這要求構建深度融入領域知識的專用大模型,其核心在于將領域數理模型(如量子力學方程、流體動力學方程、分子動力學)與強大的多模態理解/生成能力、結構化知識圖譜相結合,并有效集成強化學習、符號推理等技術。未來AI4S的突破,亟需克服高質量專業數據稀缺、模型黑箱可解釋性不足、專業知識深度對齊融合等核心挑戰。
一是領域知識深度嵌入,構建“數理—AI”融合的專用模型架構。通用大模型缺乏對特定科學原理和工程約束的深刻理解。未來趨勢是發展領域定制的模型架構,將物理定律、化學規則、生物機制等核心數理模型原生編碼進神經網絡(如通過物理信息神經網絡PINN、算子學習),或設計符號—神經協同架構,讓符號系統處理嚴格邏輯推理,神經網絡處理模式識別與高維優化。這種深度融合將顯著提升模型在材料性能預測、藥物分子活性評估、復雜系統仿真等任務中的物理一致性與預測精度,解決“數據驅動”模型的泛化性與可信度瓶頸。
二是突破數據瓶頸,發展“小數據、大知識”的高效學習范式。科學領域高質量標注數據往往極度稀缺且獲取成本高昂。未來將重點發展:
1)跨模態與跨任務遷移學習:利用通用大模型預訓練的知識,向特定科學任務高效遷移;
2)生成式模型合成數據:利用物理模型或規則約束生成高質量合成數據,彌補真實數據不足;
3)主動學習與強化探索:讓模型自主設計最有效的實驗或模擬方案,最大化信息獲取效率;
4)知識圖譜引導學習:利用結構化領域知識(如化學鍵規則、材料相圖)指導模型訓練,減少對海量數據的依賴。
這些范式旨在實現“小樣本、高精度”的科學建模,加速研發周期。
三是增強可解釋性與可信度,構建科學家信任的AI協作伙伴。AI4S模型在高風險決策領域(如新藥設計、關鍵材料研發) 的應用,可解釋性和可信度至關重要。趨勢包括:
1)可解釋AI(XAI)技術深度集成:發展可追溯推理路徑、可視化關鍵特征、生成自然語言解釋的機制,使模型決策過程對科學家透明;
2)不確定性量化(UQ):為模型預測提供可靠的置信度評估,輔助科學家判斷風險;3)人機協同閉環:構建科研人員與AI的交互式工作流,AI提供假設、預測和解釋,科學家進行驗證、反饋和決策引導,形成“假設—驗證—優化”的增強智能閉環。
3、展望與建議
人工智能技術仍處于快速演進階段,未來發展路徑存在顯著不確定性。基于當前技術脈絡,可預見的突破方向可能包括:
1)新型學習范式的突破:強化學習、世界模型驅動下的自主探索等機制,可能推動智能體在復雜環境中的認知與決策能力質變;
2)非Transformer架構的崛起:更高效率、更強性能或具備先天可信保障的新模型架構(如擴散語言模型、神經符號融合)可能重構技術體系;
3)革命性計算技術實用化:光計算、類腦計算、量子計算等新興計算技術若實現工程落地,將徹底顛覆現有算力格局與模型計算架構。
面向未來,我國要在推進大模型技術發展中需兼顧突破與補短。一是探索新興大模型架構,推動從技術跟隨向原創引領轉型;強化面向具身智能的VLA模型、面向AI4S的“數理—AI融合架構”等前沿方向研究。二是破解高質量數據供給瓶頸。加強數據治理能力建設,激活存量數據價值;發展基于物理約束的合成數據技術,支撐AI4S等低數據密度領域創新。三是打造開放協同的產業生態。加大開源社區和開源生態培育,推動智能體協議等關鍵標準制定,為迎接通用智能(AGI)甚至超級智能(ASI)做好準備。
來源:中國聯通研究院
供稿:《信息通信技術》編輯部 編輯:陳曦


-
AI
+關注
關注
91文章
39765瀏覽量
301366 -
人工智能
+關注
關注
1817文章
50094瀏覽量
265302 -
大模型
+關注
關注
2文章
3650瀏覽量
5179
發布評論請先 登錄
專家觀點 | 浮點運算的現代發展趨勢
龍騰半導體亮相2025亞洲電源技術發展論壇
芯干線邀您相約2025亞洲電源技術發展論壇
開源鴻蒙技術大會2025丨OS原生智能分論壇圓滿舉辦
開源鴻蒙技術大會2025丨以智能化為主旋律,擘畫開源鴻蒙下一個五年發展技術藍圖
MediaTek Pentonic平臺推動智能電視顯示技術發展
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
大規模專家并行模型在TensorRT-LLM的設計
【「DeepSeek 核心技術揭秘」閱讀體驗】基于MOE混合專家模型的學習和思考-2
【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家
【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘
無刷雙饋電機專利技術發展
輪邊驅動電機專利技術發展
美能光伏亮相全球BC電池產業發展論壇丨以創新檢測技術助推行業升級
專家觀點丨大模型技術發展的五個重點方向
評論