近日,沐曦PDE-AI Solution團隊與香港科技大學合作,在兩大人工智能頂級會議NeurIPS2025與EMNLP 2025上發表重要研究成果,涵蓋大語言模型(LLM)的多樣化解碼與高效訓練優化方向,展現了中國企業在AI基礎研究領域的持續創新力。
頂會背景:AI研究的全球高地
關于NeurIPS
定位與聲譽:人工智能和機器學習領域的“天花板”級會議,與ICML并列為全球最頂尖的兩大會議。被工業界(如Google, Meta, OpenAI等)視為技術風向標。NeurIPS的論文錄用,是全球學術界與工業界評估機構與個人在人工智能基礎研究領域核心競爭力的黃金標準,是通往全球頂尖AI研究機構的關鍵履歷。
特點:非常注重論文的理論深度、算法創新和基礎性貢獻。涵蓋深度學習、強化學習、概率模型、計算機視覺、人工智能倫理等廣泛而核心的機器學習方向。
難度:歷年錄用率極低(通常在20%-25%左右),2025年投稿數20000+, 競爭極為激烈。
關于EMNLP
定位與聲譽:自然語言處理領域的世界頂級會議之一,由國際計算語言學協會(ACL)主辦, NLP領域的三大頂會之一。在EMNLP上發表論文,是展現研究機構在自然語言處理領域具備世界級創新與應用能力的權威證明,已成為全球頭部科技公司及實驗室爭相吸納高端人才的重要依據。
特點:側重于具有堅實實證基礎的自然語言處理研究,強調通過實驗和數據分析來驗證新方法、新模型的有效性。覆蓋機器翻譯、文本生成、信息抽取、情感分析、大語言模型等熱門方向。
難度:作為NLP領域的旗艦會議,EMNLP吸引了全球頂尖高校和科技公司的投稿,2025年投稿數接近10000,歷年錄用率極低(通常在15%-20%左右)。
Semantic-guided Diverse Decoding for Large Language Model (NeurIPS 2025)
論文鏈接:https://arxiv.org/pdf/2506.23601
摘要
在大語言模型(LLM)的實際應用中,生成多樣且有意義的回答始終是關鍵需求 —— 無論是 Best-of-N 策略中通過多候選提升小模型性能,還是 RLHF 訓練中通過多樣本優化獎勵信號,亦或是數據合成時構建豐富訓練集,都需要模型跳出換詞不換義的局限。
然而,當前主流的解碼方法如溫度采樣、多樣化束搜索等,大多只能實現表層詞匯的多樣性,生成的回答看似不同,核心語義卻高度重合。這一痛點嚴重制約了大模型在復雜任務中的潛力。
香港科技大學聯合沐曦研究團隊提出了SemDiD(Semantic-guided Diverse Decoding)—— 一種直接在語義嵌入空間操作的解碼算法,通過三大核心機制實現質量與多樣性的平衡,在 Best-of-N 和 RLHF 任務中均實現顯著性能提升。
核心痛點:現有解碼方法的
語義多樣性陷阱
為什么現有多樣化解碼方法效果有限?研究團隊通過實驗指出了兩大關鍵問題:
多樣性停留在詞匯層面:溫度采樣通過調整概率分布增加隨機性,多樣化束搜索通過 n-gram 懲罰避免重復,但這些方法均未觸及語義層面。例如,對于如何解決數學應用題的問題,模型可能生成先算 A 再算 B和先計算 A 然后計算 B這類表層差異,而非不同解題思路。
概率評估的固有偏見:傳統方法用 token 概率衡量回答質量,但存在嚴重的位置偏差和長度偏差 —— 序列越靠后的 token 因上下文更確定,概率往往更高;句子中遠離標點的 token 也會獲得更高置信度。這導致長回答被過度高估,短回答被不公平扣分,質量評估失真。
SemDiD:三大機制實現
語義級多樣化解碼
SemDiD 的核心思路是直接在語義嵌入空間引導解碼過程,而非在 token 層面做文章。它通過正交方向引導、動態組間排斥、去偏概率評估三大機制,同時保證回答質量與語義多樣性,整體架構如圖 1 所示。
實驗:在 Best-of-N 和 RLHF 中
全面領先
研究團隊在 9 個基準任務(涵蓋推理、問答、機器翻譯)和 3 種 RLHF 算法(Iterative-RLHF、GRPO、RLOO)上驗證了 SemDiD 的效果,對比了溫度采樣、算術采樣、多樣化束搜索等主流方法。
1. Best-of-N 任務:覆蓋度提升 1.4%-5.2%
Best-of-N 的核心指標是「覆蓋度」(測試集中至少有一個正確回答的樣本比例)和「準確率」(通過投票 / LLM-Judge 選出正確回答的比例)。結果顯示:
在推理任務中,SemDiD 用 25 個樣本實現 82.4%(ARC-Challenge)、85.6%(BBH)、98.1%(GSM8K)的覆蓋度,較最佳基線提升 1.8%-4.3%。
在問答任務中,MMLU-Pro + 的覆蓋度提升最為顯著,達 5.2%(25 個樣本時 82.63% vs 77.43%)。
即使是小嵌入模型(0.5B 參數),SemDiD 的語義聚類效果也優于基于 n-gram 的聚類,25 個樣本時覆蓋度達 95%,遠超概率選擇的 92%。
2. RLHF 任務:訓練收斂加速 15%,準確率提升 2.1%
在 RLHF 訓練中,多樣化的候選能提供更豐富的獎勵信號,避免策略坍縮。實驗顯示:
在 TLDR 摘要任務中,SemDiD 使 GRPO 算法的 win rate(GPT-o1-mini 評估)達 73.4%,較最佳基線提升 3.2%。
在 GSM8K 數學推理任務中,SemDiD 幫助 Iterative-RLHF、GRPO、RLOO 的準確率分別達 85.5%、88.2%、82.4%,最高提升 2.1%。
更重要的是,SemDiD 使 RLHF 訓練收斂速度加快 15%—— 在 60 次 rollout 時就能達到其他方法 100 次 rollout 的性能,大幅降低訓練成本。
Domain Impact-aware Data Sampling for Large Language Model Training (EMNLP 2025)
論文鏈接:https://arxiv.org/pdf/2504.13227
摘要
在大語言模型(LLM)訓練中,數據選擇始終是決定效率與性能的關鍵 —— 海量多領域訓練數據(如代碼、學術論文、網頁文本)中,不同領域對下游任務的貢獻差異巨大,且這種貢獻會隨訓練過程動態變化。傳統靜態采樣策略(如均勻采樣、固定比例混合)要么浪費算力在低效數據上,要么無法適應訓練動態,導致模型性能難以最大化。
香港科技大學聯合沐曦的研究團隊提出DIDS(Domain Impact-aware Data Sampling)—— 一種基于領域影響的動態數據采樣框架。它通過梯度聚類重劃分領域、FIM 引導評估領域影響、結合學習軌跡動態調整采樣比例三大核心步驟,在僅使用 10% 訓練數據的情況下,實現平均 3.4% 的性能提升,同時保持訓練效率與基線相當。
核心痛點:傳統領域采樣策略的
兩大局限
現有領域級數據采樣方法難以平衡領域內一致性與動態影響評估,導致訓練效率低下:
領域劃分缺乏訓練相關性:傳統方法要么按數據源(如 “代碼數據”“數學數據”)劃分領域,要么用 BERT 語義聚類,但這些方式無法保證同一領域內的數據對模型訓練有相似影響。例如,數學證明與編程實現雖屬不同數據源,卻因共享邏輯推理特性,對模型參數更新的模式高度相似;反之,同一數據源的網頁文本也可能因內容差異觸發完全不同的梯度變化。
領域影響評估失真且靜態:現有方法要么依賴計算昂貴的網格搜索(如 MM1),無法適應訓練過程中領域重要性的動態變化;要么僅通過梯度相似度衡量領域影響(如 DGA、Doge),卻忽略了參數更新對模型下游任務預測行為的實際影響。例如,梯度相似的兩個領域,可能對模型在數學推理任務上的輸出分布改變程度完全不同。
DIDS:三步實現動態領域采樣優化
DIDS 的核心思路是從 “訓練影響” 出發定義領域,并動態評估領域對下游任務的實際價值,最終實現資源向高價值領域傾斜。其整體流程分為 “領域重劃分”“領域影響評估”“采樣比例更新” 三步(圖 2),形成閉環優化。
實驗:10% 數據實現 3.4%
性能提升,多場景驗證有效性
研究團隊在 Llama-3.1-8B/70B、Mixtral-7B 等模型上,基于 Tulu-3(93.9 萬樣本)和 OpenHermes-2.5 數據集,在 9 個下游任務(涵蓋推理、數學、指令跟隨、生物醫學問答等)上驗證了 DIDS 的效果,對比了均勻采樣、Random、Doremi、Velocitune、Doge、DGA 等主流基線。
多任務優化:DIDS 僅用 10 萬樣本(約 10% 全量數據),平均得分 62.3,不僅超過所有基線(如最強基線 Doge 得 60.2),還超越了全量數據訓練的模型(61.2)。其中數學推理任務提升最顯著,Minerva-MathQA 從 17.8 提升至 20.5(+2.7),TruthfulQA 從 37.2 提升至 43.0(+5.8)。
單任務優化:DIDS 平均得分 63.7,較第二好的 DGA(61.6)提升 2.1,在知識密集型任務上優勢明顯 ——IFEval(指令跟隨)從 53.2 提升至 57.5(+4.3),TruthfulQA 從 38.5 提升至 44.8(+6.3)。
關于沐曦
沐曦致力于自主研發全棧高性能GPU芯片及計算平臺,為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐,助力數字經濟發展。
-
AI
+關注
關注
91文章
39755瀏覽量
301364 -
機器學習
+關注
關注
66文章
8553瀏覽量
136931 -
沐曦
+關注
關注
1文章
80瀏覽量
1811
原文標題:沐曦聯合香港科技大學登上AI頂會
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
沐曦股份CXO預科班2026冬令營圓滿收官
聯合光電與桂林電子科技大學光學工程學院簽署校企合作協議
沐曦股份與江南大學建立聯合研究中心
2025香港科技大學與是德科技微電子和集成電路會議圓滿落幕
香港科技大學(廣州)與奇異摩爾聯合實驗室揭牌
土耳其中東科技大學科技園到訪智行者
華中科技大學與東風汽車首批6個科研項目簽約
比亞迪與香港科技大學成立具身智能實驗室
電子科技大學OpenHarmony技術俱樂部正式揭牌成立
沐曦聯合香港科技大學登上AI頂會
評論