国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

摩爾線程 ? 來源:摩爾線程 ? 2025-11-17 16:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統一獎勵與策略優化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這一成果標志著摩爾線程在大模型基礎技術探索上邁出了關鍵一步,為簡化大模型訓練流程、突破模型性能上限提供了全新的技術路徑。

0f552dbe-c07a-11f0-8c8f-92fbcf53809c.jpg

圖示:URPO統一獎勵與策略優化框架

在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中,摩爾線程AI研究團隊提出了URPO統一獎勵與策略優化(Unified Reward & Policy Optimization,URPO)框架,創新地將“指令遵循”(選手)和“獎勵評判”(裁判)兩大角色融合于單一模型中,并在統一訓練階段實現同步優化。URPO從以下三方面攻克技術挑戰:

數據格式統一:將異構的偏好數據、可驗證推理數據和開放式指令數據,統一重構為適用于GRPO訓練的信號格式。

自我獎勵循環:針對開放式指令,模型生成多個候選回答后,自主調用其“裁判”角色進行評分,并將結果作為GRPO訓練的獎勵信號,形成一個高效的自我改進循環。

協同進化機制:通過在同一批次中混合處理三類數據,模型的生成能力與評判能力得以協同進化。生成能力提升帶動評判更精準,而精準評判進一步引導生成質量躍升,從而突破靜態獎勵模型的性能瓶頸。

實驗結果顯示,基于Qwen2.5-7B模型,URPO框架顯著超越依賴獨立獎勵模型的傳統基線:在AlpacaEval指令跟隨榜單上,得分從42.24提升至44.84;在綜合推理能力測試中,平均分從32.66提升至35.66。尤為突出的是,作為訓練的“副產品”,該模型內部自然涌現出卓越的評判能力,在RewardBench獎勵模型評測中取得85.15的高分,表現甚至優于其替代的專用獎勵模型(83.55分)。

除了卓越的性能表現,URPO框架在工程落地方面同樣展現出顯著優勢。該技術基于GRPO算法進行輕量化迭代實現,在代碼層面僅需添加少量補丁即可完成部署,大幅降低了技術遷移與應用門檻。目前,URPO已在摩爾線程自研計算卡上實現穩定高效運行,充分發揮軟硬件協同優化的底層優勢;同時,摩爾線程已完成VERL等主流強化學習框架的深度適配,讓這一簡潔高效的對齊方案能快速融入現有研發體系,既保留了技術延續性,又為行業提供了兼具性能、效率與兼容性的一體化解決方案。

URPO框架的成功,是摩爾線程堅持底層技術創新、攻堅大模型核心挑戰的重要成果。該研究不僅提供了一種更簡潔、高效、性能更強的對齊方案,更通過“選手-裁判”一體化的設計,為大模型實現持續自我進化開辟了新路徑。未來,摩爾線程將繼續深耕大模型等前沿技術領域,以堅實的創新成果推動人工智能產業實現跨越式發展。

關于摩爾線程

摩爾線程以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265263
  • 摩爾線程
    +關注

    關注

    2

    文章

    279

    瀏覽量

    6449
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5177

原文標題:摩爾線程大模型對齊研究獲頂會認可:URPO框架入選 AAAI 2026

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    摩爾線程快速完成對Qwen3.5模型全面適配

    2月17日,摩爾線程宣布已在旗艦級AI訓推體全功能GPU MTT S5000上完成對阿里最新大模型Qwen3.5的全方位適配。此次支持充分展示了
    發表于 02-18 08:32 ?168次閱讀

    Day-0支持|摩爾線程完成MiniMax M2.5模型極速適配

    2月14日,摩爾線程在其旗艦級AI訓推體全功能GPU MTT S5000上,成功實現了對MiniMax新一代模型MiniMax M2.5
    發表于 02-15 08:01 ?636次閱讀

    摩爾線程MTT S5000率先完成對GLM-5的適配

    2月11日,智譜正式發布新一代模型GLM-5。摩爾線程基于SGLang推理框架,在旗艦級AI訓推
    的頭像 發表于 02-12 10:34 ?643次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>MTT S5000率先完成對GLM-5的適配

    Day-0支持|摩爾線程MTT S5000率先完成對GLM-5的適配

    2月11日,智譜正式發布新一代模型GLM-5。摩爾線程基于SGLang推理框架,在旗艦級AI訓推
    發表于 02-12 09:15 ?487次閱讀
    Day-0支持|<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>MTT S5000率先完成對GLM-5的適配

    摩爾線程正式開源TileLang-MUSA項目

    近日,摩爾線程正式開源TileLang-MUSA項目,實現對TileLang編程語言的完整支持。該項目已成功在摩爾線程
    的頭像 發表于 02-11 16:57 ?1242次閱讀

    Nullmax DiffRefiner軌跡預測框架入選AAAI 2026

    1月20日至27日,第40屆 (AAAI 2026) 于新加坡召開,匯聚世界頂尖學者與先鋒研究者,以智慧碰撞共繪人工智能的未來圖景。
    的頭像 發表于 01-22 16:16 ?358次閱讀
    Nullmax DiffRefiner軌跡預測<b class='flag-5'>框架入選</b><b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    小鵬汽車與北京大學研究論文成功入選AAAI 2026

    近日,AAAI 2026公布了論文錄用結果,該會議是人工智能領域的國際頂級會議之。據悉,AAAI 2026共收到23,680份論文投稿,其
    的頭像 發表于 01-04 11:22 ?614次閱讀
    小鵬汽車與北京大學研究論文成功<b class='flag-5'>入選</b><b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    摩爾線程新一代GPU架構即將揭曉

    12月19日至20日,摩爾線程首屆MUSA開發者大會(MUSA Developer Conference,簡稱MDC 2025)將在北京中關村國際創新中心拉開帷幕。作為國內首個聚焦全功能GPU
    的頭像 發表于 12-13 15:14 ?2050次閱讀

    地平線五篇論文入選NeurIPS 2025與AAAI 2026

    近日,兩大頂級學術會議錄用結果相繼揭曉,地平線憑借在機器人算法領域的深度鉆研,共有5篇論文從全球數萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026
    的頭像 發表于 11-27 11:39 ?1085次閱讀
    地平線五篇論文<b class='flag-5'>入選</b>NeurIPS 2025與<b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    Nullmax端到端軌跡規劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結果,Nullmax 研發團隊的端到端軌跡規劃論文成功入選。該論文創新提出種由粗到精的軌跡預測
    的頭像 發表于 11-12 10:53 ?854次閱讀

    【內測活動同步開啟】這么小?這么強?新一代模型MCP開發板來啦!

    【內測活動同步開啟】這么小?這么強?新一代模型MCP開發板來啦! 聆思全新一代六合芯片「LS26系列」,搭載WIFI / BLE & BT / NPU,與「小聆AI」強強
    發表于 09-25 11:47

    摩爾線程“AI工廠”:五大核心技術支撐,打造大模型訓練超級工廠

    演講中表示,為應對生成式AI爆發式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統級工程創新,構建新一代AI訓練基礎設施,致力于為AGI時代打造生產先進
    的頭像 發表于 07-28 11:28 ?4530次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“AI工廠”:五大核心技術支撐,打造大<b class='flag-5'>模型</b>訓練超級工廠

    摩爾線程“AI工廠”:以系統級創新定義新一代AI基礎設施

    演講中表示,為應對生成式AI爆發式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統級工程創新,構建新一代AI訓練基礎設施,致力于為AGI時代打造生產先進
    發表于 07-28 10:34 ?2795次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“AI工廠”:以系統級創新定義<b class='flag-5'>新一代</b>AI基礎設施

    摩爾線程GPU成功適配Deepseek-V3-0324大模型

    近日,DeepSeek正式發布了其大語言模型的全新小版本迭代——DeepSeek-V3-0324,這版本在推理能力、代碼生成、中文寫作以及搜索能力等多個維度實現了顯著提升。憑借其先進的MUSA
    的頭像 發表于 03-31 11:34 ?1274次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>GPU成功適配Deepseek-V3-0324大<b class='flag-5'>模型</b>

    摩爾線程支持阿里云通義千問QwQ-32B開源模型

    近日,阿里云團隊正式開源全新推理模型——通義千問QwQ-32B。摩爾線程在該模型發布后2小時內,迅速且高效完成了對千問QwQ-32B的支持。
    的頭像 發表于 03-07 17:48 ?1351次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>支持阿里云通義千問QwQ-32B開源<b class='flag-5'>模型</b>