国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新一代超大模型訓練引擎XTuner V1開源

華為數字中國 ? 來源:華為數字中國 ? 2025-09-10 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9月8日,上海人工智能實驗室(上海AI實驗室)開源書生大模型新一代訓練引擎XTuner V1。

XTuner V1是伴隨上海AI實驗室“通專融合”技術路線的持續演進,以及書生大模型研發實踐而成長起來的新一代訓練引擎。相較于傳統的3D并行訓練引擎,XTuner V1不僅能應對更加復雜的訓練場景,還具備更快的訓練速度,尤其在超大規模稀疏混合專家(MoE,mixture of experts)模型訓練中優勢顯著。

同時,為了進一步探究XTuner V1訓練方案的上限,研究團隊與昇騰團隊在昇騰384超節點(Atlas 900 A3 SuperPoD)上進行聯合優化,充分利用昇騰384超節點硬件特性,實現更高的模型算力利用率(MFU,model FLOPS utilization)。相比業界其他產品,昇騰384超節點的訓練吞吐提升5%以上,MFU提升20%以上,該項研究成果技術報告也將于近期發布。

除了訓練框架,書生大模型研發中使用的AIOps工具DeepTrace與ClusterX也將一并開源,為大規模分布式訓練提供全方位保障。

XTuner V1:

https://github.com/InternLM/xtuner

DeepTrace:

https://github.com/DeepLink-org/DeepTrace

ClusterX:

https://github.com/InternLM/clusterx

目前開源社區主流的訓練方案主要分為兩類:

DeepSpeed/PyTorch FSDP(完全分片數據并行,Fully Shard Data Parallel):通信量大但使用簡單,尤其適合稠密型模型訓練,開發者無需具備專業的AI Infra知識,也能開發出接近最優性能的訓練系統;

3D并行:通信量小但使用復雜,開發者需要具備專業的AI Infra知識,針對不同硬件和訓練場景進行針對性調優,尤其適用MoE模型訓練。

為了同時兼顧易用性、高性能與超大模型訓練,XTuner V1基于PyTorch FSDP進行開發,并針對FSDP通信量大的固有缺陷,進行了系列優化,可支持1T參數量級MoE模型訓練,并首次在200B以上量級的混合專家模型上,實現訓練吞吐超越傳統的3D并行訓練方案。

針對當前主流的MoE后訓練需求,XTuner V1未通過序列并行方式,實現200B量級MoE模型單次forward-backward可處理64k序列長度,更適合當下流行的強化學習訓練場景;對專家并行依賴小,長序列訓練時受專家不均衡影響小,200B量級MoE無需專家并行,600B MoE只需節點內專家并行,更適合現代MoE Dropless訓練模式;大規模長短序列混訓場景提速2倍以上,數據并行負載均衡,大幅減小因需序列長度不均衡導致的計算空泡。

多維度技術優化

專為“超大模型”而生

XTuner V1之所以能在超大模型訓練中展現出卓越的性能,核心在于它在顯存、通信、負載等多個維度進行了系統性優化。這些優化協同作用,不僅帶來了性能的跨越式提升,還兼顧了易用性、通用性與擴展性。

顯存優化:Pytorch FSDP與3D并行最大的差異在于重計算。針對計算損失函數時的計算圖,XTuner V1基于Liger-Kernel中的Chunk-wise Loss,擴展支持了更多種類的損失函數,能夠支持昇騰NPU;針對重計算保留的激活值,XTuner V1借鑒了昇騰MindSpeed中的Async Checkpointing Swap。最終,無需借助序列并行技術,實現200B參數量級MoE模型訓練64K長度序列。

通信掩蓋:得益于極致的顯存優化,XTuner V1可以讓單次迭代的最大序列長度提升數倍,從而增加每層計算的耗時,掩蓋參數聚合的通信耗時。針對因顯存或通信帶寬受限,無法實現通信掩蓋的訓練場景,XTuner V1通過Intra-Node Domino-EP來降低每一層聚合參數的通信量,同時掩蓋因引入專家并行帶來的額外通信開銷。

DP負載均衡:由于XTuner V1中沒有引入TP、PP等并行策略,相同卡數下,數據并行的維度會遠大于3D并行。為了緩解變長注意力帶來的計算空泡,并盡可能不影響數據的訓練順序,會對每n個step內的已拼接好的序列進行排序,讓每次計算時,不同DP的最長子序列長度是接近的。

基于昇騰384超節點深度優化

訓練效率超業界產品

為了進一步探究XTuner V1訓練方案的上限,上海人工智能實驗室XTuner團隊聯合昇騰技術團隊在超節點上進行深度優化,充分利用昇騰384超節點硬件特性,實現了更高MFU。

昇騰384超節點通過高速總線連接多顆NPU,突破互聯瓶頸,讓超節點像一臺計算機一樣工作,更加適合FSDP訓練:

更高的通信帶寬:最大可實現384顆NPU點到點超大帶寬互聯,FSDP All Gather耗時僅為業界產品的1/4~1/3,更容易實現計算-通信掩蓋

計算通信解耦:通過專用硬化調度和傳輸卸載,實現不占用計算核的高效數據通信,FSDP計算通信掩蓋時不會影響計算速度

超節點高速互連:CPU和NPU通過高速總線互聯,實現更大帶寬,Checkpointing Swap的開銷更小

除硬件固有優勢外,昇騰還從通信、內存、計算、框架、工具等維度對基于昇騰384超節點的MoE訓練進行了全方位的加持:

Cube調優:對于模型中集中了大量計算任務的GroupedMatmul算子進行分析,發現內部搬運帶寬已經擁塞但cube利用率還有提升空間。針對此問題,聯合研發團隊重點優化GroupedMatmul算子分塊邏輯,根據不同輸入進行動態分塊Tiling策略優化搬運效率。同時,根據場景的不同細化Cache策略,提高Cache命中率從而提升性能。

QoS調優:QoS(Quality of Service)即服務質量。在有限的帶寬資源下,QoS為各種業務分配帶寬,為業務提供端到端的服務質量保證。大規模訓練過程中,計算流、通信流、swap流都會存在內存訪問,并發的訪問會導致內存帶寬擁塞,從而影響整體性能。通過適當調低通信的內存訪存優先級,可以減少計算的搬運時間,從而優化端到端性能。

跨流內存復用:在FSDP計算流和通信流異步重疊的場景中,Ascend Extension for PyTorch(PTA)中默認的跨流內存優化會導致顯存不能及時釋放,需要開啟PTA中進階版的跨流內存復用機制(MULTI_STREAM_MEMORY_REUSE=2),可以顯著降低顯存峰值。

集群性能工具高效診斷:借助MindStudio全流程工具鏈中的msprof-analyze性能分析工具與MindStudio Insight可視化工具,開發者可以充分利用其強大的數據分析與可視化能力,在分鐘級時間內精準識別訓練過程中的“快慢卡”現象根因,快速定位出性能瓶頸,顯著提升大集群調優效率。

書生大模型工具鏈研發團隊現已將Xtuner V1的工作全部開源,希望為學術界與工業界提供高性能、低門檻、易擴展的大模型訓練方案,豐富開源社區的訓練工具生態,為超大模型研發和應用提供堅實易用的基礎設施。

未來,在研究范式創新及模型能力提升的基礎上,上海AI實驗室將持續推進書生大模型及其全鏈條工具體系的開源,支持免費商用,同時提供線上開放服務,與各界共同擁抱更廣闊的開源生態,共促大模型產業繁榮。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    218

    文章

    36003

    瀏覽量

    262072
  • 開源
    +關注

    關注

    3

    文章

    4203

    瀏覽量

    46120
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5176

原文標題:新一代超大模型訓練引擎XTuner V1開源,昇騰384超節點訓練效率突破上限!

文章出處:【微信號:HWS_yunfuwu,微信公眾號:華為數字中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    智譜AI正式上線并開源新一代模型GLM-5

    智譜AI正式上線并開源新一代模型GLM-5。作為面向復雜系統工程與長程Agent任務打造的新一代模型,GLM-5在Coding與Agen
    的頭像 發表于 02-12 14:40 ?680次閱讀

    曦云C系列GPU Day 0 適配智譜全新一代模型GLM-5

    智譜AI正式上線并開源新一代模型 GLM-5,沐曦股份實現?Day 0 深度適配。 GLM-5目前可于曦云 C 系列(C500/C550/C588)上穩定高效運行。 近期,智譜AI相繼發布
    的頭像 發表于 02-12 10:53 ?792次閱讀
    曦云C系列GPU Day 0 適配智譜全<b class='flag-5'>新一代</b>大<b class='flag-5'>模型</b>GLM-5

    百度正式發布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數的輕量架構,在全球權威文
    的頭像 發表于 01-30 10:03 ?576次閱讀
    百度正式發布并<b class='flag-5'>開源</b><b class='flag-5'>新一代</b>文檔解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統獎勵與策略優化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這
    的頭像 發表于 11-17 16:03 ?480次閱讀
    摩爾線程<b class='flag-5'>新一代</b>大語言<b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    新一代AtomGit平臺暨人工智能開源社區發布

    、數據集及異構算力資源,共同打造中立、開放、公益的新一代開源+人工智能”體化基礎設施平臺——AtomGit,并正式發布人工智能開源社區。工業和信息化部副部長熊繼軍出席活動并致辭。
    的頭像 發表于 10-30 09:46 ?621次閱讀

    在Ubuntu20.04系統中訓練神經網絡模型些經驗

    模型。 我們使用MNIST數據集,訓練個卷積神經網絡(CNN)模型,用于手寫數字識別。模型
    發表于 10-22 07:03

    【內測活動同步開啟】這么???這么強?新一代模型MCP開發板來啦!

    【內測活動同步開啟】這么???這么強?新一代模型MCP開發板來啦! 聆思全新一代六合芯片「LS26系列」,搭載WIFI / BLE & BT / NPU,與「小聆AI」強強
    發表于 09-25 11:47

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發的新一代AI大模型。其核心優勢在于強大的推理
    發表于 07-16 15:29

    谷歌新一代生成式AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI 上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發表于 06-18 09:56 ?1091次閱讀

    廣和通發布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發布新一代AI語音智能體FiboVista,并已率先應用于車聯網,成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創新AI大模型和場景服務洞察,FiboVista將在智慧家
    的頭像 發表于 06-17 09:22 ?1256次閱讀

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    開源新一代通義千問模型Qwen3。據悉,Qwen3模型參數量僅為DeepSeek - R11/
    的頭像 發表于 04-30 16:08 ?1317次閱讀

    Nordic新一代旗艦芯片nRF54H20深度解析

    、芯片概覽:第四多協議SoC的革新 Nordic Semiconductor最新發布的??nRF54H20??作為nRF54H系列首款SoC,標志著低功耗無線技術的又次飛躍。這款采用??多核
    發表于 04-26 23:25

    AI原生架構升級:RAKsmart服務器在超大規模模型訓練中的算力突破

    近年來,隨著千億級參數模型的崛起,AI訓練對算力的需求呈現指數級增長。傳統服務器架構在應對分布式訓練、高并發計算和顯存優化等場景時逐漸顯露瓶頸。而RAKsmart為超大規模
    的頭像 發表于 04-24 09:27 ?789次閱讀

    NVIDIA Isaac GR00T N1開源人形機器人基礎模型+開源物理引擎Newton加速機器人開發

    NVIDIA Isaac GR00T N1開源人形機器人基礎模型+開源物理引擎Newton加速機器人開發
    的頭像 發表于 03-20 16:56 ?1710次閱讀

    WTVxxxx系列語音芯片(線&二線 單雙字節)資料V1

    WTVxxxx系列語音芯片(線&二線單雙字節)資料V1
    發表于 03-06 08:27 ?0次下載