精品免费久久久电影午夜,欧美成人一区二区三区在线视频,超碰97AV女优

在人工智能加速邁向大模型與智能體時代的今天，強化學習（Reinforcement Learning，RL）已經成為推動智能系統演化的關鍵技術。隨著強化學習訓練規模不斷擴大，對底層算力提出了前所未有的挑戰。近日，上海創智學院 AI Infra 團隊發布的 siiRL 2.0，以其卓越特性為強化學習的發展帶來了新的突破，沐曦則憑借自身優勢為 siiRL 2.0 的升級提供了堅實支撐，共同推動強化學習正式邁入 “千卡級”時代。

siiRL：全分布式架構的顛覆性突破

上海創智學院AI Infra團隊發布siiRL 2.0，聚焦性能、生態與前沿探索全面升級：

卓越性能與擴展性

基于全分布式架構，實現千卡級近線性擴展與業界領先吞吐，性能在7B~235B(Dense/MoE)等大規模模型上穩定驗證。

自主可控，擁抱國產算力

全面適配多家主流國產芯片并完成千卡級擴展驗證，為AI基礎設施夯實自主可控的算力底座。

靈活易用與生態兼容

獨創DAG工作流支持無代碼算法實驗，兼容Megatron/FSDP等主流后端，極大提升研發效率。

面向前沿，支持多智能體研究

內建強大的多智能體協同訓練框架，為探索“智能涌現”等前沿課題提供關鍵基礎設施。

圖 1：siiRL架構概覽

技術論文:https://arxiv.org/abs/2507.13833

開源代碼倉庫:https://github.com/sii-research/siiRL

在本次siiRL的升級適配工作中，沐曦做了一系列針對性優化：

siiRL框架高效適配

基于沐曦自研的MXMACA軟件棧，已經完整適配了siiRL需要的所有后端引擎（Vllm/Pytorch fsdp/Megatron-LM/Ray）以及深度優化的mccl高性能通信庫，不需要其他額外的適配工作，實現了siiRL框架的高效適配。

超節點scale up

沐曦Dragonfly超節點，提供了64卡的光互連高速通信帶寬。在訓練過程中，通過設置fsdp_size=64，可以充分利用超節點內的帶寬，提升模型的訓練效率。

顯存優化

通過設置模型參數offload選項，在共置集群上，有效降低了rollout和training階段的峰值顯存，可以采用更優的切分方式，進一步提升計算效率。

分布式策略調整

結合實際負載與硬件拓撲，優化了不同模型的分布式訓練參數切分方式，并調整了親和性配置，以提升通信效率。

通過上述優化，siiRL框架在沐曦超節點集群上實現了從64卡到1024卡的穩定擴展，系統保持了超過92%的高線性度拓展效率。在模型精度上，與國際主流生態 GPU的訓練結果相比，沐曦超節點集群在驗證集上的平均絕對誤差控制在0.5%以內，滿足實際應用場景的精度要求。

圖 2：siiRL在沐曦超節點集群上的擴展性評估，

展示了64卡到1024GPU規模下的高線性擴展能力

隨著 AI 技術逐漸成為國家科技競爭的核心，構建自主可控的算力基礎設施已經成為產業發展的必然選擇。沐曦與上海創智學院 AI Infra 團隊的攜手合作，不僅驗證了國產 GPU 在前沿 AI 應用上的可行性與先進性，更為中國科研機構、產業界提供了面向未來的堅實算力底座。沐曦將持續與產學研伙伴深度協作，推動大模型框架與國產 GPU 的深度適配和生態完善，加速強化學習、大模型、智能體等關鍵領域的創新應用落地。

關于沐曦

沐曦致力于自主研發全棧高性能GPU芯片及計算平臺，為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐，助力數字經濟發展。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
5194

瀏覽量
135443
沐曦

沐曦

+關注

關注
1

文章
80

瀏覽量
1811
大模型

大模型

+關注

關注
2

文章
3650

瀏覽量
5183

原文標題：強化學習進入“千卡級”時代，沐曦助力 siiRL 2.0 全面升級

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關注！文章轉載請注明出處。

搜索歷史

沐曦助力上海創智學院siiRL 2.0全面升級

評論