国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DLInfer聯手沐曦股份實現數據生成場景的實際落地

沐曦MetaX ? 來源:沐曦MetaX ? 2025-12-09 14:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,上海 AI 實驗室 DeepLink 團隊推出的 DLInfer 通過支持 LMDeploy 主流模型推理,助力沐曦股份曦云 C500 落地 MinerU 多模態數據生成場景,Graph 模式下實現性能加速 60%。DLInfer 是一套專為國產硬件適配大模型推理框架的中間件解決方案,其核心功能在于通過標準化的融合算子接口,打通上層大模型推理框架與底層硬件廠商的異構計算能力。目前,DLInfer 已實現軟硬適配工程中的有效解耦,支持包括 InternLM 系列、InternVL 系列、Qwen 系列、DeepSeek 系列在內的多款主流模型在多元硬件上的推理適配,支撐包括沐曦股份曦云 C500 在內的超 5 款主流硬件接入。

DLInfer GitHub:

https://github.com/DeepLink-org/dlinfer

Metax算子庫:

https://github.com/orgs/MetaXMACA/repositories

LMDeploy GitHub:

https://github.com/InternLM/lmdeploy

MinerU GitHub:

https://github.com/opendatalab/MinerU

聯手沐曦股份實現數據生成場景的實際落地,Graph 模式下性能加速超 60%

為了驗證 DLInfer 在真實場景中的效能,科研團隊與沐曦股份展開了深度合作,通過接入通用推理框架與賦能垂類應用兩個維度,全面展示了 DLInfer 助力沐曦股份芯片釋放潛能的實戰成果。其中,Dlinfer + LMDeploy 推理部署方案表現突出。不僅能有效降低端到端延遲、提升吞吐性能,更憑借其出色的加速效果,為其成為國產主流硬件在推理場景下的重要選擇提供了有力支撐。

Graph 模式下精確的算子匹配加速推理效率

DLInfer 通過分層設計,在 Eager 模式下直接調用各廠商優化后的融合算子,在 Graph 模式下則對接硬件廠商的圖編譯引擎,獲取更加精確匹配,實現端到端性能優化。其接口設計不僅將框架與硬件適配工程解耦,降低多平臺開發成本,還能在 Graph 模式下通過精確的算子匹配提升推理效率。

Graph 模式是 DLInfer 實現性能躍遷的核心,它融合了兩種關鍵的優化路徑:

一方面全面支持類似 CUDA Graph 的“執行流捕獲”技術,支持將整個計算流程固化,消除 CPU 調度開銷,實現近乎零開銷的執行;對于那些算子本身已經足夠優化但 CPU 與 GPU 交互成為主要性能瓶頸的場景,這種技術能帶來立竿見影的加速效果。

另一方面對于擁有豐富圖編譯生態的硬件平臺,DLInfer 將 Attention、MoE 等關鍵子圖整體映射到硬件廠商提供的圖優化器上,這種做法能最大化利用硬件特性,實現深度的算子融合與內存優化。

ac7c4ebc-cf69-11f0-8c8f-92fbcf53809c.png

DLInfer 架構圖

沐曦股份算子優化核心突破

沐曦股份算子庫提供的針對性適配優化,進一步補全了 DLInfer 在硬件底層的性能調用能力,讓芯片算力與軟件框架的適配更精準、資源損耗更少。

在訪存延遲掩蓋方面,沐曦股份通過多重技術組合實現高效數據流轉。采用64/128bit 寬位顯存 load 指令提升帶寬利用率,針對非 2 的冪次對齊數據定制loop展開邏輯,借助運行時mask實現顯存數據高效加載。通過預發射shared memory讀取指令、采用swizzle布局消除bank沖突,搭配多stage等機制讓計算指令精準掩蓋訪存延遲,全方位突破訪存瓶頸。

生態兼容層面,沐曦股份以降低用戶遷移成本為核心,實現全方位適配。全面兼容 cuBlas 和 cuBlasLt 接口,完美適配官方 FlashAttention 與 FlashMLA,新增 Attention mask實現、KV cache 反量化融合支持、多 page size 選項等實用特性,讓用戶無需重構代碼即可無縫銜接現有生態,加速業務落地進程。

無縫接入 LMDeploy,釋放通用推理框架潛力

LMDeploy是業界領先的大模型推理引擎,為開發者提供了靈活高效的部署方案。DLInfer作為橋梁,讓異構芯片能夠無縫融入此生態,用戶無需修改業務代碼即可享受硬件性能紅利。

一鍵切換的集成方式,實現零成本適配。DLInfer 作為“翻譯官”和“優化器”,LMDeploy 與沐曦股份的對接變得非常簡單。用戶只需在 LMDeploy 的配置中指定后端為沐曦股份(--device maca),即可完成整個部署鏈路的切換。上層應用(LMDeploy)依然調用 DLInfer API,便可在底層將計算任務精準地分發到沐曦股份硬件上。

通用模型推理吞吐可實現 30%的提升。科研團隊在 C500 上對多個主流大模型進行了性能測試。測試結果表明,相較于算子模式,通過 DLInfer + LMDeploy 的部署方案,端到端延遲顯著降低,模型推理吞吐量提升了 30%以上,為高并發推理服務提供了堅實的性能保障。

加速 MinerU 文檔處理,彰顯垂類模型應用價值

如果說接入 LMDeploy 證明了 DLInfer 方案的“廣度”,那么賦能類似 MinerU 的復雜垂類應用,則彰顯了其“深度”和解決特定領域難題的能力。MinerU 是上海AI實驗室研發的一款開源的一站式文檔解析工具,目前GitHub星標數近50K,在文檔解析領域有著重要的影響力,其核心任務是將 PDF 等復雜文檔轉換為結構化的 Markdown,這是一個典型的多模態數據生成場景。DLInfer 通過 Mineru-LMDeploy-DLInfer 的技術路線,將 MinerU 無縫運行在了曦云 C500 上,并實現 Graph 模式性能相比 Eager 模式提升了 60%。通過雙方技術優勢的互補,實現了此次復雜垂類場景的性能加速突破,為推理任務的高效運行再添一重保障。

acd4d136-cf69-11f0-8c8f-92fbcf53809c.png

"芯片 + DLInfer + LMDepLoy + MinerU" 技術路線

多元硬件接入推理框架的通用方案

DLInfer 對上承接大模型推理框架,對下通過一套接口靈活支持各廠商不同粒度的融合算子與廠商自研圖引擎,將對接框架與對接廠商融合算子在適配工程中有效解耦。在 DLInfer 中,根據主流大模型推理框架與主流硬件廠商的融合算子粒度,定義了大模型推理的融合算子接口。同時,DLInfer 兼顧了 LLM(大語言模型)與 VLM(視覺語言模型)兩類主流多模態模型的推理需求,為國產硬件生態融入大模型技術棧提供了統一的中間層支持。

DLInfer 的核心架構可以概括為“統一前端 + 可插拔后端”的模式:

統一前端:DLInfer 的頂層算子接口為上層應用提供了一套與硬件無關的算子加載與執行接口。開發者無需關心底層硬件,只需聚焦于業務邏輯本身。

可插拔后端: 每個硬件平臺都是一個獨立的“后端”模塊,而每個后端都負責實現兩套執行路徑,即適合模型調試和新算子的快速驗證 Eager 模式和 最大化利用硬件特性 Graph 模式。在 DLInfer 的vendor目錄下,可以清晰地看到這種解耦設計。

結語

DeepLink 聚焦多元芯片生態建設,深耕編譯優化、異構通信等核心技術,全力推進國產 AI 工具鏈研發與安全高效的方案落地。針對國產芯片特性優化算子性能、構建統一計算通信中間表達,打造兼容主流框架的開發環境,降低開發者國產芯片遷移門檻,不斷提高國產芯片的易用性和端到端性能。同時通過構建多場景支撐平臺和垂域標桿應用,為科研和產業界提供更為強大的支持,推動 AI 全行業自主可控、可持續發展。

關于沐曦股份

沐曦股份致力于自主研發全棧高性能GPU芯片及計算平臺,為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐,助力數字經濟發展。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39754

    瀏覽量

    301344
  • 沐曦
    +關注

    關注

    1

    文章

    80

    瀏覽量

    1810
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5176

原文標題:DLInfer助力沐曦股份曦云C500推理落地MinerU多模態場景,實現性能加速60%!

文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    股份長沙生態創新中心正式揭牌

    2月28日,股份長沙生態創新中心揭牌儀式在長沙高新區中電長城總部基地舉行。來自湖南湘江新區(長沙高新區)管委會、湖南大學、中興通訊、湖南移動等單位嘉賓出席此次揭幕儀式,并參觀了長沙生態創新中心。
    的頭像 發表于 03-03 16:44 ?289次閱讀

    股份云C系列GPU深度適配通義千問Qwen3.5模型

    今天,通義千問今天正式發布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的開放權重版本。股份云C系列GPU 完成對Qwen 3.5模
    的頭像 發表于 02-26 14:26 ?407次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU深度適配通義千問Qwen3.5模型

    股份CXO預科班2026冬令營圓滿收官

    2月6日,由集成電路(上海)股份有限公司(股票代碼:688802,簡稱“股份”)主辦、之
    的頭像 發表于 02-25 16:29 ?1030次閱讀

    股份正式推出索X系列全新GPU品牌與產品線

    1月27日,股份(股票代碼:688802.SH)正式推出索X系列全新GPU品牌與產品線。該系列產品是面向科學智能場景深度優化的高性能計
    的頭像 發表于 01-28 17:14 ?620次閱讀

    股份:預計營收大幅增長,虧損收窄超四成

    電子發燒友網綜合報道 1月27日晚,股份發布2025財年業績預告。在復雜多變的市場環境下,股份
    的頭像 發表于 01-28 16:14 ?1779次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>:預計營收大幅增長,虧損收窄超四成

    股份與江南大學建立聯合研究中心

    近日,教育部哲學社會科學實驗室“食品安全與國家戰略治理實驗室”揭牌暨合作簽約儀式、學術委員會會議在無錫隆重舉行。活動現場,集成電路(上海)股份有限公司與江南大學簽署共建協議,并同步揭牌“江南大學
    的頭像 發表于 01-21 17:25 ?1356次閱讀

    股份自研的MetaXLink高速互連技術,突破傳統PCIe總線限制

    電子發燒友網報道 近日股份表示,作為國內訓練芯片的核心廠商之一,公司是國內少數真正實現千卡集群大規模商業化應用的GPU供應商,目前正積極研發并推動萬卡集群的
    的頭像 發表于 01-20 17:12 ?2391次閱讀

    大曉機器人與股份簽署戰略合作協議

    12月18日,大曉機器人與股份正式簽署戰略合作協議,依托雙方核心資源稟賦,聚焦技術創新、產品研發、生態構建、商業落地等領域,開悟世界模型3.0與
    的頭像 發表于 12-24 09:11 ?2238次閱讀

    股份MXMACA軟件棧3.3.0.X版本技術解析

    ,作為“自主GPGPU硬件+全棧軟件體系”的關鍵協同載體,如圖1所示,MACA承擔著連接硬件算力單元與上層應用生態的核心紐帶作用,覆蓋底層驅動、用戶態接口、編譯器、算子適配、訓練框架、推理框架、行業場景優化等全鏈路能力,是支
    的頭像 發表于 12-24 09:08 ?915次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>MXMACA軟件棧3.3.0.X版本技術解析

    股份在上海證券交易所科創板掛牌上市

    近日,股份正式在上海證券交易所科創板掛牌上市,股票代碼:688802.SH。作為國內高性能通用GPU領先企業,此次成功登陸科創板,不
    的頭像 發表于 12-24 09:03 ?2554次閱讀

    股份云C系列GPU Day 0適配智譜GLM-4.6V多模態大模型

    12月8日智譜AI發布并開源 GLM-4.6V 系列多模態大模型,股份云C系列GPU完成Day 0適配。
    的頭像 發表于 12-17 14:28 ?617次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU Day 0適配智譜GLM-4.6V多模態大模型

    股份與上海電信完成首期GPU生態專家認證培訓

    近期,集成電路(上海)股份有限公司(以下簡稱“股份”)攜手上海電信天翼云能力運營中心(以
    的頭像 發表于 10-31 10:33 ?490次閱讀

    強強聯合:之江實驗室與股份共建智算集群聯合實驗室

    總工程師趙志峰、副主任何水兵,以及股份聯合創始人、CTO兼首席硬件架構師彭莉等雙方代表出席簽約儀式。 本次合作旨在響應國家“人工智能+”行動號召,落實浙江省打造人工智能高地的戰略部署。雙方將圍繞算力、
    的頭像 發表于 10-23 10:50 ?1357次閱讀

    首款全國產通用GPU芯片發布 集成推出云C600

    ,并支持MetaXLink超節點擴展技術,在硬件性能和軟件兼容上完全滿足下一代生成式AI的訓練和推理需求。 而且,股份與中國科學院合作的國產千卡集群,已完成多個大模型全參數訓練,證
    的頭像 發表于 10-19 20:04 ?4.6w次閱讀

    硅基流動攜手首發基于云的Kimi K2推理服務

    今天,硅基流動聯合集成電路(上海)股份有限公司(簡稱“”),全球首發基于
    的頭像 發表于 07-23 17:33 ?1926次閱讀