国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA NVLink Fusion技術提升AI推理性能

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2025-09-23 14:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 模型復雜性的指數級增長驅動參數規模從數百萬迅速擴展到數萬億,對計算資源提出了前所未有的需求,必須依賴大規模 GPU 集群才能滿足。混合專家(MoE)架構的廣泛應用以及測試時擴展(test-time scaling)在推理階段的引入,進一步加劇了計算負載。為實現高效的推理部署,AI 系統已發展出大規模并行化策略,包括張量并行、流水線并行和專家并行等技術。這些需求推動了支持內存語義的縱向擴展(Scale-up)計算網絡向更大的 GPU 域演進,構建統一的計算與內存資源池,實現高效協同。

本文詳細闡述了NVIDIA NVLink Fusion如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。

ac1a8cd6-8e2d-11f0-8c8f-92fbcf53809c.png

圖 1:模型規模與復雜性的提升推動了 scale-up 域的擴展

NVLink 如何持續演進以滿足不斷增長的 scale-up 需求

NVIDIA 于 2016 年首次推出 NVLink,旨在克服 PCIe 在高性能計算和人工智能工作負載中的局限性。該技術實現了更快的 GPU 間通信,并構建了統一的內存空間。

2018年,NVIDIA 推出了 NVLink Switch 技術,實現了在 8 個 GPU 的網絡拓撲中每對 GPU 之間高達 300 GB/s 的 all-to-all 帶寬,為多 GPU 計算時代的 scale-up 網絡奠定了基礎。隨后,在第三代 NVLink Switch 中引入了 NVIDIA 可擴展分層聚合與歸約協議(SHARP)技術,進一步提升了性能,有效優化了帶寬性能并降低了集合操作的延遲。

隨著 2024 年第五代 NVLink 的發布,進一步增強的 NVLink Switch 支持 72 個 GPU 實現全互聯通信,通信速率達 1800 GB/s,聚合總帶寬高達 130 TB/s,較第一代產品提升了 800 倍。

盡管 NVIDIA 已大規模部署 NVLink 近十年,但仍在不斷突破技術極限,對未來三代的 NVLink 產品,會保持每年推出一代的節奏。這一迭代策略推動了持續的技術進步,有效滿足了 AI 模型在復雜性和計算需求方面的指數級增長。

NVLink 的性能取決于硬件和通信庫,尤其是 NVIDIA 集群通信庫(NCCL)。

NCCL 作為一個開源庫,專為加速單節點和多節點拓撲中 GPU 之間的通信而設計,能夠實現接近理論帶寬的 GPU 到 GPU 通信性能。它無縫支持橫向和縱向擴展,具備自動拓撲感知與優化能力。NCCL 已集成到所有主流深度學習框架中,歷經 10 年的開發與 10 年的生產環境部署,技術成熟且廣泛應用。

ac93a968-8e2d-11f0-8c8f-92fbcf53809c.png

圖 2:NCCL 支持縱向擴展和橫向擴展,在所有主流框架中均受支持

最大化 AI 工廠收入

NVIDIA 在 NVLink 硬件和軟件庫方面積累了豐富的經驗,配合大規模的計算域,能夠有效滿足當前 AI 推理計算的需求。其中,72-GPU 機架架構在多種應用場景中實現了卓越的推理性能,發揮了關鍵作用。在評估大語言模型(LLM)推理性能時,前沿帕累托(Frontier Pareto)曲線清晰地展現了每瓦吞吐量與延遲之間的權衡關系。

AI 工廠的生產和收入目標是最大化曲線下的面積。影響該曲線動態的因素眾多,包括原始算力、內存容量與吞吐量,以及 scale-up 技術,通過高速通信優化實現張量并行、流水線并行和專家并行等技術。

在檢查各類 scale-up 配置的性能時,我們發現存在顯著差異,即使是使用相同的 NVLink 速度。

在 4 個 GPU 的 NVLink mesh 拓撲(無交換機)中,由于每對 GPU 之間只能分到有限帶寬,曲線會呈現下降趨勢。

采用 NVLink Switch 的 8 GPU 網絡拓撲能顯著提升性能,因為每對 GPU 之間均實現完全帶寬。

通過 NVLink Switch 擴展至 72 個 GPU 的域,可最大限度地提升性能和收益。

NVLink Fusion 實現對NVLink scale-up 技術的定制化使用

NVIDIA 推出了 NVLink Fusion,使超大規模數據中心能夠采用經過生產驗證的 NVLink scale-up 技術。該技術可讓定制芯片(包括 CPU 和 XPU)與 NVIDIA 的 NVLink scale-up 網絡技術以及機架級擴展架構相集成,從而實現半定制化的 AI 基礎設施部署。

NVLink scale-up 技術涵蓋 NVLink SERDES、NVLink chiplets、NVLink 交換機以及機架級擴展架構的整體方案。高密度機架級擴展架構包括 NVLink spine、銅纜系統、創新的機械結構、先進的供電與液冷技術,以及供應鏈就緒的完整生態系統。

NVLink Fusion 為定制 CPU、定制 XPU 或兩者的組合配置提供了靈活的解決方案。作為模塊化開放計算項目(OCP)MGX 機架架構的一部分,NVLink Fusion 可與任何網卡(NIC)、數據處理器(DPU)或橫向擴展交換機集成,使客戶能夠根據需求靈活構建理想的系統。

對于自定義 XPU 配置,NVLink 通過通用芯粒互連(Universal Chiplet Interconnect Express, UCIe)IP 與接口實現集成。NVIDIA 提供支持 UCIe 的 NVLink 橋接芯片,既能實現極高性能,又便于集成,使客戶能夠像 NVIDIA 一樣充分利用 NVLink 的功能。UCIe 作為一項開放標準,采用該接口進行 NVLink 集成可讓客戶為其 XPU 靈活選擇當前或未來平臺的多種方案。

對于自定義 CPU 配置,建議集成 NVIDIA NVLink-C2C IP,以連接 NVIDIA GPU,從而實現最佳性能。采用定制 CPU 與 NVIDIA GPU 的系統可平滑訪問 CUDA 平臺的數百個 NVIDIA CUDA-X 庫,充分發揮加速計算的高性能優勢。

由廣泛的生產就緒合作伙伴生態系統提供有力支持

NVLink Fusion 擁有一個強大的芯片生態系統,涵蓋定制芯片、CPU 以及 IP 技術合作伙伴,不僅確保了廣泛的技術支持和快速的設計實現,還持續推動著技術創新。

對于機架產品,用戶可受益于我們的系統合作伙伴網絡以及數據中心基礎設施組件供應商。這些合作伙伴和供應商已實現 NVIDIA Blackwell NVL72 系統的大規模生產。通過整合生態系統與供應鏈資源,用戶能夠加快產品上市速度,并顯著縮短機架級擴展系統,以及 scale-up 網絡的生產部署時間。

提升 AI 推理性能

NVLink 代表了滿足 AI 推理時代計算需求的重大飛躍。NVLink Fusion 充分融合了 NVIDIA 在 NVLink scale-up 技術領域長達十年的深厚積累,結合 OCP MGX 機架架構及生態系統開放的生產部署標準,為超大規模數據中心提供了卓越的性能與全面的定制化選項。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109721
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301365
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099

原文標題:借助 NVIDIA NVLink 和 NVLink Fusion 擴展 AI 推理性能和靈活性

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

    Machine Learning SDK 相集成以供預覽。客戶可以使用 Azure 大規模部署的英特爾? FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI推理性能
    的頭像 發表于 05-16 17:25 ?6951次閱讀

    NVIDIA擴大AI推理性能領先優勢,首次在Arm服務器上取得佳績

    最新MLPerf基準測試表明,NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。
    發表于 09-23 14:18 ?2988次閱讀
    <b class='flag-5'>NVIDIA</b>擴大<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>領先優勢,首次在Arm服務器上取得佳績

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優勢,實現了比CPU快237倍的AI推理性能,助力企業將AI研究轉化為生產力。
    發表于 10-22 14:07 ?1116次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    。 **英偉達Blackwell架構在數據中心方面的應用有哪些?** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大模型進行了優化,能夠顯著提升訓練和
    發表于 05-13 17:16

    NVIDIA 在首個AI推理基準測試中大放異彩

    的BERT、GNMT 和Jasper 等AI模型開源優化幫助開發者實現頂尖推理性能NVIDIA的客戶和合作伙伴中包括有會話式AI領域的一流公司,比如Kensho、微軟、Nuance、
    發表于 11-08 19:44

    求助,為什么將不同的權重應用于模型會影響推理性能

    生成兩個 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運行 更多樣化的權重是否會影響 Myriad X 上的推理性能
    發表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。 將 權重轉換為 ONNX 文件,然后轉換為中間表示 (IR)。 無法確定如何獲得更好的推理性能
    發表于 08-15 06:58

    英特爾FPGA為人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供預覽。客戶可以使用 Azure 大規模部署的英特爾 FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI) 推理性能。 “作為一家整體
    發表于 05-20 00:10 ?3417次閱讀

    NVIDIA A100 GPU推理性能237倍碾壓CPU

    )的12個提交者增加了近一倍。 結果顯示,今年5月NVIDIANvidia)發布的安培(Ampere)架構A100 Tensor Core GPU,在云端推理的基準測試性能是最先進I
    的頭像 發表于 10-23 17:40 ?5210次閱讀
    <b class='flag-5'>NVIDIA</b> A100 GPU<b class='flag-5'>推理性能</b>237倍碾壓CPU

    NVIDIA發布最新Orin芯片提升邊緣AI標桿

    在首次參加行業 MLPerf 基準測試時,基于 NVIDIA Ampere 架構的低功耗系統級芯片 NVIDIA Orin 就創造了新的AI推理性能紀錄,并在邊緣
    的頭像 發表于 04-08 10:14 ?5707次閱讀
    <b class='flag-5'>NVIDIA</b>發布最新Orin芯片<b class='flag-5'>提升</b>邊緣<b class='flag-5'>AI</b>標桿

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件一輪又一輪改進
    的頭像 發表于 10-23 16:10 ?1529次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    。 中國電子技術標準化研究院賽西實驗室依據國家標準《人工智能服務器系統性能測試規范》(征求意見稿)相關要求,使用AISBench?2.0測試工具,完成了第五代英特爾至強可擴展處理器的AI大模型
    的頭像 發表于 09-06 15:33 ?1418次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?1694次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    NVIDIA推出NVLink Fusion技術

    NVIDIA 發布 NVIDIA NVLink Fusion,這款全新芯片將助力行業用戶通過全球領先且廣泛采用的計算互連架構 —— NVIDIA
    的頭像 發表于 05-22 09:59 ?875次閱讀

    Arm Neoverse平臺集成NVIDIA NVLink Fusion

    新聞重點 Arm 與 NVIDIA 持續深化合作,在 AI 時代推動協同設計與合作邁向新高度。 生態系統合作伙伴可將高效的 Arm 架構計算能力集成至 NVIDIA NVLink
    的頭像 發表于 11-26 11:08 ?476次閱讀