国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA網絡運營商優化Kubernetes橫向擴展GPU部署和管理

星星科技指導員 ? 來源:NVIDIA ? 作者:Itay Ozery ? 2022-04-14 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

GPU 加速計算在云計算、企業計算和邊緣計算領域的日益普及,越來越依賴于強健而強大的網絡基礎設施。 NVIDIA ConnectX SmartNICs 和 NVIDIA BlueField DPU 提供了高吞吐量、低延遲的連接,使 GPU 資源能夠跨節點群擴展。為了滿足對云本地 AI 工作負載的需求, NVIDIA 提供了 GPU 運營商,旨在簡化 Kubernetes 上的橫向擴展 GPU 部署和管理。

今天, NVIDIA 宣布了 NVIDIA 網絡運營商的 1.0 版本。作為 NVIDIA GPU 運算符 的一個模擬,網絡運營商通過自動化網絡部署和配置的各個方面簡化了 Kubernetes 的擴展網絡設計,否則就需要手工操作。它在具有 NVIDIA 網絡接口的任何集群節點上加載所需的驅動程序、庫、設備插件和 CNI 。

與 GPU 運營商配合,網絡運營商啟用了 GPU 直接 RDMA ,這是一項關鍵技術,可將云本地 AI 工作負載加速幾個數量級。該技術在 NVIDIA GPU 之間提供了高效的零拷貝數據傳輸,同時利用了 SmartNICs 和 DPU 中的硬件引擎。圖 1 顯示了兩個 GPU 節點之間的 GPU 直接 RDMA 技術。節點 1 上的 GPU 通過網絡直接與節點 2 上的 GPU 通信,繞過 CPU 設備。

poYBAGJXvmKANta6AABdA5uuq1Q305.png

圖 1 。 GPU 兩個 GPU 節點之間的直接 RDMA 技術

NGC 網絡運營商現在可在 NGC 和 NVIDIA 上使用 Kubernetes 自定義資源 ( CRD )和 操作員框架 來提供實現加速聯網所需的主機軟件。這篇文章討論了網絡運營商內部的內容,包括它的特性和功能。

易于部署和操作的 Kubernetes 網絡

網絡運營商致力于使 Kubernetes 網絡變得簡單和輕松。它是 Apache2 。 0 許可下的一個開源軟件項目。 1.0 版本針對運行在裸機服務器基礎設施和 Linux 虛擬化環境中的 Kubernetes 進行了驗證。以下是 1.0 版的主要功能:

在裸機 Kubernetes 環境中自動部署主機軟件組件,以實現以下功能:

macvlan 輔助網絡

SR-IOV 二次網絡(分配給 pod 的 VF )

主機設備輔助網絡(分配給 pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 運算符)

在嵌套的 Kubernetes 環境(在 Linux VMs 中運行的 Kubernetes Pods )中自動部署主機軟件組件,以創建以下內容:

SR-IOV 二級網絡(分配給 VM 的 VF 的#個,并通過不同的 POD )

主機設備輔助網絡(分配給 Pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 運算符)

平臺支持:

Kubernetes v1 。 17 或更高版本

容器運行時: Containerd

裸機主機操作系統/ Linux 來賓操作系統: Ubuntu 20 。 04

Linux KVM 虛擬化

舵圖安裝

雖然啟用了 GPU 的節點是一個主要用例,但是網絡運營商對于啟用獨立于 NVIDIA GPU 的加速 Kubernetes 網絡環境也很有用。一些示例包括設置 SR-IOV 網絡和 DPDK 以加速電信 NFV 應用程序、建立 RDMA 連接以快速訪問 NVMe 存儲等等。

NVIDIA 網絡運營商內部

網絡運營商被設計成一個 Kubernetes 運營商,它利用多個定制資源為一個節點添加加速的網絡功能。 1 。 0 版本支持多種網絡模型,可適應各種 Kubernetes 網絡環境和不同的應用程序需求。如今,網絡運營商只為二級網絡配置 RoCE 。這意味著主吊艙網絡保持不變。將來的工作可能會允許為主網絡配置 RoCE 。

以下各節介紹網絡運營商打包和使用的不同組件。

節點功能發現

節點功能發現 ( NFD )是一個 Kubernetes 插件,用于檢測硬件特性和系統配置。網絡運營商使用 NFD 來檢測安裝了 NVIDIA SmartNICs 和 GPU 的節點,并將它們標記為這樣的節點。基于這些標簽,網絡運營商安排適當的軟件資源。

CNI 木耳

Multus CNI 是 Kubernetes 的容器網絡接口( CNI )插件,支持將多個網絡接口連接到 pod 。通常在庫伯內特斯,每個吊艙只有一個網絡接口。使用 Multus ,您可以創建具有多個接口的多宿主 Pod 。 Multus 充當一個 meta-plugin ,一個可以調用多個其他 CNI 插件的 CNI 插件。 NVIDIA 網絡運營商安裝 Multus ,將用于高速 GPU – GPU 通信的二級網絡添加到集裝箱吊艙中。

NVIDIA OFED 驅動器

NVIDIA OpenFabrics 企業分銷( OFED ) 網絡庫和驅動程序由 節點標簽 網絡團隊打包和測試。 NVIDIA OFED 通過 Infiniband 和以太網互連支持 遠程直接內存訪問 ( RDMA )。網絡運營商使用 NVIDIA 將預編譯的 NVIDIA OFED 驅動程序容器部署到每個 Kubernetes 主機上。容器在啟動或停止時加載和卸載 NVIDIA OFED 驅動程序。

NVIDIA 對等內存驅動程序

NVIDIA 對等內存驅動程序 是一個客戶端,它與網絡驅動程序交互,以在 GPU 和主機內存之間提供 RDMA 。網絡運營商在同時具有 ConnectX 適配器和 NVIDIA GPU 的節點上安裝 NVIDIA 對等內存驅動程序。當容器啟動和停止時,此驅動程序也會自動加載和卸載。

RDMA 共享設備插件

Kubernetes 設備插件框架 向 Kubernetes 節點上運行的 Kubelet 代理播發系統硬件資源。網絡運營商部署 RDMA 共享設備插件 向 Kubelet 播發 RDMA 資源,并向節點上運行的 pod 公開 RDMA 設備。它允許吊艙執行 RDMA 操作。節點上運行的所有 pod 共享對相同 RDMA 設備文件的訪問。

容器網絡 CNI 插件

Macvlan CNI 公司 和 主機設備 CNI 是在 CNI 項目下托管的通用容器網絡插件。 macvlan CNI 創建一個新的 MAC 地址,并將所有通信轉發到容器。主機設備 CNI 將已經存在的設備移動到容器中。網絡運營商使用這些 CNI 插件創建 macvlan 網絡,并將 NIC 物理功能分別分配給容器或虛擬機。

SR-IOV 設備插件和 CNI

SR-IOV 是一種在虛擬機或容器吊艙與 NIC 硬件之間提供直接接口的技術。它繞過了主機 CPU 和操作系統,從 I / O 任務中釋放出昂貴的 CPU 資源,并大大加快了連接速度。 SR-IOV 設備插件 和 CNI 插件 啟用 Kubernetes 節點上可用的 SR-IOV 虛擬功能( VF )。這兩者都是網絡運營商創建 SR-IOV VF 并將其分配給處理 GPU -to- GPU 通信的二級網絡所必需的。

SR-IOV 操作員

SR-IOV 操作符旨在幫助用戶在集群中提供和配置 SR-IOV 設備插件和 SR-IOV CNI 插件。網絡運營商使用 SR-IOV 操作員 在 Kubernetes 集群中部署和管理 SR-IOV 。

Whereabouts CNI

Whereabouts CNI 是一個 IP 地址管理( IPAM ) CNI 插件,可以在 Kubernetes 集群中分配 IP 地址。網絡運營商使用此 CNI 為承載 GPU -to- GPU 通信的二級網絡分配 IP 地址。

更好的結合: NVIDIA 加速計算和網絡

圖 2 顯示了網絡運營商如何與 GPU 運營商協同工作來部署和管理主機網絡軟件。

pYYBAGJXvmuAFa1cAALBlwdJFKQ894.png

圖 2 。網絡運營商與 NVIDIA GPU 運營商一起安裝,以在 EGX 堆棧上自動化 GPU 直接 RDMA 配置

以下部分描述了支持的網絡模型和相應的主機軟件組件。

RoCE 共享模式

共享模式意味著在節點上的多個容器 pod 之間共享單個 IB 設備的方法。此網絡模型針對需要高性能網絡的企業和邊緣環境進行了優化,無需多租戶。網絡運營商安裝以下軟件組件:

Multus CNI

RoCE 共享模式設備插件

Macvlan CNI

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

SR-IOV 、 RoCE 和 DPDK 網絡

如前所述, SR-IOV 是一種提供對 NIC 硬件的直接訪問的加速技術。此網絡模型針對運行在裸機上的多租戶 Kubernetes 環境進行了優化。網絡運營商安裝以下軟件組件:

Multus CNI

SR-IOV 設備插件

SR-IOV CN

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

NIC PF 直通

這種網絡模式適合要求極高的應用。網絡運營商可以將 NIC 物理功能分配給 Pod ,以便 Pod 充分利用它。網絡運營商安裝以下主機軟件組件:

Multus CNI

SR-IOV 設備插件

主機開發 CNI

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

為橫向擴展 GPU 集群優化 Kubernetes 網絡

NVIDIA GPU 和網絡運營商都是 NVIDIA EGX 企業平臺的一部分,該平臺允許 GPU 加速計算與傳統企業應用程序在同一 IT 基礎設施上協同工作。總而言之,運營商使 NVIDIA GPU 成為庫伯內特斯的一等公民。現在發布用于生產環境,網絡運營商簡化了 Kubernetes 網絡,帶來了必要的簡單性和可擴展性級別,以便在企業中實現擴展培訓和邊緣推斷。

關于作者

Itay Ozery 是 NVIDIA 網絡產品營銷總監。他為 Mellanox 的云網絡解決方案推動戰略性產品營銷和產品管理計劃。 Itay 在網絡安全領域領導了大規模的業務和項目,并與數據中心和電信服務提供商在 IT 系統和網絡工程領域擔任過多個職位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 運營商
    +關注

    關注

    4

    文章

    2435

    瀏覽量

    46498
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109722
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135434
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    KubePi:開源Kubernetes可視化管理面板,讓集群管理如此簡單

    部署、監控和維護,讓即使不具備深厚Kubernetes知識的用戶也能輕松管理集群。 1.2 核心價值:可視化多集群管理 KubePi允許管理
    發表于 02-11 12:53

    Kubernetes kubectl命令行工具詳解

    kubectl是Kubernetes官方提供的命令行工具,作為與Kubernetes集群交互的主要接口,它通過調用Kubernetes API Server實現對集群資源的全面管理。在
    的頭像 發表于 02-02 16:40 ?415次閱讀

    NVIDIA Spectrum-X以太網硅光技術助力AI工廠網絡創新

    NVIDIA 將率先為 AI 工廠引入采用光電一體封裝 (CPO) 的優化以太網網絡,通過 NVIDIA Spectrum-X 以太網硅光技術,為
    的頭像 發表于 01-14 09:06 ?608次閱讀
    <b class='flag-5'>NVIDIA</b> Spectrum-X以太網硅光技術助力AI工廠<b class='flag-5'>網絡</b>創新

    為什么運營商項目要用ODF光纖配線架

    運營商項目采用ODF光纖配線架,主要基于其在光纜管理、光纖保護、調度靈活性、擴容能力、標準化兼容性及運維效率等方面的核心優勢,這些特性直接契合運營商網絡穩定性、可維護性和長期
    的頭像 發表于 01-08 10:20 ?207次閱讀

    愛立信為日本運營商NTT DOCOMO部署Massive MIMO無線設備

    愛立信AIR 3255 Massive MIMO天線一體化無線設備已在日本運營商NTT DOCOMO的5G網絡中正式商用,該新型無線設備覆蓋4.5 GHz將有助于在高流量、高需求區域滿足當前及未來
    的頭像 發表于 01-04 10:08 ?2216次閱讀

    碎片化網絡安全監管正增加移動運營商成本與風險

    GSMA今日發布重大獨立研究報告《網絡安全監管對移動運營商的影響》,顯示移動運營商每年在核心網絡安全活動上的支出已達150至190億美元,預計到2030年這一數字將升至400至420億
    的頭像 發表于 12-05 15:49 ?608次閱讀

    華為全域安全園區網絡解決方案助力運營商開辟toB市場

    當AI驅動的超寬帶時代加速到來,運營商也正從“賣聯接”向“賣服務”深度轉型,企業對園區網絡的安全需求也日益提升。在2025全球超寬帶高峰論壇(UBBF)上,圍繞“AI繁榮UBB,激發運營商新增
    的頭像 發表于 10-30 10:38 ?860次閱讀

    NVIDIA桌面GPU系列擴展新產品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 20
    的頭像 發表于 08-18 11:50 ?1410次閱讀

    烏干達運營商聯合華為全面升級綠色網絡基礎設施

    近日,烏干達領先電信運營商聯合華為,在高價值區域批量部署GreenAAU系列中的EasyAAU,全面升級綠色網絡基礎設施。這一舉措標志著烏干達通信技術進入新階段,將為用戶帶來更快的網絡
    的頭像 發表于 08-15 09:31 ?1052次閱讀

    NVIDIA Dynamo新增對亞馬遜云科技服務的支持

    亞馬遜云科技 (AWS) 開發者和解決方案架構師現在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwe
    的頭像 發表于 07-28 14:31 ?976次閱讀
    <b class='flag-5'>NVIDIA</b> Dynamo新增對亞馬遜云科技服務的支持

    美國運營商5G RedCap部署進入快車道

    ,RedCap正在該運營商的獨立組網(SA)5G網絡上運行。 該運營商正在與Semtech、Telit Cinterion和Rhino Mobility等模塊供應合作,以
    的頭像 發表于 07-25 14:12 ?913次閱讀
    美國<b class='flag-5'>運營商</b>5G RedCap<b class='flag-5'>部署</b>進入快車道

    普強智能外呼系統助力大型運營商提升服務效率

    在日益激烈的通信行業中,運營商作為提供網絡服務的核心供應,面臨著提升客戶服務質量、增強用戶粘性的巨大挑戰。傳統的客服模式在處理海量、重復性咨詢時效率受限,難以滿足用戶對高效、便捷服務的期望。隨著人工智能技術的飛速發展,智能外呼
    的頭像 發表于 07-23 16:30 ?1168次閱讀

    華為榮登GlobalData運營商基礎設施管理服務排名報告Leader象限第一名

    象限第一名。 報告對通信服務從商業模式、解決方案、網絡設計與優化網絡轉型能力、服務規模、和業務敏捷性六個維度進行了全面評估,華為綜合得分第一。這印證了華為在對全球
    的頭像 發表于 05-22 18:43 ?1081次閱讀
    華為榮登GlobalData<b class='flag-5'>運營商</b>基礎設施<b class='flag-5'>管理</b>服務排名報告Leader象限第一名

    Kubernetes Helm入門指南

    Helm 是 Kubernetes 的包管理工具,它允許開發者和系統管理員通過定義、打包和部署應用程序來簡化 Kubernetes 應用的
    的頭像 發表于 04-30 13:42 ?3084次閱讀
    <b class='flag-5'>Kubernetes</b> Helm入門指南

    5G網絡中,信令測試儀如何幫助提升用戶體驗?

    、會話管理失敗等問題。 精確調整網絡參數: 信令測試儀能夠對網絡中的各種參數進行細致的調整和優化,如發射功率、小區覆蓋范圍、切換策略等。 通過精確調整這些參數,信令測試儀可以幫助
    發表于 03-21 14:33