国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA 攜手騰訊開發(fā)和優(yōu)化 Spark UCX 實現(xiàn)性能躍升

NVIDIA英偉達 ? 來源:未知 ? 2023-08-25 20:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊網絡平臺部與數(shù)據(jù)平臺部,聯(lián)合 NVIDIA 合作開發(fā)和優(yōu)化 Spark UCX,最終實現(xiàn) Spark Shuffle 穩(wěn)定加速 15% - 20%,平均降低現(xiàn)網 Spark 任務 8% 的執(zhí)行時間。

什么是 Spark 平臺?

TDW-Spark 是騰訊公司級數(shù)據(jù)平臺,是騰訊海量數(shù)據(jù)處理平臺中最核心的模塊,支持百 PB 級的數(shù)據(jù)存儲和計算,業(yè)務涉及公司各個 BG,為騰訊公司提供海量、高效、穩(wěn)定的大數(shù)據(jù)平臺支撐和決策支持,是騰訊公司最大的離線數(shù)據(jù)處理平臺。

Spark 業(yè)務所面臨的挑戰(zhàn)

Spark 網絡目前的現(xiàn)狀包括大規(guī)模部署 QP 連接數(shù)不夠用,使用 RDMA DC 解決連接數(shù)過多的問題;Spark 不同應用場景需要不同的 EP 個數(shù)、RPC 調用次數(shù)、Spark UCX 線程數(shù)、Block 大小等,需要聯(lián)合調配;RDMA 和 TCP 混合部署,需要兼容和故障逃生;以及網絡帶寬低,需要提升帶寬,降低延時。

Spark 原始的業(yè)務問題包括:

  • 通信耗時占比高:Spark Shuffle 時間占 Spark 運行總時間的 30% - 40%,造成 Spark 任務完成時間長。

  • 業(yè)務需求:網絡 IO 和磁盤 IO 是 Spark Shuffle 的瓶頸,需要提高通信效 率,提高計算效率。

  • 降本增效:五萬張已經部署的 NVIDIA ConnectX-5 網卡需要提高性能利用率,切換到 RDMA,提高業(yè)務帶寬。

為了應對上述問題及挑戰(zhàn),騰訊進行了 Spark RDMA 大規(guī)模部署網絡的工作,主要從兩個方面著手:Spark RDMA 網絡部署和優(yōu)化,以及 Spark UCX / UCX 性能優(yōu)化。

Spark RDMA 網絡部署和調優(yōu)

具體部署調優(yōu)步驟:

  1. 搭建 37 節(jié)點 NVIDIA ConnectX-5 網卡和 26 節(jié)點 NVIDIA ConnectX-6 網卡 Spark 環(huán)境,部署 Spark、Spark UCX、UCX 代碼進行長穩(wěn)調優(yōu)。

  2. 基于 GroupByTest 和現(xiàn)網 Spark 業(yè)務流量,在 UCX、Spark UCX、Spark 三個層次調優(yōu)對比 DC、RC 和 TCP 效果。

  3. 優(yōu)化 Spark UCX、UCX 代碼,根據(jù) Spark 業(yè)務調優(yōu)網卡和交換機配置。

  4. 通過在 NVIDIA ConnectX-5 和 NVIDIA ConnectX-6 Dx bond 引入 DCT,提升 Spark 業(yè)務帶寬利用率。

  5. RDMA 和 TCP 網絡共存的情況下,保障長穩(wěn)運行和 RDMA 故障逃生。

wKgaomTopKWAfh5EAABuql9I-5I182.png

圖 1:37 節(jié)點的 ConnectX-5 機群與 26 節(jié)點的 ConnectX-6 機群

RDMA 部署優(yōu)化完成情況:

  • 大規(guī)模:使用 DCT 技術共享 QP 連接,解決了大規(guī)模 QP 不夠用 的問題。大規(guī)模仿真下 Spark 應用 RDMA 網絡滿足預期。

  • Spark 應用和網絡聯(lián)合調優(yōu):實現(xiàn)了最優(yōu)的網卡和交換機配置,以 及 Spark 任務配置,降低了 15% - 20% 左右的讀完成時間。

  • 故障逃生:Spark UCX 和 UCX 代碼層面實現(xiàn)了 RDMA 和 TCP 通道備份。確保 RDMA 故障逃生 TCP,保證穩(wěn)定運行。

  • 穩(wěn)定性保證:開發(fā)了驅動版本檢測、網卡配置和檢測、自動化安裝升級檢測功能。開發(fā)了測試網絡性能模塊,保證 Spark RDMA 各層帶寬和延時滿足預期。

Spark UCX 性能優(yōu)化

1. 參數(shù)調優(yōu):通過調整 maxReqsInFlight、numListenerThreads 等 Spark / Spark UCX 參數(shù),提升任務執(zhí)行效率,獲得最好傳輸速率,發(fā)揮最大系統(tǒng)效能。

2. CPU 利用率優(yōu)化:啟用 sleep / wakeup 特性,替代 busy waiting 模式。讓出 CPU 給 Spark 計算任務,減少了 CPU 浪費,體現(xiàn)了 RDMA 的優(yōu)勢。

3. 網路 IO 優(yōu)化:網路 IO 由阻塞模型改為非阻塞模型,數(shù)據(jù)接收由同步等待改為異步通知。避免了因為網路 IO 等待而 阻塞計算任務執(zhí)行,提高了每個線程的任務吞吐量,提升了收發(fā)效率和帶寬。

wKgaomTopKWAFpnRAAGiOI3ydaI852.png

圖 2:網絡 IO 優(yōu)化

4. 調度優(yōu)化worker 的調度方式改用全局 round-robin (RR) 調度模式,替代原有的按照 thread id 選擇 worker 的 方式。避免了 thread id 不連續(xù)引起的多個線程選擇同一 worker 的問題。

wKgaomTopKWAbjwyAAH2E874614011.png

圖 3:調度優(yōu)化

5. 數(shù)據(jù)競爭優(yōu)化:將 send / receive / progress 方法打包至獨立線程運行,保證每個 worker 資源僅被單個線程 訪問 / 修改,避免了數(shù)據(jù)競爭,提升了線程運行效率。

UCX 性能優(yōu)化

1. 參數(shù)調優(yōu):使用 DC 替換 RC 模式,提升傳輸帶寬,減少系統(tǒng) CPU、內存資源消耗。開啟 CQE zipping 和 PCI relax ordering 減少 PCI 負載。調整 UCX_ZCOPY_THRESH、UCX_RNDV_THRESH 和 UCX_RND_SCHEME,獲得穩(wěn)定高速的傳輸帶寬。

2. 網絡負載均衡優(yōu)化:隨機化 UDP 源端口取值,減輕由于固定端口,交換機對 5 元組哈希得到相同出端口而引起的 負載不均衡問題,優(yōu)化網絡傳輸帶寬。

“Spark UCX 是 Apache Spark 的高性能 Shuffle Manager 插件,它使用 UCX 支持的 RDMA 和其他高性能傳輸來加速 Spark 作業(yè)中的 Shuffle 數(shù)據(jù)傳輸。RDMA DC(動態(tài)連接)是一種傳輸服務,旨在解決大型系統(tǒng)在使用可靠連接時的可擴展性問題。使用 DC,用戶可以打開有限數(shù)量的資源,無論集群大小如何。這一優(yōu)勢對于 Spark 如此大規(guī)模的應用程序來說非常有好處,并且可以提高性能。”

——Amit Krig

SVP, Software Engineering & Israel R&D Site Leader, NVIDIA

部署調優(yōu)后性能提升明顯

經過部署調優(yōu),NVIDIA ConnectX-6 環(huán)境 RDMA 傳輸性能比 TCP 平均有 18% 的提升;NVIDIA ConnectX-5 環(huán)境大部分場景 RDMA 傳輸性能比 TCP 平均有 16% 的提升。考慮到 Spark 任務有計算和本地 write,所以對 Spark 任務整體完成時間大概有 8% 的性能提升。

NVIDIA ConnetX-6 環(huán)境 RDMA 性能提升明顯(RDMA read 通信 18% 左右提升,整體完成時間 8% 左右提升),可以大規(guī)模灰度部署 Spark 業(yè)務真實流量。NVIDIA ConnectX-5 環(huán)境大部分場景性能平均提升(RDMA read 通信 16% 左右提升,整體完成時間 6% 左右提升),部分場景 RDMA 性能較差還需要調測優(yōu)化,可以灰度部署 Spark 業(yè)務,繼續(xù)優(yōu)化還有提升空間。

wKgaomTopKaAdji2AAC2vt5kA8M435.png

圖 4:ConnectX-6 網卡 26 臺規(guī)模 RDMA 完成時間比 TCP 低 20% 左右

wKgaomTopKaAasluAACyKxd6OfE061.png

圖 5:ConnectX-5 網卡 37 臺規(guī)模 RDMA 完成時間比 TCP 低 18% 左右

wKgaomTopKaAL9QDAABUyl6U7EQ953.png

圖 6:20 臺規(guī)模 Spark 業(yè)務灰度測試,RDMA read 平均降低 20% 左右

后期計劃

Spark 項目通過遠程直接內存訪問(RDMA)技術解決網絡傳輸中服務器數(shù)據(jù)處理延遲問題,為騰訊 Spark 大數(shù)據(jù)平臺業(yè)務提供高帶寬、低延時的通信。該技術已在二十多臺騰訊 Spark 大數(shù)據(jù)平臺服務器完成灰度測試,運行穩(wěn)定且 Spark Shuffle(數(shù)據(jù)讀取速率)時間平均降低 15% - 18% 左右,減少了 Spark 任務完成時間(大約 8% 左右),節(jié)約了服務器資源。計劃逐步部署到數(shù)千臺 Spark 服務器。

wKgaomTopKaAJRrsAABAFFJlyZc946.gif ?

點擊“閱讀原文”掃描下方海報二維碼注冊 NVIDIA DOCA 應用代碼分享活動,為新一代 AI 驅動的數(shù)據(jù)中心、高性能計算及云計算基礎設施帶來前所未有的創(chuàng)新。


原文標題:NVIDIA 攜手騰訊開發(fā)和優(yōu)化 Spark UCX 實現(xiàn)性能躍升

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4086

    瀏覽量

    99173

原文標題:NVIDIA 攜手騰訊開發(fā)和優(yōu)化 Spark UCX 實現(xiàn)性能躍升

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Microchip發(fā)布專為NVIDIA DGX Spark而設計的MEC1723嵌入式控制器定制固件

    DGX Spark個人AI超級計算機定制設計的 MEC1723嵌入式控制器(EC)固件 ,進一步優(yōu)化MEC1723 EC在NVIDIA DGX平臺上管理AI工作負載的能力。Microchip致力于通過
    的頭像 發(fā)表于 01-15 18:51 ?6.6w次閱讀
    Microchip發(fā)布專為<b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>而設計的MEC1723嵌入式控制器定制固件

    全新軟件與模型優(yōu)化NVIDIA DGX Spark注入強大動力

    自發(fā)布以來,NVIDIA 通過持續(xù)的軟件優(yōu)化以及與軟件合作伙伴和開源社區(qū)的緊密協(xié)作,不斷提升基于 Grace Blackwell 架構的 DGX Spark性能。這些舉措在推理、訓
    的頭像 發(fā)表于 01-09 10:17 ?577次閱讀

    NVIDIA DGX Spark桌面級AI超級計算機助力開發(fā)者構建AI模型

    開源 AI 正在加速各行各業(yè)的創(chuàng)新,NVIDIA DGX Spark 將幫助開發(fā)者將創(chuàng)新轉化為影響力。
    的頭像 發(fā)表于 01-09 09:49 ?461次閱讀

    如何在DGX Spark上運行NVIDIA Omniverse

    首先感謝 Vigor 同學第一時間的分享,以下是具體如何在 DGX Spark 上運行 Omniverse 的方法。
    的頭像 發(fā)表于 12-17 10:13 ?614次閱讀
    如何在DGX <b class='flag-5'>Spark</b>上運行<b class='flag-5'>NVIDIA</b> Omniverse

    NVIDIA DGX Spark系統(tǒng)恢復過程與步驟

    在使用 NVIDIA DGX Spark 的過程中,可能會出現(xiàn)配置故障,而導致開發(fā)中斷的問題,本篇教程將帶大家了解如何一步步完成系統(tǒng)恢復。
    的頭像 發(fā)表于 11-28 09:46 ?5175次閱讀
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>系統(tǒng)恢復過程與步驟

    NVIDIA DGX Spark助力構建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 項目,并于 3 月 18 日更名為 NVIDIA DGX Spark,進一步公布了產品細節(jié)。DGX Spa
    的頭像 發(fā)表于 11-21 09:25 ?1160次閱讀
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>助力構建自己的AI模型

    NVIDIA DGX Spark平臺上對NVIDIA ConnectX-7 200G網卡配置教程

    NVIDIA DGX Spark 平臺上對 NVIDIA ConnectX-7 200G 網卡進行配置時,會遇到“4 個邏輯端口”現(xiàn)象。理解背后的真相是后續(xù)所有配置的基礎。本文將從此現(xiàn)象入手,逐步解析其原理,并提供從基礎配置
    的頭像 發(fā)表于 11-21 09:19 ?5363次閱讀
    在<b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>平臺上對<b class='flag-5'>NVIDIA</b> ConnectX-7 200G網卡配置教程

    NVIDIA DGX Spark快速入門指南

    NVIDIA DGX Spark 已正式向 AI 開發(fā)者交付,對于剛入手的全新 DGX Spark,該如何進行初始化設置?本篇文章將引導您完成 DGX
    的頭像 發(fā)表于 11-17 14:11 ?6033次閱讀
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>快速入門指南

    NVIDIA黃仁勛向SpaceX馬斯克交付DGX Spark

    革新于星艦基地開始。NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛親手將全球迄今為止最小的 AI 超級計算機 NVIDIA DGX Spark 交付給埃隆·馬斯克,拉開了該產品上市的序幕。
    的頭像 發(fā)表于 10-21 11:12 ?957次閱讀

    NVIDIA DGX Spark新一代AI超級計算機正式交付

    NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛在 SpaceX 向埃隆·馬斯克交付 DGX Spark
    的頭像 發(fā)表于 10-21 10:41 ?1185次閱讀

    MediaTek攜手NVIDIA開啟個人AI算力新紀元

    Spark 助力開發(fā)者能在本地端對大型 AI 模型進行原型設計(Prototype)、微調(Fine-tune)和推理(Inference)。NVIDIA DGX Spark 將于
    的頭像 發(fā)表于 10-16 11:26 ?760次閱讀

    NVIDIA DGX Spark桌面AI計算機開啟預訂

    DGX Spark 現(xiàn)已開啟預訂!麗臺科技作為 NVIDIA 授權分銷商,提供從產品到服務的一站式解決方案,助力輕松部署桌面 AI 計算機。
    的頭像 發(fā)表于 09-23 17:20 ?1304次閱讀
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>桌面AI計算機開啟預訂

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?1157次閱讀
    <b class='flag-5'>NVIDIA</b>加速的Apache <b class='flag-5'>Spark</b>助力企業(yè)節(jié)省大量成本

    NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

    臺式超級計算機由 NVIDIA Grace Blackwell 驅動,為開發(fā)者、研究人員和數(shù)據(jù)科學家提供加速 AI 功能;系統(tǒng)由頭部計算機制造商(包括華碩、Dell Technologies、HP
    的頭像 發(fā)表于 03-20 18:59 ?1625次閱讀
    <b class='flag-5'>NVIDIA</b> GTC2025 亮點  <b class='flag-5'>NVIDIA</b>推出 DGX <b class='flag-5'>Spark</b>個人AI計算機

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    臺式超級計算機由 NVIDIA Grace Blackwell 驅動,為開發(fā)者、研究人員和數(shù)據(jù)科學家提供加速 AI 功能;系統(tǒng)由頭部計算機制造商(包括華碩、Dell Technologies、HP
    發(fā)表于 03-19 09:59 ?776次閱讀
       <b class='flag-5'>NVIDIA</b> 宣布推出 DGX <b class='flag-5'>Spark</b> 個人 AI 計算機