国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

HugeCTR能夠高效地利用GPU來進行推薦系統的訓練

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2022-04-01 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. Introduction

HugeCTR 能夠高效地利用 GPU 來進行推薦系統的訓練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開發了 SparseOperationKit (SOK),來將 HugeCTR 中的高級特性封裝為 TensorFlow 可直接調用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級特性來加速他們的推薦系統。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數據并行的方式接收輸入數據,然后在 SOK 內部做黑盒式地模型轉換,最后將計算結果以數據并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個 GPU 上進行擴展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據業界中的實際需求提供了對應的新解決方案,比如說 GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標準模型 DLRM 來對 SOK 的性能進行測試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測試數據

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓練速度以及更高的吞吐量。

3. API

SOK 提供了簡潔的、類 TensorFlow 的 API;使用 SOK 的方式非常簡單、直接;讓用戶通過修改幾行代碼就可以使用 SOK。

1. 定義模型結構

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側是使用 TensorFlow 的 API 來搭建模型,右側是使用 SOK 的 API 來搭建相同的模型。使用 SOK 來搭建模型的時候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對應的 API 即可。

2. 使用 Horovod 來定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側是使用 TensorFlow 來定義 training loop,右側是使用 SOK 時,training loop 的定義方式。可以看到,使用 SOK 時,只需要對 Embedding Variables 和 Dense Variables 進行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類似的,還可以使用 TensorFlow 自帶的通信工具來定義 training loop。

4. 開始訓練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開始訓練過程時,使用 SOK 與使用 TensorFlow 時所用代碼完全一致。

4. 結語

SOK 將 HugeCTR 中的高級特性包裝為 TensorFlow 可以直接使用的模塊,通過修改少數幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進設計。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135453
  • SOK
    SOK
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6474

原文標題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPU 利用率<30%?這款開源智算云平臺讓算力不浪費 1%

    作為 AI 開發者,你是否早已受夠這些困境:花數百萬采購的 GPU 集群,利用率常年低于 30%,算力閑置如同燒錢;跨 CPU/GPU/NPU 異構資源調度難如登天,模型訓練卡在資源分
    的頭像 發表于 01-26 14:20 ?184次閱讀

    在Ubuntu20.04系統訓練神經網絡模型的一些經驗

    本帖欲分享在Ubuntu20.04系統訓練神經網絡模型的一些經驗。我們采用jupyter notebook作為開發IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數字識
    發表于 10-22 07:03

    提高RISC-V在Drystone測試中得分的方法

    速度。 優化內存系統:優化內存控制器設計,提高內存的讀寫速度、降低延遲,或者增大內存帶寬。 優化指令集和編譯器:通過優化或定制指令集,以及優化編譯器來生成更高效的機器代碼。 軟件優化:對運行的軟件進行優化
    發表于 10-21 13:58

    NVIDIA Isaac Lab多GPU多節點訓練指南

    NVIDIA Isaac Lab 是一個適用于機器人學習的開源統一框架,基于 NVIDIA Isaac Sim 開發,其模塊化高保真仿真適用于各種訓練環境,可提供各種物理 AI 功能和由 GPU 驅動的物理仿真,縮小仿真與現實世界之間的差距。
    的頭像 發表于 09-23 17:15 ?2409次閱讀
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多節點<b class='flag-5'>訓練</b>指南

    PCIe協議分析儀能測試哪些設備?

    場景:監測GPU與主機之間的PCIe通信,分析數據傳輸效率、延遲和帶寬利用率。 應用價值:優化大規模AI訓練任務的數據加載和模型參數同步,例如在多GPU
    發表于 07-25 14:09

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經安裝了cuda和cudnn,在全局的py里添加了torch,能夠調用gpu,當還是只能看到默認的gpu0,顯示不了
    發表于 07-25 08:18

    如何在Ray分布式計算框架下集成NVIDIA Nsight Systems進行GPU性能分析

    在大語言模型的強化學習訓練過程中,GPU 性能優化至關重要。隨著模型規模不斷擴大,如何高效地分析和優化 GPU 性能成為開發者面臨的主要挑戰之一。
    的頭像 發表于 07-23 10:34 ?2401次閱讀
    如何在Ray分布式計算框架下集成NVIDIA Nsight Systems<b class='flag-5'>進行</b><b class='flag-5'>GPU</b>性能分析

    別讓 GPU 故障拖后腿,捷智算GPU維修室救場!

    在AI浪潮洶涌的當下,GPU已然成為眾多企業與科研機構的核心生產力。從深度學習模型訓練,到影視渲染、復雜科學計算,GPU憑借強大并行計算能力,極大提升運算效率。然而,就像高速運轉的精密儀器易出狀況
    的頭像 發表于 07-17 18:56 ?1149次閱讀
    別讓 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>維修室<b class='flag-5'>來</b>救場!

    利用API提升電商用戶體驗:個性化推薦系統

    ? 在當今競爭激烈的電商環境中,個性化推薦系統已成為提升用戶粘性和轉化率的核心工具。通過API(Application Programming Interface)集成,電商平臺能夠高效接入先進
    的頭像 發表于 07-14 14:45 ?590次閱讀
    <b class='flag-5'>利用</b>API提升電商用戶體驗:個性化推薦<b class='flag-5'>系統</b>

    SL3075 dcdc65V耐壓 5A電流高效率降壓芯片替換TPS54340

    某些應用場景下,可能無法完全滿足設計者的需求。本文將介紹一款能夠高效替換TPS54340的芯片——SL3075,詳細闡述其特性、優勢及應用場景。 SL3075概述SL3075是由深圳市森利威爾電子
    發表于 07-10 17:25

    Vicor高效電源模塊優化自動駕駛系統

    低壓(48V)自動駕駛電動穿梭車配備了先進的自動駕駛系統能夠在復雜的城市道路上自動行駛。GPU 和傳感器是自動駕駛系統的關鍵組件,依賴高性能的 ATX 電源。這些電源必須緊湊輕便以適
    的頭像 發表于 05-26 11:29 ?997次閱讀

    提升AI訓練性能:GPU資源優化的12個實戰技巧

    在人工智能與機器學習技術迅速發展的背景下,GPU計算資源的高效利用已成為關鍵技術指標。優化的GPU資源分配不僅能顯著提升模型訓練速度,還能實
    的頭像 發表于 05-06 11:17 ?1546次閱讀
    提升AI<b class='flag-5'>訓練</b>性能:<b class='flag-5'>GPU</b>資源優化的12個實戰技巧

    電機高效再制造在企業生產中的應用

    電機高效再制造,就是將低效電機通過重新設計、更換零部件等方法,再制造成高效率電機或適用于特定負載和工況的系統節能電機(變極電機、變頻電機、永磁電機等)。其目的是使再制造后電機的效率達到IE2(
    發表于 04-07 17:31

    利用RAKsmart服務器托管AI模型訓練的優勢

    AI模型訓練需要強大的計算資源、高效的存儲和穩定的網絡支持,這對服務器的性能提出了較高要求。而RAKsmart服務器憑借其核心優勢,成為托管AI模型訓練的理想選擇。下面,AI部落小編為您具體分享。
    的頭像 發表于 03-18 10:08 ?691次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現了高效的混合
    的頭像 發表于 03-17 17:05 ?1526次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力AI<b class='flag-5'>訓練</b>