国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Merlin HugeCTRV 3.8/3.9版本新增內容

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2022-08-24 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架,旨在在多個 GPU 和節點之間分配訓練并估計點擊率(Click-through rate)。

V3.8 版本新增內容

1. 第三代 Embedding 的示例:

這個版本我們新增了一個示例筆記本,介紹了 Embedding 集合的 Python API 以及第三代 Embedding 的使用方法。

2. 用于分級參數服務器查找功能的 DLPack Python API:

這個版本我們引入了對使用 DLPack Python API 從分層參數服務器 (HPS) 查找 Embedding 的支持。新方法是 lookup_fromdlpack()。

3. 使用 Python API 從 HDFS 讀取 Parquet 數據集:

現在您可以通過 DataSourceParams 來指定 Data Reader 的數據源的配置了,例如 Hadoop 分布式文件系統的 NameNode 的主機名和 NameNode 端口號。

4. 提高了日志記錄的性能。

5. 層類的改進:

全連接層現已支持 3 維輸入,Matrix Multiply 層現已支持 4 維輸入。

6. 文檔的改進:

a. 增加了導航長頁面以提供更好的體驗。

b. Criteo 1TB 點擊日志數據集的 URL 已更新。

7. 修復的問題:

修復了 _metadata.json 配置文件內的文件名和實際數據集文件名不一致的問題。

修復了在 AUC 預熱期間在多個 GPU 上運行大型模型時發生的內存崩潰問題。

修復了 ETC 筆記本中鍵集生成的問題。

修復了使用調試模式編譯時發生的編譯錯誤。

修復多節點訓練出現重復日志的問題。

V3.9 版本新增內容

1. 第三代 Embedding 的更新:

更新了 SOK 以使用 HugeCTR 第三代 Embedding 作為開發者預覽版本。

啟用了基于 cuCollection的動態Embedding 模式。動態的Embedding能夠在用戶不配置內存使用信息時自動拓展。

2. 全新的多節點訓練教程:

我們提供了一個全新的基于 HugeCTR 最新 Docker 容器使用多節點訓練的實例。

3. 現已支持 MMoE 模型的離線推理并提供了 Per-class AUC 和平均 AUC 計算。

4. 對 HPS TensorFlow 插件使用的文檔和實例更新:

一個新的簡介文檔。

新的實例筆記本。

新的API文檔。

5. 修復的問題:

修復了一個訓練性能受到 GPU 例程檢查影響的問題。該例程檢查輸入的 key 是否在規定的 Embedding Table 范圍內。對于可以保證輸入的 key 能放在指定的 workspace_size_per_gpu_in_mb 的情況,我們提供了一種解決方法:通過設置環境變量 HUGECTR_DISABLE_OVERFLOW_CHECK=1 來關閉例程檢查,以便恢復訓練性能。

我們修復了一個 Softmax 層的正確性問題。

我們刪除了一個未更新且不再使用的內聯分析器。

已知問題

以下是目前HugeCTR存在的已知問題,我們將在之后的版本中盡快修復。

HugeCTR 使用 NCCL 在 rank 之間共享數據,并且 NCCL 可能需要共享系統內存用于 IPC 和固定(頁面鎖定)系統內存資源。在容器內使用 NCCL 時,建議您通過發出以下命令來增加這些資源 -shm-size=1g -ulimit memlock=-1

另見 NCCL 的 已知問題。

還有 GitHub 問題。

目前即使目標 Kafka broker 無響應,KafkaProducers 啟動也會成功。為了避免與來自 Kafka 的流模型更新相關的數據丟失,您必須確保有足夠數量的 Kafka brokers 啟動、正常工作并且可以從運行 HugeCTR 的節點訪問。

文件列表中的數據文件數量應不小于數據讀取器的數量。否則,不同的 data reader worker 將被映射到同一個文件,導致數據加載不會按預期進行。

正則化器暫時不支持聯合損失訓練。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135461
  • python
    +關注

    關注

    57

    文章

    4876

    瀏覽量

    90037
  • GitHub
    +關注

    關注

    3

    文章

    488

    瀏覽量

    18671

原文標題:HugeCTR v3.8 & v3.9 發布說明

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    索尼更新相機遙控軟件開發包2.01版本

    2026年2月03日,索尼(中國)有限公司正式發布了可通過電腦遠程操控索尼相機的相機遙控軟件開發包(Camera Remote SDK)2.01版本,本次更新帶來了2個新功能,新增支持機型ILCE-7M5、PXW-Z380、DSC-RX1RM3等。
    的頭像 發表于 02-03 16:59 ?664次閱讀

    西門子PCB DFM分析工具Valor NPI 2510版本新增功能

    Valor NPI 2510 版本新增多項檢查功能、提升制造風險識別,并推出令人矚目的 3D 可視化增強特性,這標志著產品的重大升級。Valor NPI 的 3D 視圖經過重新設計,讓可制造性設計 (DFM) 結果的查看更直觀、精準。
    的頭像 發表于 01-04 16:10 ?405次閱讀
    西門子PCB DFM分析工具Valor NPI 2510<b class='flag-5'>版本</b>的<b class='flag-5'>新增</b>功能

    NVIDIA CUDA 13.1版本新增功能與改進

    NVIDIA CUDA 13.1 是自 CUDA 二十年前發明以來,規模最大、內容最全面的一次更新。
    的頭像 發表于 12-13 10:08 ?2208次閱讀

    瑞薩靈活配置軟件包FSP 6.2.0版本的更新內容

    FSP(Flexible Software Package)靈活配置軟件包是瑞薩電子(Renesas)為RA系列微控制器(MCU)家族開發的軟件包。FSP自發布以來經過了數年的更新,現在已經來到了6.2.0版本
    的頭像 發表于 12-11 16:42 ?959次閱讀
    瑞薩靈活配置軟件包FSP 6.2.0<b class='flag-5'>版本</b>的更新<b class='flag-5'>內容</b>

    AMD Vivado Design Suite 2025.2版本現已發布

    AMD Vivado Design Suite 2025.2 版本現已發布,新增對 AMD Versal 自適應 SoC 的設計支持,包含新器件支持、QoR 功能及易用性增強。
    的頭像 發表于 12-09 15:11 ?953次閱讀

    連接標準聯盟正式推出Matter 1.5版本

    連接標準聯盟(Connectivity Standards Alliance, CSA)上周推出 Matter 1.5 版本。該標準新增多個頗具影響力的設備類型及應用場景,包括對攝像頭、閉合設備
    的頭像 發表于 11-30 10:34 ?1081次閱讀

    RT-Thread Studio V2.3.0 版本正式發布!

    RT-ThreadStudioV2.3.0親愛的開發者們,我們很高興地宣布RT-ThreadStudio版本更新啦!V2.3.0版正式發布!RT-ThreadStudioV2.3.0更新內容1新增
    的頭像 發表于 11-29 09:29 ?1118次閱讀
    RT-Thread Studio V2.3.0 <b class='flag-5'>版本</b>正式發布!

    Quartus Prime Pro 25.1版本的安裝和使用

    如果用戶開發板是基于Agilex 3、Agilex 5等高階器件,則需要安裝高版本的Quartus軟件比如Quartus Prime Pro 25.1版本,這個版本在安裝包和license獲取(免費)等方面跟以往的Quartus
    的頭像 發表于 10-07 13:06 ?2674次閱讀
    Quartus Prime Pro 25.1<b class='flag-5'>版本</b>的安裝和使用

    NVIDIA RAPIDS 25.06版本新增多項功能

    RAPIDS 是一套面向 Python 數據科學的 NVIDIA CUDA-X 庫,最新發布的 25.06 版本引入了多項亮眼新功能,其中包括 Polars GPU 流執行引擎——這是一種面向圖
    的頭像 發表于 09-09 09:54 ?1066次閱讀

    0.4 至 3.8 GHz SPDT 開關 skyworksinc

    電子發燒友網為你提供()0.4 至 3.8 GHz SPDT 開關相關產品參數、數據手冊,更有0.4 至 3.8 GHz SPDT 開關的引腳圖、接線圖、封裝手冊、中文資料、英文資料,0.4 至
    發表于 08-01 18:34
    0.4 至 <b class='flag-5'>3.8</b> GHz SPDT 開關 skyworksinc

    CANoe產品體系19版本新特性及新增Option(上)

    版本持續助力當前車輛E/E架構中ECU開發驗證,同時賦能后續智能網聯電動車型預研驗證。新版本CANoe產品體系新增數據驅動的DDS、車輛互聯服務和高效電機模型庫,進一步支持CANXL
    的頭像 發表于 06-11 10:03 ?2917次閱讀
    CANoe產品體系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    【案例3.9】電路板無法啟動的故障分析

    【案例3.9】電路板無法啟動的故障分析【現象描述】某設計,CPU以菊花鏈的方式接兩片Flash存儲器,CPU的引導程序存儲在Flash存儲器中,兩片Flash存儲器互為冗余備份。上電測試發現,多塊
    的頭像 發表于 06-07 09:04 ?774次閱讀
    【案例<b class='flag-5'>3.9</b>】電路板無法啟動的故障分析

    支持HPM6P00/HPM5E00系列!HPMicro Manufacturing Tool v0.6.0發布

    各位先楫的小伙伴久等了,HPMicroManufacturingTool0.6.0版本正式發布啦!該版本包含多個模塊的更新優化,讓我們抓緊時間先睹為快!v0.6.0版本主要更新內容如下
    的頭像 發表于 06-04 08:28 ?2071次閱讀
    支持HPM6P00/HPM5E00系列!HPMicro Manufacturing Tool v0.6.0發布

    如何在Ubuntu 24.04上運行5.4.47版本

    構建 Yocto 包,但并沒有真正工作。第一個問題是 Python 版本。您肯定需要使用 2.7 和 3.9 版本,它們不能直接使用。通過使用 pyenv,可以解決 Python 問題。 現在我最終
    發表于 04-11 06:08

    Altium Designer 25.4.2版本的新功能

    在原理圖元件的屬性中,新增了對動態(條目級)參數的可見性支持。這些動態參數的值可以在源數據庫 / PLM系統中進行更改,并同步到已放置的工作區庫元件中,而無需創建這些元件的新修訂版本。現在,當在
    的頭像 發表于 03-24 11:34 ?1913次閱讀
    Altium Designer 25.4.2<b class='flag-5'>版本</b>的新功能