国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR系列第2部分:訓(xùn)練大型深度學(xué)習(xí)推薦模型

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Vinh Nguyen ? 2022-04-02 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 Merlin HugeCTR 博文系列的第一部分,我們討論了訓(xùn)練大型深度學(xué)習(xí)推薦系統(tǒng)所面臨的挑戰(zhàn),以及 HugeCTR 如何解決這些問題。

深度學(xué)習(xí)推薦系統(tǒng)可能包含超大型嵌入表,這些嵌入表可能會超出主機(jī)或 GPU 顯存。

我們專為推薦系統(tǒng)設(shè)計(jì)了 HugeCTR。

這是一個(gè)專門用于在 GPU 上訓(xùn)練和部署大型推薦系統(tǒng)的框架。

它為在多個(gè) GPU 或節(jié)點(diǎn)上分配單個(gè)嵌入表提供了不同的策略。

HugeCTR 是 NVIDIA Merlin] 的主要訓(xùn)練引擎,后者是一種 GPU 加速框架,旨在為推薦系統(tǒng)工作提供一站式服務(wù),從數(shù)據(jù)準(zhǔn)備、特征工程、多 GPU 訓(xùn)練到本地或云中的生產(chǎn)級推理。

訓(xùn)練性能和可擴(kuò)展性一直是 HugeCTR 的突出特性,為 MLPerf 訓(xùn)練 v0.7 推薦任務(wù)中的 NVIDIA 獲獎作品提供支持,但我們近期采納了早期采用者和客戶的反饋,以幫助改進(jìn)易用性。

這篇博文將著重討論我們在易用性方面的持續(xù)承諾和近期改進(jìn)。

HugeCTR 是一種定制的深度學(xué)習(xí)框架,使用 CUDA C++ 編寫,專用于推薦系統(tǒng)。

起初,超參數(shù)和神經(jīng)網(wǎng)絡(luò)架構(gòu)在 JSON 配置中定義,然后通過命令行接口執(zhí)行。

近期,我們添加了 Python API,使其更易于使用。

表 1 匯總了命令行和 Python API 之間的主要區(qū)別。

我們建議使用 Python API,并將在后面部分中重點(diǎn)介紹。

但是,如果您對命令行界面感興趣,可以在此處找到一些示例。

表 1:HugeCTR 接口比較。

直接從 Python 配置和訓(xùn)練 HugeCTR

自 v2.3 版本起,HugeCTR 開始提供易于使用的 Python 接口,用于定義模型架構(gòu)、超參數(shù)、數(shù)據(jù)加載程序以及訓(xùn)練循環(huán)。

此接口使 HugeCTR 更接近于數(shù)據(jù)科學(xué) Python 生態(tài)系統(tǒng)和實(shí)踐。

利用此接口的方法有兩種:

1. 類似于 Keras 的高級 Python API

HugeCTR 現(xiàn)在提供了一個(gè)類似 Keras 的高級 Python API 套件,用于定義模型、層、優(yōu)化器和執(zhí)行訓(xùn)練。

下文提供了一個(gè)示例代碼段。

如下所示,此 API 模擬熱門的 Keras 構(gòu)建-編譯-適應(yīng)范式。

2. 低級 Python API

HugeCTR 低級 Python API 允許從 JSON 文件讀取模型定義和優(yōu)化器配置,從而提供向后兼容性。

此外,此 API 允許使用 Python 循環(huán)不斷手動執(zhí)行訓(xùn)練,從而獲得對訓(xùn)練的精細(xì)控制。

在本博客的動手實(shí)踐部分中,我們將詳細(xì)介紹如何使用此 API 基于兩個(gè)數(shù)據(jù)集訓(xùn)練模型。

我們將在以下示例中演示此 API。

使用預(yù)訓(xùn)練的 HugeCTR 模型進(jìn)行預(yù)測

隨著 v3.0 版本的發(fā)布,HugeCTR 增加了對基于 GPU 的推理的支持,可生成許多批次的預(yù)測。

HugeCTR 將參數(shù)服務(wù)器、嵌入緩存和推理會話分離開來,以便更好地管理資源以及更有效地利用 GPU。

參數(shù)服務(wù)器用于加載和管理嵌入表。

對于超過 GPU 顯存的嵌入表,參數(shù)服務(wù)器將嵌入表存儲在 CPU 內(nèi)存上。

嵌入緩存為模型提供嵌入查找服務(wù)。活動嵌入條目存儲在 GPU 顯存上,以便快速查找。

推理會話將這兩者與模型權(quán)重和其他參數(shù)結(jié)合起來,以執(zhí)行前向傳播。

下文提供了初始化 HugeCTR 推理的函數(shù)調(diào)用序列示例。

我們將使用 config_file、embedding_cache 和 parameter_server 初始化 InferenceSession。

HugeCTR Python 推理 API 需要一個(gè) JSON 格式的推理配置文件,該文件類似于訓(xùn)練配置 JSON。

但是,在添加推理子句時(shí),我們需要省略優(yōu)化器和求解器子句。

我們還需要將輸出層更改為 Sigmoid 類型。

推理子句中的 dense_model_file 和 sparse_model_file 參數(shù)應(yīng)設(shè)置為指向由 HugeCTR 訓(xùn)練的模型文件(_dense_xxxx.model 和 0_sparse_xxxx.model)。

我們在 Github 存儲庫中提供了多個(gè)完整示例:電子商務(wù)行為數(shù)據(jù)集和 Microsoft 新聞數(shù)據(jù)集。

我們一起來看一些示例

我們在 Github 存儲庫中提供了 HugeCTR API 的多個(gè)端到端示例。這些筆記本基于實(shí)際數(shù)據(jù)集和應(yīng)用領(lǐng)域提供了完整的 Merlin 演練,從數(shù)據(jù)下載、預(yù)處理和特征工程到模型訓(xùn)練和推理。

1. 高級 Python API 與 Criteo 數(shù)據(jù)集

Criteo 1TB Click Logs 數(shù)據(jù)集是公開可用于推薦系統(tǒng)的大型數(shù)據(jù)集。

它包含約 40 億個(gè)示例的 1.3TB 未壓縮點(diǎn)擊日志。

在我們的示例中,數(shù)據(jù)集使用 Pandas 或 NVTabular 進(jìn)行預(yù)處理,以規(guī)范化連續(xù)特征,并對分類特征進(jìn)行分類。

之后,我們使用 HugeCTR 的高級 API 訓(xùn)練深度和交叉神經(jīng)網(wǎng)絡(luò)架構(gòu)。

首先,我們定義求解器和優(yōu)化器,以使用它初始化 HugeCTR 模型。

然后,我們可以逐層添加,這類似于 TensorFlow Keras API。

最后,我們只需要調(diào)用 .fit() 函數(shù)。

2. 低級 Python API 與電子商務(wù)行為數(shù)據(jù)集

在此演示筆記本中,我們將使用 REES46 營銷平臺中的多品類商店的電子商務(wù)行為數(shù)據(jù)[/u]作為我們的數(shù)據(jù)集。

此筆記本基于 RecSys 2020 大會上的 NVIDIA 教程構(gòu)建而成。

我們使用 NVTabular 進(jìn)行特征工程和預(yù)處理,并使用 HugeCTR 訓(xùn)練 Facebook 深度學(xué)習(xí)推薦系統(tǒng)模型 (DLRM)。

我們針對 Criteo 點(diǎn)擊日志數(shù)據(jù)集改編了一個(gè)示例 Json 配置文件。

需要編輯以與此數(shù)據(jù)集匹配的幾個(gè)參數(shù)為:

slot_size_array:分類變量的基數(shù),可以從 NVTabular 工作流程對象獲取。

dense_dim:密集特征的數(shù)量

slot_num:分類變量的數(shù)量

以下 Python 代碼會按批執(zhí)行參數(shù)更新。

同樣,我們針對 Microsoft 新聞數(shù)據(jù)集提供了第 2 個(gè)示例。

嘗試使用 HugeCTR 的命令行和 Python API 訓(xùn)練推薦系統(tǒng)管線

我們致力于提供用戶友好且易于使用的體驗(yàn),以簡化推薦系統(tǒng)工作流程。

我們近期根據(jù)早期采用者和客戶的反饋對 HugeCTR 接口進(jìn)行了改進(jìn)。

HugeCTR Github 存儲庫提供了有關(guān)如何基于多個(gè)公共數(shù)據(jù)集(從小型到大型數(shù)據(jù)集都包含在內(nèi))使用此新接口的示例。

我們想邀請您針對您自己的領(lǐng)域改編這些示例,并見證 Merlin 的處理能力。

和往常一樣,我們希望通過 Github 以及其他渠道獲得您的反饋。

這是我們 HugeCTR 系列中關(guān)于“使用 HugeCTR 的新 API 訓(xùn)練大型深度學(xué)習(xí)推薦系統(tǒng)模型”的第二篇博文。

下一篇博文將討論如何部署到生產(chǎn)。

關(guān)于作者

Vinh Nguyen 是一位深度學(xué)習(xí)的工程師和數(shù)據(jù)科學(xué)家,發(fā)表了 50 多篇科學(xué)文章,引文超過 2500 篇。在 NVIDIA ,他的工作涉及廣泛的深度學(xué)習(xí)和人工智能應(yīng)用,包括語音、語言和視覺處理以及推薦系統(tǒng)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5597

    瀏覽量

    109793
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    2375

    瀏覽量

    66805
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124406
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    ,并驗(yàn)證輸出結(jié)果,就能不斷提升專業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學(xué)家的工作習(xí)慣。需避免的機(jī)器學(xué)習(xí)深度學(xué)習(xí)數(shù)據(jù)錯(cuò)誤在訓(xùn)練數(shù)據(jù)驅(qū)動的人工智能模型時(shí),我們
    的頭像 發(fā)表于 01-07 15:37 ?203次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(9系列),滿足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(9系列),滿足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作
    發(fā)表于 12-03 13:50

    集裝箱儲能系統(tǒng)標(biāo)準(zhǔn)解析系列(一)|IEC 62933-2-1:電能存儲(EES)系統(tǒng) 2-1部分-儲能單元參數(shù)和試驗(yàn)方法

    IEC 62933-2-1 電能存儲(EES)系統(tǒng) 2-1部分:儲能單元參數(shù)和試驗(yàn)方法
    的頭像 發(fā)表于 11-25 15:40 ?3442次閱讀
    集裝箱儲能系統(tǒng)標(biāo)準(zhǔn)解析<b class='flag-5'>系列</b>(一)|IEC 62933-<b class='flag-5'>2</b>-1:電能存儲(EES)系統(tǒng) <b class='flag-5'>第</b><b class='flag-5'>2</b>-1<b class='flag-5'>部分</b>-儲能單元參數(shù)和試驗(yàn)方法

    集裝箱儲能系統(tǒng)標(biāo)準(zhǔn)解析系列(三)| IEC TS 62933-4-1電能存儲系統(tǒng)(EES) 4-1部分:環(huán)境問題指導(dǎo)

    IEC TS 62933-4-1電能存儲系統(tǒng)(EES) 4-1部分:環(huán)境問題指導(dǎo) 通用規(guī)范
    的頭像 發(fā)表于 11-25 15:11 ?423次閱讀
    集裝箱儲能系統(tǒng)標(biāo)準(zhǔn)解析<b class='flag-5'>系列</b>(三)| IEC TS 62933-4-1電能存儲系統(tǒng)(EES) <b class='flag-5'>第</b>4-1<b class='flag-5'>部分</b>:環(huán)境問題指導(dǎo)

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動駕駛領(lǐng)域,部分廠商開始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過時(shí)”的激烈爭論。然而,從技術(shù)原理、算力成本、安全需求與
    的頭像 發(fā)表于 08-13 09:15 ?4189次閱讀
    自動駕駛中Transformer大<b class='flag-5'>模型</b>會取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    才能做好。 但是Neuton的推出,這個(gè)障礙現(xiàn)在已經(jīng)不存在。 Neuton 是一個(gè)自動生成ML 模型的框架,其大小僅為TensorFlow Lite 等傳統(tǒng)框架的一小部分。對于開發(fā)人員來說,這意味著 要訓(xùn)練
    發(fā)表于 07-31 11:38

    寧暢與與百度文心大模型展開深度技術(shù)合作

    近日,百度正式開源文心大模型4.5系列模型。作為文心開源合作伙伴,寧暢在模型開源首日即實(shí)現(xiàn)即刻部署,做到“開源即接入、發(fā)布即可用”。據(jù)悉,文心4.5開源
    的頭像 發(fā)表于 07-07 16:26 ?880次閱讀

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ”解決方案。 強(qiáng)強(qiáng)聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度
    的頭像 發(fā)表于 07-02 16:53 ?1359次閱讀

    海光DCU率先展開文心系列模型深度技術(shù)合作 FLOPs利用率(MFU)達(dá)47%

    模型深度技術(shù)適配,預(yù)訓(xùn)練模型FLOPs利用率(MFU)達(dá)到47%,在多個(gè)文本與多模態(tài)基準(zhǔn)測試中取得SOTA水平。此次合作標(biāo)志著國產(chǎn)算力基礎(chǔ)設(shè)施與大
    的頭像 發(fā)表于 07-01 14:35 ?2310次閱讀

    兆芯率先展開文心系列模型深度技術(shù)合作

    對文心系列模型的快速適配、無縫銜接。 ? 文心大模型 ? 文心4.5系列開源模型共10款,均使用飛漿
    的頭像 發(fā)表于 07-01 10:49 ?980次閱讀

    模型時(shí)代的深度學(xué)習(xí)框架

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 在 CNN時(shí)代 ,AI模型的參數(shù)規(guī)模都在百萬級別,僅需在單張消費(fèi)類顯卡上即可完成訓(xùn)練。例如,以業(yè)界知名的CNN模型: ResNet50 為例,模型
    的頭像 發(fā)表于 04-25 11:43 ?852次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>框架

    用樹莓派搞深度學(xué)習(xí)?TensorFlow啟動!

    介紹本頁面將指導(dǎo)您在搭載64位Bullseye操作系統(tǒng)的RaspberryPi4上安裝TensorFlow。TensorFlow是一個(gè)專為深度學(xué)習(xí)開發(fā)的大型軟件庫,它消耗大量資源。您可以在
    的頭像 發(fā)表于 03-25 09:33 ?1212次閱讀
    用樹莓派搞<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>?TensorFlow啟動!

    云知聲深度參與三項(xiàng)大模型國家標(biāo)準(zhǔn)編寫

    》、20231746-T-469《人工智能 大模型2部分:評測指標(biāo)與方法》以及20231741-T-469《人工智能大模型
    的頭像 發(fā)表于 03-18 18:19 ?934次閱讀