国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA GPU助力提升模型訓練和推理性價比

GLeX_murata_eet ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2021-08-23 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無量推薦系統承載著騰訊PCG(平臺與內容事業群)的推薦場景,包括: 騰訊看點(瀏覽器、QQ看點、商業化)、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應用寶、小鵝拼拼等。無量推薦系統支持日活躍用戶達數億級別,其中的模型數量達數千個,日均調用服務達到千億級別。無量推薦系統,在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算,是目前業界領先的體系結構設計。

傳統推薦系統面臨挑戰

傳統推薦系統具有以下特點: 訓練是基于參數服務器的框架,解決海量數據和稀疏特征的分布式訓練問題。推理通常分離大規模Embedding和DNN,只能進行DNN的GPU加速。 所以,傳統的推薦系統架構具有一些局限性:1. 大規模分布式架構有大量的額外開銷,比如參數和梯度的網絡收發。2. 隨著DNN模型復雜性的的進一步提升,CPU的計算速度開始捉襟見肘。 隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,給推薦系統后臺帶來了新的挑戰:1. 模型更加復雜,計算量更大,但是參數服務器的分布式架構有效計算比很低。2. 海量Embedding因為規模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優勢。

GPU助力提升模型訓練和推理性價比

基于以上的挑戰,騰訊PCG(平臺與內容事業群)選擇使用基于NVIDIA A100 GPU的分布式系統架構來創建無量推薦系統。

1. 通過多級存儲和Pipeline優化,在HPC上完成大規模推薦模型的GPU的高性能訓練。2. 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數,同時從CPU中動態獲取低頻特征參數,實現了大規模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類型的推薦業務場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應用寶、以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統承載了這些推薦業務場景的模型訓練和推理服務。基于傳統的推薦系統架構,無量推薦系統使用大量CPU資源,通過分布式架構可以擴展到TB級模型的訓練和部署,取得了巨大的成功。隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,傳統架構局限性限制了推薦系統的架構擴展和性能提升。

通過使用GPU訓練和推理,單機多卡的GPU算力可以達到數十臺CPU機器的算力,節省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構可以提升模型訓練和推理性價比1~3倍。

未來,無量推薦系統將不斷優化推薦模型在GPU上的應用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。

重磅!NVIDIA行業微站一睹為快!內容涵蓋NVIDIA主要的12大行業方案,以及NVIDIA當期重點產品資料。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109729

原文標題:NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統

文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA推出代理式AI藍圖與電信推理模型

    借助全新開源大型電信模型NVIDIA Blueprint,電信運營商能夠利用自有數據訓練 AI 智能體,構建自主網絡。
    的頭像 發表于 03-06 17:37 ?427次閱讀

    訓練推理:大模型算力需求的新拐點已至

    在大模型產業發展的早期階段,行業焦點主要集中在大模型訓練所需的算力投入。一個萬億參數大模型訓練可能需要數千張
    的頭像 發表于 02-05 16:07 ?798次閱讀
    從<b class='flag-5'>訓練</b>到<b class='flag-5'>推理</b>:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    曦望發布新一代推理GPU芯片,單位Token推理成本降低90%

    已突破萬片。 ? 啟望S3是專為大模型推理打造的定制化GPGPU芯片。在典型推理場景下,它的整體性價比較上一代提升超10倍。在算力與存儲設計
    的頭像 發表于 01-28 17:38 ?8669次閱讀

    今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發布新一代推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設計更貼合當前MoE和長上下文
    發表于 01-28 11:09 ?392次閱讀

    通過NVIDIA Jetson AGX Thor實現7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進一步優化推理性能。該平臺同時支持推測解碼等新技術,為在邊緣端加速生成式 AI 工作負載提供了
    的頭像 發表于 10-29 16:53 ?1428次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發表于 10-21 11:04 ?1174次閱讀

    利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現了在 AI 網絡、存儲和安全等領域的創新突破。
    的頭像 發表于 09-23 15:25 ?1026次閱讀

    什么是AI模型推理能力

    NVIDIA 的數據工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理
    的頭像 發表于 09-23 15:19 ?1273次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發表于 09-23 14:45 ?923次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術<b class='flag-5'>提升</b>AI<b class='flag-5'>推理性</b>能

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4449次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1781次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    的發布持續深化了雙方的 AI 創新合作。NVIDIANVIDIA Blackwell 架構上優化了這兩款全新的開放權重模型并實現了推理性能加速,在
    的頭像 發表于 08-15 20:34 ?2303次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實現150萬TPS<b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化
    的頭像 發表于 03-20 15:03 ?1233次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    NVIDIA訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI <b class='flag-5'>模型</b>系列,<b class='flag-5'>助力</b>開發者和企業構建代理式 AI 平臺

    摩爾線程GPU原生FP8計算助力AI訓練

    并行訓練推理,顯著提升訓練效率與穩定性。摩爾線程是國內率先原生支持FP8計算精度的國產GPU企業,此次開源不僅為AI
    的頭像 發表于 03-17 17:05 ?1525次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算<b class='flag-5'>助力</b>AI<b class='flag-5'>訓練</b>