国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA GPU助力騰訊PCG加速無量推薦系統

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 14:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

? 本案例中通過使用 NVIDIA GPU 加速平臺,騰訊平臺與內容事業群(PCG)深度學習平臺實現了”無量推薦系統”模型訓練到在線推理的全流程GPU加速,整體效能性價比提升1~3倍。

? 本案例主要應用到 NVIDIA A100 Tensor Core GPU以及相關軟件的加速平臺。

客戶簡介及應用背景

無量推薦系統承載著騰訊平臺與內容事業群的推薦場景, 包括: 騰訊看點(瀏覽器,QQ看點,商業化),騰訊新聞,騰訊視頻, 騰訊音樂,閱文,應用寶,小鵝拼拼等。無量推薦系統支持日活躍用戶達數億級別, 其中的模型數量達數千個,日均調用服務達到千億級別。

無量推薦系統在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算, 是目前業界領先的體系結構設計。

客戶挑戰

傳統推薦系統具有以下特點: 訓練是基于參數服務器的框架,解決海量數據和稀疏特征的分布式訓練問題。推理通常分離大規模Embedding和DNN,只能進行DNN的GPU加速。

所以,傳統的推薦系統架構也具有局限性:

大規模分布式架構有大量的額外開銷,比如參數和梯度的網絡收發。

隨著DNN模型復雜性的的進一步提升,CPU的計算速度開始捉襟見肘。

隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,給推薦系統后臺帶來了新的挑戰:

1, 模型更加復雜,計算量更大,但是參數服務器的分布式架構有效計算比很低。

2, 海量Embedding因為規模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優勢。

應用方案

基于以上的挑戰, 騰訊選擇使用基于NVIDIA A100 Tensor Core GPU的分布式系統架構來創建無量推薦系統。

1, 通過多級存儲和Pipeline優化,在HPC上完成大規模推薦模型的GPU的高性能訓練。

2, 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數,同時從CPU中動態獲取低頻特征參數,實現了大規模推薦模型完整的GPU端到端模型推理。

使用效果及影響

騰訊平臺與內容事業群有多種類型的推薦業務場景。比如信息流推薦的QQ瀏覽器、QQ看點,新聞推薦的騰訊新聞,視頻推薦的騰訊視頻、微視,App推薦的應用寶,以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統承載了這些推薦業務場景的模型訓練和推理服務?;趥鹘y的推薦系統架構,無量使用大量CPU資源,通過分布式架構可以擴展到TB級模型的訓練和部署,取得了巨大的成功。

隨著業務的快速增長,日活用戶增多,對其調用數量快速增加,傳統架構局限性限制了推薦系統的架構擴展和性能提升。

通過使用GPU訓練和推理,單機多卡的GPU算力可以達到數十臺CPU機器的算力,節省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。

目前基于GPU的推薦架構可以提升模型訓練和推理性價比1~3倍。

展望未來,無量推薦系統將不斷優化推薦模型在GPU上的應用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5598

    瀏覽量

    109801
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5196

    瀏覽量

    135511
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產品,其各項核心指標均針對 GPU 加速工作流的
    的頭像 發表于 01-06 09:51 ?2416次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評測

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應用正在使用 AI 加速,而無論工作站的大小或形態如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發表于 11-28 09:39 ?6344次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能測試

    NVIDIA推出NVQLink高速互連架構

    NVIDIA 推出 NVIDIA NVQLink,這是一種開放式系統架構,可將 GPU 計算的極致性能與量子處理器緊密結合,以構建加速的量子
    的頭像 發表于 11-03 14:53 ?736次閱讀

    FPGA和GPU加速的視覺SLAM系統中特征檢測器研究

    Nvidia Jetson Orin與AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)與對應FPGA加速方案的性能,得出全新結論。
    的頭像 發表于 10-31 09:30 ?674次閱讀
    FPGA和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的視覺SLAM<b class='flag-5'>系統</b>中特征檢測器研究

    OpenAI和NVIDIA宣布達成合作,部署10吉瓦NVIDIA系統

    此次合作將助力 OpenAI 構建和部署至少 10 吉瓦(gigawatt)的 AI 數據中心,這些數據中心將采用 NVIDIA 系統,包含數百萬塊 NVIDIA
    的頭像 發表于 09-23 14:37 ?1429次閱讀
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布達成合作,部署10吉瓦<b class='flag-5'>NVIDIA</b><b class='flag-5'>系統</b>

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構 GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產品 NVIDIA RTX 450
    的頭像 發表于 08-28 11:02 ?4017次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測試分析

    NVIDIA桌面GPU系列擴展新產品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發表于 08-18 11:50 ?1433次閱讀

    安森美助力NVIDIA AI系統檢測實驗室

    物理AI正在為自動駕駛和機器人開發技術的交叉領域釋放新的可能性,尤其是加速了自動駕駛汽車的開發。正確的技術與框架對確保自動駕駛汽車駕駛員、乘客和行人的安全至關重要。近日,NVIDIA推出
    的頭像 發表于 07-10 16:21 ?831次閱讀

    NVIDIA技術助力歐洲廠商推出機器人系統與平臺

    基于 NVIDIA 安全的全棧機器人開發平臺,Agile?Robots、Humanoid、Neura?Robotics、Universal Robots、Vorwerk?和?Wandelbots 等公司推出 NVIDIA 加速
    的頭像 發表于 06-16 13:54 ?1484次閱讀

    借助NVIDIA技術加速半導體芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 網絡架構和交換機,以及諸如 NVIDI
    的頭像 發表于 05-27 13:59 ?1118次閱讀

    NVIDIA虛擬GPU 18.0版本的亮點

    NVIDIA 虛擬 GPU(vGPU)技術可在虛擬桌面基礎設施(VDI)中解鎖 AI 功能,使其比以往更加強大、用途更加廣泛。vGPU 通過為各種虛擬化環境中的 AI 驅動工作負載提供動力,提高了
    的頭像 發表于 04-07 11:28 ?1444次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發

    NVIDIA GTC 推出新一代專業級 GPU 和 AI 賦能的開發者工具—同時,ChatRTX 更新現已支持 NVIDIA NIM,RTX Remix 正式結束測試階段,本月的 NVIDIA
    的頭像 發表于 03-28 09:59 ?1309次閱讀

    NVIDIA助力解決量子計算領域重大挑戰

    NVIDIA 加速量子研究中心提供了強大的工具,助力解決量子計算領域的重大挑戰。
    的頭像 發表于 03-27 09:17 ?1289次閱讀

    NVIDIA加速的Apache Spark助力企業節省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作負載,從而節省數百萬美元。
    的頭像 發表于 03-25 15:09 ?1170次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark<b class='flag-5'>助力</b>企業節省大量成本

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首次實現集成,以幫助全球企業組織加速創建代理式
    發表于 03-19 15:24 ?580次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企業<b class='flag-5'>加速</b>代理式 AI 推理