国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA GPU助力美團CTR預測服務升級

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

本案例中美團機器學習平臺使用 NVIDIA GPU 支持其多方面優(yōu)化策略,從而提高吞吐能力及降低響應延遲。通過算子融合、計算圖等價替換等一系列優(yōu)化 ,相較于 CPU 在相同成本約束下,NVIDIA T4 GPU 大幅加速美團 CTR(Click-Through-Rate)模型預測性能,神經網絡模型吞吐能力提升了 10 倍;同時在搜索精排場景中,端到端整體吞吐能力提升了一倍以上,助力美團 CTR 向新一代服務升級。

? 本案例為 NVIDIA GPU 推理加速互聯網行業(yè) CTR 模型的典型應用

? 本案例主要應用到 T4 GPU 和 NVIDIA 各 SDK 以及 CUDA 加速手段

客戶簡介及應用背景

美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過科技創(chuàng)新,服務于生活服務業(yè)需求側和供給側數字化升級。美團在中國業(yè)務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區(qū)縣,服務 6.7 億活躍用戶和 830 萬活躍商家。

伴隨著用戶規(guī)模的提升和業(yè)務的精細化運營,業(yè)務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統的核心模型,其效果直接影響業(yè)務的收入。

客戶挑戰(zhàn)

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經網絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

而 GPU 擁有數以千計的計算核心,可以在單機內提供密集的并行計算能力,特別適合深度學習場景,在行業(yè)內已經在 CV、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API,NVIDIA建立了完整的 GPU 生態(tài)系統。基于此,美團基礎研發(fā)平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優(yōu)化,希望能通過 GPU 強大的計算力,協助美團在 CTR 預測的各業(yè)務場景中發(fā)揮出最大優(yōu)勢。

應用方案

為了解決算力瓶頸及上述各種挑戰(zhàn),美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV、NLP 及 CTR 訓練后,也使用了 NVIDIA T4來提供 CTR 預測支持,大幅提升用戶體驗與服務穩(wěn)定性。除此之外,時延也是業(yè)務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非常苛刻,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

使用效果及影響

通過 NVIDIA T4 深度優(yōu)化方案,成功為美團 CTR 模型創(chuàng)造更多應用機會,不僅極大地提升了系統吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU上性能推理的優(yōu)化實踐。

“在美團和英偉達的共同努力下,我們將 CTR 預測服務成功的遷移到 GPU 平臺上,在為業(yè)務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30,進一步提升美團推理服務的效率。”

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109732
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135450
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301404
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的
    的頭像 發(fā)表于 02-10 10:31 ?243次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產品,其各項核心指標均針對 GPU 加速工作流的
    的頭像 發(fā)表于 01-06 09:51 ?2301次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評測

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    Generation 的全面超越。那么,這款劃時代的專業(yè) GPU 在真實應用場景中的表現究竟如何?今天,我們將通過深度實測,為您揭曉 NVIDIA RTX PRO 4000 Blackwell 相較于前代產品的性能躍遷。
    的頭像 發(fā)表于 12-29 15:30 ?1347次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能測試

    禾賽科技與無人機達成戰(zhàn)略合作

    2025 年 12 月 19 日,全球激光雷達領導者禾賽科技(NASDAQ: HSAI;HKEX: 2525)宣布與無人機達成戰(zhàn)略合作,禾賽第二代純固態(tài)感知定位激光雷達 FTX 正式獲得
    的頭像 發(fā)表于 12-29 14:14 ?3071次閱讀

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現已全面上市,將基于 NVIDIA Blackwell 架構的強大代理式與生成式 AI 能力帶到更多桌面和專業(yè)用戶手中。
    的頭像 發(fā)表于 12-24 10:32 ?832次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB Blackwell <b class='flag-5'>GPU</b>現已全面上市

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來 GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用
    的頭像 發(fā)表于 12-13 10:12 ?1195次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile簡化<b class='flag-5'>GPU</b>編程

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?6303次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能測試

    NVIDIA Isaac Lab多GPU多節(jié)點訓練指南

    NVIDIA Isaac Lab 是一個適用于機器人學習的開源統一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅動的物理仿真,縮小仿真與現實世
    的頭像 發(fā)表于 09-23 17:15 ?2409次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點訓練指南

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構 GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產品 NVIDIA RTX 450
    的頭像 發(fā)表于 08-28 11:02 ?3988次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測試分析

    NVIDIA桌面GPU系列擴展新產品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?1412次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數據中心800G光模塊升級

    器件敏捷調配。 定制化服務:支持OEM/ODM/JDM模式,滿足客戶從標準品到液冷模塊的多元化需求。 這一優(yōu)勢已助力多家頭部云服務商在AI云平臺部署中搶占市場窗口期。 三、廣泛兼容性:平滑升級
    發(fā)表于 08-13 19:01

    光耦的CTR是什么?

    晶體管輸出型光耦的性能,取決于其輸入參數、輸出參數和傳輸特性,傳輸特性決定著其電性能傳送能力和特點。其中最重要的參數為電流傳輸比(Currenttransferratio)CTR,設計電路時,除了
    的頭像 發(fā)表于 06-13 14:32 ?1103次閱讀
    光耦的<b class='flag-5'>CTR</b>是什么?

    Altair One? 云端門戶與 NVIDIA Omniverse 實時數字孿生藍圖完成全面整合

    正式宣布其?Altair One?云端門戶與?NVIDIA Omniverse 實時數字孿生藍圖實現技術融合。通過整合?GPU 加速、NVIDIA NIM 微服務與?Omniverse
    的頭像 發(fā)表于 04-02 14:01 ?667次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級 GPU 和 AI 賦能的開發(fā)者工具—同時,ChatRTX 更新現已支持 NVIDIA NIM,RTX Remix 正式結束測試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?1302次閱讀

    NVIDIA助力解決量子計算領域重大挑戰(zhàn)

    NVIDIA 加速量子研究中心提供了強大的工具,助力解決量子計算領域的重大挑戰(zhàn)。
    的頭像 發(fā)表于 03-27 09:17 ?1265次閱讀