国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

美團落實 AI 框架在 GPU 上性能推理的優化實踐

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2021-12-28 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰略,以“吃”為核心,通過科技創新,服務于生活服務業需求側和供給側數字化升級。美團在中國業務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區縣,服務 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規模的提升和業務的精細化運營,業務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰,而 CTR 模型作為推薦系統的核心模型,其效果直接影響業務的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經網絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

GPU 擁有數以千計的計算核心,可以在單機內提供密集的并行計算能力,特別適合深度學習場景,在行業內已經在 CV 、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API ,NVIDIA 建立了完整的 GPU 生態系統。基于此,美團基礎研發平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優化,希望能通過 GPU 強大的計算力,協助美團在 CTR 預測的各業務場景中發揮出最大優勢。

為了解決算力瓶頸及上述各種挑戰,美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV 、NLP 及 CTR 訓練后,也使用了 NVIDIA T4 來提供 CTR 預測支持,大幅提升用戶體驗與服務穩定性。除此之外,時延也是業務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非常苛刻,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

通過 NVIDIA T4 深度優化方案,成功為美團 CTR 模型創造更多應用機會,不僅極大地提升了系統吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU 上性能推理的優化實踐。

美團研發工程師,機器學習平臺預測引擎負責人王新表示,“在美團和英偉達的共同努力下, CTR 預測服務成功的遷移到 GPU 平臺上,在為業務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30 ,進一步提升美團推理服務的效率。”

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11279

    瀏覽量

    224995
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109740
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301414
  • 美團
    +關注

    關注

    0

    文章

    125

    瀏覽量

    11048

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI推理芯片需求爆發,OpenAI欲尋求新合作伙伴

    領域占據主導,其GPU憑借強大的海量數據處理能力,成為全球AI爆炸式增長的重要基石。但隨著AI不斷演進,重點正從大規模訓練轉向對已訓練模型的推理和推斷,
    的頭像 發表于 02-03 17:15 ?1999次閱讀

    使用NORDIC AI的好處

    原始傳感器數據,可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術頁] 降低云依賴與時延 直接在設備推理,很多決策可以“本地實時”完成,
    發表于 01-31 23:16

    YOLO5目標檢測方案-基于米爾RK3576開發板

    與調優提供了一套完整的思路與實踐方案。 PART 01 系統架構與性能目標 1.1 硬件平臺 主控芯片:Rockchip RK3576(四核A72+四核A53,6TOPS NPU,RGA,GPU
    發表于 01-22 19:21

    瑞芯微SOC智能視覺AI處理器

    RK3568B2: 一款性能均衡、接口豐富的中高端AIoT應用處理器,是RK3568的優化版本,主打穩定與可靠性。CPU/GPU: 延續RK3568的4核A55 + G52 GPU架構
    發表于 12-19 13:44

    AI推理需求爆發!高通首秀重磅產品,國產GPU的自主牌怎么打?

    10月29日,在安博會的2025智能算力應用及產業發展論壇,超聚變數字技術有限公司深圳解決方案總監丁元釗表示,原來我們預計2026年是AI推理爆發元年,2025年DeepSeek-R1,V3模型
    的頭像 發表于 10-30 00:46 ?1.4w次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆發!高通首秀重磅產品,國產<b class='flag-5'>GPU</b>的自主牌怎么打?

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現這一目標,其構建了多維度的核心實現路徑:一
    的頭像 發表于 10-21 11:04 ?1175次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    主要步驟: ①溯因②假說③實驗 1、科學推理的類型 ①演繹②歸納 2、自動化科學發現框架 AI-笛卡兒-----自動化科學發現框架,利用數據和知識來生成和評估候選的科學假說。 4項規
    發表于 09-17 11:45

    Arm神經技術是業界首創在 Arm GPU 增添專用神經加速器的技術,移動設備實現PC級別的AI圖形性能

    Arm 神經技術是業界首創在 Arm GPU 增添專用神經加速器的技術,首次在移動設備實現 PC 級別的 AI 圖形性能,為未來的端側
    的頭像 發表于 08-14 17:59 ?2764次閱讀

    基于米爾瑞芯微RK3576開發板部署運行TinyMaix:超輕量級推理框架

    本文將介紹基于米爾電子MYD-LR3576開發平臺部署超輕量級推理框架方案:TinyMaix 摘自優秀創作者-短笛君 TinyMaix 是面向單片機的超輕量級的神經網絡推理庫,即 TinyML
    發表于 07-25 16:35

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    、DDoS攻擊跡象、性能劣化趨勢。l 智能推送優化建議(如流量調度策略調整、安全規則預加載),將風險扼殺在萌芽狀態。 方案價值:AI推理引擎帶來的運維變革 信而泰融合DeepSeek
    發表于 07-16 15:29

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側部署

    本地AI推理,同時大幅降低推理成本,這一成果也標志著ImaginationGPU在端側AI推理場景中的技術領先性。Imagination高度
    的頭像 發表于 07-01 08:17 ?978次閱讀
    Say Hi to ERNIE!Imagination <b class='flag-5'>GPU</b>率先完成文心大模型的端側部署

    提升AI訓練性能GPU資源優化的12個實戰技巧

    在人工智能與機器學習技術迅速發展的背景下,GPU計算資源的高效利用已成為關鍵技術指標。優化GPU資源分配不僅能顯著提升模型訓練速度,還能實現計算成本的有效控制。根據AI基礎設施聯盟2
    的頭像 發表于 05-06 11:17 ?1546次閱讀
    提升<b class='flag-5'>AI</b>訓練<b class='flag-5'>性能</b>:<b class='flag-5'>GPU</b>資源<b class='flag-5'>優化</b>的12個實戰技巧

    RK3588核心板在邊緣AI計算中的顛覆性優勢與場景落地

    推理任務,需額外部署GPU加速卡,導致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網口)無法支持5G模組、高速存儲等現代外設,升級困難。 開發周期長:BSP適配不完善,跨平臺AI
    發表于 04-15 10:48

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 推理優化
    的頭像 發表于 03-20 15:03 ?1235次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能
    的頭像 發表于 03-17 17:05 ?1528次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b>訓練