案例簡介
本案例中美團機器學習平臺使用 NVIDIA GPU 支持其多方面優(yōu)化策略,從而提高吞吐能力及降低響應延遲。通過算子融合、計算圖等價替換等一系列優(yōu)化 ,相較于 CPU 在相同成本約束下,NVIDIA T4 GPU 大幅加速美團 CTR(Click-Through-Rate)模型預測性能,神經網絡模型吞吐能力提升了 10 倍;同時在搜索精排場景中,端到端整體吞吐能力提升了一倍以上,助力美團 CTR 向新一代服務升級。
? 本案例為 NVIDIA GPU 推理加速互聯網行業(yè) CTR 模型的典型應用
? 本案例主要應用到 T4 GPU 和 NVIDIA 各 SDK 以及 CUDA 加速手段
客戶簡介及應用背景
美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過科技創(chuàng)新,服務于生活服務業(yè)需求側和供給側數字化升級。美團在中國業(yè)務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區(qū)縣,服務 6.7 億活躍用戶和 830 萬活躍商家。
伴隨著用戶規(guī)模的提升和業(yè)務的精細化運營,業(yè)務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統的核心模型,其效果直接影響業(yè)務的收入。
客戶挑戰(zhàn)
美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經網絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。
而 GPU 擁有數以千計的計算核心,可以在單機內提供密集的并行計算能力,特別適合深度學習場景,在行業(yè)內已經在 CV、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API,NVIDIA建立了完整的 GPU 生態(tài)系統。基于此,美團基礎研發(fā)平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優(yōu)化,希望能通過 GPU 強大的計算力,協助美團在 CTR 預測的各業(yè)務場景中發(fā)揮出最大優(yōu)勢。
應用方案
為了解決算力瓶頸及上述各種挑戰(zhàn),美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV、NLP 及 CTR 訓練后,也使用了 NVIDIA T4來提供 CTR 預測支持,大幅提升用戶體驗與服務穩(wěn)定性。除此之外,時延也是業(yè)務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非常苛刻,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。
使用效果及影響
通過 NVIDIA T4 深度優(yōu)化方案,成功為美團 CTR 模型創(chuàng)造更多應用機會,不僅極大地提升了系統吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU上性能推理的優(yōu)化實踐。
“在美團和英偉達的共同努力下,我們將 CTR 預測服務成功的遷移到 GPU 平臺上,在為業(yè)務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30,進一步提升美團推理服務的效率。”
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5594瀏覽量
109732 -
gpu
+關注
關注
28文章
5194瀏覽量
135450 -
AI
+關注
關注
91文章
39793瀏覽量
301404
發(fā)布評論請先 登錄
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
禾賽科技與美團無人機達成戰(zhàn)略合作
NVIDIA RTX PRO 5000 72GB Blackwell GPU現已全面上市
在Python中借助NVIDIA CUDA Tile簡化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
NVIDIA Isaac Lab多GPU多節(jié)點訓練指南
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴展新產品
睿海光電以高效交付與廣泛兼容助力AI數據中心800G光模塊升級
光耦的CTR是什么?
使用NVIDIA GPU助力美團CTR預測服務升級
評論