国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于TensorFlow的阿里巴巴本地生活推薦系統

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-11 17:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

本案例中,阿里巴巴本地生活場景中,部署了大量使用 TensorFlow深度學習推薦模型,這些模型需要對每個用戶附近的數千家商戶和產品進行排名,對用戶響應時間和業務吞吐量(QPS)要求極高。為了滿足這樣的要求 GPU 落地使用是必然,但由于 TensorFlow 目前對 GPU 使用采用單一 steam 方式,并且逐個調用 GPU 算子的過程中存在大量的 GPU kernel 啟動開銷, 因此如何在這些系統中充分發揮 GPU 計算能力則需要探索。

阿里巴巴本地生活推薦系統結合 NVIDIA CUDA Graphs 對 GPU 進行算力釋放優化,讓推理過程單機吞吐增長 110%,耗時 P99 下降 66.7%。

本案例主要應用到 NVIDIA V100 Tensor Core GPU 和 NVIDA CUDA Graphs。

客戶簡介及應用背景

阿里巴巴集團旗下的阿里巴巴本地生活服務公司,是由餓了么和口碑會師合并組成國內領先的本地生活服務平臺,使命是“重新定義城市生活,讓生活更美好。”口碑專注到店消費服務,餓了么專注到家生活服務,蜂鳥即配專注即時配送服務,客如云專注為商家提供數字化升級的產品和服務,共同推動本地生活市場的數字化,讓天下沒有難做的生意。

阿里巴巴本地生活服務公司智能推薦系統基于智能AI系統對用戶所在區域萬級商戶商品進行實時智能推薦和服務。實時智能推薦伴隨著深度學習技術的發展,為了追求智能推薦的準確度,推薦模型朝著兩個維度快速發展:1. 更寬更深的網絡,更復雜的特征增強方式。2. 更多的不同維度的特征。這對在線推理階段的實時性能和算力提出了更高的挑戰。伴隨著搜索推薦模型的在 GPU 的廣泛落地使用,GPU 在各個場景下的算力優化也被廣泛關注。

在線 Inference 過程中,由于考慮到存儲 cache 的友好性,會把計算密集型算子和其周邊的數據變換算子都在 GPU 中執行,算子數量的增長會導致嚴重的 kernel 啟動開銷,主要原因是:1. 大量小 kernel 的執行

2. TensorFlow 的調度機制使得通過大量的線程啟動 kernel 到同一個 stream 中;多個線程競爭同個資源加劇 launch 開銷。

客戶挑戰

在阿里巴巴本地生活推薦搜索場景中,有大量的深度學習模型在用戶和商戶,用戶和商品匹配場景中使用,但是總體來看 GPU-Utilization 并不高,GPU 使用成本顯得比較高。隨著模型復雜度不斷攀升(Inference 計算達到 10~20 GFLOPS),算法同學的收益產出一定程度上和模型復雜度成正比關系。目前搜推廣的模型設計中部分子結構設計和變換很多,但是基本范式如下:

Feature Generation -》 Embedding -》 Attention/Transformer -》 MLP

綠色部分基本屬于計算密集型部分,但是在搜推廣場景中,這部分算子不但包含對于算力需求旺盛的深度網絡相關算子,也包含數據合并,數據變換等輕量級計算算子,這類算子的特點是:運算時長通常很短(1-10 微秒),而且這一類輕量級計算算子的數量伴隨著 Transformer 的落地,數量占比逐步增高。

我們從另一個角度來量化這一過程輕量級計算算子的數量占比,GPU 的繁忙情況通常來說有兩個指標:

1. GPU-Utilization,表示 GPU 在單位時間內在執行 kernel 的時間片比例。

2. SM Activity,表示 GPU 中 SM 在單位時間內用于執行 kernel 的 SM 使用比例*時間片比例。

我們可以看到在推薦搜索模型線上 Inference 過程中 SM Activity 通常遠遠低于 GPU-Utilization,這表示 GPU 雖然在忙碌,但是由于輕量級計算算子的數量占比較高,SM 使用比例使用比例不高,GPU 的實際 “工作量” 并不大。

輕量級計算算子的比例高會導致該部分算子在 CPU 上調度過程中 kernel launch 的執行時長遠遠大于算子在 GPU 上的執行時長,這個現象會導致嚴重的 kernel launch bound 現象。

pYYBAGJT9cOAWBKFAAAsG_KhnbY467.png

應用方案

基于以上挑戰,阿里巴巴本地生活搜索推薦模型選擇了 NVIDIA 提供的 AI 加速方案:CUDA Graphs。

1、首先,我們根據業務場景的具體問題,使用 NVIDIA Nsight Systems 進行問題定位和分析。我們利用 NVIDIA Nsight Systems 集成到線上 Inference 環境中,獲取了真實環境下 Inference 過程的 GPU Profing 文件。通過 Profing 文件,我們可以清晰的看到 Inference 過程中,kernel launch bound 現象異常嚴重,符合我們的分析預想(如下圖)。

poYBAGJT9cuAPLIxAAClZF52Kso979.png

2、后續,我們采用集成 CUDA Graphs 進行模型 Inference 過程優化,理論上 CUDA Graphs 會大幅緩解 kernel launch bound 現象,因為 CUDA Graphs 會合并 N 個 kernel 獨立的 launch 操作,變為 1 個 graph launch 操作,這樣 kernel launch 不再是整個推理的瓶頸(如下圖)。

poYBAGJT9dGACNttAACPZanBkeY752.png

使用效果及影響

經過集成 NVIDIA Nsight System 進行 GPU 使用情況查看和細節問題的診斷,我們充分了解和分析了業務中對 GPU 的使用情況的 kernel 執行流程。對性能進一步優化起到了指導作用。后續集成 CUDA Graphs 后,符合預期效果。推薦深度學習模型在 Inference 過程中的耗時 P99 下降 66%,單機吞吐提升 110%。讓用戶在毫無感知的時間范圍內完成了模型算力達到 10 GFLOPS 的 Inference 過程,用戶體驗得到了極大的提升。

在使用 NVIDIA Nsight Systems 進行 GPU 瓶頸分析過程中,文檔查閱和使用教程很方便上手,集成過程也較為方便,指標介紹很豐富,快速完成 GPU 使用情況分析。后續 CUDA Graphs 使用過程中,相關文檔也比較完善,包括圖的切割和分裝,算子 Capture 標準等。

本次優化過程,團隊內部積累了一套較為完善的 GPU 優化手段和優化方法理論,后續遇到其他模型性能問題時也有的放矢。多場景進行優化后,對整個 GPU。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109731
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135450
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301404
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    海外電商平臺阿里巴巴國際站獲取商品詳情的API接口

    ? 在跨境電商領域,阿里巴巴國際站(Alibaba.com)是一個領先的平臺,為企業提供全球貿易服務。其API接口允許開發者通過編程方式獲取商品詳情,便于構建自動化工具或集成到第三方系統。本文將
    的頭像 發表于 11-14 15:36 ?477次閱讀
    海外電商平臺<b class='flag-5'>阿里巴巴</b>國際站獲取商品詳情的API接口

    萬豪國際集團與阿里巴巴達成AI時代戰略合作 升級賓客旅行體驗

    杭州2025年11月11日 /美通社/ -- 萬豪國際集團日近日宣布與阿里巴巴集團達成AI時代戰略合作伙伴關系,雙方將在中國市場圍繞云基礎設施、AI應用創新等領域深度合作,為賓客創造個性化、高品質
    的頭像 發表于 11-11 22:47 ?230次閱讀
    萬豪國際集團與<b class='flag-5'>阿里巴巴</b>達成AI時代戰略合作 升級賓客旅行體驗

    阿里巴巴宣布與英偉達開展Physical AI合作

    行業芯事行業資訊
    電子發燒友網官方
    發布于 :2025年09月25日 11:32:26

    阿里巴巴開放平臺商品詳情接口實操:數據解析 + 核心實現方案(附避坑指南)

    本文提供阿里巴巴商品詳情接口的實用開發指南,涵蓋B2B場景下的核心功能實現。重點解析接口基礎參數、關鍵返回字段(價格梯度、SKU、供應商信息)及典型應用場景(采購決策、供應商評估)。通過精簡代碼示例
    的頭像 發表于 09-17 13:54 ?542次閱讀

    博世與阿里巴巴集團深化戰略合作

    9月2日,全球領先的汽車技術與服務商博世與阿里巴巴集團宣布深化戰略合作伙伴關系,以先進的云計算與人工智能技術加速推動企業數字化轉型。雙方將重點聚焦云端驅動的企業運營、AI賦能的業務創新,以及電商領域的拓展。
    的頭像 發表于 09-02 16:09 ?688次閱讀

    中國電信與阿里簽署戰略合作協議 發力云和AI基礎設施

    在8月31日,中國電信與阿里簽署戰略合作協議;中國電信董事長柯瑞文、阿里巴巴集團首席執行官吳泳銘、中國電信副總經理唐珂、阿里巴巴集團副總裁李津見證簽約,中國電信總經理助理胡志強與阿里巴巴
    的頭像 發表于 08-31 20:16 ?1245次閱讀

    阿里巴巴國際站關鍵字搜索 API 實戰:從多條件篩選到商品列表高效獲客

    ??在跨境電商數據采集場景中,通過關鍵字精準搜索商品列表是基礎且核心的需求。本文將聚焦阿里巴巴國際站的關鍵字搜索接口,詳細介紹如何構建多條件搜索請求、處理分頁數據、解析商品列表信息,并提供可直接復用的 Python 實現方案,幫助開發者快速搭建穩定高效的商品搜索功能。
    的頭像 發表于 08-20 09:22 ?948次閱讀
    <b class='flag-5'>阿里巴巴</b>國際站關鍵字搜索 API 實戰:從多條件篩選到商品列表高效獲客

    阿里巴巴達摩院劉志偉:QEMU RISC-V 的進展、特性與未來規劃

    2025 年 7 月 18 日,在第五屆(2025)RISC-V 中國峰會的軟件與生態系統分論壇上,阿里巴巴達摩院 RISC-V 及生態部技術專家劉志偉帶來了關于 QEMU RISC-V 的報告
    發表于 07-18 11:20 ?5710次閱讀
    <b class='flag-5'>阿里巴巴</b>達摩院劉志偉:QEMU RISC-V 的進展、特性與未來規劃

    探訪阿里巴巴展廳合作的無人超市:如何讓結賬速度提升300%

    在傳統超市里,排隊結賬往往是一場“耐力考驗”——高峰期平均等待時間超過15分鐘,收銀員掃碼失誤引發的糾紛屢見不鮮。但在阿里巴巴展廳合作的遠景達無人超市,這個數字被徹底改寫:消費者從選品到離店僅需15
    的頭像 發表于 07-13 00:00 ?855次閱讀
    探訪<b class='flag-5'>阿里巴巴</b>展廳合作的無人超市:如何讓結賬速度提升300%

    阿里2025財年業績:凈利潤大漲77%,AI+云業務攬下千億收入

    。 ? 圖:阿里巴巴2025財年年報 ? 阿里巴巴的業務包括淘天集團、阿里國際數字商業集團、云智能集團、菜鳥集團、本地生活集團、虎鯨文娛集團
    的頭像 發表于 06-28 00:10 ?8538次閱讀
    <b class='flag-5'>阿里</b>2025財年業績:凈利潤大漲77%,AI+云業務攬下千億收入

    求大神!米家mish和WiFi版配件求大神!米家mish和WiFi版配件

    阿里巴巴上沒有找到,要超薄的哦
    發表于 06-01 10:31

    壁仞科技完成阿里巴巴通義千問Qwen3全系列模型支持

    4月29日,阿里巴巴通義千問發布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發布后數小時內,壁仞科技完成全系列支持,并率先在壁仞科技開發者云平臺上線。 性能卓越
    的頭像 發表于 04-30 15:19 ?1587次閱讀

    普華基礎軟件蒞臨阿里巴巴達摩院調研交流

    近日, 普華基礎軟件股份有限公司(以下簡稱普華基礎軟件)董事、總經理劉宏倩一行前往阿里巴巴達摩院(杭州)科技有限公司(以下簡稱達摩院)調研交流,阿里巴巴集團高層及達摩院核心團隊參與了本次調研交流活動
    的頭像 發表于 04-08 10:10 ?1138次閱讀

    阿里云爆發式的跨越

    蘋果最終選擇了阿里巴巴作為它們在中國的本地化合作伙伴! 2月13日,在迪拜舉辦的World Governments Summit 2025峰會上,阿里巴巴董事局主席蔡崇信自豪地宣布了這則消息。 他還
    的頭像 發表于 03-12 16:54 ?794次閱讀
    <b class='flag-5'>阿里</b>云爆發式的跨越

    Arm與阿里巴巴合作加速端側多模態AI體驗

    Arm 控股有限公司(納斯達克股票代碼:ARM,以下簡稱“Arm”)近日發布與阿里巴巴淘天集團輕量級深度學習框架 MNN 的又一新合作。
    的頭像 發表于 03-10 09:07 ?1225次閱讀