国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Triton助力騰訊PCG加速在線推理

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

本案例中通過NVIDIA T4 GPU,通過Ronda平臺調用Triton以及TensorRT, 整體提升開發和推理效能, 幫助騰訊PCG的多個服務整體效能提升2倍,吞吐量最大提升6倍,同時降低了40%的延時。本案例主要應用到 NVIDIA T4 GPU、TensorRT和Triton。

本案例主要應用到 NVIDIA T4 GPU、TensorRT和Triton。

客戶簡介及應用背景

騰訊平臺與內容事業群(簡稱 騰訊PCG)負責公司互聯網平臺和內容文化生態融合發展,整合QQ、QQ空間等社交平臺,和應用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業等內容業務,推動IP跨平臺、多形態發展,為更多用戶創造海量的優質數字內容體驗。

騰訊PCG機器學習平臺部旨在構建和持續優化符合PCG技術中臺戰略的機器學習平臺和系統,提升PCG機器學習技術應用效率和價值。建設業務領先的模型訓練系統和算法框架;提供涵蓋數據標注、模型訓練、評測、上線的全流程平臺服務,實現高效率迭代;在內容理解和處理領域,輸出業界領先的元能力和智能策略庫。機器學習平臺部正服務于PCG所有業務產品。

客戶挑戰

業務繁多,場景復雜

業務開發語言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預處理涉及圖片下載等網絡io

多模型融合流程比教復雜,涉及循環調用

支持異構推理

模型推理結果異常時,難以方便地調試定位問題

需要與公司內現有協議/框架/平臺進行融合

應用方案

基于以上挑戰,騰訊PCG選擇了采用NVIDIA 的Triton推理服務器,以解決新場景下模型推理引擎面臨的挑戰,在提升用戶研效的同時,大幅降低了服務成本。

NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產環境中使用 AI。Triton 支持多模型ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯合推理的場景,構建起視頻、圖片、語音、文本整個推理服務過程,大大降低多個模型服務的開發和維護成本。

基于C++ 的基礎架構、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業務的低延時需求,成本也降低了20%-66%。

通過將Triton編譯為動態鏈接庫,可以方便地鏈入公司內部框架,對接公司的平臺治理體系。符合C語言規范的API也極大降低了用戶的接入成本。

借助Python Backend和Custom Backend,用戶可以自由選擇使用C++/Python語言進行二次開發。

Triton的Tracing能力可以方便地捕捉執行過程中的數據流狀態。結合Metrics 和 Perf Analysis等組件,可以快速定位開發調試,甚至是線上問題,對于開發和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數據增強和圖像加載庫。DALI Backend可以用于替換掉原來的圖片解碼、resize等操作。FIL Backend也可以替代Python XGBoost模型推理,進一步提升服務端推理性能。

方案效果及影響

借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend,以及 TensorRT,整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊PCG各業務場景中,以更低的成本構建了高性能的推理服務,同時更低的延遲降低了整條系統鏈路的響應時間,優化了用戶體驗。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109728
  • C++
    C++
    +關注

    關注

    22

    文章

    2124

    瀏覽量

    77112
  • python
    +關注

    關注

    57

    文章

    4876

    瀏覽量

    90029
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統整合了 NVIDIA 在計算、網絡和軟件領域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺的十分之一,可
    的頭像 發表于 01-14 09:14 ?606次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發表于 10-21 11:04 ?1170次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發進程

    ? 由 NVIDIA、Google DeepMind 以及 Disney Research 聯合開發的開源物理引擎 Newton,現可在 NVIDIA Isaac Lab 中使用。這一物理引擎將助力
    的頭像 發表于 09-30 09:52 ?3070次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源模型與仿真庫<b class='flag-5'>加速</b>機器人研發進程

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1781次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發布

    NVIDIA三臺計算機解決方案如何協同助力機器人技術

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機器人到機器人工廠等基于物理 AI 的系統的開發,貫穿訓練、仿真和
    的頭像 發表于 08-27 11:48 ?2402次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    的發布持續深化了雙方的 AI 創新合作。NVIDIANVIDIA Blackwell 架構上優化了這兩款全新的開放權重模型并實現了推理性能加速,在
    的頭像 發表于 08-15 20:34 ?2301次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實現150萬TPS<b class='flag-5'>推理</b>

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發表于 07-04 14:38 ?2184次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發表于 06-12 15:37 ?1880次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應用的最佳實踐

    NVIDIA助力解決量子計算領域重大挑戰

    NVIDIA 加速量子研究中心提供了強大的工具,助力解決量子計算領域的重大挑戰。
    的頭像 發表于 03-27 09:17 ?1265次閱讀

    NVIDIA加速的Apache Spark助力企業節省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作負載,從而節省數百萬美元。
    的頭像 發表于 03-25 15:09 ?1158次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark<b class='flag-5'>助力</b>企業節省大量成本

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理

    Oracle 數據庫與 NVIDIA AI 相集成,使企業能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和
    的頭像 發表于 03-21 12:01 ?1433次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>助力</b>企業<b class='flag-5'>加速</b>代理式AI<b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
    的頭像 發表于 03-20 15:35 ?1551次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務器的后續產品,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI 模型的 AI 工廠
    的頭像 發表于 03-20 15:03 ?1233次閱讀

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首次實現集成,以幫助全球企業組織
    發表于 03-19 15:24 ?577次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企業<b class='flag-5'>加速</b>代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發者和企業提供業務就緒型基礎,助力構建能夠獨立工作或以團隊形式完成復雜任務的高級 AI 智能體。
    發表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI 模型系列,<b class='flag-5'>助力</b>開發者和企業構建代理式 AI 平臺