国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA推理平臺和全棧方法提供最佳性能

星星科技指導員 ? 來源:NVIDIA ? 作者:Dave Salvator ? 2022-04-08 16:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

三個趨勢繼續推動著人工智能推理市場的訓練和推理:不斷增長的數據集,日益復雜和多樣化的網絡,以及實時人工智能服務。 MLPerf 推斷 0 。 7 是行業標準 AI 基準測試的最新版本,它解決了這三個趨勢,為開發人員和組織提供了有用的數據,以便為數據中心和邊緣的平臺選擇提供信息。

基準測試擴展了推薦系統、語音識別醫學成像系統。它已經升級了自然語言處理( NLP )的工作負載,以進一步挑戰測試中的系統。下表顯示了當前的一組測試。

表 1 。 MLPerf 推斷 0 。 7 工作負載。

*新工作量

此外,針對數據中心和邊緣的多個場景進行了基準測試:

圖 1 。 MLPerf 推理 0 。 7 平臺類別和場景。

NVIDIA 輕松贏得了數據中心和邊緣類別的所有測試和場景。雖然這種出色的性能大部分可以追溯到我們的 GPU 體系結構,但更多的是與我們的工程師所做的出色的優化工作有關,現在開發人員社區可以使用這些工作。

在這篇文章中,我深入研究了導致這些優秀結果的因素,包括軟件優化以提高執行效率,多實例 GPU ( MIG )使一個 A100GPU 最多可以作為七個獨立的 GPUs 運行,以及 Triton 推斷服務器 支持在數據中心規模輕松部署推理應用程序。

檢查的優化

NVIDIA GPUs 支持 int8 和 FP16 的高吞吐量精確推斷,因此您可以在默認情況下獲得出色的推斷性能,而無需任何量化工作。然而,在保持精度的同時將網絡量化到 int8 精度是最高的性能選項,可以使數學吞吐量提高 2 倍。

在本次提交的資料中,我們發現 FP16 需要滿足 BERT 的最高精度目標。對于這個工作負載,我們使用了我們的 FP16 張量核心。在其他工作負載中,我們使用 int8 精度達到了最高精度目標( DLRM 和 3D Unet 的 FP32 的 99 。 9% 以上)。此外, int8 提交的性能得益于 TensorRT 7 。 2 軟件版本中的全面加速。

許多推斷工作負載需要大量的預處理工作。 NVIDIA 開源 DALI 庫旨在加速對 GPU 的預處理并避免 CPU 瓶頸。在本文中,我們使用 DALI 實現了 RNN-T 基準的 wav 到 mel 的轉換。

NLP 推斷對具有特定序列長度(輸入中的單詞數)的輸入文本進行操作。對于批處理推理,一種方法是將所有輸入填充到相同的序列長度。但是,這會增加計算開銷。 TensorRT 7 。 2 增加了三個插件來支持 NLP 的可變序列長度處理。我們提交的 BERT 使用這些插件獲得了超過 35% 的端到端性能。

加速稀疏矩陣處理是 A100 中引入的一種新功能。稀疏化網絡確實需要重新訓練和重新校準權值才能正常工作,因此稀疏性在封閉類別中不是可用的優化,但在開放類別中是允許的。我們的開放類別 BERT 提交使用稀疏性實現了 21% 的吞吐量提高,同時保持了與封閉提交相同的準確性。

了解 MLPerf 中的 MIG

MIG 內存。 MIG 允許您選擇是將 A100 作為單個大的 GPU 操作,還是將多個較小的 GPU 作為一個單獨的大型 GPU 來運行,每個小的 GPU 可以在它們之間隔離的情況下為不同的工作負載提供服務。圖 2 顯示了將此技術用于測試的 MLPerf 結果。

圖 2 。 MIG 與完整 T4 相比的推理性能。

圖 2 比較了單個 MIG 實例與完整的 T4GPU 實例的邊緣脫機性能,因為 A100 最多可支持七個 MIG 實例。您可以看到,超過四個 MIG 測試結果得分高于完整的 T4GPU 。這對應用程序意味著,您可以加載一個包含多個網絡和應用程序的單個 A100 ,并以與 T4 相同或更好的性能運行每個網絡和應用程序。這樣可以減少部署的服務器數量,釋放機架空間,并降低能耗。此外,在單個 A100 上同時運行多個網絡有助于保持 GPU 的高利用率,因此基礎設施管理人員可以優化使用已部署的計算資源。

Triton 推斷服務器

在一個網絡經過訓練和優化之后,它就可以部署了,但這并不像打開交換機那么簡單。在一個以人工智能為動力的服務上線之前,有幾個挑戰需要解決。這包括提供適當數量的服務器來維護 sla ,并確保在 AI 基礎設施上運行的所有服務都有良好的用戶體驗。然而,“正確的數字”可能會隨著時間的推移或由于工作量需求的突然變化而改變。理想的解決方案還可以實現負載平衡,從而使基礎設施得到最佳利用,但不會出現超額訂閱。此外,一些管理者希望在單個 GPUs 上運行多個網絡。 Triton 推斷服務器解決了這些挑戰和其他問題,使基礎設施管理人員更容易部署和維護負責提供人工智能服務的服務器群。

在這一輪中,我們也使用 Triton 推理服務器提交了結果,這簡化了人工智能模型在生產中的大規模部署。這個開源推理服務軟件允許團隊從任何框架( TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 運行時或自定義框架)部署經過訓練的 AI 模型。它們還可以從本地存儲、 Google 云平臺或 Amazon S3 部署在任何基于 GPU – 或 CPU 的基礎設施(云、數據中心或邊緣)上。

圖 3 。 Triton 推斷服務器與 Kubernetes 完全集成。

Triton ?聲波風廓線儀也可作為 Docker 容器提供,是為基于微服務的應用而設計的。 Triton ?聲波風廓線儀與 Kubernetes 緊密集成,實現動態負載平衡,保證所有網絡推理操作順利進行。 Triton ?聲波風廓線儀的 GPU 指標幫助 Kubernetes 將推斷工作轉移到可用的 GPU 上,并在需要時擴展到數百個 GPUs 。新的 Triton ?聲波風廓線儀 2 。 3 支持使用 KFServing 的無服務器推斷、 Python 自定義后端、用于會話式人工智能的解耦推理、支持 A100MIG 以及 Azure ML 和 DeepStream 5 。 0 集成。

圖 4 顯示了 Triton ?聲波風廓線儀與運行 A100 定制推理服務解決方案相比的總體效率,這兩種配置都使用 TensorRT 運行。

圖 4 。 Triton ?聲波風廓線儀在 MLPerf 推理 0 。 7 結果中提供了與高度定制的推理服務實現幾乎相同的性能。

Triton ?聲波風廓線儀的效率很高,在這五個網絡中提供同等或接近它的性能。為了提供這樣的性能,該團隊對 Triton ?聲波風廓線儀進行了許多優化,例如用于與應用程序進行低延遲通信的新的輕量級數據結構、用于改進動態批處理的批處理數據加載以及用于 TensorRT 后端的 CUDA 圖形以獲得更高的推理性能。這些增強功能可作為 20 。 09 Triton ?聲波風廓線儀集裝箱 的一部分提供給每個應用程序。除此之外, Triton ?聲波風廓線儀還簡化了部署,無論是在本地還是在云端。這使得所有網絡推斷都能順利進行,即使在意外的需求高峰來襲時也是如此。

加速推理應用程序

考慮到驅動人工智能推理的持續趨勢, NVIDIA 推理平臺和全棧方法提供了最佳性能、最高通用性和最佳可編程性, MLPerf 推理 0 。 7 測試性能證明了這一點。現在,您和開發人員社區的其他成員都可以使用這些成果,主要是以開源軟件的形式。此外, TensorRT 和 Triton 推理服務器可從 NVIDIA NGC 免費獲得,以及預訓練模型、深度學習框架、行業應用框架和頭盔圖。 A100GPU 已經證明了其充分的推理能力。隨著完整的 NVIDIA 推理平臺, A100GPU 已經準備好迎接最嚴峻的人工智能挑戰。

關于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集團的高級產品營銷經理,專注于超規模、深度學習和推理。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109719
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265278
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統整合了 NVIDIA 在計算、網絡和軟件領域的最新突破,將推理 token 成本降至 NVIDIA Blackwell
    的頭像 發表于 01-14 09:14 ?603次閱讀

    NVIDIA BlueField-4數據處理器重塑新型AI原生存儲基礎設施

    NVIDIA 宣布,NVIDIA BlueField?-4 數據處理器作為 NVIDIA BlueField
    的頭像 發表于 01-09 10:33 ?468次閱讀

    通過NVIDIA Jetson AGX Thor實現7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進一步優化推理性能。該平臺同時支持推測解碼等新技術
    的頭像 發表于 10-29 16:53 ?1422次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的
    的頭像 發表于 10-21 11:04 ?1165次閱讀

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1777次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發布

    自動駕駛中常提的“”是個啥?有必要“”嗎?

    和應用,涵蓋從底層硬件、感知算法、高精地圖、定位與融合,到決策規劃、控制執行、軟件平臺,乃至整車集成與云端服務的完整鏈條。對于希望在激烈的市場競爭中占據一席之地的車企和科技公司來說,似乎代表了掌握核心競爭
    的頭像 發表于 08-27 09:43 ?1136次閱讀
    自動駕駛中常提的“<b class='flag-5'>全</b><b class='flag-5'>棧</b>”是個啥?有必要“<b class='flag-5'>全</b><b class='flag-5'>棧</b>”嗎?

    黑芝麻智能AI機器人計算平臺榮膺國際大獎

    黑芝麻智能AI機器人計算平臺榮膺新加坡年度"GO! Technology Utilisation Winner",作為面向新一代機器人實時AI推理打造的
    的頭像 發表于 08-07 17:35 ?2147次閱讀

    NVIDIA加速代理式AI應用落地

    在近期舉辦的 AWS 中國峰會上,NVIDIA 聚焦于“NVIDIA 加速代理式 AI 應用落地”,深入探討了代理式 AI (Agentic AI) 技術的前沿發展以及在企業級應用
    的頭像 發表于 07-14 11:41 ?1310次閱讀

    大模型推理顯存和計算量估計方法研究

    ,為實際應用提供了有益的參考。 未來,我們將繼續深入研究大模型推理的優化方法,以降低顯存和計算資源的需求,提高深度學習模型在實際應用中的性能
    發表于 07-03 19:43

    NVIDIA技術助力歐洲廠商推出機器人系統與平臺

    基于 NVIDIA 安全的機器人開發平臺,Agile?Robots、Humanoid、Neura?Robotics、Universal Robots、Vorwerk?和?Wande
    的頭像 發表于 06-16 13:54 ?1468次閱讀

    大象機器人攜手進迭時空推出 RISC-V 開源六軸機械臂產品

    全球80多個國家和地區。 近日,大象機器人聯合進迭時空推出全球首款RISC-V開源六軸機器臂“myCobot 280 RISC-V”,為開發者打造全新的機器人開源創新平臺。 “myCobot 280
    發表于 04-25 17:59

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理

    Enterprise 軟件平臺之間的集成,將使 160 多個 AI 工具和 100 多個 NVIDIA NIM 微服務通過 OCI 控制臺以原生方式提供。此外,Oracle 和 NVIDIA
    的頭像 發表于 03-21 12:01 ?1425次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業加速代理式AI<b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化
    的頭像 發表于 03-20 15:03 ?1231次閱讀

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    Oracle Cloud Infrastructure (OCI) 與 NVIDIA AI Enterprise 軟件平臺之間的集成,將使 160 多個 AI 工具和 100 多個 NVIDIA NIM? 微服務通過 OCI
    發表于 03-19 15:24 ?577次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業加速代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    NVIDIA 后訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI 模型系列,助力開發者和企業構建代理式 AI <b class='flag-5'>平臺</b>