国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Triton 系列文章(10):模型并發執行

NVIDIA英偉達企業解決方案 ? 來源:未知 ? 2023-01-05 11:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前面已經做好了每個推理模型的基礎配置,基本上就能正常讓 Triton 服務器使用這些獨立模型進行推理。接下來的重點,就是要讓設備的計算資源盡可能地充分使用,首先第一件事情就是模型并發執行(concurrent model execution)的調試,這是提升 Triton 服務器性能的最基本任務。

Triton 服務器支持的模型并發能力,包括一個模型并發多個推理實例,以及多個模型的多個并發實例。至于能并發多少實例?就需要根據系統上的硬件配置,Triton 支持純 CPU 以及多 GPU 的計算環境。

GPU 是能夠同時執行多個工作負載的計算引擎,Triton 推理服務器通過在 GPU上同時運行多個模型,最大限度地提高性能并減少端到端延遲,這些模型可以完全相同也可以是不同框架的不同模型,顯存大小是唯一限制并發運行模型數量的因素。

下圖顯示了兩個計算模型 compute model 0 與 compute model 1 的示例,假設 Triton 服務器當前處于等待狀態,當 request 0 與 request 1 兩個請求同時到達時,Triton 會立即將這兩個請求調度到 GPU 上(下圖左),開始并發處理這兩個模型的推理計算。

69003688-8cac-11ed-bfe3-dac502259ad0.png

認情況下,Triton 指定系統中的每個可用 GPU 為每個模型提供一個實例,如果同一模型的多個請求同時到達,Triton 將通過在 GPU 上一次只調度一個請求來串行化它們的執行(上圖中)。這樣的方式在管理上是最輕松的,但是執行效率并不好,因為計算性能并未被充分調用。

Triton 提供了一個 “instance_group” 的模型配置選項,通過在模型配置中使用這個字段,可以更改模型的執行實例數,調整每個模型的并發執行數量。

上圖右就是在 model 1 配置文件中,添加 “instance_group” 配置,并且設置 “count: 3” 的參數,這樣就允許一個 GPU 上可以并發三個實例的模型計算,如果用戶端發出超過 3 個推理請求時,則第 4 個 model 1 推理請求就必須等到前三個實例中的任一個執行完之后,才能開始執行。

Triton可以提供一個模型的多個實例,從而可以同時處理該模型的多條推理請求。模型配置 ModelInstanceGroup 屬性用于指定應可用的執行實例的數量以及應為這些實例使用的計算資源。接下來就看看幾個標準用法:

1. 單 CPU 或 GPU 單實例

未添加任何 instance_group 參數時,表示這個模型使用默認的配置,這時該模型可以在系統中可用的每個 GPU 中創建單個執行實例。如果用戶端提出多個請求時,就會在 GPU 設備上按照串行方式執行計算,如同上圖中 compute model 1 的狀態。

2. 單 CPU 或 GPU 并發多實例

實例組設置可用于在每個 GPU 上或僅在某些 GPU 上放置模型的多個執行實例。例如,以下配置將在每個系統 GPU 上放置模型的兩個執行實例。如果要讓模型在一個 GPU 上執行多個并行實例,就將以下的內容寫入模型配置文件內,這里配置的是 2 個并發實例:

instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
  } 
]
如果將上面配置的計算設備配置為 “kind:KIND_CPU” ,就是指定在 CPU 可以并發兩個推理計算。 3. 多 CPU 或 GPU 并發多實例 如果設備上有多個計算設備,不管是 CPU 或 GPU,都可以使用以下配置方式,為模型配置多個并發推理實例:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0 ] 
  }, 
  { 
    count: 2 
    kind: KIND_GPU 
    gpus: [ 1, 2 ] 
  } 
]
這里的內容,表示 Triton 服務器至少啟動 3 個 GPU 計算設備,這個推理模型在編號為 0 的 GPU 上啟動 1 個并發實例,在編號為 1 與 2 的 GPU 上可以同時啟動 2 個并發實例,以此類推。 以上是 instance_group 的基礎配置內容,如果要對每個 GPU 設備的計算資源進行更深層的配置,還可以配合一個“比例限制器配置(Rate Limiter Configuration)”參數設置,對于執行實例進行資源的限制,以便于在不同實例直接取得計算平衡。 這個比例限制器的配置,主要有以下兩部分:
  • 資源(Reousrces)限制:
這個資源主要指的是 GPU 的顯存調用,因為數據在 CPU 與 GPU 之間的交換傳輸,經常在整個計算環節中造成很大的影響,如果當我們需要對同一組數據進行不同的計算,或者計算過程中有流水線前后關系的話,那么將這些需要重復使用的數據保留在 GPU 顯存上,就能非常有效減少數據傳輸次數,進而提升計算效率。 因此我們可以對模型實例提出限制,只有當系統閑置資源能滿足資源需求時,才進行這個推理模型的計算。如果模型配置里沒有提供任何資源限制的需求,那么 Triton 服務器就認定這個模型實例的執行并不需要任何資源,并將在模型實例可用時立即開始執行。 這個配置項里有三個參數內容: (1)“name”字段:資源名稱; (2)“count”字段:組中模型實例需要運行的資源副本數; (3)“global”字段:指定資源是按設備還是在系統中全局共享。 下面是一個簡單的模型配置內容的 instance_group 參數組:
instance_group [ 
  { 
    count: 2 
    kind: KIND_GPU 
gpus: [ 0 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        } 
] 
    } 
  }, 
  { 
    count: 4 
    kind: KIND_GPU 
gpus: [ 1, 2 ] 
    rate_limiter { 
      resources [        
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
} 
  } 
]

  • 第 1 組配置:可并發執行數量為 2,指定使用 gpu[0] 設備,需要名為 “R1” 的計算資源,其內容是需要 2 份設備內存的副本;

  • 第 2 組配置:可并發執行數量為 4,指定使用 gpu[1, 2] 兩個設備,需要名為 “R2” 的計算資源,其內容是需要 4 份全局共享內存的副本,

這里面的并發數量與資源配置數量并不存在線性關系,開發人員必須根據模型所需要數據的張量尺度,以及 GPU 卡顯存大小去進行調配。 Triton 允許我們指定要為推理提供的每個模型的副本數量,默認情況下會獲得每個模型的一個副本,但可以使用 instance_group 在模型配置中指定任意數量的實例。通常擁有一個模型的兩個實例會提高性能,因為它允許 CPU 與 GPU 之間的內存傳輸操作與推理計算重疊。多個實例還通過允許在 GPU 上并發更多推理工作來提高GPU 利用率。
  • 優先級(Priority)設置:
因為計算資源是有限的,因此也可以在資源配置是對其進行優先級的配置,如此也會影響實例進行的先后順序。下面是一個簡單的優先級配置示范:
instance_group [ 
  { 
    count: 1 
    kind: KIND_GPU 
    gpus: [ 0, 1, 2 ] 
    rate_limiter { 
      resources [ 
        { 
          name: "R1" 
          count: 4 
        }, 
        { 
          name: "R2" 
          global: True 
          count: 2 
        } 
      ] 
      priority: 2 
    } 
  } 
] 
上面配置組的 3 個模型實例,每個設備(0、1和2)上執行一個,每個實例需要 4 個 “R1” 和 2 個具有全局資源的 “R2” 資源才能執行,并將比例限制器的優先級設置為 2。 這三個實例之間不會爭奪 “R1” 資源,因為 “R1” 對于它們自己的設備是本地的,但是會爭奪 “R2” 資源,因為它被指定為全局資源,這意味著 “R2” 在整個系統中共享。雖然這些實例之間不爭 “R1”,但它們將與其他模型實例爭奪 “R1“,這些模型實例在資源需求中包含 “R1” 并與它們在同一設備上運行。 這是對所有模型的所有實例進行優先級排序,優先級 2 的實例將被賦予優先級 1 的實例 1/2 的調度機會數。 以上是關于 Triton 服務器“模型并發執行”的基礎內容,后面還有更多關于調度器(scheduler)與批量處理器(batcher)的配合內容,能更進一步地協助開發人員調試系統的總體性能。


原文標題:NVIDIA Triton 系列文章(10):模型并發執行

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4086

    瀏覽量

    99173

原文標題:NVIDIA Triton 系列文章(10):模型并發執行

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優勢是允許開發者基于其構建自定義的 DS
    的頭像 發表于 02-10 10:31 ?240次閱讀

    NVIDIA 推出 Nemotron 3 系列開放模型

    新聞摘要: ● Nemotron 3 系列開放模型包含 Nano、Super 和 Ultra 三種規模,具有極高的效率和領先的精度,適用于代理式 AI 應用開發。 ● Nemotron 3 Nano
    的頭像 發表于 12-16 09:27 ?625次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 <b class='flag-5'>系列</b>開放<b class='flag-5'>模型</b>

    NVIDIA攜手Mistral AI發布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級到緊湊型模型,針對 NVIDIA 平臺進行了優化,助力 Mistral AI 實現云到邊緣分布式智能愿景。
    的頭像 發表于 12-13 09:58 ?1237次閱讀

    NVIDIA推動面向數字與物理AI的開源模型發展

    NVIDIA 發布一系列涵蓋語音、安全與輔助駕駛領域的全新 AI 工具,其中包括面向移動出行領域的行業級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發表于 12-13 09:50 ?1331次閱讀

    利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發

    NVIDIA 最近發布了 NVIDIA Cosmos 開放世界基礎模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數據生成。借助 NVID
    的頭像 發表于 12-01 09:25 ?1131次閱讀

    面向科學仿真的開放模型系列NVIDIA Apollo正式發布

    用于加速工業和計算工程的開放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會上正式發布。
    的頭像 發表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應用開發者都可以構建并部署帶有先進動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓練框架,任何人都可以針對特定用例對現有
    的頭像 發表于 10-21 11:11 ?817次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發進程

    科研人員及開發者打造功能更強大、適應性更強的機器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎模型將為機器人賦予接近人類的推理能力,使其能夠拆解復雜指令,并借助已有知識與常識執行
    的頭像 發表于 09-30 09:52 ?3069次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機器人研發進程

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1780次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發布

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開源其物理 AI 平臺 NVIDIA Cosmos 中的關鍵模型——NVIDIA Cosmos Reason-1-7B。這款先進的多模態大
    的頭像 發表于 07-09 10:17 ?810次閱讀

    鴻蒙5開發寶藏案例分享---應用并發設計

    到性能調優,這些案例都是華為工程師的血淚經驗結晶。下面用最直白的語言+代碼示例,帶你玩轉HarmonyOS并發開發! ?一、ArkTS并發模型:顛覆傳統的設計 傳統模型痛點 graph
    發表于 06-12 16:19

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發表于 06-12 15:37 ?1871次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應用的最佳實踐

    【幸狐Omni3576邊緣計算套件試用體驗】幸狐Omni3576開發板移植YOLOV10和推理測試

    /rknn_model_zoo.git (二)下載模型 執行如下命令下載ONNX模型用于轉換。 chmod a+x download_model.sh ./download_model.sh (三)
    發表于 05-24 12:27

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務器的后續產品,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協調并加速數千個 GPU 之間的推理通信,并使用分離服務將
    的頭像 發表于 03-20 15:03 ?1232次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發者和企業提供業務就緒型基礎,助力構建能夠獨立工作或以團隊形式完成復雜任務的高級 AI 智能體。
    發表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放推理 AI <b class='flag-5'>模型</b><b class='flag-5'>系列</b>,助力開發者和企業構建代理式 AI 平臺