国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NADP+Triton搭建穩(wěn)定高效的推理平臺

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA 郭城 ? 作者:NVIDIA 郭城 ? 2022-10-18 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

業(yè)務(wù)背景

蔚來自動駕駛研發(fā)平臺(NADP)是著力服務(wù)于自動駕駛核心業(yè)務(wù)方向的研發(fā)平臺。平臺化的推理能力作為常規(guī)機器學(xué)習(xí)平臺的重要組成部分,也是 NADP 所重點建設(shè)和支持的能力之一。NADP 所支持的推理業(yè)務(wù),整體上有以下幾個特性:

10% 的業(yè)務(wù)產(chǎn)生 90% 的流量(優(yōu)化重點業(yè)務(wù)收益大);

追求引擎層的高性能;

要求在算法框架,量化加速維度盡可能強的擴展性,為算法業(yè)務(wù)的框架選型, 與后續(xù)可能的加速方案都提供盡可能的兼容;

多個模型有業(yè)務(wù)關(guān)聯(lián),希望能夠滿足多個模型之間串行/或者并行的調(diào)度。

經(jīng)過對眾多方案的對比和篩選,NVIDIA Triton 在上述每一個方面都能滿足蔚來的需求。比如,Triton 支持多個模型或模塊進行 DAG 式的編排。其云原生友好的部署方式,能夠很輕松的做到多 GPU、多節(jié)點的擴展。從生產(chǎn)級別實踐的穩(wěn)定性角度來看,即便是一個優(yōu)秀的開源方案,作為平臺級的核心組件,也是需要長時間、高強度的驗證,才能放心的推廣到最核心業(yè)務(wù)上。經(jīng)過半年的使用,Triton 證明了自己,在保證強大功能的前提下,也提供了很好的穩(wěn)定性。另外,NVIDIA 有著優(yōu)秀的生態(tài)建設(shè)與社區(qū)支持,提供了優(yōu)質(zhì)的 Triton 社區(qū)內(nèi)容和文檔共享,保障了 NADP 的核心推理業(yè)務(wù)遷移到 Triton 方案上,并平穩(wěn)運行至今。

8c09e28e-4e20-11ed-a3b6-dac502259ad0.png

引入 Triton 之后的推理平臺架構(gòu)

8c47e610-4e20-11ed-a3b6-dac502259ad0.png

Triton 在設(shè)計之初,就融入了云原生的設(shè)計思路,為后面逐步圍繞 Triton 搭建完整的云原生平臺性推理解決方案提供了相當大的便利。作為 NADP 推理平臺的核心組件,Triton 與 NADP 的各個組件形成了一套完整的推理一站式解決方案。接下來,將集中在以下 4 個方面具體敘述 Triton 如何在 NADP 推理平臺中提供助力:

集成效率

高性能

易用性

高可用

01

集成效率

Triton + 模型倉庫 + Argo

Triton 與自建模型倉庫深度結(jié)合,配合 workflow 方案 Argo,完成全自動化的生產(chǎn)、量化、準入、云端部署、壓測和上線的 CICD 流程。

具體來講:

模型上傳,模型倉庫自動觸發(fā)配置好的 workflow;

創(chuàng)建與部署環(huán)境硬件環(huán)境一致容器,自動量化加速;

得益于 Triton 生態(tài)中提供的 perf analyzer,可以像使用 jMeter 一樣方便的按照模型的 Input Tensor Shape 自動生成請求與指定的負載。其壓測出的服務(wù)化之后模型的最大吞吐,很接近真實部署場景。

Triton + Jupyter

在 Triton 鏡像中集成了 Jupyter 組件之后,提供開箱即用的開發(fā)調(diào)試環(huán)境,在遇到復(fù)雜問題需要進行線上 debug 或者再線下復(fù)現(xiàn)問題時,Jupyter 能夠提供一個方便的開發(fā)環(huán)境供用戶進行調(diào)試。

02

高性能

Triton + Istio

當前 NADP 服務(wù)的業(yè)務(wù)場景,服務(wù)流量大,主要傳輸 cv 場景視頻文件+高分辨率圖片,必須使用高性能 rpc 協(xié)議進行加速,而且推理服務(wù)引擎必須對現(xiàn)有的 L4 Load Balancer 和服務(wù)發(fā)現(xiàn)方案有比較好的支持性。

而 Triton 原生支持 gRPC 的方案進行訪問,并且能夠很方便的部署為 k8s 容器。但因為 k8s 原生 service 不能夠很好的對 gRPC 進行請求級別的負載均衡(僅支持長連接的負載均衡),故在引入了 isito 之后,Triton 就能夠在傳輸協(xié)議上滿足我們的需求。

具體來講:

集群內(nèi)容器直接訪問只需要一次跨物理機網(wǎng)絡(luò)轉(zhuǎn)發(fā);

完美復(fù)用 k8s 的 readiness 狀態(tài),通過和 Triton 節(jié)點的 liveness/readniess 探針進行服務(wù)的健康監(jiān)控;

后續(xù)結(jié)合模型倉庫/配置中心提供用戶更友好的服務(wù)發(fā)現(xiàn)方式:基于域名的服務(wù)發(fā)現(xiàn)方案切換為基于模型的服務(wù)發(fā)現(xiàn)方案。

03

易用性

Triton + Apollo 配置中心

使用 Apollo 配置中心,可以極大程度提供更多的便利性。將基于域名的服務(wù)發(fā)現(xiàn)提升為基于模型名的服務(wù)發(fā)現(xiàn)。用戶將不需要了解模型所部署的具體的域名即可訪問模型。結(jié)合模型倉庫,用戶可以直接觸發(fā)模型的部署。

具體來講:

用戶在模型倉庫操作上線之后,將會將模型的真實域名寫入配置中心;

用戶使用 NADP 提供的客戶端可以從配置中心獲取到服務(wù)的真實域名,并直接訪問服務(wù);

作為下一步規(guī)劃,當前的方案正在逐步遷移到基于開源的 model mesh 方案的版本上。

04

高可用

Triton + k8s CRD

8ca520fa-4e20-11ed-a3b6-dac502259ad0.png

圍繞 Triton 蔚來搭建了服務(wù) NIO 推理場景的 K8s CRD。它是以下幾個 K8s 原生 CRD 或其他自研 CRD 的組合。而這每一個組件都在一定程度上保障了服務(wù)的高可用。

自動擴縮容規(guī)則(HPA Rule):進行基于流量的自動擴縮容,在服務(wù)流量上升時自動擴容;

Istio service:可靠的 side car 機制,保障 gRPC 流量的服務(wù)發(fā)現(xiàn)和負載均衡;

Ingress:多實例部署,動態(tài)擴容的 Ingress 節(jié)點,保障跨集群流量的訪問;

k8s deploy:在一個推理實例內(nèi)管理至少 3 個 Triton Pod,消除了服務(wù)的單點問題,并且通過 Triton server 加載多個模型的功能,實現(xiàn)多模型混布共享 GPU 算力,而且消除單點的同時不引入額外的 GPU 資源浪費;

Service Monitor:用于 prometheus 指標的收集,隨時監(jiān)控服務(wù)狀態(tài),上報異常信息;

Service Heartbeat Probe:集成了 Triton Perf Analyzer 的 Pod。Triton 生態(tài)中的 Perf Analyzer 工具能夠根據(jù)部署的模型 meta 信息生成真實請求并部署為主動請求探針,在沒有流量的時候監(jiān)控服務(wù)的健康狀態(tài)并主動重啟異常實例,同時上報異常信息。

Triton + Promethus/Grafana

Triton 提供了一套完整的,基于模型維度的模型服務(wù)指標。打點幾乎包括了整個服務(wù)端推理鏈路的每個關(guān)鍵節(jié)點,甚至能夠區(qū)分執(zhí)行推理的排隊時間和計算時間,使得能夠在不需要進入 debug 模式的情況下進行細致的線上模型服務(wù)性能診斷和分析。另外,因為指標的格式支持了云原生主流的 Promethus/Grafana, 用戶能夠非常方便的配置看板和各維度的報警, 為服務(wù)的高可用提供指標支持。

模型的級別時延監(jiān)控

8ccf7eea-4e20-11ed-a3b6-dac502259ad0.png

模型的級別的 qps 監(jiān)控

8d38cf94-4e20-11ed-a3b6-dac502259ad0.jpg

服務(wù)業(yè)務(wù)場景:數(shù)據(jù)挖掘

目前,NADP 數(shù)據(jù)挖掘業(yè)務(wù)下的相關(guān)模型預(yù)測服務(wù)已經(jīng)全部遷移至 Triton Inference Server,為上百個模型提供了高吞吐預(yù)測能力。同時在某些任務(wù)基礎(chǔ)上,通過自實現(xiàn)前處理算子、前后處理服務(wù)化、BLS 串聯(lián)模型等手段,將一些模型任務(wù)合并起來,極大的提升了處理效率。

服務(wù)端模型前處理

通過將服務(wù)的前后處理從客戶端移動到服務(wù)端,不僅能夠在網(wǎng)絡(luò)傳輸上節(jié)省大量的時間,而且 GPU 服務(wù)端(Triton)可以用 Nvjpeg 進行 GPU 解碼,并在 GPU 上做 resize、transpose 等處理。能夠大幅加速前處理,明顯減輕 client 端 CPU 計算壓力。

01

業(yè)務(wù)流程

8d7c6632-4e20-11ed-a3b6-dac502259ad0.png

8daf066e-4e20-11ed-a3b6-dac502259ad0.png

02

收益

傳壓縮圖片,而非 input tensor,只需要幾百 KB 就能將一張 2K 原圖 bytes 傳輸過去,以當前 onemodel 2k 輸入圖片為例,模型輸入必須為 1920*1080*3*8 byte 大小,而且必須走網(wǎng)絡(luò),而在加入服務(wù)端后處理之后,在精度損失允許的范圍內(nèi),可以將原圖改為傳壓縮過的三通道 720P jpg 圖片(1280*720*3),在服務(wù)端在 resize 成 1920*1080*3*8 byte,節(jié)約大量帶寬;

服務(wù)端前處理完成后將 GPU 顯存指針直接送入模型預(yù)測,還能省去 Host2Device 的拷貝;

服務(wù)端可以封裝模型的后處理,使得每次模型升級的時候,client 端不用感知到服務(wù)后處理的變化,從而不需要修改處理邏輯代碼;

使用 nvJpeg,DALI 等使用 GPU 算力的組件來進行前后處理,加速整體的數(shù)據(jù)處理速度。

多模型 DAG 式編排

一個統(tǒng)一的前處理模型,一份輸入復(fù)制多份到多個后端識別模型,該流程在服務(wù)端單 GPU 節(jié)點內(nèi)完成,不需要走網(wǎng)絡(luò),在 Triton + bls/ensemble 的支持下,甚至可以節(jié)約 H2D、D2H 拷貝。

01

業(yè)務(wù)流程

8e660dbe-4e20-11ed-a3b6-dac502259ad0.png

02

收益

當業(yè)務(wù)邏輯強制使用多模型 DAG 式編排多個模型之后,每次產(chǎn)生模型的輸入/輸出都可以疊加服務(wù)端前后處理改造的收益,當前部署的 triton 服務(wù)最多使用 BLS 串聯(lián)了 9 個模型;

對于 2k 分辨率的輸入來講,每幀圖片的大小為 1920 * 1080 * 3 * 8 = 47Mb, 假設(shè)全幀率為 60fps,則每秒輸入數(shù)據(jù)量為 1920 * 1080 * 3 * 8 * 60 = 2847 Mb。如果使用 bls 串聯(lián)了 9 個模型,則每秒需要產(chǎn)生的數(shù)據(jù)傳輸量為 1920 * 1080 * 3 * 8 * 60 * 9 = 25 Gb = 3GB;

如果使用 PCIe 傳輸,假設(shè) PCIe 帶寬為 160Gb = 20GB 每秒, 則理論上每秒產(chǎn)生的數(shù)據(jù)可以節(jié)約 150ms 在數(shù)據(jù)傳輸上;

如果使用網(wǎng)絡(luò)傳輸,假設(shè)可用帶寬為 16Gb=2Gb 每秒,則理論上每秒產(chǎn)生的數(shù)據(jù)可以節(jié)約 1500ms 在數(shù)據(jù)傳輸上。

總結(jié)和展望

NIO 基于 NVIDIA Triton 搭建的推理服務(wù)平臺,在數(shù)據(jù)挖掘業(yè)務(wù)場景下,通過上文詳細介紹的“服務(wù)器端模型前處理”和“多模型 DAG 式編排”,GPU 資源平均節(jié)省 24%;在部分核心 pipeline 上,吞吐能力提升為原來的 5 倍,整體時延降低為原來的 1/6。

另外,NIO 當前已經(jīng)實現(xiàn)了輸入為原始視頻而非抽幀后圖片的預(yù)研版本工作流上線,但只承載了小部分流量。而主要流量還是使用 jpg 壓縮圖片作為輸入的版本。當前只是使用本地腳本完成了數(shù)據(jù)加載和模型推理,后續(xù)會逐步地將當前流程遷移到 Triton 的模型編排能力上。

關(guān)于作者 ——郭城

8eaac68e-4e20-11ed-a3b6-dac502259ad0.png

郭城是 NIO 自動駕駛研發(fā)平臺(NADP)的高級工程師,負責(zé)為 NIO 自動駕駛搭建可靠高效的推理平臺和深度學(xué)習(xí)模型 CICD 工具鏈。在加入 NIO 之前,他在小米技術(shù)委員會參與了小米集團機器學(xué)習(xí)平臺的搭建。他個人對 ML-ops、以及所有其他深度學(xué)習(xí)工程相關(guān)的主題感興趣。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5592

    瀏覽量

    109711
  • Triton
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    7315
  • DAG
    DAG
    +關(guān)注

    關(guān)注

    0

    文章

    17

    瀏覽量

    8439
  • 自動駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14879

    瀏覽量

    179775
  • 云原生
    +關(guān)注

    關(guān)注

    0

    文章

    265

    瀏覽量

    8571

原文標題:技術(shù)博客:NADP + Triton,搭建穩(wěn)定高效的推理平臺

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?476次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務(wù)

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務(wù)。
    的頭像 發(fā)表于 11-13 14:08 ?4111次閱讀
    如何在NVIDIA Jetson AGX Thor上通過Docker<b class='flag-5'>高效</b>部署vLLM<b class='flag-5'>推理</b>服務(wù)

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1773次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    積算科技上線赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型算力

    的模型輕量化部署方案。用戶通過遠程算力平臺預(yù)置的模型鏡像與AI工具,僅需50%的GPU算力即可解鎖大模型推理、企業(yè)知識庫搭建、智能體開發(fā),加速大模型在智能問答、報告生成、客服助手、智能體等典型行業(yè)場景的落地。 ? 赤兔
    的頭像 發(fā)表于 07-30 21:44 ?903次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    學(xué)習(xí)、大規(guī)模數(shù)據(jù)分析等前沿技術(shù)。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語音)和實時交互能力,能夠高效處理代碼生成、復(fù)雜問題求解、跨模態(tài)學(xué)習(xí)等高階任務(wù)。憑借其開源、高效、多
    發(fā)表于 07-16 15:29

    電商API集成入門:從零開始搭建高效接口

    零開始,逐步引導(dǎo)您搭建一個高效、可靠的電商API接口。目標讀者為初學(xué)者,我們將使用簡單語言和實用示例,確保內(nèi)容真實可靠。 什么是電商API? API是軟件系統(tǒng)間交互的橋梁,允許不同應(yīng)用交換數(shù)據(jù)。電商API常見于平臺如淘寶、京東或
    的頭像 發(fā)表于 07-10 14:23 ?576次閱讀
    電商API集成入門:從零開始<b class='flag-5'>搭建</b><b class='flag-5'>高效</b>接口

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應(yīng)用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大模型推理顯存和計算量的估計
    發(fā)表于 07-03 19:43

    迅為RK3576開發(fā)板NPU環(huán)境搭建和使用rknn-toolkit2功能演示連板推理

    迅為RK3576開發(fā)板NPU環(huán)境搭建和使用rknn-toolkit2功能演示連板推理
    的頭像 發(fā)表于 06-23 13:54 ?1207次閱讀
    迅為RK3576開發(fā)板NPU環(huán)境<b class='flag-5'>搭建</b>和使用rknn-toolkit2功能演示連板<b class='flag-5'>推理</b>

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1869次閱讀
    使用NVIDIA <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    猜猜看!CSD 船用變壓器在海洋平臺供電的 “穩(wěn)定核心” 怎么選?

    在廣袤無垠的海洋中,海洋平臺穩(wěn)定運行對于海洋資源開發(fā)、海洋科研以及海上作業(yè)等領(lǐng)域至關(guān)重要。而CSD船用變壓器作為海洋平臺供電系統(tǒng)的核心設(shè)備之一,其性能直接影響著海洋平臺的安全與
    的頭像 發(fā)表于 05-31 00:00 ?829次閱讀
    猜猜看!CSD 船用變壓器在海洋<b class='flag-5'>平臺</b>供電的 “<b class='flag-5'>穩(wěn)定</b>核心” 怎么選?

    使用MicroPython部署中的ocrrec_image.py推理得到的輸出結(jié)果很差,如何解決呢?

    使用在線平臺訓(xùn)練OCR識別任務(wù),測試結(jié)果表現(xiàn)很好。 期待結(jié)果和實際結(jié)果 實際的推理結(jié)果很差,推理不出任何信息。
    發(fā)表于 04-29 06:54

    新品 | Module LLM Kit,離線大語言模型推理模塊套裝

    推理與數(shù)據(jù)交互需求。ModuleLLM是一款集成化的離線大語言模型(LLM)推理模塊,專為需要高效、智能交互的終端設(shè)備設(shè)計。Module13.2LLMMate模塊
    的頭像 發(fā)表于 03-28 18:49 ?1190次閱讀
    新品 | Module LLM Kit,離線大語言模型<b class='flag-5'>推理</b>模塊套裝

    【幸狐Omni3576邊緣計算套件試用體驗】RKNN 推理測試與圖像識別

    推理測試、板端運行等。 介紹 本節(jié)介紹了 RKNN 模型、RKNN-Toolkit2 工具,便于理解和熟悉后續(xù)的開發(fā)環(huán)境搭建流程。 RKNN RKNN 是 Rockchip NPU 平臺使用的模型類型
    發(fā)表于 03-20 16:14

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發(fā)表于 03-20 15:03 ?1231次閱讀

    使用OpenVINO?進行推理時的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進行推理時,內(nèi)存會隨著時間的推移而增加,并導(dǎo)致程序崩潰。
    發(fā)表于 03-06 08:29