国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TensorRT的C++接口解析

星星科技指導員 ? 來源:NVIDIA ? 作者:Ken He ? 2022-05-13 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本章說明 C++ API 的基本用法,假設您從 ONNX 模型開始。sampleOnnxMNIST更詳細地說明了這個用例。

C++ API 可以通過頭文件NvInfer.h訪問,并且位于nvinfer1命名空間中。例如,一個簡單的應用程序可能以:

#include “NvInfer.h”

using namespace nvinfer1;

TensorRT C++ API 中的接口類以前綴I開頭,例如ILoggerIBuilder等。

CUDA 上下文會在 TensorRT 第一次調用 CUDA 時自動創建,如果在該點之前不存在。通常最好在第一次調用 TensoRT 之前自己創建和配置 CUDA 上下文。 為了說明對象的生命周期,本章中的代碼不使用智能指針;但是,建議將它們與 TensorRT 接口一起使用。

3.1. The Build Phase

要創建構建器,首先需要實例化ILogger接口。此示例捕獲所有警告消息,但忽略信息性消息:

class Logger : public ILogger           
{
    void log(Severity severity, const char* msg) noexcept override
    {
        // suppress info-level messages
        if (severity <= Severity::kWARNING)
            std::cout << msg << std::endl;
    }
} logger;

然后,您可以創建構建器的實例:

IBuilder* builder = createInferBuilder(logger);

3.1.1. Creating a Network Definition

創建構建器后,優化模型的第一步是創建網絡定義:

uint32_t flag = 1U <
    (NetworkDefinitionCreationFlag::kEXPLICIT_BATCH); 

INetworkDefinition* network = builder->createNetworkV2(flag);

為了使用 ONNX 解析器導入模型,需要kEXPLICIT_BATCH標志。有關詳細信息,請參閱顯式與隱式批處理部分。

3.1.2. Importing a Model using the ONNX Parser

現在,需要從 ONNX 表示中填充網絡定義。 ONNX 解析器 API 位于文件NvOnnxParser.h中,解析器位于nvonnxparserC++ 命名空間中。

#include “NvOnnxParser.h”

using namespace nvonnxparser;

您可以創建一個 ONNX 解析器來填充網絡,如下所示:

IParser*  parser = createParser(*network, logger);

然后,讀取模型文件并處理任何錯誤。

parser->parseFromFile(modelFile, 
    static_cast(ILogger::Severity::kWARNING));
for (int32_t i = 0; i < parser.getNbErrors(); ++i)
{
std::cout << parser->getError(i)->desc() << std::endl;
}

TensorRT 網絡定義的一個重要方面是它包含指向模型權重的指針,這些指針由構建器復制到優化的引擎中。由于網絡是通過解析器創建的,解析器擁有權重占用的內存,因此在構建器運行之前不應刪除解析器對象。

3.1.3. Building an Engine

下一步是創建一個構建配置,指定 TensorRT 應該如何優化模型。

IBuilderConfig* config = builder->createBuilderConfig();

這個接口有很多屬性,你可以設置這些屬性來控制 TensorRT 如何優化網絡。一個重要的屬性是最大工作空間大小。層實現通常需要一個臨時工作空間,并且此參數限制了網絡中任何層可以使用的最大大小。如果提供的工作空間不足,TensorRT 可能無法找到層的實現。默認情況下,工作區設置為給定設備的總全局內存大小;必要時限制它,例如,在單個設備上構建多個引擎時。

config->setMemoryPoolLimit(MemoryPoolType::kWORKSPACE, 1U << 20);

一旦指定了配置,就可以構建引擎。

IHostMemory*  serializedModel = builder->buildSerializedNetwork(*network, *config);

由于序列化引擎包含權重的必要拷貝,因此不再需要解析器、網絡定義、構建器配置和構建器,可以安全地刪除:

delete parser;
delete network;
delete config;
delete builder;

然后可以將引擎保存到磁盤,并且可以刪除它被序列化到的緩沖區。

delete serializedModel

注意:序列化引擎不能跨平臺或 TensorRT 版本移植。引擎特定于它們構建的確切 GPU 模型(除了平臺和 TensorRT 版本)。

3.2. Deserializing a Plan

假設您之前已經序列化了一個優化模型并希望執行推理,您將需要創建一個運行時接口的實例。與構建器一樣,運行時需要一個記錄器實例:

IRuntime* runtime = createInferRuntime(logger);

假設您已將模型從緩沖區中讀取,然后可以對其進行反序列化以獲得引擎:

ICudaEngine* engine = 
  runtime->deserializeCudaEngine(modelData, modelSize);

3.3. Performing Inference

引擎擁有優化的模型,但要執行推理,我們需要管理中間激活的額外狀態。這是通過ExecutionContext接口完成的:

IExecutionContext *context = engine->createExecutionContext();

一個引擎可以有多個執行上下文,允許一組權重用于多個重疊的推理任務。 (當前的一個例外是使用動態形狀時,每個優化配置文件只能有一個執行上下文。)

要執行推理,您必須為輸入和輸出傳遞 TensorRT 緩沖區,TensorRT 要求您在指針數組中指定。您可以使用為輸入和輸出張量提供的名稱查詢引擎,以在數組中找到正確的位置:

int32_t inputIndex = engine->getBindingIndex(INPUT_NAME);
int32_t outputIndex = engine->getBindingIndex(OUTPUT_NAME);

使用這些索引,設置一個緩沖區數組,指向 GPU 上的輸入和輸出緩沖區:

void* buffers[2];
buffers[inputIndex] = inputBuffer;
buffers[outputIndex] = outputBuffer;

然后,您可以調用 TensorRT 的 enqueue 方法以使用CUDA 流異步啟動推理:

context->enqueueV2(buffers, stream, nullptr);

通常在內核之前和之后將cudaMemcpyAsync()排入隊列以從 GPU 中移動數據(如果數據尚不存在)。enqueueV2()的最后一個參數是一個可選的 CUDA 事件,當輸入緩沖區被消耗時發出信號,并且可以安全地重用它們的內存。

要確定內核(可能還有memcpy())何時完成,請使用標準 CUDA 同步機制,例如事件或等待流。

關于作者

Ken He 是 NVIDIA 企業級開發者社區經理 & 高級講師,擁有多年的 GPU 和人工智能開發經驗。自 2017 年加入 NVIDIA 開發者社區以來,完成過上百場培訓,幫助上萬個開發者了解人工智能和 GPU 編程開發。在計算機視覺,高性能計算領域完成過多個獨立項目。并且,在機器人無人機領域,有過豐富的研發經驗。對于圖像識別,目標的檢測與跟蹤完成過多種解決方案。曾經參與 GPU 版氣象模式GRAPES,是其主要研發者。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31073

    瀏覽量

    222181
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109719
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135431
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    keil實現cc++混合編程

    起因項目中使用到一個開源的模擬IIC的庫,封裝的比較好,但是是使用c++寫的。于是將其移植到自己的項目中,主要有以下三步操作: 在工程選項中 C/C++中去掉勾選 C99 Mode
    發表于 01-26 08:58

    C語言與C++的區別及聯系

    C語言和C++到底是什么關系? 首先C++C語言本來就是兩種不同的編程語言,但C++確實是對C
    發表于 12-24 07:23

    CC++之間的聯系

    1、語法兼容性: C++完全兼容C語言的語法,這意味著任何有效的C語言程序都可以直接在C++編譯器下編譯通過。 2、底層控制: C++
    發表于 12-11 06:51

    C語言和C++之間的區別是什么

    區別 1、面向對象編程 (OOP): C語言是一種面向過程的語言,它強調的是通過函數將任務分解為一系列步驟進行執行。 C++C語言的基礎上擴展了面向對象的特性,支持類(class)、封裝、繼承
    發表于 12-11 06:23

    C/C++條件編譯

    條件編譯是一種在編譯時根據條件選擇性地包含或排除部分代碼的處理方法。在 C/C++ 中,條件編譯使用預處理指令 #ifdef、#endif、#else 和 #elif 來實現。常用的條件編譯指令有
    發表于 12-05 06:21

    C++程序異常的處理機制

    1、什么是異常處理? 有經驗的朋友應該知道,在正常的CC++編程過程中難免會碰到程序不按照原本設計運行的情況。 最常見的有除法分母為零,數組越界,內存分配失效、打開相應文件失敗等等。 一個程序
    發表于 12-02 07:12

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現這一目標,其構建了多維度的核心實現路徑:一方面,針對需
    的頭像 發表于 10-21 11:04 ?1165次閱讀

    C/C++代碼靜態測試工具Perforce QAC 2025.3的新特性

    ?Perforce Validate?中?QAC?項目的相對/根路徑的支持。C++?分析也得到了增強,增加了用于檢測 C++?并發問題的新檢查,并改進了實體名稱和實
    的頭像 發表于 10-13 18:11 ?568次閱讀
    <b class='flag-5'>C</b>/<b class='flag-5'>C++</b>代碼靜態測試工具Perforce QAC 2025.3的新特性

    TensorRT-LLM的大規模專家并行架構設計

    之前文章已介紹引入大規模 EP 的初衷,本篇將繼續深入介紹 TensorRT-LLM 的大規模專家并行架構設計與創新實現。
    的頭像 發表于 09-23 14:42 ?1103次閱讀
    <b class='flag-5'>TensorRT</b>-LLM的大規模專家并行架構設計

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4447次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實現與優化

    技能+1!如何在樹莓派上使用C++控制GPIO?

    在使用樹莓派時,你會發現Python和Scratch是許多任務(包括GPIO編程)中最常用的編程語言。但你知道嗎,你也可以使用C++進行GPIO編程,而且這樣做還有不少好處。借助WiringPi
    的頭像 發表于 08-06 15:33 ?4150次閱讀
    技能+1!如何在樹莓派上使用<b class='flag-5'>C++</b>控制GPIO?

    C++ 與 Python:樹莓派上哪種語言更優?

    Python是樹莓派上的首選編程語言,我們的大部分教程都使用它。然而,C++在物聯網項目中同樣廣受歡迎且功能強大。那么,在樹莓派項目中選擇哪種語言更合適呢?Python因其簡潔性、豐富的庫和資源而被
    的頭像 發表于 07-24 15:32 ?943次閱讀
    <b class='flag-5'>C++</b> 與 Python:樹莓派上哪種語言更優?

    主流的 MCU 開發語言為什么是 C 而不是 C++

    在單片機的地界兒里,C語言穩坐中軍帳,C++想分杯羹?難嘍。咱電子工程師天天跟那針尖大的內存空間較勁,C++那些花里胡哨的玩意兒,在這兒真玩不轉。先說內存這道坎兒。您當stm32f4的256kRAM
    的頭像 發表于 05-21 10:33 ?1037次閱讀
    主流的 MCU 開發語言為什么是 <b class='flag-5'>C</b> 而不是 <b class='flag-5'>C++</b>?

    如何從 Microsoft Visual C++ 應用程序 (CyAPI.h) 訪問 CYUSB3014 芯片組的 i2c 接口

    1. 如何從 Microsoft Visual C++ 應用程序 (CyAPI.h) 訪問 CYUSB3014 芯片組的 i2c 接口? 我在定制相機中使用 CYUSB3014。 當我開發我的相機
    發表于 05-19 07:21

    C++學到什么程度可以找工作?

    C++學到什么程度可以找工作?要使用C++找到工作,特別是作為軟件開發人員或相關職位,通常需要掌握以下幾個方面: 1. **語言基礎**:你需要對C++的核心概念有扎實的理解,包括但不限于指針、內存
    發表于 03-13 10:19