久久亚洲国产精品五月天婷婷,狠狠色婷婷久久一区二区三区香蕉,国产综合精品久久久久成人影

NVIDIA DLA（Deep Learning Accelerator–深度學(xué)習(xí)加速器）是一款針對深度學(xué)習(xí)操作的固定功能加速器引擎。 DLA 旨在對卷積神經(jīng)網(wǎng)絡(luò)進行全硬件加速。 DLA支持卷積、反卷積、全連接、激活、池化、批量歸一化等各種層，DLA不支持Explicit Quantization 。

trtexec在DLA 上運行 ResNet-50 FP16 網(wǎng)絡(luò)：

。/trtexec --onnx=data/resnet50/ResNet50.onnx --useDLACore=0 --fp16 --allowGPUFallback

trtexec在DLA 上運行 ResNet-50 INT8 網(wǎng)絡(luò)：

。/trtexec --onnx=data/resnet50/ResNet50.onnx --useDLACore=0 --int8 --allowGPUFallback

12.1. Running On DLA During TensorRT Inference

TensorRT 構(gòu)建器可以配置為在 DLA 上啟用推理。 DLA 支持目前僅限于在 FP16 或 INT8 模式下運行的網(wǎng)絡(luò)。 DeviceType枚舉用于指定網(wǎng)絡(luò)或?qū)釉谄渖蠄?zhí)行的設(shè)備。 IBuilderConfig類中的以下 API 函數(shù)可用于配置網(wǎng)絡(luò)以使用 DLA：

setDeviceType（ILayer* layer， DeviceType deviceType）

此函數(shù)可用于設(shè)置層必須在其上執(zhí)行的設(shè)備類型

getDeviceType（const ILayer* layer）

此函數(shù)可用于返回該層執(zhí)行的設(shè)備類型。如果層在 GPU 上執(zhí)行，則返回DeviceType：：kGPU 。

canRunOnDLA（const ILayer* layer）

此功能可用于檢查層是否可以在 DLA 上運行。

setDefaultDeviceType（DeviceType deviceType）

此函數(shù)設(shè)置構(gòu)建器使用的默認設(shè)備類型。它確保可以在 DLA 上運行的所有層都在 DLA 上運行，除非setDeviceType用于覆蓋層的deviceType 。

getDefaultDeviceType（）

此函數(shù)返回由 setDefaultDeviceType 設(shè)置的默認設(shè)備類型。

isDeviceTypeSet（const ILayer* layer）

此函數(shù)檢查是否已為該層顯式設(shè)置了deviceType 。

resetDeviceType（ILayer* layer）

此函數(shù)重置此層的deviceType 。如果未指定，該值將重置為由setDefaultDeviceType或DeviceType：：kGPU指定的設(shè)備類型。

allowGPUFallback（bool setFallBackMode）

如果應(yīng)該在 DLA 上運行的層無法在 DLA 上運行，此函數(shù)會通知構(gòu)建器使用 GPU。有關(guān)詳細信息，請參閱GPU 回退模式。

reset（）

此函數(shù)可用于重置IBuilderConfig狀態(tài)，它將所有層的deviceType設(shè)置為DeviceType：：kGPU 。重置后，構(gòu)建器可以重新用于構(gòu)建具有不同 DLA 配置的另一個網(wǎng)絡(luò)。

IBuilder類中的以下 API 函數(shù)可用于幫助配置網(wǎng)絡(luò)以使用 DLA：

getMaxDLABatchSize（）

此函數(shù)返回 DLA 可以支持的最大批量大小。

注意：對于任何張量，索引維度的總體積加上請求的批量大小不得超過此函數(shù)返回的值。

getNbDLACores（）

此函數(shù)返回用戶可用的 DLA 內(nèi)核數(shù)。

如果構(gòu)建器不可訪問，例如在推理應(yīng)用程序中在線加載計劃文件的情況下，則可以通過對 IRuntime 使用 DLA 擴展以不同方式指定要使用的DLA 。 IRuntime類中的以下 API 函數(shù)可用于配置網(wǎng)絡(luò)以使用 DLA：

getNbDLACores（）

此函數(shù)返回用戶可訪問的 DLA 內(nèi)核數(shù)。

setDLACore（int dlaCore）

要在其上執(zhí)行的 DLA 內(nèi)核。其中dlaCore是介于0和getNbDLACores（） - 1之間的值。默認值為0

getDLACore（）

運行時執(zhí)行分配到的 DLA 核心。默認值為 0。

12.1.1. Example： sampleMNIST With DLA

本節(jié)提供有關(guān)如何在啟用 DLA 的情況下運行 TensorRT 示例的詳細信息。

位于 GitHub 存儲庫中的sampleMNIST演示了如何導(dǎo)入經(jīng)過訓(xùn)練的模型、構(gòu)建 TensorRT 引擎、序列化和反序列化引擎，最后使用引擎執(zhí)行推理。

該示例首先創(chuàng)建構(gòu)建器：

auto builder = SampleUniquePtr(nvinfer1::createInferBuilder(gLogger));
if (!builder) return false;
builder->setMaxBatchSize(batchSize);

然后，啟用GPUFallback模式：

config->setFlag(BuilderFlag::kGPU_FALLBACK);
config->setFlag(BuilderFlag::kFP16); or config->setFlag(BuilderFlag::kINT8);

在 DLA 上啟用執(zhí)行，其中dlaCore指定要在其上執(zhí)行的 DLA 內(nèi)核：

config->setDefaultDeviceType(DeviceType::kDLA);
config->setDLACore(dlaCore);

通過這些額外的更改，sampleMNIST 已準(zhǔn)備好在 DLA 上執(zhí)行。要使用 DLA Core 1 運行 sampleMNIST，請使用以下命令：

 ./sample_mnist --useDLACore=0 [--int8|--fp16]

12.1.2. Example： Enable DLA Mode For A Layer During Network Creation

在這個例子中，讓我們創(chuàng)建一個包含輸入、卷積和輸出的簡單網(wǎng)絡(luò)。

1.創(chuàng)建構(gòu)建器、構(gòu)建器配置和網(wǎng)絡(luò)：

IBuilder* builder = createInferBuilder(gLogger);
IBuilderConfig* config = builder.createBuilderConfig();
INetworkDefinition* network = builder->createNetworkV2(0U);

2.使用輸入維度將輸入層添加到網(wǎng)絡(luò)。

auto data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{1, INPUT_H, INPUT_W});

3.添加具有隱藏層輸入節(jié)點、步幅和權(quán)重的卷積層以用于卷積核和偏差。

auto conv1 = network->addConvolution(*data->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);
conv1->setStride(DimsHW{1, 1});

4.將卷積層設(shè)置為在 DLA 上運行：

if(canRunOnDLA(conv1))
{
config->setFlag(BuilderFlag::kFP16); or config->setFlag(BuilderFlag::kINT8);
builder->setDeviceType(conv1, DeviceType::kDLA); 

}

5.標(biāo)記輸出

network->markOutput(*conv1->getOutput(0));

6.將 DLA 內(nèi)核設(shè)置為在以下位置執(zhí)行：

config->setDLACore(0)

12.2. DLA Supported Layers

本節(jié)列出了 DLA 支持的層以及與每個層相關(guān)的約束。

在 DLA 上運行時的一般限制（適用于所有層）

支持的最大批量大小為 4096。

DLA 不支持動態(tài)尺寸。因此，對于通配符維度，配置文件的min 、 max和opt值必須相等。

如果違反了任何限制，并且啟用了GpuFallback， TensorRT可以將DLA網(wǎng)絡(luò)分成多個部分。否則，TensorRT會發(fā)出錯誤并返回。更多信息，請參考GPU回退模式。

由于硬件和軟件內(nèi)存限制，最多可以同時使用四個 DLA 可加載項。

注意： DLA 的批量大小是除CHW維度之外的所有索引維度的乘積。例如，如果輸入維度為NPQRS ，則有效批量大小為N*P 。

層特定限制

卷積層和全連接層

僅支持兩個空間維度操作。

支持 FP16 和 INT8。

內(nèi)核大小的每個維度都必須在［1， 32］范圍內(nèi)。

填充（Padding）必須在［0， 31］范圍內(nèi)。

填充的維度必須小于相應(yīng)的內(nèi)核維度。

步幅的尺寸必須在［1， 8］范圍內(nèi)。

輸出映射的數(shù)量必須在［1， 8192］范圍內(nèi)。

對于使用格式TensorFormat：：kLINEAR 、 TensorFormat：：kCHW16和TensorFormat：：kCHW32的操作，組數(shù)必須在［1， 8192］范圍內(nèi)。

對于使用格式TensorFormat：：kCHW4的操作，組數(shù)必須在［1， 4］范圍內(nèi)。

空洞卷積（Dilated convolution ）必須在［1， 32］范圍內(nèi)。

如果 CBUF 大小要求wtBanksForOneKernel + minDataBanks超過numConvBufBankAllotted限制16 ，則不支持操作，其中 CBUF 是在對輸入權(quán)重和激活進行操作之前存儲輸入權(quán)重和激活的內(nèi)部卷積緩存， wtBanksForOneKernel是一個內(nèi)核存儲最小權(quán)重/卷積所需的核元素， minDataBanks是存儲卷積所需的最小激活數(shù)據(jù)的最小庫。偽代碼細節(jié)如下：

wtBanksForOneKernel = uint32(ceil(roundUp(inputDims_c * kernelSize_h * kernelSize_w * (INT8 ? 1 : 2), 128) / 32768.0))

minDataBanks = uint32(ceil(float(entriesPerDataSlice * dilatedKernelHt) / 256.0)) where entriesPerDataSlice = uint32(ceil(ceil(inputDims_c * (INT8 ? 1 : 2) / 32.0) * inputDims_w / 4.0)) and dilatedKernelHt = (kernelSize_h - 1) * dilation_h + 1

FAIL if wtBanksForOneKernel + minDataBanks > 16, PASS otherwise.

反卷積層

僅支持兩個空間維度操作。

支持 FP16 和 INT8。

除了1x［64， 96， 128］和［64， 96， 128］x1之外，內(nèi)核的尺寸必須在［1， 32］范圍內(nèi)。

TensorRT 在 DLA 上禁用了反卷積平方內(nèi)核并在［23 - 32］范圍內(nèi)跨步，因為它們顯著減慢了編譯速度。

填充（Padding）必須為0 。

分組反卷積必須為1 。

擴張反卷積必須為1 。

輸入通道數(shù)必須在［1， 8192］范圍內(nèi)。

輸出通道數(shù)必須在［1， 8192］范圍內(nèi)。

池化層

僅支持兩個空間維度操作。

支持 FP16 和 INT8。

支持的操作： kMAX ， kAVERAGE 。

窗口的尺寸必須在［1， 8］范圍內(nèi)。

填充的尺寸必須在［0， 7］范圍內(nèi)。

步幅的尺寸必須在［1， 16］范圍內(nèi)。

使用 INT8 模式，輸入和輸出張量標(biāo)度必須相同。

激活層

僅支持兩個空間維度操作。

支持 FP16 和 INT8。

支持的函數(shù)： ReLU 、 Sigmoid 、 TanH 、 Clipped ReLU和Leaky ReLU 。

ReLU不支持負斜率。

Clipped ReLU僅支持［1， 127］范圍內(nèi)的值。

TanH ， Sigmoid INT8 支持通過自動升級到 FP16 來支持。

參數(shù) ReLU 層

斜率輸入必須是構(gòu)建時間常數(shù)。

ElementWise 層

僅支持兩個空間維度操作。

支持 FP16 和 INT8。

支持的操作： Sum 、 Sub 、 Product 、 Max和Min 。

注意：在 Xavier 上，TensorRT 將 DLA Scale 層和 DLA ElementWise 層與操作Sum連接以支持Sub操作，單個 Xavier DLA ElementWise 層不支持。

Scale層

僅支持兩個空間維度操作。

支持 FP16 和 INT8。

支持的模式： Uniform 、 Per-Channel和ElementWise 。

僅支持縮放和移位操作。

LRN（局部響應(yīng)歸一化）層

允許的窗口大小為3 、 5 、 7或9 。

支持的規(guī)范化區(qū)域是ACROSS_CHANNELS 。

LRN INT8。

連接層

DLA 僅支持沿通道軸連接。

Concat 必須至少有兩個輸入。

所有輸入必須具有相同的空間維度。

對于 INT8 模式，所有輸入的動態(tài)范圍必須相同。

對于 INT8 模式，輸出的動態(tài)范圍必須等于每個輸入。

Resize層

刻度的數(shù)量必須正好是4 。

scale 中的前兩個元素必須正好為1 （對于未更改的批次和通道尺寸）。

scale 中的最后兩個元素，分別表示沿高度和寬度維度的比例值，在最近鄰模式下需要為［1， 32］范圍內(nèi)的整數(shù)值，在雙線性模式下需要為［1， 4］范圍內(nèi)的整數(shù)值。

Unary 層

僅支持 ABS 操作。

Softmax 層

僅支持 NVIDIA Orin?，不支持 Xavier?。

僅支持批量大小為 1 的單個輸入。

輸入的非批量、非軸維度都應(yīng)該是大小 1。例如，對于軸 = 1 的 softmax（即在 C 維度上），H 和 W 維度的大小都應(yīng)該是 1。

注意：當(dāng)使用 TensorRT 在 DLA 上運行 INT8 網(wǎng)絡(luò)時，建議將操作添加到同一子圖中，以通過允許它們?nèi)诤喜橹虚g結(jié)果保留更高的精度來減少在 DLA 上運行的網(wǎng)絡(luò)的子圖上的量化誤差。通過將張量設(shè)置為網(wǎng)絡(luò)輸出張量來拆分子圖以檢查中間結(jié)果可能會由于禁用這些優(yōu)化而導(dǎo)致不同級別的量化誤差。

12.3. GPU Fallback Mode

如果被標(biāo)記為在DLA上運行的層不能在DLA上運行，則GPUFallbackMode設(shè)置生成器使用GPU。

由于以下原因，層無法在 DLA 上運行：

DLA 不支持層操作。

指定的參數(shù)超出了 DLA 支持的范圍。

給定的批量大小超過了允許的最大 DLA 批量大小。有關(guān)詳細信息，請參閱DLA 支持的層。

網(wǎng)絡(luò)中的層組合導(dǎo)致內(nèi)部狀態(tài)超過 DLA 能夠支持的狀態(tài)。

平臺上沒有可用的 DLA 引擎。

如果GPUFallbackMode設(shè)置為false ，則設(shè)置為在 DLA 上執(zhí)行但無法在 DLA 上運行的層會導(dǎo)致錯誤。但是，將GPUFallbackMode設(shè)置為true后，它會在報告警告后繼續(xù)在 GPU 上執(zhí)行。

同樣，如果defaultDeviceType設(shè)置為DeviceType：：kDLA并且GPUFallbackMode設(shè)置為false ，則如果任何層無法在 DLA 上運行，則會導(dǎo)致錯誤。將GPUFallbackMode設(shè)置為true時，它會報告警告并繼續(xù)在 GPU 上執(zhí)行。

如果網(wǎng)絡(luò)中的層組合無法在 DLA 上運行，則組合中的所有層都在 GPU 上執(zhí)行。

12.4. I/O Formats on DLA

DLA 支持設(shè)備獨有的格式，并且由于矢量寬度字節(jié)要求而對其布局有限制。

對于 DLA 輸入，支持 kDLA_LINEAR （ FP16 ， INT8 ）、 kDLA_HWC4 （ FP16 ， INT8 ）、 kCHW16 （ FP16 ）和kCHW32 （ INT8 ）。對于 DLA 輸出，僅支持 kDLA_LINEAR （ FP16 ， INT8 ）、 kCHW16 （ FP16 ）和kCHW32 （ INT8 ）。對于kCHW16和kCHW32格式，如果C不是整數(shù)倍，則必須將其填充到下一個 32 字節(jié)邊界。

對于kDLA_LINEAR格式，沿W維度的步幅必須最多填充 64 個字節(jié)。內(nèi)存格式等效于維度為［N］［C］［H］［roundUp（W， 64/elementSize）］的C數(shù)組，其中FP16的elementSize為 2， Int8為 1 ，張量坐標(biāo)為（n， c， h， w）映射到數(shù)組下標(biāo)［n］［c］［h］［w］。

對于kDLA_HWC4格式，沿W維度的步幅必須是 Xavier 上 32 字節(jié)和 Orin 上 64 字節(jié)的倍數(shù)。

當(dāng)C == 1時，TensorRT 將格式映射到本機灰度圖像格式。

當(dāng)C == 3或C == 4時，它映射到本機彩色圖像格式。如果C == 3 ，沿W軸步進的步幅需要填充為 4 個元素。在這種情況下，填充通道位于第 4 個索引處。理想情況下，填充值無關(guān)緊要，因為權(quán)重中的第 4 個通道被 DLA 編譯器填充為零；但是，應(yīng)用程序分配四個通道的零填充緩沖區(qū)并填充三個有效通道是安全的。

當(dāng)C為{1， 3， 4}時，填充后的 C‘分別為{1， 4， 4} ，內(nèi)存布局等價于維度為［N］［H］［roundUp（W， 32/C’/elementSize）］［C‘］的C數(shù)組，其中elementSize對于FP16為 2，對于Int8為 1 。張量坐標(biāo)（n， c， h， w）映射到數(shù)組下標(biāo)［n］［h］［w］［c］， roundUp計算大于或等于W的64/elementSize的最小倍數(shù)。

使用kDLA_HWC4作為 DLA 輸入格式時，有以下要求：

C必須是1 、 3或4

第一層必須是卷積。

卷積參數(shù)必須滿足 DLA 要求，請參閱DLA Supported Layers 。

當(dāng)EngineCapability為EngineCapability：：kSTANDARD且 TensorRT 無法為給定的輸入/輸出格式生成無重構(gòu)網(wǎng)絡(luò)時，可以自動將不支持的 DLA 格式轉(zhuǎn)換為支持的 DLA 格式。例如，如果連接到網(wǎng)絡(luò)輸入或輸出的層不能在 DLA 上運行，或者如果網(wǎng)絡(luò)不滿足其他 DLA 要求，則插入重新格式化操作以滿足約束。在所有情況下，TensorRT 期望數(shù)據(jù)格式化的步幅都可以通過查詢IExecutionContext：：getStrides來獲得。

12.5. DLA Standalone Mode

如果您使用單獨的 DLA 運行時組件，則可以使用EngineCapability：：kDLA_STANDALONE生成 DLA 可加載項。請參閱相關(guān) DLA 運行時組件的文檔以了解如何使用可加載項。

當(dāng)使用kDLA_STANDALONE時，TensorRT 為給定的輸入/輸出格式生成一個無重新格式化的網(wǎng)絡(luò)。對于 DLA 輸入，支持 kLINEAR （ FP16 ， INT8 ）、 kCHW4 （ FP16 ， INT8 ）、 kCHW16 （ FP16 ）和kCHW32 （ INT8 ）。而對于 DLA 輸出，僅支持 kLINEAR （ FP16 ， INT8 ）、 kCHW16 （ FP16 ）和kCHW32 （ INT8 ）。對于kCHW16和kCHW32格式，建議C通道數(shù)等于向量大小的正整數(shù)倍。如果C不是整數(shù)倍，則必須將其填充到下一個 32 字節(jié)邊界。

12.6. Customizing DLA Memory Pools

您可以自定義分配給網(wǎng)絡(luò)中每個可加載的 DLA 的內(nèi)存池的大小。共有三種類型的 DLA 內(nèi)存池（有關(guān)每個池的描述，請參見枚舉類 MemoryPoolType ）：

Managed SRAM

Local DRAM

Global DRAM

對于每種池類型，使用 API IBuilderConfig：：setMemoryPoolLimit和IBuilderConfig：：getMemoryPoolLimit來設(shè)置和查詢相關(guān)池的大小，以便為每個可加載的 DLA 分配更大的內(nèi)存池。每個可加載的實際需要的內(nèi)存量可能小于池大小，在這種情況下將分配較小的量。池大小僅用作上限。

請注意，所有 DLA 內(nèi)存池都需要大小為 2 的冪，最小為 4 KiB。違反此要求會導(dǎo)致 DLA 可加載編譯失敗。

Managed SRAM 與其他 DRAM 池的區(qū)別主要在于角色的不同。以下是Managed SRAM 的一些值得注意的方面：

它類似于緩存，因為資源稀缺，DLA 可以通過回退到本地 DRAM 來運行而無需它。

任何分配往往都會被充分利用。因此，報告的 SRAM 通常與分配的 SRAM 池的數(shù)量相同（在某些情況下可能與用戶指定的大小不同）。

由于類似于緩存的性質(zhì)，DLA 在 SRAM 不足時會回退到 DRAM，而不是失敗。因此，如果可以負擔(dān)得起，即使在成功的引擎構(gòu)建之后也嘗試增加 SRAM 的數(shù)量，以查看推理速度是否有任何提升。這尤其適用于卸載許多子圖的網(wǎng)絡(luò)。

Orin 和 Xavier 在每個內(nèi)核可用的最大 SRAM 數(shù)量方面存在差異：Xavier 在 4 個內(nèi)核（包括 2 個 DLA 內(nèi)核）中提供總共 4 MiB 的 SRAM，而 Orin 為每個 DLA 內(nèi)核專用 1 MiB SRAM。這意味著當(dāng)在一個設(shè)備上運行多個網(wǎng)絡(luò)時，Xavier 需要明確控制總體 SRAM 消耗，而 Orin 在這方面不必擔(dān)心。

在多子圖情況下，重要的是要記住池大小適用于每個 DLA 子圖，而不是整個網(wǎng)絡(luò)。

關(guān)于作者

Ken He 是 NVIDIA 企業(yè)級開發(fā)者社區(qū)經(jīng)理 & 高級講師，擁有多年的 GPU 和人工智能開發(fā)經(jīng)驗。自 2017 年加入 NVIDIA 開發(fā)者社區(qū)以來，完成過上百場培訓(xùn)，幫助上萬個開發(fā)者了解人工智能和 GPU 編程開發(fā)。在計算機視覺，高性能計算領(lǐng)域完成過多個獨立項目。并且，在機器人和無人機領(lǐng)域，有過豐富的研發(fā)經(jīng)驗。對于圖像識別，目標(biāo)的檢測與跟蹤完成過多種解決方案。曾經(jīng)參與 GPU 版氣象模式GRAPES，是其主要研發(fā)者。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107756
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5592

瀏覽量
109723
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5599

瀏覽量
124396

搜索歷史

NVIDIA TensorRT和DLA分析

評論