国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA TensorRT的數據格式定義

星星科技指導員 ? 來源:NVIDIA ? 作者:Ken He ? 2022-05-20 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TensorRT 支持不同的數據格式。有兩個方面需要考慮:數據類型和布局。

數據類型格式

數據類型是每個單獨值的表示。它的大小決定了取值范圍和表示的精度,分別是FP32(32位浮點,或單精度),FP16(16位浮點或半精度),INT32(32位整數表示),和 INT8(8 位表示)。

布局格式

布局格式確定存儲值的順序。通常,batch 維度是最左邊的維度,其他維度指的是每個數據項的方面,例如圖像中的C是通道, H是高度, W是寬度。忽略總是在這些之前的批量大小, C 、 H和W通常被排序為CHW (參見圖 1 )或HWC (參見圖 2 )。

圖1. CHW的布局格式:圖像分為HxW矩陣,每個通道一個,矩陣按順序存儲;通道的所有值都是連續存儲的。

poYBAGKHOmuAG3jrAABI1Auz45s159.png

圖2. HWC的布局格式:圖像存儲為單個HxW矩陣,其值實際上是 C 元組,每個通道都有一個值;一個點(像素)的所有值都是連續存儲的。

pYYBAGKHOmSAF4_4AABE_ZAr4MY310.png

為了實現更快的計算,定義了更多格式以將通道值打包在一起并使用降低的精度。因此,TensorRT 還支持NC / 2HW2和NHWC8等格式。

在NC / 2HW2 ( TensorFormat::kCHW2 ) 中,通道值對在每個HxW矩陣中打包在一起(在奇數通道的情況下為空值)。結果是一種格式,其中? C/2 ? HxW矩陣的值是兩個連續通道的值對(參見圖 3 );請注意,如果它們在同一對中,則此排序將維度交錯為具有步長1的通道的值,否則將步長為 2xHxW 。

圖 3. 一對通道值在每個HxW矩陣中打包在一起。結果是一種格式,其中[C/2] HxW矩陣的值是兩個連續通道的值對

poYBAGKHOl6AAMv6AABJ1rtP6Z8262.png

在NHWC8 ( TensorFormat::kHWC8 ) 中, HxW矩陣的條目包括所有通道的值。此外,這些值被打包在? C/8 ? 8 元組中,并且C向上舍入到最接近的 8 倍數。

在這種NHWC8格式中, HxW矩陣的條目包括所有通道的值。

其他TensorFormat遵循與前面提到的TensorFormat::kCHW2和TensorFormat::kHWC8類似的規則。

關于作者

Ken He 是 NVIDIA 企業級開發者社區經理 & 高級講師,擁有多年的 GPU人工智能開發經驗。自 2017 年加入 NVIDIA 開發者社區以來,完成過上百場培訓,幫助上萬個開發者了解人工智能和 GPU 編程開發。在計算機視覺,高性能計算領域完成過多個獨立項目。并且,在機器人無人機領域,有過豐富的研發經驗。對于圖像識別,目標的檢測與跟蹤完成過多種解決方案。曾經參與 GPU 版氣象模式GRAPES,是其主要研發者。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31075

    瀏覽量

    222199
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109722
  • 人工智能
    +關注

    關注

    1817

    文章

    50095

    瀏覽量

    265307
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    BLE 藍牙空中報文格式與解析(廣播包)

    BLE 廣播包數據格式解析說明 ...... 矜辰所致
    的頭像 發表于 01-04 17:28 ?1863次閱讀
    BLE 藍牙空中報文<b class='flag-5'>格式</b>與解析(廣播包)

    電能質量在線監測裝置的數據壓縮存儲功能支持的數據格式可以修改嗎?

    電能質量在線監測裝置的數據壓縮存儲功能支持的數據格式 部分可修改 ,具體取決于格式類型(數據文件格式 / 壓縮算法格式)與廠家設計,核心結論
    的頭像 發表于 12-11 16:39 ?1090次閱讀
    電能質量在線監測裝置的<b class='flag-5'>數據</b>壓縮存儲功能支持的<b class='flag-5'>數據格式</b>可以修改嗎?

    電能質量在線監測裝置支持哪些數據格式的離線查看?

    電能質量在線監測裝置支持的離線數據格式主要分為 標準格式 和 通用格式 兩大類,其中標準格式是行業主流,通用格式則方便日常
    的頭像 發表于 12-05 17:19 ?1303次閱讀
    電能質量在線監測裝置支持哪些<b class='flag-5'>數據格式</b>的離線查看?

    電能質量在線監測裝置的數據推送協議是否可以自定義配置?

    現代電能質量在線監測裝置普遍支持 協議參數自定義配置 和 協議組合靈活適配 ,用戶可根據實際需求調整通信參數、映射數據格式,甚至通過第三方工具實現非標準協議的兼容。以下是具體實現方式及技術細節: 一
    的頭像 發表于 11-12 13:58 ?408次閱讀
    電能質量在線監測裝置的<b class='flag-5'>數據</b>推送協議是否可以自<b class='flag-5'>定義</b>配置?

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現這一目標,其構建了多維度的核心實現路徑:一方面,針對需
    的頭像 發表于 10-21 11:04 ?1166次閱讀

    TensorRT-LLM的大規模專家并行架構設計

    之前文章已介紹引入大規模 EP 的初衷,本篇將繼續深入介紹 TensorRT-LLM 的大規模專家并行架構設計與創新實現。
    的頭像 發表于 09-23 14:42 ?1106次閱讀
    <b class='flag-5'>TensorRT</b>-LLM的大規模專家并行架構設計

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4447次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實現與優化

    淺談電子工程師困惑多年的EDA行業的標準格式

    數據格式還是非常豐富的。比如*.dxf,*.step,*.prt,*.stl......格式特點STEP(.STP/.STEP)ISO標準,支持精確幾何,裝配結
    的頭像 發表于 08-23 12:34 ?680次閱讀
    淺談電子工程師困惑多年的EDA行業的標準<b class='flag-5'>格式</b>

    PLC串口自由協議通信概述

    串口自由協議通信是一種靈活的串行通信方式。在該模式下,開發者無需遵循特定標準協議,可根據實際需求自由定義數據格式與交互規則。
    的頭像 發表于 08-07 09:15 ?2152次閱讀
    PLC串口自由協議通信概述

    NVIDIA RTX AI加速FLUX.1 Kontext現已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現可借助 RTX 和 NVIDIA
    的頭像 發表于 07-16 09:16 ?2046次閱讀

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發表于 07-04 14:38 ?2184次閱讀

    NVIDIA Blackwell GPU優化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 GTC 2025
    的頭像 發表于 07-02 19:31 ?3292次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發表于 06-12 15:37 ?1871次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應用的最佳實踐

    NVIDIA Blackwell數據手冊與NVIDIA Blackwell架構技術解析

    NVIDIA Blackwell數據手冊與NVIDIA Blackwell 架構技術解析
    的頭像 發表于 03-20 17:19 ?2457次閱讀

    LPC55S28修改音頻數據格式后USB Aduio類異常的原因?

    您好 NXP 前輩,我已經更改了 LPC55S28 官方 SDK 上的 USB 音頻數據格式。 我的主要問題是修改音頻流格式類型描述符。 我的想法是將 USB Aduio 每個通道的數據字節數從 2
    發表于 03-20 07:33