国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA Jetson AGX Xavier部署新的自主機器

星星科技指導員 ? 來源:NVIDIA ? 作者:Dustin Franklin ? 2022-04-18 15:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

世界上為人工智能開發者開發的終極嵌入式解決方案, Jetson AGX Xavier ,現在作為獨立的生產模塊從 NVIDIA 發貨。作為自主機器 NVIDIA 的 AGX 系統 的一員, Jetson AGX Xavier 是將先進的人工智能和計算機視覺部署到邊緣的理想選擇,使機器人平臺具有工作站級的性能,并且能夠在不依賴人工干預和云連接的情況下完全自主地運行。由 Jetson AGX Xavier 提供動力的智能機器可以自由地在其環境中進行交互和安全導航,不受復雜地形和動態障礙物的阻礙,完全自主地完成現實世界的任務。這包括包裝交付和工業檢驗,需要先進的實時感知和推理能力。作為世界上第一臺專門為機器人和邊緣計算而設計的計算機, Jetson AGX Xavier 的高性能可以處理視覺里程測量、傳感器融合、定位和映射、障礙物檢測,以及對下一代機器人至關重要的路徑規劃算法。開發人員現在可以開始批量部署新的自主機器。

xavier-module-standing-3qrtr-alpha-1024px-625x707.png

圖 1 。 Jetson AGX Xavier 帶熱傳遞板( TTP )的嵌入式計算模塊, 100x87mm

最新一代 NVIDIA 業界領先的嵌入式 Linux 高性能計算機 Jetson AGX 系列, Jetson AGX Xavier 以 100x87mm 的緊湊型外形,提供了 GPU 工作站級的性能和無與倫比的 32 兆兆( TOPS )峰值計算和 750Gbps 的高速 I / O 。用戶可以根據應用需要配置 10W 、 15W 和 30W 的工作模式。 Jetson AGX Xavier 為可部署到邊緣的計算密度、能源效率和人工智能推斷能力設置了新的標準,使具有端到端自主能力的下一級智能機器成為可能。

Jetson 通過深度學習和計算機視覺,為許多世界上最先進的機器人和自動機器提供人工智能,同時專注于性能、效率和可編程性。 Jetson AGX Xavier ,如圖 2 所示,由超過 90 億個晶體管組成,基于有史以來最復雜的片上系統( SoC )。該平臺包括集成的 512 核 NVIDIA Volta GPU ,包括 64 張量核 、 8 核 NVIDIA Carmel ARMv8 。 2 64 位 CPU 、 16GB 256 位 LPDDR4x 、雙 NVIDIA 深度學習加速器 ( DLA )引擎、 NVIDIA 視覺加速器引擎、高清視頻編解碼器、 128Gbps 專用攝像頭攝取和 16 通道 PCIe Gen 4 擴展。 256 位接口上的內存帶寬為 137GB / s ,而 DLA 引擎減輕了深度神經網絡( DNNs )的推理任務。 NVIDIA 的 jetpacksdk4 。 1 。 1 適用于 Jetson AGX Xavier 的 jetpacksdk4 。 1 。 1 包括 CUDA 10 。 0 、 cuDNN 7 。 3 和 TensorRT 5 。 0 ,提供了完整的 AI 軟件棧。

poYBAGJdEHyAI7ZYAAOMQVqB1b0867.png

圖 2 。 Jetson AGX Xavier 提供了豐富的高速 I / O

這使得開發者能夠在機器人、智能視頻分析、醫療儀器、嵌入式物聯網邊緣設備等應用中部署加速人工智能。和它的前輩 Jetson TX1 和 TX2 一樣, Jetson AGX Xavier 使用的是模塊上系統( SoM )范式。所有的處理都包含在計算模塊上,高速 I / O 通過高密度板對板連接器提供的分接載體或外殼上。以這種方式將功能封裝在模塊上,使開發人員能夠輕松地將 Jetson Xavier 集成到他們自己的設計中。 NVIDIA 發布了全面的 文檔 和參考設計文件,可供嵌入式設計師使用 Jetson AGX Xavier 創建自己的設備和平臺。請務必參考 Jetson AGX Xavier 模塊數據表 和 Jetson AGX Xavier OEM 產品設計指南 了解表 1 中列出的全部產品功能,此外還有 eleCTR 機械規范、模塊引腳輸出、電源順序和信號布線指南。

pYYBAGJdENGATJyrAACD6_Gj5xw087.png

Jetson AGX Xavier 包括超過 750Gbps 的高速 I / O ,為流式傳感器和高速外圍設備提供了超常的帶寬。它是最早支持 PCIe Gen 4 的嵌入式設備之一,在五個 PCIe Gen 4 控制器上提供 16 個通道,其中三個控制器可以在根端口或端點模式下運行。 16 個 MIPI CSI-2 通道可連接到 4 個 4 通道攝像頭、 6 個 2 通道攝像頭、 6 個 1 通道攝像頭,或這些配置的組合(最多 6 個攝像頭), 36 個虛擬通道允許使用流聚合同時連接更多攝像頭。其他高速 I / O 包括三個 USB 3 。 1 端口、 SLVS-EC 、 UFS 和用于千兆以太網的 RGMII 。開發者現在可以訪問 NVIDIA 的 JetPack 4 。 1 。 1 開發者預覽 軟件,用于 Jetson AGX Xavier ,如表 2 所示。開發者預覽版包括 Linux For Tegra ( L4T ) R31 。 1 Board Support Package ( BSP ),目標系統支持 Linux 內核 4 。 9 和 Ubuntu18 。 04 。在主機端, Jetpack4 。 1 。 1 支持 Ubuntu16 。 04 和 Ubuntu18 。 04 。

pYYBAGJdEN6AGpsAAAA4WzcQ6wA693.png

Jetpack4 。 1 。 1 開發者預覽版允許開發者立即使用 Jetson AGX Xavier 開始產品和應用程序的原型制作,為生產部署做準備。 NVIDIA 將繼續對 JetPack 進行改進,并提供額外的功能增強和性能優化。請閱讀 發行說明 了解本版本的亮點和軟件狀態。

Volta GPU

如圖 3 所示, Jetson AGX Xavier 集成 Volta GPU 提供 512 個 CUDA 核和 64 個張量核心,可用于高達 11 TFLOPS FP16 或 22 個 INT8 compute 頂部,最大時鐘頻率為 1 。 37GHz 。它支持計算能力為 sm _的 CUDA 10 , GPU 包括 8 個 Volta 流式多處理器( sm ),每個 Volta sm 有 64 個 CUDA 核和 8 個張量核。每個 Volta SM 都包括一個 128KB 的 L1 緩存,比前幾代大 8 倍。 SMs 共享一個 512KB 的二級緩存,訪問速度比前幾代快 4 倍。

pYYBAGJdEH6AOW6WAAEitbTLnHk467.png

圖 3 。 Jetson AGX Xavier 電壓 GPU 方框圖

每個 SM 由 4 個獨立的處理塊組成,稱為 SMPs (流式多處理器分區),每個處理塊包括自己的 L0 指令緩存、 warp 調度器、調度單元和寄存器文件,以及 CUDA 內核和 Tensor 內核。每個 SM 的 smp 數量是 Pascal 的兩倍, Volta SM 的特點是改進了并發性,并且支持更多的線程、扭曲和線程塊。

張量核

NVIDIA 張量核心是可編程的融合矩陣乘法和累加單元,它們與 CUDA 核心并行執行。張量核實現了新的浮點 HMMA (半精度矩陣乘法和累加)和 IMMA (整數矩陣乘法和累加)指令,用于加速密集線性代數計算、信號處理和深度學習推理。

Tensor-Core-Matrix-1-1024x276.png

圖 4 。張量核 HMMA / IMMA 4x4x4 矩陣乘法和累加

矩陣乘法輸入 A 和 B 是 HMMA 指令的 FP16 矩陣,而累加矩陣 C 和 D 可以是 FP16 或 FP32 矩陣。對于 IMMA ,矩陣乘法輸入 A 是有符號或無符號的 INT8 或 INT16 矩陣, B 是有符號或無符號的 INT8 矩陣, C 和 D 累加器矩陣都是有符號 INT32 。因此,精度和計算范圍足以避免內部積累期間的溢出和下溢情況。

NVIDIA 庫包括 cuBLAS 、 cuDNN 和 TensorRT 已被更新,以在內部利用 HMMA 和 IMMA ,使程序員能夠輕松地利用張量核固有的性能增益。用戶還可以通過在 wmma 名稱空間和 CUDA 10 中包含的 mma 。 h 頭文件中公開的新 API ,直接訪問 warp 級別的 Tensor 核心操作。 warp 級別的接口在每個 warp 的所有 32 個線程上映射 16 × 16 、 32 × 8 和 8 × 32 大小的矩陣。

深度學習加速器

Jetson AGX Xavier 具有兩個 NVIDIA 深度學習加速器 ( DLA )引擎,如圖 5 所示,它們減輕了固定函數卷積神經網絡( CNN )的推理。這些引擎提高了能源效率,并釋放了 GPU 來運行更復雜的網絡和用戶執行的動態任務。 NVIDIA DLA 硬件體系結構是開源的,可從 NVDLA 。 org 網站 獲得。每個 DLA 具有高達 5 個 TOP INT8 或 2 。 5 TFLOPS FP16 性能,功耗僅為 0 。 5-1 。 5W 。 DLA 支持加速 CNN 層,如卷積、反褶積、激活函數、最小/最大/平均池、本地響應規范化和完全連接層。

pYYBAGJdEIuAVoZaAACk6ipVyT4338.png

圖 5 。深度學習加速器( DLA )架構框圖

DLA 硬件由以下組件組成:

卷積核心 – 優化的高性能卷積引擎。

單數據處理器 – 激活功能的單點查找引擎。

平面數據處理器 – 用于池的平面平均引擎。

通道數據處理器–用于高級標準化功能的多通道平均引擎。

專用內存和數據整形引擎 – 用于張量整形和復制操作的內存到內存轉換加速。

開發人員使用 TensorRT 5 。 0 編程 DLA 引擎,在網絡上執行推斷,包括對 AlexNet 、 GoogleNet 和 ResNet-50 的支持。對于使用 DLA 不支持的層配置的網絡, TensorRT 為無法在 DLA 上運行的層提供 GPU 回退。 Jetpack4 。 0 開發者預覽版最初將 DLA 的精度限制在 FP16 模式,在未來的 JetPack 版本中, DLA 的 INT8 精度和更高的性能將會出現。

TensorRT 5 。 0 在其 IBuilder 接口中添加了以下 API 以啟用 DLA :

setDeviceType() 和 setDefaultDeviceType() 用于選擇 GPU 、 DLA ? 0 或 DLA ? 1 以執行特定層,或默認情況下用于網絡中的所有層。

canRunOnDLA() 檢查層是否可以按配置在 DLA 上運行。

getMaxDLABatchSize() 用于檢索 DLA 可以支持的最大批處理大小。

allowGPUFallback() 使 GPU 能夠執行 DLA 不支持的層。

請參考 TensorRT 5 。 0 開發人員指南 的第 6 章,了解 TensorRT 中支持的層配置和使用 DLA 的代碼示例的完整列表。

深度學習推斷基準

我們已經為 GPU AGX Xavier 發布了 深度學習推斷基準結果 ,這些 dnn 包括 ResNet 、 GoogleNet 和 VGG 的變體。我們在 Jetson AGX Xavier 的 Jetson 和 DLA 引擎上使用 jetpack4 。 1 。 1 開發者預覽版 TensorRT 5 。 0 為 Jetson AGX Xavier 運行這些基準測試。 GPU 和兩個 dla 分別以 INT8 和 FP16 精度并行運行相同的網絡體系結構,并報告每個配置的總體性能。 GPU 和 dla 可以在現實世界的用例中同時運行不同的網絡或網絡模型,以并行方式或在處理管道中彼此并行地提供獨特的功能。在 TensorRT 中使用 INT8 與全 FP32 精度相比,會導致精度損失 1% 或更少。

首先,讓我們考慮一下 ResNet-18fcn ( Fully-compolutional Network )的結果,它是一個用于語義分割的 2048 × 1024 分辨率的全高清模型。分段為自由空間檢測和占用率映射等任務提供了每像素分類,并代表了由自主機器計算的用于感知、路徑規劃和導航的深度學習工作負載。圖 6 顯示了在 Jetson AGX Xavier 和 Jetson TX2 上運行 ResNet-18 FCN 的測量吞吐量。

poYBAGJdEI2AYPg4AABt6EedXBs179.png

圖 6 。 ResNet-18 FCN 推斷 Jetson AGX Xavier 和 Jetson TX2 的吞吐量

Jetson AGX Xavier 目前在 ResNet-18 FCN 推理中的性能是 Jetson TX2 的 13 倍。 NVIDIA 將繼續在 JetPack 中發布軟件優化和功能增強,隨著時間的推移,將進一步提高性能和功率特性。請注意, 基準結果 的完整列表報告了 Jetson AGX Xavier 的 ResNet-18 FCN 的性能,但在圖 7 中,我們只繪制了批量大小為 16 的 ResNet-18 FCN ,因為 Jetson TX2 能夠運行 ResNet-18 FCN ,最大批量為 16 。

pYYBAGJdEI-ARucfAAB31N90LDU466.png

圖 7 。 ResNet-18 FCN 推斷 Jetson AGX Xavier 和 Jetson TX2 的能量效率

當考慮使用每秒處理的每瓦特圖像的能效時, Jetson AGX Xavier 目前比 ResNet-18 FCN 的 Jetson TX2 高 6 倍。我們通過使用板載 INA 電壓和電流監測器測量總模塊功耗來計算效率,包括 CPU 、 GPU 、 DLA 、內存、其他 SoC 功率、 I / O 和所有軌道上的調節器效率損失。兩臺 Jetson 都在 15W 電源模式下運行。 Jetson AGX Xavier 和 JetPack 飛船,具有 10W 、 15W 和 30W 的可配置預設功率配置文件,可在運行時使用 nvpmodel 電源管理工具進行切換。用戶還可以使用不同的時鐘和 DVFS (動態電壓和頻率縮放)調速器設置來定義自己的自定義配置文件,這些設置已經過定制,以實現單個應用的最佳性能。

接下來,讓我們比較一下圖像識別網絡 ResNet-50 和 VGG19 上的 Jetson AGX Xavier 基準測試,這些基準測試的批量大小從 1 到 128 與 Jetson TX2 。這些模型對分辨率為 224 × 224 的圖像塊進行分類,常用作各種目標檢測網絡中的編碼器主干。在較低分辨率下使用 8 或更高的批處理大小可用于近似處理較高分辨率下批大小為 1 的性能和延遲。機器人平臺和自主機器通常包含多個攝像機和傳感器,除了執行感興趣區域( ROI )的檢測,然后分批對 ROI 進行進一步分類,這些攝像頭和傳感器可以批量處理以提高性能。圖 8 還包括對 Jetson AGX Xavier 未來性能的估計,包括軟件增強功能,如 INT8 對 DLA 的支持和 GPU 的其他優化。

pYYBAGJdEJWAfaVGAACLxCLzCMY304.png

圖 8 。 INT8 支持 DLA 和其他 GPU 優化后的估計性能

Jetson AGX Xavier 目前在 VGG19 上的 Jetson TX2 和 ResNet-50 上的吞吐量分別達到 18 倍和 14 倍,如圖 9 所示。延遲為 65 。 5 秒,或凈大小為 65 。 5 秒/秒。隨著未來軟件的改進, Jetson AGX Xavier 預計將比 Jetson TX2 快 24 倍。請注意,對于遺留比較,我們還提供了完整的 性能列表 中的 GoogleNet 和 AlexNet 的數據。

poYBAGJdEJmAWFCOAACDi5Pgu8A508.png

圖 9 。 Jetson Xavier 和 Jetson TX2 的 ResNet-50 和 VGG19 能效

Jetson AGX Xavier 目前在 VGG19 推理方面的效率比 Jetson TX2 高 7 倍多,使用 ResNet-50 的效率高 5 倍,考慮到未來的軟件優化和增強,效率提高了 10 倍。參考完整的 績效結果 來獲取更多的數據和關于推斷基準的細節。我們還將在下一節中對 CPU 的性能進行基準測試。

卡梅爾 CPU 復合體

圖 10 所示的 Jetson AGX Xavier 的 CPU 復合體由四個基于 ARMv8 。 2 的異構雙核 NVIDIA CarmelCPU 簇組成,最大時鐘頻率為 2 。 26GHz 。每個核心包括 128KB 指令和 64KB 數據一級緩存,以及兩個內核之間共享的 2MB 二級緩存。 CPU 集群共享一個 4MB 的 L3 緩存。

關于作者

Dustin Franklin 是 NVIDIA 的 Jetson 團隊的開發人員布道者。 Dustin 擁有機器人和嵌入式系統方面的背景,他樂于在社區中提供幫助,并與 Jetson 一起參與項目。你可以在 NVIDIA Developer Forums 或 Github 上找到他。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31079

    瀏覽量

    222229
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11279

    瀏覽量

    224975
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109729
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何在NVIDIA Jetson AGX Thor上部署1200億參數大模型

    上一期介紹了如何在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務,以及使用 Chatbox 作為前端調用 vLLM 運行的模型(上期文章
    的頭像 發表于 12-26 17:06 ?4827次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Thor上<b class='flag-5'>部署</b>1200億參數大模型

    如何在NVIDIA Jetson平臺上運行最新的開源AI模型

    在小型、低功耗的邊緣設備上運行先進的 AI 和計算機視覺工作流正變得越來越具有挑戰性。機器人、智能攝像頭和自主設備需要實時智能來感知、理解并做出反應,而無需依賴云端。NVIDIA Jetson
    的頭像 發表于 12-24 10:38 ?1567次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b>平臺上運行最新的開源AI模型

    如何在NVIDIA Jetson Thor上提升機器人感知效率

    構建自主機器人需要具備可靠且低延遲的視覺感知能力,以實現在動態環境中的深度估計、障礙物識別、定位與導航。這些功能對計算性能有較高要求。NVIDIA Jetson 平臺雖為深度學習提供了強大的 GPU
    的頭像 發表于 12-24 10:14 ?4386次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> Thor上提升<b class='flag-5'>機器</b>人感知效率

    NVIDIA Jetson系列開發者套件助力打造面向未來的智能機器

    NVIDIA Jetson AGX Thor、AGX Orin 以及 Jetson Orin Nano Super 開發者套件,助力打造面向
    的頭像 發表于 12-13 10:20 ?3059次閱讀

    如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務

    繼系統安裝與環境配置后,本期我們將繼續帶大家深入 NVIDIA Jetson AGX Thor 的開發教程之旅,了解如何在 Jetson AGX
    的頭像 發表于 11-13 14:08 ?4115次閱讀
    如何在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Thor上通過Docker高效<b class='flag-5'>部署</b>vLLM推理服務

    NVIDIA Jetson AGX Thor Developer Kit開發環境配置指南

    NVIDIA Jetson AGX Thor 專為物理 AI 打造,與上一代產品 NVIDIA Jetson
    的頭像 發表于 11-08 09:55 ?7255次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Thor Developer Kit開發環境配置指南

    ADI借助NVIDIA Jetson Thor平臺加速人形機器人研發進程

    當前,人形機器人正逐步邁向實際應用部署階段,其落地節奏取決于物理智能與實時推理能力的發展。隨著NVIDIA Jetson Thor平臺的正式面市,Analog Devices, Inc
    的頭像 發表于 08-29 14:07 ?3156次閱讀

    NVIDIA Jetson AGX Thor開發者套件重磅發布

    開發者與未來創造者們,準備好迎接邊緣AI的史詩級革新了嗎?NVIDIA以顛覆性技術再次突破極限,正式推出Jetson AGX Thor開發者套件!作為繼傳奇產品Jetson
    的頭像 發表于 08-28 14:31 ?1556次閱讀

    NVIDIA三臺計算機解決方案如何協同助力機器人技術

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形
    的頭像 發表于 08-27 11:48 ?2402次閱讀

    基于 NVIDIA Blackwell 的 Jetson Thor 現已發售,加速通用機器人時代的到來

    ·專為物理 AI 和機器人打造的機器人計算機 NVIDIA Jetson AGX Thor 開發者套件和量產級模組,現已發售。 ·超過 20
    發表于 08-26 09:28 ?1299次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 <b class='flag-5'>Jetson</b> Thor 現已發售,加速通用<b class='flag-5'>機器</b>人時代的到來

    NVIDIA Jetson AGX Thor開發者套件概述

    NVIDIA Jetson AGX Thor 開發者套件為您提供出色的性能和可擴展性。它由 NVIDIA Blackwell GPU和128 GB 顯存提供動力支持,提供高達 2070
    的頭像 發表于 08-11 15:03 ?1903次閱讀

    NVIDIA Jetson + Isaac SDK 人形機器人方案全面解析

    Volta 6-core Carmel 21 10~15W 中性能服務型機器Jetson AGX Xavier 512-core
    的頭像 發表于 07-30 16:12 ?2185次閱讀

    Jetson平臺核心組件BOM清單概覽

    Jetson Xavier NX、Jetson AGX Orin)的核心BOM清單進行梳理。需要注意的是,NVIDIA官方并
    的頭像 發表于 07-30 16:11 ?3134次閱讀

    NVIDIA Jetson + Isaac SDK 在人形機器人領域的方案詳解

    NVIDIA Jetson + Isaac SDK 在人形機器人領域的 方案詳解 ,涵蓋芯片型號、軟件平臺、開發工具鏈、應用場景與典型客戶等。 一、方案概述:Jetson + Isaa
    的頭像 發表于 07-30 16:05 ?3616次閱讀

    Arm方案 基于Arm架構的邊緣側設備(樹莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹莓派或 NVIDIA Jetson Nano 等基于 Arm 架構的邊緣側設備上部署 PyTorch 模型。
    的頭像 發表于 07-28 11:50 ?2873次閱讀