国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用設計網關的 IP 內核在 Xilinx VCK190 評估套件上加速人工智能應用

innswaiter ? 2022-11-29 18:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XilinxVersal AI Core 系列器件旨在解決獨特且最困難的 AI 推理問題,方法是使用高計算效率 ASIC 級 AI 計算引擎和靈活的可編程結構來構建具有加速器的 AI 應用,從而最大限度地提高任何給定工作負載的效率,同時提供低功耗和低延遲。

Versal AI Core 系列VCK190 評估套件采用VC1902器件,該器件在產品組合中具有最佳的 AI 性能。該套件專為需要高吞吐量 AI 推理和信號處理計算性能的設計而設計。VCK190 套件的計算能力是當前服務器級 CPU 的 100 倍,并具有多種連接選項,是從云到邊緣的各種應用的理想評估和原型設計平臺。

賽靈思 Versal AI 內核系列 VCK190 評估套件圖像圖 1:賽靈思 Versal AI 內核系列 VCK190 評估套件。(圖片來源:AMD, Inc)

VCK190 評估套件的主要特性

  • 板載 Versal AI 核心系列設備
    • 配備 Versal ACAP XCVC1902 量產芯片
    • AI 和 DSP 引擎的計算性能比當今的服務器級 CPU 高 100 倍
    • 用于快速原型設計的預構建合作伙伴參考設計
  • 用于前沿應用開發的最新連接技術
    • 內置 PCIe 第 4 代硬 IP,用于高性能設備接口,如 NVMe? 固態盤和主機處理器
    • 內置 100G EMAC 硬 IP,用于高速 100G 網絡接口
    • DDR4 和 LPDDR4 內存接口
  • 協同優化工具和調試方法
    • Vivado? ML, Vitis 統一軟件平臺, Vitis? AI, 用于 AI 推理應用開發的 AI 引擎工具

利用賽靈思 Versal AI 內核系列器件實現 AI 接口加速

賽靈思 Versal AI 內核 VC1902 ACAP 器件框圖
圖 2:賽靈思 Versal AI 內核 VC1902 ACAP 器件框圖。(圖片來源:AMD, Inc)

Versal? AI Core 自適應計算加速平臺 (ACAP) 是一款高度集成的多核異構設備,可在硬件和軟件級別動態適應各種 AI 工作負載,使其成為 AI 邊緣計算應用或云加速器卡的理想選擇。該平臺集成了用于嵌入式計算的下一代標量引擎、用于硬件靈活性的自適應引擎,以及由 DSP 引擎和用于推理和信號處理的革命性 AI 引擎組成的智能引擎。其結果是一個適應性強的加速器,其性能、延遲和能效超過了傳統 FPGAGPU 的性能、延遲和能效,適用于 AI/ML 工作負載。

Versal ACAP 平臺亮點

  • 適應性強的引擎:
    • 自定義內存層次結構優化了加速器內核的數據移動和管理
    • 預處理和后處理功能,包括神經網絡 RT 壓縮和圖像縮放
  • 人工智能引擎 (DPU)
    • 矢量處理器的平鋪陣列,使用 XCVC1902 設備(稱為深度學習處理單元或 DPU)時,性能高達 133 INT8 TOPS
    • 非常適合神經網絡,包括CNN,RNN和MLP;硬件可適應不斷演變的算法進行優化
  • 標量引擎
    • 四核ARM處理子系統,用于安全、電源和比特流管理的平臺管理控制器

VCK190 人工智能推理性能

與當前服務器級 CPU 相比,VCK190 能夠提供超過 100 倍的計算性能。下面是基于 C32B6 DPU 內核的 AI 引擎實現的性能示例,批處理 = 6。有關 VCK190 上各種神經網絡樣本的吞吐量性能(以幀/秒或 fps 為單位),DPU 以 1250 MHz 運行,請參閱下表。

no 神經網絡 輸入大小 共和黨 性能(幀率)(多線程)
1 face_landmark 96x72 0.14 24605.3
2 facerec_resnet20 112×96 3.5 5695.3
3 inception_v2 224×224 4 1845.8
4 medical_seg_cell_tf2 128×128 5.3 3036.3
5 MLPerf_resnet50_v1.5_tf 224×224 8.19 2744.2
6 精煉Medical_EDD_tf 320x320 9.8 1283.6
7 tiny_yolov3_vmss 416×416 5.46 1424.4
8 yolov2_voc_pruned_0_77 448×448 7.8 1366.0

表 1:VCK190 AI 推理性能示例。

有關 VCK190 AI 性能的更多詳細信息,請參閱 Vitis AI 庫用戶指南 (UG1354), r2.5.0 athttps://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

設計網關的 IP 核如何提高 AI 應用程序性能?

設計網關的IP 核設計用于處理網絡和數據存儲協議,無需 CPU 干預。這使得將CPU系統從復雜的協議處理中完全卸載成為理想的選擇,并使它們能夠將大部分計算能力用于AI應用程序,包括AI推理,前后數據處理,用戶界面,網絡通信和數據存儲訪問,以獲得最佳性能。

具有設計網關 IP 核的 AI 應用程序示例框圖圖 3:具有設計網關 IP 核的示例 AI 應用程序的框圖。(圖片來源:設計網關)

設計網關的 TCP 卸載引擎 IP (TOExxG-IP) 性能

傳統 CPU 系統處理超過 10GbE 或 25GbE 的高速、高吞吐量 TCP 數據流需要超過 50% 的 CPU 時間,這會降低 AI 應用程序的整體性能。根據賽靈思MPSoC Linux系統上的10G TCP性能測試,10GbE TCP傳輸過程中的CPU使用率超過50%,TCP發送和接收數據傳輸速度可以達到10GbE速度的40%至60%左右或400 MB / s至600 MB / s。

通過實施設計網關的TOExxG-IP 內核,通過 10GbE 和 25GbE 傳輸的 CPU 使用率可以降低到幾乎 0%,同時以太網帶寬利用率可以達到接近 100%。這允許通過純硬件邏輯直接通過 TCP 網絡發送和接收數據,并以最小的 CPU 使用率和盡可能低的延遲饋送到 Versal AI 引擎。下面的圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統之間的 CPU 使用率和 TCP 傳輸速度比較。

MPSoC Linux系統10G/25G TCP傳輸性能對比圖片圖 4:MPSoC Linux 系統和 Design Gateway 的 TOExxG-IP 內核對 10G/25G TCP 傳輸的性能比較。(圖片來源:設計網關)

設計網關的 TOExxG-IP for Versal 設備

TOExxG-IP 系統概述示意圖圖 5:TOExxG-IP 系統概述。(圖片來源:設計網關)

TOExxG-IP 內核實現了 TCP/IP 堆棧(硬線邏輯),并與賽靈思的 EMAC 硬 IP 和以太網子系統模塊連接,以實現 10G/25G/100G 以太網速度的下層硬件接口。TOExxG-IP 的用戶界面由用于控制信號的寄存器接口和用于數據信號的 FIFO 接口組成。TOExxG-IP 設計用于通過 AXI4-ST 接口與賽靈思以太網子系統連接。用戶界面的時鐘頻率取決于以太網接口速度(例如,156.625 MHz 或 322.266 MHz)。

TOExxG-IP的特點

  • 完整的 TCP/IP 堆棧實現,無需 CPU
  • 支持一個會話與一個 TOExxG-IP
  • 可以使用多個 TOExxG-IP 實例實現多會話
  • 支持服務器和客戶端模式(被動/主動打開和關閉)
  • 支持巨型幀
  • 通過標準先進先出接口實現簡單的數據接口
  • 通過單端口 RAM 接口實現簡單的控制接口

XCVC1902-VSVA2197-2MP-ES FPGA 器件上的 FPGA 資源使用情況如下表 2 所示。

家庭 示例設備 最大頻率 (兆赫 負載均衡注冊 負載均衡 LUT IOB 布拉姆蒂勒^1^ 烏蘭 設計工具
Versal AI Core XCVC1902-VSVA2197-2MP-ES 350 11340 10921 2165 - 51.5 - 萬歲2021.2

表 2:Versal 設備的實現統計信息示例。

TOExxG-IP 的更多詳細信息在其數據表中進行了描述,可通過以下鏈接從設計網關的網站下載:

Design Gateway's NVMe Host Controller IP performance

NVMe Storage interface speed with PCIe Gen3 x4 or PCIe Gen4 x4 has data rates up to 32 Gbps and 64 Gbps. This is three to six times higher than 10GbE Ethernet speed. Processing complicated NVMe storage protocol by the CPU to achieve the highest possible disk access speed requires more CPU time than TCP protocol over 10GbE.

Design Gateway solved this problem by developing the NVMe IP core that is able to run as a standalone NVMe host controller, able to communicate with an NVMe SSD directly without the CPU. This enables a high efficiency and performance of the NVMe PCIe Gen3 and Gen4 SSD access, which simplifies the user interface and standard features for ease of usage without needing knowledge of the NVMe protocol. NVMe PCIe Gen4 SSD performance can achieve up to a 6 GB/s transfer speed with NVMe IP as shown in Figure 6.

Image of performance comparison of NVMe PCIe Gen3 and Gen4 SSDFigure 6: Performance comparison of NVMe PCIe Gen3 and Gen4 SSD with Design Gateway's NVMe-IP Core. (Image source: Design Gateway)

Design Gateway's NVMe-IP’s for Versal devices

Diagram of NVMe-IP systems overviewFigure 7: NVMe-IP systems overview. (Image source: Design Gateway)

NVMe-IP’s features

  • Able to implement application layer, transaction layer, data link layer, and some parts of the physical layer to access the NVMe SSD without a CPU or external DDR memory
  • Operates with Xilinx PCIe Gen3 and Gen4 Hard IP
  • 能夠利用BRAM和URAM作為數據緩沖區,而無需外部存儲器接口
  • 支持六個命令:識別、關機、寫入、讀取、SMART 和刷新(提供可選的附加命令支持)

XCVC1902-VSVA2197-2MP-E-S FPGA 器件上的 FPGA 資源使用情況如表 2 所示。

家庭 示例設備 最大頻率 (兆赫) 負載均衡注冊 負載均衡 LUT IOB 布拉姆蒂勒^1^ 烏蘭 設計工具
Versal AI Core XCVC1902-VSVA2197-2MP-ES 375 6280 3948 1050 - 4 8 萬歲2022.1

表 3:Versal 設備的實現統計信息示例。

有關 Versal 器件的 NVMe-IP 的更多詳細信息,請參見其數據表,可通過以下鏈接從 Design Gateway 的網站下載:

面向第四代賽靈思的 NVMe IP 核數據表

結論

TOExxG-IP 和 NVMe-IP 內核都可以通過將 CPU 系統從計算和內存密集型協議(如 TCP 和 NVMe 存儲協議)中完全卸載來幫助加速 AI 應用程序性能,這對于實時 AI 應用程序至關重要。這使得賽靈思的 Versal AI Core 系列器件能夠執行 AI 推理和高性能計算應用,而不會出現網絡和數據存儲協議處理的瓶頸或延遲。

VCK190 評估套件和 Design Gateway 的網絡和存儲 IP 解決方案可在 Xilinx 的 Versal AI Core 器件上以盡可能低的 FPGA 資源使用量和極高的能效在 AI 應用中實現最佳性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 測試
    +關注

    關注

    9

    文章

    6201

    瀏覽量

    131345
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    淺談人工智能(2)

    。 強人工智能(Strong AI),又稱通用人工智能(Artificial General Intelligence)或完全人工智能,指的是可以勝任人類所有工作的人工智能。 超
    的頭像 發表于 02-22 08:24 ?114次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    人工智能+工業物聯網網關有什么功能作用

    人工智能+工業物聯網網關的功能作用 人工智能與工業物聯網網關的融合,通過邊緣計算、智能算法和協議轉換能力,顯著提升了工業場景的
    的頭像 發表于 01-16 17:57 ?1572次閱讀

    探索CY8CKIT - 062S2 - AI PSoC? 6人工智能評估套件

    探索CY8CKIT - 062S2 - AI PSoC? 6人工智能評估套件 電子工程師的日常工作中,一款優秀的評估
    的頭像 發表于 12-19 14:30 ?306次閱讀

    探索AMD XILINX Versal Prime Series VMK180評估套件,開啟硬件創新之旅

    探索AMD XILINX Versal Prime Series VMK180評估套件,開啟硬件創新之旅 電子設計的領域中,快速實現原型設計并確保高性能是每一位工程師的追求。AMD
    的頭像 發表于 12-15 14:40 ?512次閱讀

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以最先進的邊緣設備上進行人工智能處理。在這篇博文中,我們將介紹這對開發人員意味著什么,以及使用 Neuton 模型如何改進您的開發和終端
    發表于 08-31 20:54

    AI 邊緣計算網關:開啟智能新時代的鑰匙?—龍興物聯

    順暢地通向云端,實現設備與云端之間高效的數據傳輸與交互。通過融合先進的邊緣計算和人工智能技術,AI 邊緣計算網關能夠靠近數據源的網絡邊緣,對數據進行實時處理和精準分析,進而實現智能
    發表于 08-09 16:40

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    ,技術自主可控 如今這個科技競爭激烈的時代,國產化硬件的重要性不言而喻。比鄰星人工智能綜合實驗箱就做到了這一點,采用國產化硬件,積極推進全行業產業鏈上下游環節的國產化進程,把國產自主可控的軟硬件平臺
    發表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    ,技術自主可控 如今這個科技競爭激烈的時代,國產化硬件的重要性不言而喻。比鄰星人工智能綜合實驗箱就做到了這一點,采用國產化硬件,積極推進全行業產業鏈上下游環節的國產化進程,把國產自主可控的軟硬件平臺
    發表于 08-07 14:23

    AMD Versal自適應SoC使用QEMU+協同仿真示例

    Cortex A72 (QEMU) 運行的固件進行仿真,該固件會訪問當前 AMD Vivado Design Suite 仿真中正在進行仿真的 PL 中的 IP。本文將使用 Versal VCK190 和 Vivado 20
    的頭像 發表于 08-06 17:21 ?1991次閱讀
    <b class='flag-5'>在</b>AMD Versal自適應SoC<b class='flag-5'>上</b>使用QEMU+協同仿真示例

    超小型Neuton機器學習模型, 在任何系統級芯片(SoC)上解鎖邊緣人工智能應用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學習模型更易于使用。它創建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以最先進的邊緣設備上進行人工智能處理。在這篇博文中,我們將介紹
    發表于 07-31 11:38

    最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發展的當下,無論是探索未來職業方向,還是更新技術儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學術研究的智能工具,大模
    發表于 07-04 11:10

    愛立信攜手超微加速邊緣人工智能部署

    愛立信與超微 Supermicro近日宣布有意開展戰略合作,加速邊緣人工智能部署。
    的頭像 發表于 06-17 09:42 ?1.6w次閱讀

    STM32N6570-DK:邊緣人工智能開發的全能探索板

    STM32N6570-DKDiscovery套件是一款專為邊緣人工智能開發設計的完整演示和開發平臺,基于ArmCortex-M55內核的STM32N657X0H3Q微控制器。該套件集成
    的頭像 發表于 05-06 16:00 ?1116次閱讀
    STM32N6570-DK:邊緣<b class='flag-5'>人工智能</b>開發的全能探索板

    Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業人工智能應用

    -Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業人工智能應用 Cognizant將在關鍵增長領域提供解決方案,包括企業級AI智能體、定制化行業大型語言模型及搭載N
    的頭像 發表于 03-26 14:42 ?739次閱讀
    Cognizant將與NVIDIA合作部署神經<b class='flag-5'>人工智能</b>平臺,<b class='flag-5'>加速</b>企業<b class='flag-5'>人工智能</b>應用

    支持實時物體識別的視覺人工智能微處理器RZ/V2MA數據手冊

    。此外,利用了 DRP技術高靈活性特點的 OpenCV 加速器,除了可進行人工智能推理的圖像預處理之外,還能在單芯片實現人工智能范疇之外的
    的頭像 發表于 03-18 18:12 ?916次閱讀
    支持實時物體識別的視覺<b class='flag-5'>人工智能</b>微處理器RZ/V2MA數據手冊