国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

2020DAC- SDC冠軍作品分享,充分結合FPGA數據流架構的優勢

FPGA之家 ? 來源:PYNQ開源社區 ? 作者:PYNQ開源社區 ? 2021-05-27 17:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果說上期SkrSkr隊伍的設計像是德智體美勞全面發展的“五好學生”,那么冠軍隊伍的設計則更像是“不偏科的特長生”。

作品跳出前兩屆Top3隊伍的設計思路,充分結合FPGA數據流架構的優勢,逐步優化設計,最終在幀率上達到212fps,首次參賽一舉奪魁。

作品全HLS設計,采用PYNQ框架,其提高幀率的優化流程在其他HLS設計中亦值得借鑒。

01

DAC-SDC賽事回顧

從2018年設立DAC-SDC開始,每年都會吸引全球百支知名研究團隊參與角逐,與計算機視覺類的國際知名目標檢測比賽不同,DAC-SDC對高精度、高效率的追求不僅僅停留在算法層面,其更注重考察基于軟硬件協同的系統構建能力,即參賽設計不僅要提高復雜場景中小物體精準檢測的能力,還需要考慮整個硬件系統在圖像處理速度和功耗方面的要求。而且隨著技術迭代速度的加快,該賽項的平臺和要求也在不斷改進。2018、2019年該賽項由Nvidia、Xilinx 和 DJI 大疆創新贊助,賽項分為GPU和FPGA兩個方向。2020年只保留了FPGA方向。從選用平臺的角度來對比,2018年以Zynq7020作為目標平臺;2019年選用邏輯資源較多的ZU3作為目標平臺,邏輯資源的增加提升了大賽的可發揮空間。2020年仍延用19年的目標平臺Ultra96。關于賽事詳情請參考 快訊|中國團隊包攬頂會DAC-SDC競賽冠亞軍

2018年比賽情況

TX2 GPU和Zynq7020 的對比結果顯示,在同等精度條件下FPGA的處理速度較低,但FPGA平臺所需的功耗僅為GPU平臺的不到1/4。在2018年的設計中,Top3均采用了“自頂向下”的DNN設計思路(沿用目標檢測常規算法),而后再考慮算法在硬件層面的優化。其中FPGA組的冠軍來自清華大學汪玉教授團隊,其采用了深鑒科技的硬件加速器架構 DPU、全棧式工具鏈 DNNDK 和深度壓縮技術的基礎上,從算法、軟件和硬件對整個目標檢測系統進行了全棧式的協同優化。通過采用硬件友好的 SSD 網絡和多線程優化技術,結合深度壓縮和定點訓練,在保證識別精度的前提下,滿足了低功耗和實時性的要求。

2019年比賽情況

FPGA組升級到邏輯資源較多的ZU3(Ultra96)平臺。與2018年相比,在精度和速度方面的表現均有一定的提升。特別值得一提的是,2019年 GPU和FPGA的冠軍來自同一團隊,其由UIUC Deming Chen教授課題組聯合了 IBM、Inspirit IoT和新加坡 ADSC 的研究人員組成。該網絡架構采用“自底向上”的DNN設計思路,以硬件資源限制為約束進行網絡結構搜索得到架構的優化設計,而后將其部署在目標平臺上。因此,冠軍團隊的工作實質上是同一網絡架構(SkyNet)在不同平臺的優化設計實現。

縱觀前兩年的工作,2018年解決的問題主要集中在限定資源條件下如何部署DNN模型;2019年冠軍組的工作則體現了限定資源條件下如何搜索最優模型架構。上述工作更多考慮的是算法的本身和資源的約束,而沒有充分發揮FPGA平臺自身優勢。

02

我們的工作

基本設計思路

我們團隊主要從FPGA的架構特點入手對任務處理進行優化設計。FPGA的優勢在于其靈活、高效地并行化設計架構,適于處理流式、計算密集型任務,適于不同字節寬度的調節等。針對本賽項待處理的目標檢測任務特點,我們選用了卷積神經網絡算法,其中包含多層結構,需要依次計算各層,且計算密集。結合待處理任務的特點,為了充分發揮FPGA的優勢,我們提出了以下設計思路:

l 算法設計優化:壓縮神經網絡的參數量,且采用低bit量化技術,使得參數量較少且每個參數所需要的儲存空間減少,從而使所有的參數能夠置于FPGA片內BRAM中,減少加速過程中參數頻繁調入/出帶來的開銷。

l 硬件設計優化:基于FPGA資源構建高效流水結構,將卷積神經網絡中的所有層都置于片上,使得所有層能夠以流水線的形式并行進行計算;設計高效的低bit的矩陣計算單元,在有限資源的約束下最大化并行度。

基于上述設計構想,數據輸入加速器能直接輸出計算結果,中間結果不必搬運到外部RAM,減少了不必要的時延和能耗。低bit計算減少了單個計算單元的資源開銷,從而提高了整體并行度,進而提高了整個神經網絡計算的速率。

設計方案

1、目標檢測算法的設計

基于上述基本設計思想,我們自行構建了適于Ultra96平臺資源限定條件的網絡模型。其中主干網絡選用類VGG架構,為了降低所需的參數量和計算量,我們嚴格控制了各層濾波器的數量,后端采用類yolo 架構設計,整個網絡模型如下圖2所示。與2019年的第一名相比,我們的算法雖然精度略低,但計算量和參數量都有大幅度地降低。

2、網絡量化設計

量化技術是整個解決方案中重要的一個環節。我們量化了整個神經網絡,包括權值量化,激活量化等。量化方法如下:

782da56a-be3f-11eb-9e57-12bb97331649.png

我們對所有的權值(W)和激活后的數據進行了歸一化處理,使得所有的數據在尺度上是統一的。而后將權值和特征圖數據都量化到了4bit,雖然算法精度上有所降低,平均IoU從0.701降低了到0.649,但所需參數的儲存空間降為原來的八分之一。我們只需要花費0.105 MB片上空間就能將所有參數置于片上,而Ultra 96 v2板上FPGA芯片中共有0.95 MB BRAM空間。

3、 自定義數據流的AI加速器設計

根據待處理任務特點,我們基于目標平臺(Ultra96)資源特點,設計和實現一套“硬件函數庫”,將pytorch中的CNN算法映射到FPGA中(如下圖5)。其中,我們將pytorch中的卷積計算(Conv2d_Q)拆分成兩個部分——滑動窗口單元(SWU)和矩陣向量乘單元(MVU),SWU負責將卷積計算展開為矩陣向量計算,MVU則負責接收SWU輸出的數據流并計算。為減少片上存儲空間(緩存)使用量,我們將原CNN算法中的批正則化層(BatchNorm2d)與激活量化層(ReLu_Q)合為一個模塊Bn_Relu進行處理。為了便于構建流水處理架構,原pytorch中采用的四個層(卷積層、批正則化層、激活量化層和池化層)就變為我們定義的新四層(SWU層、MVU層、Bn_Relu層和MaxPool層),且每層中的Bn_Relu和MaxPool是可選的(圖中用虛線框標出),每層都有獨立緩存空間存儲對應層參數。同時,為了提高效率,每層內部也最大程度展開為流水形式。

我們將所有層都置于片上,當上一層有計算輸出時,下一層立即開始計算,各層同時運行。通過計算量分配各層所需要的邏輯資源,使得每層的時延趨向一致,使加速器運行效率最大化。

系統框架及優化設計

基于上述設計思想,最終實現的系統框圖如下。其中,我們采用DMA搬運數據,CPU負責任務調度工作。為了實現加速器IP與CPU之間的并行,我們在外部RAM中開辟了兩塊緩沖區輪流為加速器提供圖片數據。

由于計時規則在五月份做出了調整,將讀入圖片的時間和功耗也計入在內,而我們在五月版提交代碼的速度瓶頸主要卡在讀圖(Load image)時延。針對這個問題,我們對于系統待處理的任務重新進行了更為細致的優化部署。由于待處理任務分為四個部分:Load image、Resize image(簡寫為Resize)、Compute CNN(簡寫為CNN)、Calculate bounding box(簡寫為Calc bbox)。我們分別在PS端進行多核并行優化處理,在PS-PL端進行了負載均衡處理,從而優化了任務在PS和PL端的部署,該過程對最終成績中FPS提升貢獻很大。

我們的成績

基于上述設計,最終的實現的加速方案性能如下:

79766830-be3f-11eb-9e57-12bb97331649.png

跟前兩年的結果相比,雖然我們的精度(IoU)略有損失,但在速度方面我們有了大幅度地提升。

03

總結

上述是我們在2020DAC-SDC中所做的一些努力。這是我們團隊第一次參加DAC-SDC國際大賽,從關注該賽項到今天,我們一邊摸索一邊前進,很感謝組委會提供了這樣的平臺給我們實踐鍛煉和摸索提升的機會。身處計算機體系結構發展的黃金時代是我們這代人的幸運,相信未來系統設計必然將向著更精準、更高效、更低耗的方向邁進,我們也希望能夠通過努力與各位同仁共同見證這個時代的輝煌。同時,我們的設計也已經開源在:https://github.com/heheda365/ultra_net

04

團隊介紹

2020DAC-SDC Top-3的BJUT_Runner團隊來自北京工業大學信息學部張文博老師和包振山老師帶領的異構計算研究小組。參加本次比賽的團隊成員包括:詹康(圖中右下)、郭俊南和宋秉彥(圖中左下)。受2020年新型冠狀病毒疫情(COVID-19)影響,在整個參賽環節,團隊成員一直采用在線研討方式進行溝通(下圖為本組指導教師和所有成員在線合影)。

原文標題:打破常規,深度結合FPGA架構優勢|2020DAC- SDC冠軍作品開源與技術分享

文章出處:【微信公眾號:FPGA之家】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1660

    文章

    22415

    瀏覽量

    636495
  • dac
    dac
    +關注

    關注

    44

    文章

    2714

    瀏覽量

    197108
  • 開源
    +關注

    關注

    3

    文章

    4209

    瀏覽量

    46163

原文標題:打破常規,深度結合FPGA架構優勢|2020DAC- SDC冠軍作品開源與技術分享

文章出處:【微信號:zhuyandz,微信公眾號:FPGA之家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    MD657B高速DAC特性與替代型號分析

    采樣率架構差異:其他品牌的高速DAC通常采用JESD204B串行接口或需要外部FPGA實現MUX功能,與MD657B的并行LVDS+內置MUX架構差異較大,替換需要重新設計PCB和邏輯
    發表于 03-04 09:20

    MD662H高速DAC替代方案全解析:采樣率、復用與性能權衡

    數據流合并輸出。封裝:TQFP128,適合中等密度電路設計。應用領域:雷達信號生成、通信測試設備、高速數據采集回放系統。二、替代方案分析1. 采樣率與分辨率優先:TI DAC5682采樣率
    發表于 01-21 09:42

    使用簡儀科技產品構建高速數據流盤與回放系統解決方案

    本案例面向國產自主可控PXI軟硬件平臺,構建了一套運行于銀河麒麟實時操作系統環境下的高速數據流盤與回放系統。系統以高速數字化儀為核心,實現多通道高速信號的實時采集、連續盤存儲及離線回放分析,保障
    的頭像 發表于 12-30 10:52 ?547次閱讀
    使用簡儀科技產品構建高速<b class='flag-5'>數據流</b>盤與回放系統解決方案

    采用Prefetch+Cache架構有什么優勢

    我看官方說,采用Prefetch+Cache架構同頻CoreMark 計算力/功耗比超越同類產品,這優勢就是低功耗么?要是具體芯片比較的話,應該怎么比?
    發表于 12-11 07:35

    歐姆龍推出全新數據流邊緣控制器DX1

    2025年11月,歐姆龍自動化(中國)有限公司發布新品【數據流控制器DX1】。DX1作為一款數據流邊緣控制器,面對生產現場數據采集與活用困難、數據需求因人/設備而異、需關停設備才能引入
    的頭像 發表于 11-26 18:02 ?1271次閱讀
    歐姆龍推出全新<b class='flag-5'>數據流</b>邊緣控制器DX1

    在以下嵌入式軟件設計模型中,屬于數據流模型的是,哪里有設計模型的介紹?

    在以下嵌入式軟件設計模型中,屬于數據流模型的是()。A. CCSB. CSPC. FSMD. Petri Net
    發表于 11-24 15:55

    誰家在低成本MCU中集成CPLD/FPGA,這有何優勢呢?

    海振遠推薦的AG32系列MCU作為高性價比異構計算平臺,其獨特架構和功能特性在嵌入式領域具有顯著優勢。以下是核心特性分析: 1、FPGA+MCU融合設計? 內置2K邏輯單元的FP
    發表于 11-06 11:15

    25年11月上海FPGA算法實現與應用技術高級研修分享

    的案例對離散傅里葉變換進行深入說明,同時對時域和頻域的功率計算統一評估。   第三章: 通信基站數據流概論:介紹無線通信物理層的數據流設計架構與關鍵技術。   第四章: 基帶信號的產生與檢測:以OFDM為
    發表于 10-11 11:55

    用IS8000軟件和WT5000功率分析儀的DS波形數據流功能分析形數據

    橫河IS8000集成軟件平臺,將功率分析儀的波形采集與示波器的波形數據分析融為一體,提高測試效率。下面我們將為您揭曉如何通過IS8000軟件和WT5000的DS波形數據流功能輕松保存并分析相關波形數據
    的頭像 發表于 07-03 18:30 ?642次閱讀
    用IS8000軟件和WT5000功率分析儀的DS波形<b class='flag-5'>數據流</b>功能分析形<b class='flag-5'>數據</b>

    Altera FPGA與高速ADS4249和DAC3482的LVDS接口設計

    引言: 本文以TI的ADS4249(ADC)和DAC3482(DAC)之間的接口為例,介紹Altera FPGA與ADC/DAC之間的DDR LVDS接口設計以及時序約束詳細設計。本文
    的頭像 發表于 06-19 10:05 ?3192次閱讀
    Altera <b class='flag-5'>FPGA</b>與高速ADS4249和<b class='flag-5'>DAC</b>3482的LVDS接口設計

    FX3板是否兼容2k和4k分辨率的視頻數據流

    ,實現了 1920 * 1080 @ 60 fps 的設計,但現在我想檢查與上述更高分辨率的兼容性。 關于這一點,我有幾個問題 1.FX3 板是否兼容 2k 和 4k 分辨率的視頻數據流? 2.視頻數據流
    發表于 05-23 06:35

    通過 FX3 以 5200*3900 分辨率、15fps 的速度從我的 fpga 傳輸視頻數據流,但無法設置最小/最大比特率描述符值,怎么解決?

    我正試圖通過 FX3 以 5200*3900 分辨率、15fps 的速度從我的 fpga 傳輸視頻數據流,但無法設置最小/最大比特率描述符值,因為描述符大小只有 32 位。 描述符的預期值應該是
    發表于 05-23 06:35

    使用FX3測試程序中的數據流時,遇到了每8個字節重復的場景,是什么原因導致的?

    我在使用 FX3 測試程序中的數據流時,遇到了每 8 個字節重復的場景。
    發表于 05-21 06:59

    FPGA開發任務

    1、FPGA載板設計 提供串口、2.5Gbps網口(自適應100Mb、1000Mb、2.5Gb)、5V或12V供電。 2、FPGA PL編程 1)提供鏈路層數據處理功能,2.5Gbps網口接收
    發表于 04-22 18:46

    如何使用FPGA驅動并行ADC和DAC芯片,使用不同編碼方式的ADC與DAC時的注意事項

    ADC和DACFPGA與外部信號的接口,從數據接口類型的角度劃分,有低速的串行接口和高速的并行接口。FPGA經常用來采集中高頻信號,因此使用并行ADC和
    的頭像 發表于 03-14 13:54 ?2202次閱讀
    如何使用<b class='flag-5'>FPGA</b>驅動并行ADC和<b class='flag-5'>DAC</b>芯片,使用不同編碼方式的ADC與<b class='flag-5'>DAC</b>時的注意事項