国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于PYNQ的軟件框架實現SSD目標檢測算法硬件加速方案

454398 ? 來源:PYNQ開源社區 ? 作者:PYNQ開源社區 ? 2020-09-26 11:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

設計目的與應用

隨著人工智能的發展,神經網絡正被逐步應用于智能安防、自動駕駛、醫療等各行各業。目標識別作為人工智能的一項重要應用也擁有著巨大的前景,隨著深度學習的普及和框架的成熟,卷積神經網絡模型的識別精度越來越高。有名的LeNet-5手寫數字識別網絡,精度達到99%,AlexNet模型和VGG-16模型的提出突破了傳統圖像識別算法,GooLeNet和ResNet推動了卷積神經網絡的應用。

但是神經網絡的發展也給我們帶來了更多挑戰,權重參數越來越多,計算量越來越大導致了復雜的模型很難移植到移動端或嵌入式設備中,且嵌入式環境對功耗、實時性、存儲都有著嚴格的約束。因此如何將卷積神經網絡部署到嵌入式設備中是一件非常有意義的事情。目前神經網絡在傳統嵌入式設備上絕大部分是基于ARM平臺,神經網絡在ARM上部署時存在的巨大問題是算力的不足。GPU主要應用于神經網絡訓練階段,對環境和庫的依賴性較大,國內技術積累較弱,難以實現技術自主可控。ASIC 是為特定需求而專門定制優化開發的架構,靈活性較差,缺乏統一的軟硬件開發環境,開發周期長且造價極高。所以,基于FPGA的硬件加速平臺是時候發揮它的優勢了。FPGA由于獨特的架構,被廣泛的應用與實時信號處理、圖像處理領域,其并行性也為卷積神經網絡提供了巨大算力。

傳統的RTL開發FPGA流程相比緩慢,不如軟件的開發效率高,所以HLS運營而生,使用高層次語言來進行轉換為底層的硬件代碼,極大的加快開發進程。因此項目選用HLS工具來實現算法中的加速IP核,將SSD目標檢測網絡移植到FPGA硬件平臺上, 對于硬件加速過程中的算法并行性,在本設計中主要采用兩個方式:對層內的運算并行化,將多個通道的數據進行分塊,每一塊內的通道同時進行運算,最后將結果累加在一起。對于模塊的運算采用HLS并行優化,對數組核循環添加優化指令進行優化。整個系統采用PYNQ的軟件框架來實現,為SSD目標檢測算法提供了硬件加速方案,充分發揮了FPGA的并行性。

SSD目標檢測算法原理

SSD于2016年提出,是經典的單階段目標檢測模型之一。它的精度可以媲美FasterRcnn雙階段目標檢測方法,速度卻達到了59FPS(512x512,TitanV),單階段目標檢測方法的目標檢測和分類是同時完成的,其主要思路是利用CNN提取特征后,均勻地在圖片的不同位置進行密集抽樣,抽樣時可以采用不同尺度和長寬比,物體分類與預測框的回歸同時進行,整個過程只需要一步,所以其優勢是速度快。

SSD采用的主干網絡是VGG網絡,VGG是由Simonyan 和Zisserman在文獻《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷積神經網絡模型,其名稱來源于作者所在的牛津大學視覺幾何組(Visual Geometry Group)的縮寫。該模型參加2014年的 ImageNet圖像分類與定位挑戰賽,取得了優異成績:在分類任務上排名第二,在定位任務上排名第一。

基于PYNQ的軟件框架實現SSD目標檢測算法硬件加速方案

圖1.VGG16網絡結構

這里的VGG網絡相比普通的VGG網絡有一定的修改,主要修改的地方就是:

1、將VGG16的FC6和FC7層轉化為卷積層。

2、去掉所有的Dropout層和FC8層;

3、新增了Conv6、Conv7、Conv8、Conv9。

圖2.SSD主干網絡結構

上圖展示了SSD的主干網絡結構,整個網絡為全卷積網絡結構,SSD將VGG16的兩個全連接層轉換成了普通的卷積層,池化層POOL5由原來的stride=2,kernel大小2x2變成stride=1,kernel大小3x3,為了不改變特征圖大小同時獲得更大的感受野,Conv6改為空洞卷積,diliation=6,輸入的圖片經過了改進的VGG網絡(Conv1->fc7)和幾個另加的卷積層(Conv6->Conv9)進行特征提取。

從圖2我們可以看出,SSD將conv4_3、conv7、conv6_2、conv7_2、conv8_2、conv9_2都連接到了最后的檢測分類層做回歸,6個特征圖分別預測不同大小和長寬比的邊界框,具體細節如圖3。

圖3.SSD特征提取網絡

SSD為每個檢測層都預定義了不同大小的先驗框(prior boxes),Conv4_3、Conv8_2和Conv9_2分別有4個先驗框,而Conv7、conv7_2和Conv8_2分別有6種先驗框,即對應于特征圖上的每個像素,都會生成4或6個prior box.

在淺層的神經網絡里,只能看到圖片的細節和紋理信息,就如管中窺豹。隨著網絡層數的加深,相當于把圖片往后移動一段距離。這樣才能夠感知到圖片的整體信息。低層卷積可以捕捉到更多的細節信息,高層卷積可以捕捉到更多的抽象信息。低層特性更關心“在哪里”,但分類準確度不高,而高層特性更關心“是什么”,但丟失了物體的位置信息。SSD正是利用不同尺度檢測圖片中不同大小和類別的目標物體,獲得了很好的效果。

作品展示





聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1660

    文章

    22412

    瀏覽量

    636376
  • SSD
    SSD
    +關注

    關注

    21

    文章

    3111

    瀏覽量

    122239
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265416
  • 卷積神經網絡

    關注

    4

    文章

    372

    瀏覽量

    12877
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FPGA硬件加速卡設計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA硬件加速, PCIe半高卡, XCKU115, 光纖采集卡, 信號計算板, 硬件加速
    的頭像 發表于 02-12 09:52 ?391次閱讀
    FPGA<b class='flag-5'>硬件加速</b>卡設計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 <b class='flag-5'>硬件加速</b>卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    YOLO5目標檢測方案-基于米爾RK3576開發板

    據傳輸以及GPU直接顯示的協同優化,能夠徹底釋放 RK3576平臺的異構計算潛力,將端到端延遲控制在數十毫秒內,實現高清、實時的目標檢測應用。這一優化思路同樣適用于其他具備類似硬件加速
    發表于 01-22 19:21

    復雜的軟件算法硬件IP核的實現

    硬件加速 IP 核 HDL 文件的生成分為兩個步驟,首先根據將要接入的 SOPC 系統的總線的特性,將算法做適當的包裝、暴露相關的接口以及調用方法,即適配總線接口。不同的 SOPC 總線有不同的時序以及
    發表于 10-30 07:02

    常用硬件加速的方法

    之前總結了一些常用硬件加速方法 1)面積換速度:也就是串轉并運算,可以多個模塊同時計算; 2)時間換空間:時序收斂下通過頻率提高性能,雖然面積可能稍微加大點; 3)流水線操作:流水線以面積換性能,以
    發表于 10-29 06:20

    目標追蹤的簡易實現:模板匹配

    在分析硬件加速之前,首先要弄明白這個算法軟件實現中有哪些冗余的操作:首先是遍歷次數多(前文算出來的就已經達到了 82.6 萬次),每次遍歷都需要對 50 * 50=2500 個像
    發表于 10-28 07:21

    硬件加速模塊的時鐘設計

    硬件加速模塊需要四個時鐘,分別為clk_l , clk_r , clk_c , clk_n 。 clk_l : 整個硬件加速模塊為了最大化的節約時間成本而采用了類似處理器的流水線設計,具體上將每一層
    發表于 10-23 07:28

    如何驗證硬件加速是否真正提升了通信協議的安全性?

    是具體驗證方法與框架,覆蓋從底層硬件到上層協議的全鏈路驗證: 一、基礎驗證:硬件加速模塊的安全功能正確性 硬件加速(如加密 / 解密、哈希計算、密鑰管理)是通信協議安全的 “底層支撐”
    的頭像 發表于 08-27 10:16 ?1144次閱讀
    如何驗證<b class='flag-5'>硬件加速</b>是否真正提升了通信協議的安全性?

    有哪些方法可以確保硬件加速與通信協議的兼容性?

    安全風險。以下是具體可落地的方法,按實施階段和優先級排序: 一、硬件選型階段:優先選擇 “協議原生支持” 的硬件方案 硬件加速的兼容性根基在選型階段奠定,需明確
    的頭像 發表于 08-27 10:07 ?1096次閱讀

    如何利用硬件加速提升通信協議的安全性?

    產品實拍圖 利用硬件加速提升通信協議安全性,核心是通過 專用硬件模塊或可編程硬件 ,承接軟件層面難以高效處理的安全關鍵操作(如加密解密、認證、密鑰管理等),在提升性能的同時,通過
    的頭像 發表于 08-27 09:59 ?981次閱讀
    如何利用<b class='flag-5'>硬件加速</b>提升通信協議的安全性?

    【機器視覺】睿擎平臺支持NCNN AI 推理框架,輕松實現實時目標檢測( 睿擎線下 Workshop 報名已開啟)|產品動

    RT-Thread系統上深度集成NCNN推理框架,通過其輕量化架構與硬件級優化能力,結合YOLO系列算法的高效單階段檢測特性,實現了工業場景
    的頭像 發表于 08-20 17:40 ?5262次閱讀
    【機器視覺】睿擎平臺支持NCNN AI 推理<b class='flag-5'>框架</b>,輕松<b class='flag-5'>實現</b>實時<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>( 睿擎線下 Workshop 報名已開啟)|產品動

    【VisionFive 2單板計算機試用體驗】在 VisionFive 2 上為目標檢測準備軟件環境并運行 MobileNet-SSD 模型

    目標: 本教程將實現在 StarFive VisionFive 2 開發板上為目標檢測應用準備所需軟件環境,并最終運行一個基于 Mobile
    發表于 07-10 19:51

    基于FPGA的SSD目標檢測算法設計

    隨著人工智能的發展,神經網絡正被逐步應用于智能安防、自動駕駛、醫療等各行各業。目標識別作為人工智能的一項重要應用也擁有著巨大的前景,隨著深度學習的普及和框架的成熟,卷積神經網絡模型的識別精度越來越高
    的頭像 發表于 07-10 11:12 ?2565次閱讀
    基于FPGA的<b class='flag-5'>SSD</b><b class='flag-5'>目標</b><b class='flag-5'>檢測算法</b>設計

    基于FPGA的壓縮算法加速實現

    本設計中,計劃實現對文件的壓縮及解壓,同時優化壓縮中所涉及的信號處理和計算密集型功能,實現對其的加速處理。本設計的最終目標是證明在充分并行化的硬件
    的頭像 發表于 07-10 11:09 ?2396次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b><b class='flag-5'>加速</b><b class='flag-5'>實現</b>

    軒轅智駕紅外目標檢測算法在汽車領域的應用

    在 AI 技術蓬勃發展的當下,目標檢測算法取得了重大突破,其中紅外目標檢測算法更是在汽車行業掀起了波瀾壯闊的變革,從根本上重塑著汽車的安全性能、駕駛體驗與產業生態。
    的頭像 發表于 03-27 15:55 ?958次閱讀

    睿創微納推出新一代目標檢測算法

    隨著AI技術的發展,目標檢測算法也迎來重大突破。睿創微納作為熱成像領軍者,憑借深厚的技術積累與創新能力,結合AI技術推出新一代目標檢測算法,以三大核心技術帶來AI視覺感知全場景解決
    的頭像 發表于 03-20 13:49 ?1149次閱讀