国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

FPGA做深度學習加速的技能總結

汽車玩家 ? 來源:AI加速微信公眾號 ? 作者:安平博 ? 2020-03-08 16:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

深度學習加速器已經兩年了,從RTL設計到仿真驗證,以及相應的去了解了Linux驅動,深度學習壓縮方法等等。今天來捋一捋AI加速器都涉及到哪些領域,需要哪些方面的知識。可以用于AI加速器的主要有三種不同架構的器件種類:CPUGPU,AI芯片/FPGA。CPU是一個通用架構芯片,其計算能力和數據帶寬相對受到限制,面對大計算量的深度學習就顯露出其缺點了。GPU含有大量的計算陣列,可以適用于大規模運算,而且其生態較為成熟和完整,所以現在包攬了所有的深度學習訓練和絕大部分深度學習推理。要說有沒有缺陷,經常被拿來比較的就是其功耗較大,而且并不是完全針對于深度學習網絡的結構,所以還并不能完全利用其計算和存儲資源。為了更有針對性的加速深度學習網絡,AI芯片(FPGA)近兩年也出現了。Intel、阿里平頭哥、騰訊、百度等都開始設計自己的AI加速芯片,使用FPGA的有賽靈思、曠視科技等。FPGA用于深度學習加速和AI芯片的架構具有通用性,兩者可以看做相同架構,只是用于不同硬件器件。而且通常AI芯片的前期驗證也是用FPGA完成的。這篇文章就捋一捋FPGA在做深度學習加速時需要的技能。

1. 一張圖

AI加速是一個同時涉及到軟件和硬件的領域,下面一張簡單的圖羅列了AI加速器所有知識。

FPGA做深度學習加速的技能總結

2. RTL

RTL部分設計主要考慮到以下幾個方面:
1) 考察神經網絡每個部分的計算量和參數數據,選擇適合在FPGA上進行加速的部分。比如對于CNN網絡,卷積運算占據整個網絡的絕大部分計算,因此會占據FPGA中的絕大部分DSP資源。但是在卷積運算之間還存在激活函數、歸一化等操作,這些雖然計算量不大,但是會對整個加速形成瓶頸,因此如何能夠與卷積運算形成流水對性能影響也很大;

2) 設計加速算法。只要考慮好這兩點就解決了主要問題:一個是計算資源利用率,另外一個是miss ratio。計算資源利用率包括FPGA上空間資源利用率,還包括計算資源的時間利用率。空間利用率越高,說明算力越高,時間利用率越高表明有效計算越高,加速效果越好。Miss ratio反映了片上cache存儲的參數是否能夠及時供給計算使用。如果能及時供給使用,那么從片外加載數據的時間就可以被壓縮。

3) 架構的通用性。基本上架構都是基于指令集的,指令集主要依據加速器的計算核來定義的,算是復雜指令集。一個指令包含了參數的存儲位置,需要數量,計算方式等等。由于深度網絡操作數量比較單一,比如LSTM基本上就包括矩陣乘法、加法、向量乘法、激活等。大概也就有不超過10個指令就能涵蓋一個LSTM網絡了。為了適配這樣的指令,架構大概包含以下結構:

外部總線:主要用于和外部ddr進行數據交互。

內部存儲:儲存要用到的參數和數據,及時供給計算核。Cache緩存是為了解決讀取DDR帶寬瓶頸問題。

指令解析:獲取指令進行解析,發送給相應模塊進行處理。

內部總線:為每個計算核提供數據讀寫通路。

計算核:張量計算核,用于加速神經網絡計算。

計算核互聯線:實現不同計算核之間的直接互聯,可以實現不同計算核的pipeline。

Batch:包含了計算核、指令解析、計算核互聯線等。當然如果內部cache并不是用的很多,一個batch也可以包含有內部cache。這些batch實際上可以看做神經網絡運行的線程,多個batch就支持多線程神經網絡計算。比如一個LSTM網絡可以在有batch=2的硬件上同時進行兩個句子的運算。

線程控制:用于控制多batch操作。

3. 驗證

驗證主要包括兩個方面,一個是對指令集正確性進行驗證,另外一個是對RTL代碼進行仿真。指令集的驗證需要有一個CMODEL來對編譯器生成指令的正確性進行校驗,校驗準確才能夠給硬件使用。因為仿真環境也需要隨機化指令來對RTL代碼進行校驗,所以cmodel也會用于仿真環境中。我以UVM為例來說明,其基本結構如下:

指令隨機化:對指令進行約束,生成隨機指令;

指令驅動:將指令轉換成文件,提供給cmodel,以及初始化到ddr文件中;

參數隨機化:隨機化權重等參數;

參數驅動:將參數初始化為ddr文件;

AXI驅動:這個包含AXI讀寫ddr文件的驅動,用于和DUT進行交互;

Monitor:監測DUT行為,和cmodel的數據進行對比;

FPGA做深度學習加速的技能總結

4. 驅動

驅動主要是完成ddr的初始化,線程控制的配置以及中斷響應等。首先將權重等參數初始化到ddr中,然后通過axi總線配置FPGA的寄存器,同時對FPGA產生的中斷進行響應。獲取ddr中結果數據等。一般如zynq等SoC器件,因為集成了arm核,所以驅動相對簡單。如果軟件端在服務器,那么還需要PCIE等驅動來支持和服務器的交互。以SoC器件為例,linux驅動正常工作需要以下步驟:
1. 制作RTL硬件工程,生成bit文件和hardware配置文件;

2. 利用SDK生成fsbl文件,這個主要完成對zynq器件的一些基本硬件配置;

3. 制作linux的uboot、kernel、devicetree等文件;

4. 用fsbl、bit、uboot、kernel、devicetree制作boot.bin;

5. 選擇linux文件系統,如linaro等。制作SD卡鏡像,燒寫到SD卡中,啟動SoC器件;

5. 編譯器

編譯器主要能夠根據深度學習模型來生成指令,并優化指令。以TVM為例,它基于計算圖,對接市場上主流的深度學習框架:tensorflow、pytorch等,將這些模型進行計算圖的轉化,然后基于這些計算圖來進行圖的優化和指令優化。TVM目標是通用性,所以其兼容CPU、GPU、TPU,同時還要對接更多的深度學習框架。所以其很龐大。針對FPGA自身的AI加速器,可以以這個為借鑒,開發自己的compiler。同時依據自身硬件特點進行指令的優化。

計算圖是基本很多編譯器采用的圖結構,其貫穿了指令優化和生成始終。計算圖中的節點包含了數據信息和相應操作。這些節點相互連接形成了一個網絡計算的依賴關系。計算圖是一個基于tensor操作的圖,它并不像通用CPU編譯器的細化的標量操作。因為FPGA加速器中計算核一般都是張量操作。這是和CPU不同的。而且這樣的計算圖也相對簡潔。

一個張量操作的實現有很多可能,因為依據數據之間的依賴關系和維度大小,可以對張量運算進行分解為多步操作。這些分解有很多。因此優化一個計算圖就會面臨很多這樣可能的步驟。這被稱為schedule,優化就是在這些schedule空間中找出最優的那個順序。TVM中提出了一個基于機器學習模型的優化方法,去搜尋schedule空間,找到最適于硬件的圖。然后生成指令。

6. 模型壓縮

模型壓縮有很多方法,根據壓縮目標主要包括量化和剪枝。量化就是將浮點定點化,剪枝就是去除一些冗余的連接或者數據。從一些文獻調研的結果有以下一些方式:

1) 二值化網絡;

2) 向量壓縮方法;

3) 知識蒸餾;

4) CP分解;

5) 降維分解;

6) 深度壓縮;

7) 自動化搜索空間;

7. 軟件部署

因為FPGA并不適合加速神經網絡的所有部分或者還沒有相應IP來加速一些模塊,那么這些操作就會放在CPU上進行,比如對于LSTM網絡,前邊的embedding層還有后端的softmax或者類別生成。這些都更適合在CPU上做。因此軟件部署來調用FPGA硬核IP,和FPGA進行交互。同時還有一些數據準備、打印等操作,客戶展示。這些都是軟件部署要做的。

總結

一個AI加速涉及到了算法、軟件、驅動、硬件方面,因此通常做AI加速的團隊都比較龐大,包含了算法到硬件的各種人才。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1660

    文章

    22408

    瀏覽量

    636247
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301365
  • 深度學習
    +關注

    關注

    73

    文章

    5598

    瀏覽量

    124396
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    算法工程師需要掌握一系列跨學科的技能,涵蓋數學基礎、編程能力、算法理論、工程實踐以及業務理解等多個方面。 以下是具體技能學習建議: 線性代數核心內容:矩陣運算、特征值分解、向量空間等。應用場
    發表于 02-27 10:53

    Microsemi IGLOO2 FPGA與SmartFusion2 SoC FPGA深度剖析

    Microsemi IGLOO2 FPGA與SmartFusion2 SoC FPGA深度剖析 作為一名電子工程師,在日常的設計工作中,FPGA與SoC
    的頭像 發表于 02-09 17:20 ?317次閱讀

    機器學習深度學習中需避免的 7 個常見錯誤與局限性

    ,并驗證輸出結果,就能不斷提升專業技能,養成優秀數據科學家的工作習慣。需避免的機器學習深度學習數據錯誤在訓練數據驅動的人工智能模型時,我們會遇到一些常見錯誤和局
    的頭像 發表于 01-07 15:37 ?186次閱讀
    機器<b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    深度學習技能的工程師起薪18K,3-5年經驗可達35-50K ? 行業分布:電子制造(38%)、汽車零部件(22%)、半導體(19%)、醫療器械(11%)為主要就業領域 本次團購通過整合11大系列課程
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    深度學習技能的工程師起薪18K,3-5年經驗可達35-50K ? 行業分布:電子制造(38%)、汽車零部件(22%)、半導體(19%)、醫療器械(11%)為主要就業領域 本次團購通過整合11大系列課程
    發表于 12-03 13:50

    從0到1,10+年資深LabVIEW專家,手把手教你攻克機器視覺+深度學習(5000分鐘實戰課)

    “告別檢測系統能力缺陷!10+年LabVIEW視覺資深專家手把手教你:5000+分鐘高清教程(含工具、算法原理、實戰操作、項目優化全流程講解)”——從傳統視覺算法→深度學習建模→工業級部署"
    的頭像 發表于 12-02 08:07 ?520次閱讀
    從0到1,10+年資深LabVIEW專家,手把手教你攻克機器視覺+<b class='flag-5'>深度</b><b class='flag-5'>學習</b>(5000分鐘實戰課)

    如何深度學習機器視覺的應用場景

    深度學習視覺應用場景大全 工業制造領域 復雜缺陷檢測:處理傳統算法難以描述的非標準化缺陷模式 非標產品分類:對形狀、顏色、紋理多變的產品進行智能分類 外觀質量評估:基于學習的外觀質量標準判定 精密
    的頭像 發表于 11-27 10:19 ?220次閱讀

    如何在FPGA部署AI模型

    如果你已經在用 MATLAB 深度學習,那一定知道它的訓練和仿真體驗非常絲滑。但當模型要真正落地到 FPGA 上時,往往就會卡住:怎么把網絡結構和權重優雅地搬到硬件里?
    的頭像 發表于 09-24 10:00 ?4425次閱讀
    如何在<b class='flag-5'>FPGA</b>部署AI模型

    如何在機器視覺中部署深度學習神經網絡

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術。事實上,這種印象忽視了該技術為機器視覺(乃至生產自動化)帶來的潛力,因為深度學習并非只屬于計算機科學家或程序員。 從頭開始:什么
    的頭像 發表于 09-10 17:38 ?900次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經網絡

    Andes晶心科技推出新一代深度學習加速

    高效能、低功耗 32/64 位 RISC-V 處理器核與 AI 加速解決方案的領導供貨商—Andes晶心科技(Andes Technology)今日正式發表最新深度學習加速器 Ande
    的頭像 發表于 08-20 17:43 ?2330次閱讀

    深度學習對工業物聯網有哪些幫助

    深度學習作為人工智能的核心分支,通過模擬人腦神經網絡的層級結構,能夠自動從海量工業數據中提取復雜特征,為工業物聯網(IIoT)提供了從數據感知到智能決策的全鏈路升級能力。以下從技術賦能、場景突破
    的頭像 發表于 08-20 14:56 ?1022次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發展,傳統的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規模數據和復雜模型的需求。FPGA(現場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發表于 07-16 15:34 ?2885次閱讀

    嵌入式AI技術之深度學習:數據樣本預處理過程中使用合適的特征變換對深度學習的意義

    ? 作者:蘇勇Andrew 使用神經網絡實現機器學習,網絡的每個層都將對輸入的數據一次抽象,多層神經網絡構成深度學習的框架,可以深度理解數
    的頭像 發表于 04-02 18:21 ?1516次閱讀

    如何排除深度學習工作臺上量化OpenVINO?的特定層?

    無法確定如何排除要在深度學習工作臺上量化OpenVINO?特定層
    發表于 03-06 07:31