国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TVM中將計算算符分成四種

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2022-02-08 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:安平博,Xilinx高級工程師;來源:AI加速微信公眾號

算符融合將多個計算單元揉進一個計算核中進行,減少了中間數據的搬移,節省了計算時間。TVM中將計算算符分成四種:

1 injective。一一映射函數,比如加法,點乘等。

2 reduction。輸入到輸出具有降維性質的,比如sum。

3 complex-out。這是計算比較復雜的,比如卷積運算等。

4 opaque。無法被融合的算符,比如sort。

根據以上對算符的不同類型,TVM提供了三種融合規則:

pIYBAGAJ2T6AJeJJAADW3l6UdT0832.png

從一定角度看,這種融合實際上是數據計算pipeline化,即兩次計算中間數據不再經歷store-load的過程,而是直接給到下一個計算單元完成計算。

在走入fuse ops代碼之前,還需要了解一些算法基礎知識。算符融合中應用了支配樹算法。在一個有向無環圖中,對于一個節點n來說,從初始節點s出發到達n的所有路徑都經歷一個節點m,那么m就是n的支配點。而距離n最近的支配點被稱作立即支配點。以r為樹根,將所有立即支配點按照支配關系連接起來就形成了支配樹。立即后支配點是從一個點n出發所有到終止節點的路徑中通過的最近節點,形成的支配樹是后支配樹。

在DAG中,對于一個點,所有能到達它的點在支配樹中的LCA,就是它支配樹中的父親。為什么算符融合要建立在后支配樹的基礎上呢?我猜測可能是因為對于兩個可融合算符在DAG中位置分為兩種,一種是父子關系,那么可以直接執行算符融合算法;另外一種是它們之間是后支配關系。對于具有后支配關系的兩個節點(n->m),就要判斷未來路徑上的節點是否都能夠和點m發生融合,如果可以,那么n也可以和m發生融合。比如下圖:

o4YBAGAJ2XyAGjlUAAAaksTA-qU713.png

Conv2d要和elemwise add融合,必須判斷它的三個op是否能和elemwise add融合。

TVM中融合流程分為三步:

1 遍歷relay樹,建立DAG用于后支配樹分析;

2 建立后支配樹;

3 應用算符融合算法。

一 建立DAG圖

算符融合代碼在src/relay/transforms/fuse_ops.cc中。其中算符融合也應用在常量折疊中。

首先TVM中通過如下代碼來遍歷relay樹結構并建立DAG圖。

pIYBAGAJ2buADAxoAACiH4i61bc319.png

o4YBAGAJ2hCAXqd5AAKMwZogBVY140.png

VisitExpr可以遞歸的調用在類IndexedforwardGraph中定義的VisitExpr_函數,通過深度優先搜索遍歷relay樹,并且建立DAG圖。深度優先搜索是從exit節點作為根節點反向搜鎖的,因此搜索樹是一個后序搜索樹。Outputs中保存了一個節點的輸入的邊,在構建后序支配樹會通過這些輸入邊求取LCA。那么在這個搜索樹基礎上應用支配樹算法,就能夠得到一個后序支配樹了。在這個類中針對不同節點類型重寫visitExpr_函數,節點類型有FunctionNode,ConstantNode, CallNode, TuppleNode等。我們來看CallNode的訪問函數定義:

pIYBAGAJ2lmARVsVAAbKmwPUr8I233.png

在最后還會遞歸調用ExprVisitor::VisitExpr_函數,最終將深度優先搜索到的節點按照葉節點起始順序一次加入DAG圖中。只有ConstantNode的訪問函數中不再調用VisitExpr_,因為常量節點應該不存在葉節點了。在callNode中會將其輸入加入到DAG中,同時遍歷和輸入以及其op連接的節點,ExprVisitor中對CallNode訪問函數定義為:

o4YBAGAJ2peAYpq5AACTWGic2PA585.png

因為ExprVisitor是被IndexForwardGraph繼承的,而VisitExpr_是虛擬函數,this就會指向IndexForwardGraph實例,最終就會調用這個類中定義的VisitExpr_函數,實現遞歸的遍歷relay樹。

這里要關注一下OpPatternKind,它定義了算子類型,是不同融合算法使用的依據。其定義在include/tvm/relay/op_attr_types.h文件中。

pIYBAGAJ2tuAdZhAAAHp6B7gjc0360.png

二 建立后序支配樹

接下來看后序支配樹的構建。構建函數是PostDom。因為根節點(DAG圖的出口)在post_dfs_order中最后,所以從根節點開始尋找每個節點出點的LCA,這個LCA就是后序支配點。

o4YBAGAJ2xqAM6QfAADdIrgDoKQ847.png

GetNode函數是獲得支配點,構建支配樹。在GetNode中,首先初始化根節點,然后求每個節點的輸入節點的LCA,即是這個節點的支配點。

pIYBAGAJ21mAScbsAAEpUSdPj2c136.png

LeastComonAncestor函數中主要代碼是:

pIYBAGAJ25mABK65AAF2UY5KmQs700.png

通過兩兩求節點的LCA,來求取所有節點的LCA。程序會將計算圖中的末節點深度設置為1。然后向上逐層增加,那么LCA的共同祖先是相同的,深度也一定是一致。遍歷所有的節點,就得到一個后向支配樹。節點的pattern指向他的LCA。在計算支配點的pattern的時候,會依據pattern的定義,選擇pattern值最大的作為LCA的pattern。這塊不是太深入理解。可能是其定義的從最小值到最大值pattern可以向下進行融合,比如kElemWise=0, kInjective=2, 那么前者就能融合到KInjective中。

三 融合

完成了DAG和postDominator tree構建后,就開始融合操作。TVM中定義了group結構體,用于表示融合后的圖結構。Group結構體如下:

pIYBAGAJ29eAK44AAAEOJLVDA3c904.png

如果某些算符可以融合,那么就通過這個結構體中的parent,master_ref將這些節點建立連接關系。Group首先進行初始化和DAG相同的圖。然后分別遍歷dag,postDominator tree,以及group圖中節點,來判斷算符是否能被融合。Dag中和postDom中對應相同index的節點分別是被支配點和支配點。主要融合函數是以下兩個函數:

pIYBAGAJ3BaAGxgUAAD5TKkTU2I760.png

pIYBAGAJ3F2ATjJUAAPdJjrvDa0392.png

在runFuse中,有幾種情況是不進行算符融合的:

1 算符類型是Kopaque的。

2 該節點不存在支配點。

3 能夠融合的節點超過了一定數量。

融合操作算法基本上是考察當前節點到其支配點所有路徑上的節點是否都符合融合規則,如果符合就進行融合,不符合就不融合。函數CheckPath就是用于考察src到sink路徑是否能夠融合的。

融合分成了三個phase,每個phase處理不同可融合類型。這里我沒有深入研究。當判斷支配樹的前后節點可以融合后,就通過函數commitFuse執行融合操作。

完成融合之后,會遍歷節點創建新的graph。

審核編輯:何安

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • TVM
    TVM
    +關注

    關注

    0

    文章

    19

    瀏覽量

    3956
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    低成本CAN擴展方案怎么選?CSM331A四種模式一次說清

    MCU需要CAN功能但預算有限?CSM331A協議轉換芯片用SPI/UART就能擴展,四種模式從快到穩任你選。ZLG致遠電子推出的CSM331A協議轉換芯片,配合一個CAN收發器,就能通過SPI
    的頭像 發表于 02-09 11:50 ?236次閱讀
    低成本CAN擴展方案怎么選?CSM331A<b class='flag-5'>四種</b>模式一次說清

    是德示波器DSOX1202A與電腦的四種連接方式及操作步驟詳解

    是德科技(Keysight)DSOX1202A示波器作為高精度電子測量設備,廣泛應用于電子工程、通信測試與自動化調試場景。為實現數據實時采集、波形分析與遠程控制,用戶需通過USB、LAN、GPIB或串口將示波器與電腦互聯。本文將結合官方指南與實操經驗,系統介紹四種連接方式的具體步驟及注意事項。
    的頭像 發表于 01-13 17:48 ?1499次閱讀
    是德示波器DSOX1202A與電腦的<b class='flag-5'>四種</b>連接方式及操作步驟詳解

    WTK6900FC鼾聲識別芯片在四種助眠場景中的應用

    WTK6900FC鼾聲識別芯片在四種助眠場景中的應用 “跟你說個搞笑的事情,我剛才午睡的時候被我自己的呼嚕聲吵醒了...”這是真實發生在身邊的事情。 ? 過去對于打呼嚕這件事情,大家的態度就是“累了
    的頭像 發表于 12-02 16:40 ?726次閱讀
    WTK6900FC鼾聲識別芯片在<b class='flag-5'>四種</b>助眠場景中的應用

    C語言宏拼接運算典型使用

    在C語言中,##運算(稱為[size=16.002px]標記拼接運算)用于宏定義中將兩個標記(token)拼接成一個新的標記。它在預處理階段處理,常用于動態生成變量名、函數名或類型名,以提高代碼
    發表于 11-20 08:27

    國產飛騰工控機,邊緣計算發展的硬件新基石

    隨著科技的不斷發展,邊緣計算已經成為了各個領域的熱點。邊緣計算將計算任務從云端推向網絡的邊緣,以實現更低延遲、更高效率和更好的隱私保護。
    的頭像 發表于 10-23 16:50 ?329次閱讀

    四種MOS管驅動電路方案介紹

    這個電控界的MOS管,但想讓它聽話,還得靠驅動電路!整理了 4 常用方案。
    的頭像 發表于 10-17 09:33 ?4320次閱讀
    <b class='flag-5'>四種</b>MOS管驅動電路方案介紹

    一圖看懂綠電直連的四種玩法

    通過 “總覽框架 + 分模式圖解” 的形式,用可視化邏輯拆解綠電直連的四種核心模式,涵蓋每種模式的核心特征、適用場景、參與主體三大關鍵信息,幫你快速區分不同 “玩法” 的差異與適配性。
    的頭像 發表于 10-15 10:18 ?1307次閱讀
    一圖看懂綠電直連的<b class='flag-5'>四種</b>玩法

    從入門到精通:基于開源代碼的BLE四種模式開發詳解

    通過分析BLE低功耗藍牙的四種核心工作模式,結合可下載、可修改的開放源碼,本教程為開發者提供一套系統、實用的開發學習路徑。 BLE(Bluetooth Low Energy): 也稱為
    的頭像 發表于 10-09 18:00 ?514次閱讀
    從入門到精通:基于開源代碼的BLE<b class='flag-5'>四種</b>模式開發詳解

    全網最全CSA3412,BCT4340,VL162,MCU/ USB3.1 正反插10G bps四種解決方案

    CSA3412,BCT4340,VL162,MCU/ USB3.1 全網最全正反插10G bps四種解決方案
    的頭像 發表于 09-25 03:06 ?710次閱讀
    全網最全CSA3412,BCT4340,VL162,MCU/ USB3.1 正反插10G bps<b class='flag-5'>四種</b>解決方案

    SC、LC、FC和ST四種類型中哪類價格最貴

    在SC、LC、FC和ST四種類型的光纖跳線中,FC類型的光纖跳線通常價格相對較高,具體分析如下: FC類型的光纖跳線: 特點:采用金屬螺紋套筒連接,具有較高的穩定性和抗拉強度,適用于高振動環境或需要
    的頭像 發表于 07-25 10:16 ?1155次閱讀

    芯片制造的大工藝介紹

    這一篇文章介紹幾種芯片加工工藝,在Fab里常見的加工工藝有四種類型,分別是圖形化技術(光刻)?摻雜技術?鍍膜技術和刻蝕技術。
    的頭像 發表于 07-16 13:52 ?3792次閱讀
    芯片制造的<b class='flag-5'>四</b>大工藝介紹

    5050 RGBW 合一全彩 LED 燈珠

    20mA*4 功能性5050 RGBW 合一全彩 LED 燈珠是一集成了紅(Red)、綠(Green)、藍(Blue)和白(White)四種顏色 LED 芯片的照明元件。這種燈珠因其多功能性和高靈活性,在現代照明領域 產品特
    發表于 06-27 10:02

    RDMA簡介3之四種子協議對比

    RDMA協議共有四種子協議,分別為InfiniBand、iWARP、RoCE v1和RoCE v2協議。這四種協議使用統一的RDMA API,但在具體的網絡層級實現上有所不同,如圖1所示,接下來將
    發表于 06-04 16:05

    變頻器主要支持哪四種模式?有什么區別?

    變頻器作為現代工業自動化領域中的關鍵設備,其控制模式的多樣性和靈活性對于滿足不同應用場景的需求至關重要。變頻器主要支持四種控制模式:無PG的V/F模式、有PG的V/F模式、無PG的矢量控制模式以及有
    的頭像 發表于 04-16 18:22 ?2365次閱讀
    變頻器主要支持哪<b class='flag-5'>四種</b>模式?有什么區別?

    芯片封裝中的四種鍵合方式:技術演進與產業應用

    自動鍵合和混合鍵合四種主流技術,它們在工藝流程、技術特點和應用場景上各具優勢。本文將深入剖析這四種鍵合方式的技術原理、發展現狀及未來趨勢,為產業界提供技術參考。
    的頭像 發表于 04-11 14:02 ?3111次閱讀
    芯片封裝中的<b class='flag-5'>四種</b>鍵合方式:技術演進與產業應用