国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解析OneFlow Element-Wise算子實現方法

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:GiantPandaCV ? 2022-12-12 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0x0. 前言

由于CUDA水平太菜,所以一直沒寫過這方面的筆記。現在日常的工作中已經不能離開寫CUDA代碼,所以準備學習ZZK隨緣做一做CUDA的筆記記錄一下學習到的知識和技巧。這篇文章記錄的是閱讀OneFlow的Element-Wise系列CUDA算子實現方案學習到的技巧,希望可以幫助到一起入門CUDA的小伙伴們。Elemet-Wise算子指的是針對輸入Tensor進行逐元素操作,比如ReLU就是針對輸入Tensor的每個值進行判斷是否大于0,大于0的話輸出就是輸入否則就是0。用CUDA來表達最簡單的寫法就是:

__global__voidrelu_kernel(float*input,float*output){
int32_tidx=blockIdx.x*blockDim.x+threadIdx.x;
output[idx]=input[idx]>>(src,dst);

cudaDeviceSynchronize();
cudaFree(src);
cudaFree(dst);
return0;
}

雖然這種寫法非常簡單明了,但卻存在明顯的性能問題。所以這篇文章將基于OneFlow開源的Element-Wise CUDA算子方案來解釋如何寫一個高性能的Element-Wise CUDA算子。

0x1. 性能

以GELU激活函數為例子,分別測試 dtype = float32,不同shape下的前向耗時以及帶寬利用率(NVIDIA A100-PCIE-40GB)。性能情況如下圖所示:

9f2cb390-7987-11ed-8abf-dac502259ad0.png

在這里插入圖片描述

9f2cb390-7987-11ed-8abf-dac502259ad0.png

在這里插入圖片描述

可以看到對于 GeLU 來說,無論是性能還是帶寬 OneFlow 的實現都是更優的,接下來我們就來了解一下為什么 OneFlow 的 Element-Wise 算子性能可以做到更優。

0x2. 用法

OneFlow在 elementwise.cuh 文件中分別針對一元,二元,三元運算的 Element-Wise 操作實現了模板函數。在包含這個頭文件之后我們可以使用 cuda::Unary/Binary/Ternary 這幾個模板函數來針對我們自己定義的 Element-Wise 操作進行計算。注意,這里說的一元,二元,三元代表的是這個 Element-Wise 操作有幾個輸入 Tensor。

我們舉個例子,假設我們要做的 Element-Wise 操作是逐點乘法,也即有 2 個輸入Tensor x 和 y,然后 x 和 y的形狀和數據類型都是一致的。那么我們可以定義一個模板類:

template
structMultiplyFunctor{
OF_DEVICE_FUNCToperator()(Tx,Ty)const{
returnx*y;
}
};

這里 OF_DEVICE_FUNC 表示我們定義的這個函數既可以運行在 CPU 又可以運行在 GPU 上,它的定義是:

#ifdefined(__CUDACC__)
#defineOF_DEVICE_FUNCTION__device____host____forceinline__
#else
#defineOF_DEVICE_FUNCTIONinline
#endif

然后我們就可以使用 cuda::Binary 這個模板函數來完成這個二元的 Element-Wise 算子了。示例代碼如下:

constuser_op::Tensor*x=ctx->Tensor4ArgNameAndIndex("x",0);
constuser_op::Tensor*y=ctx->Tensor4ArgNameAndIndex("y",0);
user_op::Tensor*out=ctx->Tensor4ArgNameAndIndex("out",0);
constint64_telem_cnt=x->shape().elem_cnt();
OF_CUDA_CHECK(cuda::Binary(MultiplyFunctor(),elem_cnt,out->mut_dptr(),
x->dptr(),
y->dptr(),
ctx->device_ctx()->cuda_stream()));

這里的 x, y, out 分別代表這個 Element-Wise 操作的輸入輸出 Tensor,然后 element_cnt 表示 Tensor 的元素個數,輸出張量的數據首地址 out->mut_dptr(), 輸入張量的數據首地址 x->dptr() && y->dptr() ,最后一個參數則是當前 Kernel 運行的 cuda Stream對象。

0x3. 原理&&代碼實現解析

我個人認為這里有幾個要點,分別是一個線程處理多個數據,向量化數據訪問提升帶寬,設置合理的Block數量(GridSize)和線程數量(BlockSize)以及在合適的地方進行循環展開(unrool)以及一些編程上的技巧。

0x3.1 給 Element-Wise 操作設置合理的 GridSize 和 BlockSize

下面這段代碼展示了 OneFlow 針對 Element-Wise 算子是如何設置 GridSize 和 BlockSize 的。對應的源碼地址為:https://github.com/Oneflow-Inc/oneflow/blob/master/oneflow/core/cuda/elementwise.cuh#L30-L52 。

constexprintkBlockSize=256;
constexprintkNumWaves=32;

inlinecudaError_tGetNumBlocks(int64_tn,int*num_blocks){
intdev;
{
cudaError_terr=cudaGetDevice(&dev);
if(err!=cudaSuccess){returnerr;}
}
intsm_count;
{
cudaError_terr=cudaDeviceGetAttribute(&sm_count,cudaDevAttrMultiProcessorCount,dev);
if(err!=cudaSuccess){returnerr;}
}
inttpm;
{
cudaError_terr=cudaDeviceGetAttribute(&tpm,cudaDevAttrMaxThreadsPerMultiProcessor,dev);
if(err!=cudaSuccess){returnerr;}
}
*num_blocks=std::max(1,std::min((n+kBlockSize-1)/kBlockSize,
sm_count*tpm/kBlockSize*kNumWaves));
returncudaSuccess;
}

這個地方 BlockSize 直接被設置為了 256 ,對應 constexpr int kBlockSize = 256; 這行代碼,也就是說每個 Block 有 256 個線程。為什么是 256 ?大家不妨讀一下俊丞大佬這篇經典的 給CUDA Kernel設置合適的 GridSize 和 Block Size 的文章 。文章中通過對 SM 的資源分析確定在主流的GPU上將 BlockSize 設置為 128 或者 256 是比較合適,在這里直接設置為了 256 。

確定了 BlockSize 之后需要確定 Kernel 啟動線程塊的數量,我一直覺得上述文章中對這一段的分析是尤其精彩的,這里再截圖展示一下:

9f4990fa-7987-11ed-8abf-dac502259ad0.png

選自OneFlow CUDA Kernel 中 grid_size 和 block_size 應該怎么設置 一文

根據這里的分析,對于 Element-Wise 操作要設置合適的 GridSize 不僅需要考慮元素的數量還要考慮由于 SM 硬件本身帶來的限制。如下公式所述:

*num_blocks=std::max(1,std::min((n+kBlockSize-1)/kBlockSize,
sm_count*tpm/kBlockSize*kNumWaves));

這里的 (n + kBlockSize - 1) / kBlockSize 就是根據 Element-Wise 操作的元素個數來計算需要啟動多少個線程塊,比如在文章開頭的例子中有 = 個元素,那么就一共需要 個線程塊。然后這里以GTX 3080Ti為例,它的SM個數也就是sm_count=80,每個SM最多調度的線程數tpm=1536,那么sm_count * tpm / kBlockSize * kNumWaves = 80 * 1536 / 256 * 32 = 15360,所以在這個例子中我們最終設置的線程塊個數為 588 個。

通過上述講解和分析我們已經確定了啟動 Element-Wise CUDA Kernel 的 GridSize 和 BlockSize。

0x3.2 向量化數據訪問提升帶寬

對于大多數 Element-Wise 算子來說,一般它們的計算量不會太大,所以它們的瓶頸一般在GPU的帶寬上。在 NVIDIA 的性能優化博客 https://developer.nvidia.com/blog/cuda-pro-tip-increase-performance-with-vectorized-memory-access/ 中提到,對于很多 CUDA 核函數我們都可以通過向量化數據訪問的方式來提升帶寬受限的 Kernel 的性能,特別是對于架構比較新的 GPU 向量化數據訪問的效果會更加明顯。

在 OneFlow 的 Element-Wise 系列算子中,為了更好的進行向量化的數據訪問,俊丞設計了如下的 Pack 數據結構(代碼位置:https://github.com/Oneflow-Inc/oneflow/blob/master/oneflow/core/cuda/elementwise.cuh#L54-L70):

template
structGetPackType{
usingtype=typenamestd::aligned_storage::type;
};

template
usingPackType=typenameGetPackType::type;

template
unionPack{
static_assert(sizeof(PackType)==sizeof(T)*pack_size,"");
__device__Pack(){
//donothing
}
PackTypestorage;
Telem[pack_size];
};

對GetPackType理解有誤請看知乎的修改后正確版本用了 std::aligned_storage 先聲明了一個內存對齊的數據類型 type ,注意這個 type 的內存長度為 pack_size * sizeof(T) 。然后這里的 T 是我們需要進行 Pack 的數據類型,而 pack_size 則表示我們需要 Pack 的元素個數。接下來我們看到 Pack 聯合體中聲明了 storage 和 elem 兩個數組,它們公用同一段對齊的內存。然后 Pack 聯合體的入口有一個檢查: static_assert(sizeof(PackType) == sizeof(T) * pack_size, ""); 這是用來判斷我們之前聲明的 type 的內存長度是否符合預期。

接下來我們從 https://github.com/Oneflow-Inc/oneflow/blob/master/oneflow/core/cuda/elementwise.cuh#L155-L194 這里可以看到這個 Pack 聯合體主要是用在 Kernel 啟動之前判斷 Element-Wise 操作的輸入輸出 Tensor 對應的數據指針地址是否滿足內存對齊的條件,如果不滿足則這個 Element-Wise 操作無法執行數據 Pack 。對應下圖2個畫紅色框的地方。

9f77468a-7987-11ed-8abf-dac502259ad0.png

接下來,OneFlow 定義了真正要執行數據 Pack 的數據結構 Packed 并且定義了計算 PackSize 的工具函數。代碼位置為:https://github.com/Oneflow-Inc/oneflow/blob/master/oneflow/core/cuda/elementwise.cuh#L72-L95 。

template
structalignas(sizeof(T)*pack_size)Packed{
__device__Packed(){
//donothing
}
union{
Telem[pack_size];
};
};

constexprintkMaxPackBytes=128/8;
constexprintkMaxPackSize=8;

constexprintMin(inta,intb){returna
constexprintPackSize(){
returnMin(kMaxPackBytes/sizeof(T),kMaxPackSize);
}

template
constexprintPackSize(){
returnMin(PackSize(),PackSize());
}

這里需要注意的是對于 CUDA 來說,最多支持 128 個 bit 的訪問粒度,也就是說 PackSize 的大小不能超過 128 個bit。然后對于各種數據類型來說,Half 數據類型的 bit 數是最少的即 16,所以一次性可以支持 Pack 8個half類型的數據,4個float32的數據,以此類推。所以這里的定義的 kMaxPackSize 表示 128/16=8 ,然后 kMaxPackBytes 則表示最大可以 Pack 的 byte 數 。

請注意區分 bit 和 byte 。

接下來 https://github.com/Oneflow-Inc/oneflow/blob/master/oneflow/core/cuda/elementwise.cuh#L97-L144 則是真正的為 Element-Wise 操作完成數據 Pack 并執行計算。

首先來看這段充滿技巧的代碼:

9f848cbe-7987-11ed-8abf-dac502259ad0.png

在這里插入圖片描述

首先這里定義了一個 HasApply2 類用來判斷是否可以支持一次性Pack 2個 char/int8/half2 類型的元素,這個地方是一個針對 int8/half2/char 數據類型的特殊處理,某些 Element-Wise 算子 Kernel 確實需要支持這種數據類型的計算。也就是說對于 half2 的話,在一個內存訪問粒度里我們其實是可以 Pack 128 / 8 = 16個的。然后用了C++模板元編程的 std::enable_if 來控制針對 half2 類型的特殊 Pack 處理,也就是上圖代碼中的兩個 ApplyPack 函數。可以看到對于 half2 類型的 Element-Wise 操作我們需要給對應的 Functor 定義一個 Apply2 函數,比如對于 Cast 操作的 Functor 定義如下:

template
structCastFunctor{
__device__Tooperator()(Fromfrom)const{returnstatic_cast(from);}
};

template
structCastFunctor::value>::type>{
__device__Tooperator()(halffrom)const{returnstatic_cast(static_cast(from));}

__device__voidApply2(To*to,consthalf*from)const{
constfloat2f2=__half22float2(*reinterpret_cast(from));
to[0]=static_cast(f2.x);
to[1]=static_cast(f2.y);
}
};

0x3.3 啟動 Kernel

我們接下來看一下 Element-Wise 的 Kernel 實現:https://github.com/Oneflow-Inc/oneflow/blob/master/oneflow/core/cuda/elementwise.cuh#L133-L144 。

9f98a0b4-7987-11ed-8abf-dac502259ad0.png

在這里插入圖片描述

在 Kernel 中我們發現每一個線程實際上處理了多個 Pack 后的數據,也即:for (int64_t i = global_tid; i < n_pack; i += blockDim.x * gridDim.x) 。初學者看到這個循環也許會比較疑惑,為什么它的步幅是 blockDim.x * gridDim.x ?? 這個 blockDim.x * gridDim.x 表示的是 CUDA 線程網格中的線程總數。假設線程網格中有 1280 個線程,線程 0 將計算元素 0、1280、2560 等。通過使用步幅等于網格大小的循環,確保了 warp 中的所有尋址都是單位步幅,可以獲得最大的內存合并。想了解更多細節可以查看:https://zhuanlan.zhihu.com/p/571320529 。

除此之外,使用這種技巧的還有個好處就是如果對于 Kernel 中存在每個線程都包含一個公共的操作,那么線程數的增多,也代表著這部分的開銷變大。這個時候我們減少線程的數量并循環進行處理的話那么這個公共操作的開銷就會更低。

最后,在循環之外,我們還需要根據傳入的 n_tail 參數,看一下還有沒有因為沒有被 pack_size 整除的剩余元素,如果有的話就單獨調用 functor 進行處理。

0x3.4 unroll

實際上就是代碼中的 #pragma unroll ,這個宏會對我們的 for 循環做循環展開,讓更多的指令可以并行執行。但容易想到,只有處理的數據沒有前后依賴關系的時候我們可以做。對于大多數的 ElementWise 算子來說一般是滿足這個條件的。

0x3.5 Kernel Launch的細節

在 https://github.com/Oneflow-Inc/oneflow/blob/master/oneflow/core/cuda/elementwise.cuh#L166-L181 這個位置 OneFlow 展示了 Element-Wise Kernel 的啟動細節,我們簡單注釋一下:

template
cudaError_tLaunchKernel(FactoryTfactory,int64_tn,R*r,constIN*...in,cudaStream_tstream){
constint64_tn_pack=n/pack_size;//根據元素個數和pack_size,計算pack數目,比如1026/4=256。
constint64_ttail_offset=n_pack*pack_size;//如果存在不被整除的情況,我們計算使用pack的偏移量:256*4;
constint64_tn_tail=n-tail_offset;////元素數目-偏移量=剩下的元素個數->1026-1024=2
intnum_blocks;
{
cudaError_terr=GetNumBlocks(n_pack,&num_blocks);//計算線程塊數目
if(err!=cudaSuccess){returnerr;}
}
ApplyGeneric<<>>(
factory,n_pack,reinterpret_cast*>(r),
(reinterpret_cast*>(in))...,n_tail,r+tail_offset,
(in+tail_offset)...);
returncudaPeekAtLastError();
}

0x4. 總結

以上就是我對 OneFlow Element-Wise 系列 CUDA 算子實現的解析,后續有空會持續更新學習到的新知識。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4968

    瀏覽量

    73960
  • CUDA
    +關注

    關注

    0

    文章

    127

    瀏覽量

    14475

原文標題:【BBuf 的CUDA筆記】一,解析OneFlow Element-Wise 算子實現

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一文掌握瑞芯微RK系列NPU算子支持全景:覆蓋6大平臺,新增硬件加速算子,嵌入式AI開發不踩坑

    Operator List v2.0.0-beta》文檔,不僅更新了 6 大主流平臺的算子支持細節,還新增了exSDPAttention、exMatMul 等硬件加速算子,為開發者提供了更清晰的開發指引。
    的頭像 發表于 02-06 16:33 ?1034次閱讀
    一文掌握瑞芯微RK系列NPU<b class='flag-5'>算子</b>支持全景:覆蓋6大平臺,新增硬件加速<b class='flag-5'>算子</b>,嵌入式AI開發不踩坑

    軟通金科亮相分子實驗室2026保險科技節

    1月14日,軟通動力受邀參加分子實驗室主辦的“2026保險科技節”,并于“新能源與智能化出行時代”論壇發表主題演講《新能源車險:從規模擴張到價值共生》,首次系統性闡述了在新能源車險數智化轉型中的思考與路徑。
    的頭像 發表于 01-15 16:20 ?298次閱讀

    如何在TensorFlow Lite Micro中添加自定義操作符(2)

    上一篇中,小編給大家抽絲剝繭的介紹了在TFLm中實現一個算子所涉及的文件,以及每個文件的具體作用,包括:功能實現算子解析等。那么本篇就帶著
    的頭像 發表于 12-26 10:53 ?1121次閱讀

    訊飛星辰Agent平臺入選36氪WISE 2025年度焦點產品

    近日,憑借在企業應用落地方面的卓越表現,訊飛星辰Agent平臺成功入選“36氪 WISE2025年度焦點產品”。
    的頭像 發表于 12-17 11:47 ?712次閱讀

    使用TFTP實現IAP的方法

    使用 TFTP 實現 IAP 的方法廣泛應用于需要具有固件升級功能的嵌入式應用中(例如,嵌入式 Linux bootloader 中)。TFTP 是一種在 UDP 傳輸層上執行的簡單文件傳輸協議。此
    發表于 12-10 07:21

    后摩智能吳強亮相WISE 2025商業之王大會

    2025年11月27-28日,36氪年度重磅S級商業大會“WISE2025 商業之王”在北京朝陽798藝術區傳導空間盛大啟幕。作為聚焦AI、出海、品牌等核心賽道的頂級商業盛會,大會以“科技爽文短劇
    的頭像 發表于 12-08 10:14 ?1818次閱讀

    智行者斬獲WISE 2025商業之王年度AI應用場景突破企業

    日前,在36氪「WISE2025 商業之王 年度企業」中,智行者憑借在AI與無人駕駛應用場景中的持續深耕與突破,榮獲「年度AI應用場景突破企業」。這一榮譽,是對公司創新實力的認可,也印證了智行者
    的頭像 發表于 12-04 14:28 ?618次閱讀

    Labview 解析dxf文件并顯示

    上一期開了一個帖子講Labview導入dxf文件,解析和顯示dxf文件,今天繼續繼續分享常用圖元的解析與顯示方法。 LINE :用文本方式打開dxf 文件,搜索出直線部分,并摘取,可以得到
    發表于 12-01 11:28

    Labview 解析dxf文件并顯示<一>

    Labview軟件開發過程中,大家會遇到導入dxf文件的需要,今天開個帖子,聊聊如何解析和顯示dxf文件,同時用圖表來顯示。 首先來介紹下dxf, 簡單來說他就是圖形文件的一種文本格式,具有固定
    發表于 11-14 22:45

    mqtt dns解析失敗是為什么?

    解析域名的ip地址就能正常連上,而直接解析域名就不行,為什么呢
    發表于 09-16 06:38

    深入解析面向不同市場的多樣化Arm計算子系統

    如果你曾基于 Arm 技術開發過產品,很大機會已經感受到了 Arm 計算子系統 (Arm Compute Subsystems, Arm CSS) 所帶來的強勁性能。
    的頭像 發表于 09-06 14:09 ?1024次閱讀
    深入<b class='flag-5'>解析</b>面向不同市場的多樣化Arm計<b class='flag-5'>算子</b>系統

    研華推出ACE應用導向邊緣計算解決方案及WISE-STACK私有云平臺

    研華科技今日舉辦法說會,公司2025上半年營收呈雙位數成長。面對市場對邊緣計算與 AI 的高度需求,研華推出ACE應用導向邊緣計算方案與WISE-STACK私有云平臺,強化軟硬整合與生態協同,加速AI應用落地。
    的頭像 發表于 08-12 15:37 ?2180次閱讀

    安泰電子ATA-2042高壓放大器的電子實驗案例2(案例合集)

    ATA-2042高壓放大器作為安泰電子的明星產品,憑借其優異的指標參數受到不少電子工程師的喜歡,其在電子實驗中的應用也非常頻繁,下面為大家整理出ATA-2042高壓放大器的應用案例合集,希望能對領域內各位工程師、研究人員有所幫助。
    的頭像 發表于 06-07 16:12 ?923次閱讀
    安泰電子ATA-2042高壓放大器的電<b class='flag-5'>子實</b>驗案例2(案例合集)

    博世和Element Six成立合資公司

    供應商元素六(Element Six)成立合資公司——博世量子傳感(Bosch Quantum Sensing),進一步加速量子傳感器的研發、制造與市場落地。
    的頭像 發表于 04-15 17:05 ?1187次閱讀
    博世和<b class='flag-5'>Element</b> Six成立合資公司

    風華電容命名方法深度解析

    與市場競爭力。 ? 一、命名方法解析:字母與數字的邏輯組合 風華電容采用“字母+數字”的組合編碼方式,其命名規則清晰且信息豐富: 1、字母部分 :代表電容器的系列和介質類型 C :陶瓷電容器 T :聚酯電容器 A :鋁電解電容器 S :固
    的頭像 發表于 04-11 11:58 ?1608次閱讀