HLS優化設計中pipeline以及unroll指令：細粒度并行優化的完美循環

HLS 優化設計的最關鍵指令有兩個：一個是流水線 (pipeline) 指令，一個是數據流(dataflow) 指令。正確地使用好這兩個指令能夠增強算法地并行性，提升吞吐量，降低延遲但是需要遵循一定的代碼風格。展開 (unroll) 指令是只針對 for 循環的展開指令，和流水線指令關系密切，所以我們放在一起首先我們來看一下這三個指令在 Xilinx 官方指南中的定義：

Unroll: Unroll for-loops to create multiple instances of the loop body and its instructions that can then be scheduled independently.

Pipeline:Reduces the initiation interval by allowing the overlapped execution of operations within a loop or function.

Dataflow:Enables task level pipelining, allowing functions and loops to execute concurrently. Used to optimize through output and/or latency.

Unroll 指令在 for 循環的代碼區域進行優化，這個指令不包含流水線執行的概念，單純地將循環體展開使用更多地硬件資源實現，保證并行循環體在調度地過程中是彼此獨立的。

Pipeline 指令在循環和函數兩個層級都可以使用，通過增加重復的操作指令（如增加資源使用量等等）來減小初始化間隔。

Dataflow 指令是一個任務級別的流水線指令，從更高的任務層次使得循環或函數可以并行執行，目的在于減小延遲增加吞吐量。

Unroll 和 Pipeline 指令相互重合的關系在于，當對函數進行流水線處理時，以下層次結構中的所有循環都會自動展開，而使用展開指令的循環并沒有給定對II的約束。在最新版本的 Vitis HLS 工具中，工具會自動分析數據之間的流水線操作關系，以II＝１為目標優化，但是還是會受限于設計本身的算法和代碼風格。下圖非常清晰地闡明了Unroll 和 Pipeline 指令的關系，Pipeline 指令放置的循環層次越高，循環展開的層次也越高，最終會導致使用更大面積的資源去實現，同時并行性也更高。

細粒度并行優化的完美循環

這里如果循環的邊界是變量的話，則無法展開。這將組織函數被流水線化，可以通過添加tripcount 等指令，指定循環在綜合時大概的最大最小邊界。

在循環流水線優化的過程中，有一個完美循環，半完美循環和非完美循環的代碼風格概念，只有當流水線循環完美或半完美時，才可以將嵌套循環徹底并行展開。

完美循環：只有最里面的循環才具有主體內容，在循環語句之間沒有指定邏輯，循環界限是恒定的。

半完美循環：只有最里面的循環才具有主體 (內容), 在循環語句之間沒有指定邏輯，只有最外面的循環邊界可以是可變的。

非完美循環：循環的主體內容分布在循環的各個層次或內層循環的邊界是變量。

細粒度并行優化的完美循環

當我們要爭去最大流水線循環的成功執行，就需要將非完美循環手動修改成完美或半完美循環。以下代碼例子給出了完美循環（左邊）和非完美循環（右邊）在Vitis HLS 中的執行結果。

細粒度并行優化的完美循環

綜合完畢后，我們可以在分析窗口和綜合報告中都很清晰的看出，完美循環在執行的時候，工具自動將內層循環LOOP_J和外層循環LOOP_I合并為一整個大循環，并實現了整個大循環的流水線操作，延遲的周期數為: (400-1) *1+8-1 =406個周期數，延遲大約為 408*2.5 = 1,020 ns

非完美循環中，內層和外層循環沒有合并，只有內層循環LOOP_J 實現了流水線執行，進出內循環的浪費的時鐘周期增加了整個循環的時鐘周期，同時還有一些命令行沒有辦法跨越循環的層級實現調度上的優化，這些因素都導致了設計的延遲的增加。

閱讀全文

Xilinx(130366) Xilinx(130366)
指令(37381) 指令(37381)
Pipeline(9929) Pipeline(9929)
Dataflow(6889) Dataflow(6889)

探索Vivado HLS設計流，Vivado HLS高層次綜合設計

作者：Mculover666 1.實驗目的通過例程探索Vivado HLS設計流用圖形用戶界面和TCL腳本兩種方式創建Vivado HLS項目用各種HLS指令綜合接口優化Vivado HLS

2020-12-21 16:27:21

4357

基于HLS之任務級并行編程

? HLS任務級編程第一篇文章可看這里： HLS之任務級并行編程 HLS的任務級并行性（Task-level Parallelism）分為兩種：一種是控制驅動型；一種是數據驅動型。對于控制驅動型

2023-07-27 09:22:10

1950

淺析HLS的任務級并行性

HLS的任務級并行性（Task-level Parallelism）分為兩種：一種是控制驅動型；一種是數據驅動型。

2023-07-27 09:21:40

1613

如何優化HLS仿真腳本運行時間

需求：由于自己目前一個 HLS 仿真腳本需要運行 1個多小時，先打算通過打印時間戳的方式找出最耗時的部分，然后想辦法優化。

2024-02-23 09:29:03

1401

HLS-1Hin人工智能訓練系統

Habana Labs System 1H（HLS-1H）為數據中心帶來了新水平的Al計算性能和電源效率，以及大規模的可擴展性。 HLS-1Hin包含四個Gaudi HL-205 Mezzanine

2023-08-04 06:06:14

優化 FPGA HLS 設計

減少錯誤并更容易調試。然而，經常出現的問題是性能權衡。在高度復雜的 FPGA 設計中實現高性能需要手動優化 RTL 代碼，而這對于HLS開發環境生成的 RTL 代碼來說是不可能的。然而，存在一些解決方案

2024-08-16 19:56:07

優化會殺死while循環計數器

“前景”的代碼是，例如：沒有優化：（O0）這一切都很完美。一旦我使用任何其他優化級別，如O1，編譯器就將while語句轉換為無窮循環，該循環僅將分支返回到ClrWdt，而不進行任何測試。一個完全沒用

2019-09-06 08:34:46

AMD-Xilinx的Vitis-HLS編譯指示小結

被充分利用；但如果使用array_reshape指令，就會使用1個BRAM將數組配置為1個4Kbit x 4。循環展開與優化指令 pragma HLS unroll unroll指令能夠將循環完全

2023-12-31 21:20:08

H.264視頻編碼器的代碼優化

技術，軟件流水是一種對循環中的指令進行調度優化的技術，利用軟件流水可生成非常緊湊的循環代碼。當編譯時采用-O2或-O3級別的優化選項時，編譯器將對程序中的循環進行軟件流水。通過軟件流水的優化，可以大大提高循環代碼的效率，極大地實現指令的并行性。

2011-08-10 14:56:05

H.264視頻編碼器的匯編程序級優化

寫線性匯編程序時可不必考慮指令的延時、指令的并行、寄存器的使用和功能單元的分配等，匯編優化器將根據代碼的情況自動確定這些信息。匯編程序優化可通過對自動編譯生成的匯編文件進行修改而進行。匯編優化其實就是

2011-08-10 14:56:49

HarmonyOS應用閃屏問題性能優化三

的原因，分別測試是否為當前原因導致。定位到問題后嘗試使用對應解決方案，從而消除對應問題現象。應用連續點擊場景下，通過計數器優化動畫邏輯。 Tabs頁簽切換場景下，完善動畫細粒度，提高流暢表現。 ForEach刷新內容過程中，根據業務場景調整鍵值生成函數。本文主要引用參考HarmonyOS官方文檔

2025-05-19 14:36:37

Linux平臺上如何進行通用計算并行優化

2021-03-12 07:43:40

MATLAB編程在優化中的應用介紹

資源。近年來，優化技術沒有發生顯著變化，但應用領域卻以顯著的速度迅速發展。在專業實踐中成功嵌入優化的使用至少需要三個先決條件。它們包括設計問題的數學建模、計算機編程知識和優化技術知識?，F在有許多特殊

2023-09-21 07:07:10

OpenMP優化調研系列文章（3）

極大大小的數組，要在Cache中一次容納整個數組是有困難的，但可以將數組分為多塊，可有效降低Cache失效率。循環調度優化在OpenMP中可對并行循環指定調度方案，以將每個迭代分配給多個工作線程執行

2022-12-23 16:05:40

Spark RDD為什么不可更改

高效細粒度更新的RDD Spark IndexedRDD

2019-04-17 15:45:58

TI C6000優化startup guide

優化時是著力于代碼中的循環的，因為循環最消耗cycle。編譯器能輸出asm文件，asm文件中有每個循環優化后的pipeline信息。讀懂這些信息能指導我們消除瓶頸，進一步提升循環的效率。優化其實是個反復

2018-12-28 11:16:01

Vivado HLS設計流的相關資料分享

1.實驗目的通過例程探索Vivado HLS設計流用圖形用戶界面和TCL腳本兩種方式創建Vivado HLS項目用各種HLS指令綜合接口優化Vivado HLS設計來滿足各種約束用不用的指令來探索

2021-11-11 07:09:49

arm系統中并行計算優化

32位，這樣可以一次性處理4個8為數據，不過gps處理中需要對每個數據進行判斷而導致無法使用neon。如何數據可以多位一起處理，或者說多層嵌套循環有提前跳出的條件存在，并行計算優化還是有希望。

2015-12-30 14:33:38

manual中rtk算法如何優化？

RTK算法原理是什么？manual中rtk算法如何優化？

2021-09-27 06:36:37

【KV260視覺入門套件試用體驗】硬件加速之—使用PL加速矩陣乘法運算（Vitis HLS）

乘法的并行特征。與CPU串行執行指令不同，FPGA可以將大規模矩陣乘法拆分成大量細粒度運算,并行 pipelines 執行。 FPGA上的定制邏輯電路不需要頻繁訪問內存，延遲更低。綜合來說

2023-10-13 20:11:51

【「DeepSeek 核心技術揭秘」閱讀體驗】第三章：探索 DeepSeek - V3 技術架構的奧秘

時間減少，數據處理更流暢。這讓我聯想到工業生產中的流水線，AI 訓練在此處借鑒類似思路，通過優化任務分配和流程，突破硬件限制，追求更高效率，體現了技術發展中持續優化、突破瓶頸的智慧。三、細粒度

2025-07-20 15:07:25

【原創文章】程序的優化技巧

的個數怎么做？16位呢？如果變通。3、針對循環執行效率的優化循環是C語言程序中的常用語法功能，由于循環執行的次數較多，占程序執行時間的權重大，所以對循環的優化是提高程序效率的關鍵點。例如，void

2021-08-16 10:50:07

【正點原子FPGA連載】第一章HLS簡介-領航者ZYNQ之HLS 開發指南

上，比如讓設計者可以指定 HLS 引擎如何處理 C 代碼中識別出來的循環或數組，或是某個特定運算的延遲。這能導致RTL 輸出的巨大改變。因此，具有了指令的知識，設計者就可以根據應用的需求來做優化

2020-10-10 16:44:42

在gem5中支持Arm TME的工作資料推薦

不同的同步策列，比如粗粒度鎖， 細粒度鎖和 lock-free算法時，以上兩個屬性經常呈負相關性。圖一：達到更高性能/可伸縮的并發通常以增加編程難度為代價Hardware Transactional

2022-08-05 15:14:36

基于pCTL的循環優化測試用例自動生成方法

引言在大多數程序中,循環占大部分程序執行時間,對循環的優化影響著整個程序的執行效率,并且隨著多核技術的發展,并行化越來越重要,而這也是循環優化的目標之一,因此循環優化是現代編譯器不可缺少的部分.編譯器測試是保證編譯器質量的重要手段,但由于編譯器特別是編譯優化模塊全文下載

2010-04-24 09:51:28

定點算法實現和優化

發揮出來。3．3 循環展開優化循環展開是另一種優化程序的方法。為了充分利用芯片內的硬件資源，使盡可能多的指令同時并行執行，可以采用將小循環展開的方式，使片內資源的性能得到最大的發揮。CCS優化編譯器

2012-04-18 10:54:27

嵌入式HLS 案例開發步驟分享——基于Zynq-7010/20工業開發板（3）

58PIPELINE 的作用是允許在函數中并發執行操作，減少函數運行時間。圖 59solution2 將 mmult_hw()的 L2 for 循環進行了 PIPELINE 優化。打開solution2

2023-01-01 23:50:04

嵌入式HLS 案例開發步驟分享——基于Zynq-7010/20工業開發板（3）

，可看到下圖語句。圖 58PIPELINE 的作用是允許在函數中并發執行操作，減少函數運行時間。圖 59 solution2 將 mmult_hw()的 L2 for 循環進行了 PIPELINE 優化

2023-08-24 14:52:17

嵌入式系統中的代碼優化與壓縮技術

在當今數字化時代，嵌入式系統廣泛應用于各個領域，從智能家居設備到工業控制系統，從汽車電子到可穿戴設備，它們無處不在。而在嵌入式系統開發中，代碼優化與壓縮技術至關重要，直接影響著系統的性能、成本以及

2025-02-26 15:00:37

怎么利用Synphony HLS為ASIC和FPGA架構生成最優化RTL代碼？

相比，能夠為通信和多媒體應用提供高達10倍速的更高的設計和驗證能力。Synphony HLS為ASIC 和 FPGA的應用、架構和快速原型生成最優化的RTL。Synphony HLS解決方案架構圖

2019-08-13 08:21:49

照明燈由什么構成？

維持較低水平。還必須為員工改善工作環境，讓他們能夠在工作中發揮最佳水平。要實現這一切，唯一的辦法就是利用新技術、挖掘數據，對建筑系統進行細粒度的控制

2019-08-12 07:18:49

用pipeline優化程序運行結果錯誤

請問用-O3和-g加上-mt,-mh一起優化算法，為什么運行的結果與優化之前相比是錯誤的。如何避免打開流水線之后引起的錯誤？

2019-11-05 07:40:21

用vivado HLS優化設計大規模矩陣相乘，求詳細具體的優化策略

設計一個高性能的HLS, 可以用任何優化策略，在保持函數功能的同時盡可能提高性能。希望論壇里的大神給予具體優化的指導，最近幾天調試太費勁了，希望大神給予保羅loop unroll, pipeline

2016-08-27 21:11:26

編譯器優化的靜態調度介紹

　　指令調度簡介　　指令調度是指對程序塊或過程中的操作進行排序以有效利用處理器資源的任務。指令調度的目的就是通過重排指令，提高指令級并行性，使得程序在擁有指令流水線的CPU上更高效的運行。指令調度

2023-03-17 17:07:47

蜂鳥E203內核優化方法

對蜂鳥E203內核進行優化可以考慮以下幾個方面：編譯器優化：使用適合蜂鳥E203的編譯器選項和指令集，優化編譯器的選項和參數，開啟對硬件的特定支持，比如使用-O2等優化選項，以提高代碼執行效率

2025-10-21 07:55:16

請教關于C6678的LOOP優化問題

各位工程師好：有幾個關于6678優化的問題想請教一下1.在循環中調用三角函數、反三角函數如cos（） atan（）是不是會影響流水？我在DSP指令中似乎沒找到相應的指令，請問應該如何處理三角函數

2018-07-24 08:00:49

請問JPEG編碼如何并行優化？

使用QT對Jpeg編碼與解碼功能進行優化，可以使用openmp，neon等各種方法

2022-05-16 21:25:50

請問Keil的優化等級到底該如何選擇？

內聯（對小型函數）。循環優化（如循環展開的有限形式）。更積極的寄存器分配（變量可能不再駐留在內存中）。公共子表達式消除。強度削弱等。 -O3 (最高速度優化 / Optimization

2025-11-20 07:51:30

請問arm必須要對生成的匯編指令進行優化嗎

請問在用ARM neon指令優化程序時，在一個for循環下，分別用int32x2_t和int32x4_t類型的指令，后者的速度并沒有按照理論上的速度更快，反而比前者慢是怎么回事呢？必須要對生成的匯編指令進行優化嗎？

2022-10-18 11:23:27

請問arm必須要對生成的匯編指令進行優化嗎

請問在用arm neon指令優化程序時，在一個for循環下，分別用int32x2_t和int32x4_t類型的指令，后者的速度并沒有按照理論上的速度更快，反而比前者慢是怎么回事呢？必須要對生成的匯編指令進行優化嗎？謝謝指教。

2022-09-01 15:47:53

阻止任務級別并行性的常見情況

粗粒度并行優化的任務級流水阻止任務級別并行性的常見情況

2021-03-09 06:58:42

高層次綜合工作的基本流程

之間沒有依賴，他們可以選擇在同一個Control Step里面并行執行，或者在兩個ST里面順序執行?！　∵@個過程中調度的并行性由HLS編譯器，用戶指令共同作用影響著，比如編譯器會主動發現可以并行的優化

2021-01-06 17:52:14

基于大規模序列比對軟件的并行優化方案

基于基因電腦克隆軟件SiClone 和可變剪接分析軟件AltSplice 的并行優化工作，提出一種基于大規模序列比對軟件的并行優化方案。該方案對所要進行比對分析的大規模序列庫按某種策

2009-03-29 09:43:40

面向多客體的細粒度RBAC模型及應用

從綜合信息管理系統以及軟件系統集成的需求出發，分析了NIST RBAC模型的局限性，在此基礎上對其模型進行擴充，提出ERBAC模型。該模型適用于多種客體且具體客體不確定的情況。文

2009-04-21 09:25:56

不可逆布雷頓制冷循環的性能優化

不可逆布雷頓制冷循環的性能優化:　基于不可逆布雷頓制冷循環模型,導出循環制冷率和性能系數之間優化關系所應滿足的方程,利用數值解,研究內不可逆性和傳熱不可逆性對優化性

2010-01-01 18:56:38

基于AOP的細粒度RBAC模型研究

提出一種新的基于AOP技術的RBAC訪問控制模型，是對傳統RBAC訪問控制模型的改進，突破了傳統RBAC模型中不具備對細分數據的訪問控制的限制。同時，本文根據面向對象技術對不同種類的

2011-10-10 10:22:49

翼傘發電系統的GPU并行軌跡優化_張利民

2017-01-08 12:03:28

HLS系列 – High LevelSynthesis(HLS) 從一個最簡單的fir濾波器開始5

在這個系列的前4篇文章“HighLevel Synthesis(HLS) 從一個最簡單的fir濾波器開始1-4”中，我們從一個最簡單的FIR濾波器，一步步優化，得到了一個資源和Latency都比

2017-02-08 05:18:11

991

HLS:lab3 采用了優化設計解決方案

本實驗練習使用的設計是實驗1并對它進行優化。步驟1：創建新項目 1.打開Vivado HLS 命令提示符 a.在windows系統中，采用Start>All Programs>Xilinx

2017-02-09 05:07:11

1116

基于執行頻率的循環展開優化方法_余小喜

2017-03-16 08:49:44

細粒度圖像分析技術詳解

有別于我們熟悉的圖像識別，細粒度圖像分析所屬類別和粒度更為精細，本文將向讀者全面介紹這一領域的相關技術。有別于通用圖像分析任務，細粒度圖像分析的所屬類別和粒度更為精細，它不僅能在更細分的類別

2017-09-30 11:27:35

DSP并行系統的并行粒子群優化目標跟蹤

2017-10-20 10:54:00

Nios定制指令的嵌入式系統優化設計

2017-10-25 11:45:03

并行調度能耗優化算法

減少服務器繁忙時間是云計算并行調度中節約能耗的一種有效途徑，而現有基于繁忙時間的能耗節約策略大多以犧牲作業調度性能為代價，無法與其他有調度性能優勢的作業調度算法結合使用。提出一種有效的基于繁忙時間

2017-11-23 17:39:24

目標跟蹤算法的并行優化

可行的并行優化方案。之后使用SCM算法驗證了所提出的并行優化方案。在四核CPU的環境下，并行后的SCM算法相比于未并行的算法取得了3.48倍的并行加速比，并且比原算法Matlab+C程序的運行速度快了約30倍，這說明了所提出的并行優化方

2017-11-24 10:41:32

一種細粒度的面向產品屬性的用戶情感模型

傳統情感模型在分析商品評論中的用戶情感時面臨兩個主要問題：1）缺乏針對產品屬性的細粒度情感分析；2）自動提取的產品屬性其數量須提前確定。針對上述問題，提出了一種細粒度的面向產品屬性的用戶情感模型

2017-12-26 10:29:25

具有細粒度訪問控制的密碼學的云存儲系統

針對目前公有云存儲系統中存在的數據機密性和系統性能問題，提出了一個安全高效的方案，并將其應用于基于密文策略屬性基加密（ CP-ABE）的具有細粒度訪問控制的密碼學的云存儲系統中。在這個方案中，原始

2017-12-27 15:28:26

基于Spark的并行蟻群優化算法

為應對大數據時代中組合優化問題的求解，基于云計算框架Spark，借助其基于內存、分布式的特定，提出一種并行蟻群優化算法。其思路是通過將螞蟻構造為彈性分布式數據集，由此給出相應的一系列轉換算予，實現了

2018-01-02 14:11:58

基于Modbus功能碼細粒度過濾算法的研究

針對防火墻粗粒度過濾Modbus/TCP導致工控系統存在安全威脅的問題，研究基于Modbus功能碼的細粒度過濾算法?；贛odbus TCP功能碼的特征，對其功能碼字段進行解析，實現基于白名單規則

2018-01-16 15:32:34

一種細粒度云存儲數據完整性檢測

服務中，為了使用戶能夠方便快捷知道其所存在云端服務器上數據的完整性，提出了一種細粒度云存儲數據完整性檢測方法。將文件分割成文件子塊繼而分割成基本塊，通過引入雙線性對和用戶隨機選擇待檢測數據塊能無限次檢測數據

2018-02-04 10:28:38

DSP的并行指令分析和冗余優化算法

由于DSP復雜的指令集、特有的尋址模型，以及依賴關系或者數據非對齊等原因而導致向量化效率不高。為了解決此問題，在基于Open64的超字并行（SLP）自動向量化編譯系統后端，對SLP自動向量化中的指令分析和冗余優化算法進行了添加和改進，生成更加高效的向量

2018-02-24 15:17:59

基于ABS細粒度隱私隔絕的身份追溯研究

面臨互聯網服務器端證書存儲和身份認證任務成爆炸增加的嚴峻形勢，細粒度隱私隔絕能身份追溯工作急需適用的方法。本文基于多屬性基簽名技術，將身份驗證與管理建立在多屬性認證的基礎之上，排除身份唯一性標識符

2018-02-24 15:50:02

FPGA并行編程:基于HLS技術優化硬件設計

作為集成電路設計領域現場可編程門陣列 (FPGA) 技術的創造者之一，賽靈思一直積極推廣高層次綜合 (HLS) 技術，通過這種能夠解讀所需行為的自動化設計流程打造出可實現此類行為的硬件。賽靈思剛剛推出了一本專著，清晰介紹了如何使用 HLS 技術來創建優化的硬件設計。

2018-11-10 11:01:05

3178

使用深度模型遷移進行細粒度圖像分類的方法說明

針對細粒度圖像分類方法中存在模型復雜度較高、難以利用較深模型等問題，提出深度模型遷移（ DMT）分類方法。首先，在粗粒度圖像數據集上進行深度模型預訓練；然后，使用細粒度圖像數據集對預訓練模型

2019-01-18 17:01:50

for 循環并行執行的可能性

我們將繼續介紹 Vivado HLS 所支持的 “for循環” 的優化方法。在默認情況下，Vivado HLS 并不會對順序執行的 for 循環優化為并行執行，LOOP_MERGE 約束提供了這樣一種可能：for 循環并行執行。本講結合案例介紹了循環合并的三個主要規則。

2019-08-01 16:59:21

3256

FGIA 中的主要問題和挑戰

本文對基于深度學習的細粒度圖像分析進行了綜述，從細粒度圖像識別、檢索和生成三個方向展開論述。

2019-07-23 16:04:41

3765

細粒度圖像分析任務在發展過程中面臨著獨特的挑戰

細粒度圖像分析所面臨的任務是分析和處理某個類別目標下的一系列子類別的問題，例如狗的類別下包含了各種不同外形、顏色、身材的狗。這一任務最大的挑戰在于子類間的差異很小，而在同一類別中的對象卻因為姿態、大小或者位置呈現出較大的差別。

2019-08-02 14:29:00

5631

如何正確使用MDK-ARM優化功能，以及優化之后帶來的影響

2020-02-28 15:17:52

9794

HLS優化設計的最關鍵指令

Unroll 指令在 for 循環的代碼區域進行優化，這個指令不包含流水線執行的概念，單純地將循環體展開使用更多地硬件資源實現，保證并行循環體在調度地過程中是彼此獨立的。

2021-01-14 09:41:31

3250

關于pipeline 以及 unroll 指令的介紹

HLS 優化設計的最關鍵指令有兩個：一個是流水線 (pipeline) 指令，一個是數據流(dataflow) 指令。正確地使用好這兩個指令能夠增強算法地并行性，提升吞吐量，降低延遲但是需要遵循一定的代碼風格。

2022-02-09 09:53:29

3284

Unroll & Pipeline | 細粒度并行優化的完美循環

2021-02-01 06:28:14

并行子空間優化在無人機總體設計中的應用詳細資料說明

對基于神經網絡響應面的并行子空間優化算法及其在無人機總體方案設計優化中的應用進行了研究。并行子空間優化算法將多學科耦合的無人機設計優化問題分解為不同的子空間問題，在不同的子空間中建立各自的神經網絡響應面，通過響應

2021-03-01 16:12:20

Dataflow | 粗粒度并行優化的任務級流水

在本文中，我們將重點放在如何能夠在不需要特殊的庫或類的情況下修改代碼風格以實現C代碼實現并行性。Xilinx HLS 編譯器的顯著特征是能夠將任務級別的并行性和流水線與可尋址的存儲器 PIPO或 FIFO相結合。

2021-03-02 06:19:06

紹華為云在細粒度情感分析方面的實踐

推薦、產品輔助決策、公司政府的輿情監測、服務評價等等。本文主要介紹情感分析的概念、應用、任務和方法，進一步會介紹華為云在細粒度情感分析方面的實踐，包括屬性級情感分析和觀點四元組分析。主要內容包括：文本情

2021-03-08 10:40:15

2391

一種利用GPU并行計算提升雜波生成實時性的方法

性的方法。在計算統一設備架構（CUDA）下，對相關相干K分布雜波算法進行多任務串-并行分析，采用 CUBLAS庫對細粒度卷積計算進行優化，利用 Openmp+CUDA多任務調度機制改進粗粒度任務并行計算，以提高CPU-GPU利用率并減少數據等待時間。實驗結果表明

2021-03-17 09:57:12

結合非局部和多區域注意力機制的細粒度識別方法

細粒度圖像識別的目標是對細粒度級別的物體子類進行分類，由于不同子類間的差異非常細微，使得細粒度圖像識別具有非常大的挑戰性。目前細粒度圖像識別算法的難度在于如何定位細粒度目標中具有分辨性的部位以及

2021-04-20 11:25:07

基于文本的細粒度美妝圖譜視覺推理問題

文中研究了化妝領域中基于文本的細粒度視覺推理問題，具體探究了一個新穎的多模態任務，即根據有序的化妝步驟描述，對化妝過程中打亂順序的人臉圖片進行排序。針對這個新穎的任務，通過數據的處理和分析，提岀了

2021-04-23 14:15:43

基于BiLSTM-CRF的細粒度知識圖譜問答模型

基于知識圖譜的問答中問句侯選主實體篩選步驟繁瑣，且現有多數模型忽略了問句與關系的細粒度相關性。針對該問題，構建基于 BILSTM-CRF的細粒度知識圖譜問答模型，其中包括實體識別和關系預測2個部分

2021-06-03 11:25:03

船舶三維聲彈性應用軟件的多級并行優化

，完成了三維聲彈性應用軟件（THAcoustic）的多級并行和優化。優化技術包括循環分裂、循環合并、直接內存存取（DMA）、通信和計算的相互隱藏、基于神威太湖之光的向量化（SⅠD）等方法。測試結果表明：三維聲彈性多級異構并行具

2021-06-04 16:00:34

機器翻譯中細粒度領域自適應的數據集和基準實驗

細粒度領域自適應問題是一個重要的實際應用問題。當研發人員需要為某個特定主題提供翻譯服務（比如為某個主題的會議提供翻譯）時，往往需要在特定的細粒度領域上取得更好的翻譯性能。

2022-04-26 10:08:30

1891

通過對比學習的角度來解決細粒度分類的特征質量問題

細粒度分類任務與常規的分類問題不同，它希望分類器能夠看到不同類別之間的細微差異。當前流行的細粒度方法通常從兩個方面設計以洞察到更加細微的特征：“更有區分度的表征學習”與“定位特征顯著的部分”。然而，學習更有區分度的圖像表征本身

2022-05-13 16:54:06

3373

利用axi_master接口指令端的幾個靜態參數的優化技巧

本文給大家提供利用axi_master接口指令端的幾個靜態參數的優化技巧，從擴展總線接口數量，擴展總線位寬，循環展開等角度入手。最核心的優化思想就是以資源面積換取高帶寬的以便并行計算。

2022-07-01 09:39:14

2398

Leptos利用細粒度的響應式來構建聲明性用戶界面

Leptos 是一個全棧、同構的 Rust Web 框架，利用細粒度的響應式來構建聲明性用戶界面。

2022-10-17 09:58:57

1748

細粒度圖像識別深度學習開源工具庫Hawkeye解析

　　Hawkeye 是一個基于 PyTorch 的細粒度圖像識別深度學習工具庫，專為相關領域研究人員和工程師設計。目前，Hawkeye 包含多種代表性范式的細粒度識別方法，包括 “基于深度濾波器”、“基于注意力機制”、“基于高階特征交互”、“基于特殊損失函數”、“基于網絡數據” 以及其他方法。

2022-11-06 20:26:40

1960

HLS for循環優化

后面的計算都是三個時鐘周期計算出一個值，因此對一次循環來說，Loop Iteration Latency為3，Loop Iteration Interval也是3，Loop Latency是9

2023-05-05 15:48:16

1285

verilog中for循環是串行執行還是并行執行

在Verilog中，for循環是并行執行的。Verilog是一種硬件描述語言，用于描述和設計數字電路和系統。在硬件系統中，各個電路模塊是同時運行的，并且可以并行執行多個操作。因此，在Verilog中

2024-02-22 16:06:23

4364

Perforce Helix Core通過ISO 26262認證！為汽車軟件開發團隊提供無限可擴展性、細粒度安全性、文件快速訪問等

News！Helix Core通過ISO 26262認證，符合汽車系統開發所需的安全和可靠性標準，助力汽車軟件安全合規！具備無限可擴展性、細粒度安全性、文件快速訪問...是眾多汽車OEM和供應商的首選版本控制工具。

2024-11-12 14:41:33

1533

循環神經網絡的優化技巧

循環神經網絡（Recurrent Neural Networks，簡稱RNN）是一種用于處理序列數據的深度學習模型，它能夠捕捉時間序列中的動態特征。然而，RNN在訓練過程中可能會遇到梯度消失或梯度

2024-11-15 09:51:55

1153

解析DeepSeek MoE并行計算優化策略

本期Kiwi Talks將從集群Scale Up互聯的需求出發，解析DeepSeek在張量并行及MoE專家并行方面采用的優化策略。DeepSeek大模型的工程優化以及國產AI 產業鏈的開源與快速部署預示著國產AI網絡自主自控將大有可為。

2025-02-07 09:20:28

2833

Commvault Cloud平臺如何應對勒索軟件攻擊

在之前的文章中，我們探討了可能影響AD小規模中斷的因素，例如意外刪除對象等，以及為何快速、細粒度的恢復至關重要。

2025-07-29 15:07:24

673

大規模專家并行模型在TensorRT-LLM的設計

DeepSeek-V3 / R1 等模型采用大規模細粒度混合專家模型 (MoE) 架構，大幅提升了開源模型的質量。Llama 4 和 Qwen3 等新發布的開源模型的設計原則也采用了類似的大規模細粒度 MoE 架構。但大規模 MoE 模型為推理系統帶來了新的挑戰，如高顯存需求和專家間負載失衡等。

2025-09-06 15:21:11

1030

已全部加載完成

搜索歷史

HLS優化設計中pipeline以及unroll指令：細粒度并行優化的完美循環

評論