【導(dǎo)語】隨著人工智能從算法研究走向大規(guī)模工程化與產(chǎn)業(yè)化落地,計(jì)算負(fù)載呈現(xiàn)出算力需求激增與應(yīng)用形態(tài)高度分化并存的特征。在這一背景下,傳統(tǒng)通用處理器在性能功耗比、時(shí)延確定性以及系統(tǒng)可擴(kuò)展性方面逐漸暴露出瓶頸,推動(dòng)AI芯片架構(gòu)向更高專用化程度演進(jìn)。
從體系結(jié)構(gòu)角度看,當(dāng)前AI芯片的發(fā)展并非單一路線的線性替代,而是沿著不同抽象層次并行展開的兩條專用化路徑:一條是在指令集層面,由CPU/GPU向領(lǐng)域?qū)S眉軜?gòu)(DSA)演進(jìn);另一條發(fā)生在電路級(jí)層面,以FPGA代表的細(xì)粒度結(jié)構(gòu)可配置與以CGRA代表的粗粒度算子/數(shù)據(jù)通路可配置并行發(fā)展,形成以空間映射與數(shù)據(jù)流調(diào)度為核心的另一類可編程加速形態(tài)。兩條路徑最終在異構(gòu)計(jì)算體系中實(shí)現(xiàn)協(xié)同。

一、指令集層面的專用化路徑,從CPU/GPU到DSA
CPU與GPU構(gòu)成了現(xiàn)代計(jì)算體系中最典型的通用處理架構(gòu)。CPU以復(fù)雜控制邏輯和通用指令集為核心,適合控制密集與非規(guī)則計(jì)算;GPU依托大規(guī)模并行計(jì)算單元與SIMT式鎖步執(zhí)行,擅長數(shù)據(jù)并行的張量/向量計(jì)算,因此成為深度學(xué)習(xí)訓(xùn)練與推理的主力平臺(tái)。
然而,隨著AI算法逐漸穩(wěn)定為以張量計(jì)算和數(shù)據(jù)流為主的模式,傳統(tǒng)CPU/GPU在指令通用性上的優(yōu)勢,開始轉(zhuǎn)化為能效與面積上的負(fù)擔(dān)。在此背景下,DSA應(yīng)運(yùn)而生,其核心思想是圍繞AI負(fù)載對(duì)執(zhí)行單元、片上存儲(chǔ)層級(jí)與數(shù)據(jù)流組織進(jìn)行定向優(yōu)化,并通過編譯器/運(yùn)行時(shí)將高層算子高效映射到專用硬件上,從而在典型AI負(fù)載下獲得更優(yōu)的性能功耗比與系統(tǒng)效率。
典型DSA通過引入張量指令、專用算子以及片上數(shù)據(jù)流調(diào)度機(jī)制,在性能功耗比方面顯著優(yōu)于通用處理器。Google TPU、華為昇騰、寒武紀(jì)等架構(gòu),均體現(xiàn)了這一指令集級(jí)專用化的發(fā)展方向。
二、電路級(jí)層面:從細(xì)粒度可重構(gòu)走向粗粒度可重構(gòu)(FPGA→CGRA)并協(xié)同發(fā)展
在指令流編程范式之外,另一條重要路徑發(fā)生在可重構(gòu)硬件結(jié)構(gòu)與數(shù)據(jù)通路層面。以FPGA為代表的細(xì)粒度可重構(gòu)器件,依托LUT/寄存器與可編程互連提供高度靈活的定制能力,特別適用于低時(shí)延、強(qiáng)接口適配、確定性數(shù)據(jù)通路與專用邏輯集成等場景。
為更貼近AI數(shù)據(jù)流特性,業(yè)界形成了以CGRA為代表的粗粒度可重構(gòu)設(shè)計(jì)點(diǎn):其可配置對(duì)象從“邏輯單元/門級(jí)拼裝”提升到“算子級(jí)處理單元(PE)及其數(shù)據(jù)通路/互連”的空間映射,借助更規(guī)則的陣列結(jié)構(gòu)與更受控的互連組織,在特定張量/流式計(jì)算上提升計(jì)算密度、降低映射碎片化并增強(qiáng)時(shí)序規(guī)劃的可預(yù)測性。
需要強(qiáng)調(diào)的是,FPGA與CGRA并非線性替代關(guān)系,而是分別代表細(xì)粒度與粗粒度兩類可重構(gòu)形態(tài),在靈活性、效率與軟件棧復(fù)雜度之間取不同權(quán)衡,并常與CPU/GPU/DSA一起構(gòu)成異構(gòu)系統(tǒng)的互補(bǔ)單元。
三、異構(gòu)計(jì)算:兩條路徑的交匯點(diǎn)
無論是指令集層面的DSA,還是可重構(gòu)的CGRA,其設(shè)計(jì)目標(biāo)都并非獨(dú)立替代通用處理器,而是在系統(tǒng)層面作為異構(gòu)計(jì)算單元參與協(xié)同。現(xiàn)代AI計(jì)算平臺(tái)通常采用多種處理架構(gòu)組合,通過高效的片上互連、存儲(chǔ)一致性機(jī)制以及統(tǒng)一的軟件棧,實(shí)現(xiàn)控制、通用計(jì)算與專用加速的分工協(xié)作。在這一體系中,CPU負(fù)責(zé)系統(tǒng)控制與任務(wù)調(diào)度,GPU或DSA承擔(dān)高吞吐計(jì)算任務(wù),而FPGA或CGRA則在低時(shí)延、定制化數(shù)據(jù)流處理方面發(fā)揮優(yōu)勢。異構(gòu)計(jì)算已成為突破能效瓶頸、支撐復(fù)雜AI應(yīng)用的核心系統(tǒng)范式。
四、產(chǎn)業(yè)趨勢與結(jié)論
總體而言,AI芯片架構(gòu)的演進(jìn)并不存在唯一最優(yōu)解,而是沿著不同抽象層次展開的專用化探索。指令集路徑與電路級(jí)架構(gòu)路徑并行發(fā)展,AI芯片的發(fā)展遵循這樣一個(gè)基本原則:當(dāng)AI算法持續(xù)演變,芯片應(yīng)朝著通用發(fā)展;當(dāng)AI算法趨于收斂,芯片則應(yīng)轉(zhuǎn)向?qū)S冒l(fā)展。未來的核心競爭力不僅來自單一計(jì)算單元的性能提升,更取決于體系結(jié)構(gòu)、軟件棧與系統(tǒng)級(jí)協(xié)同能力的整體優(yōu)化。這兩條路徑并非技術(shù)代際演進(jìn),而是在異構(gòu)計(jì)算框架下,指令集優(yōu)化與電路級(jí)重構(gòu)協(xié)同塑造智能計(jì)算新生態(tài)。
-
電路
+關(guān)注
關(guān)注
173文章
6083瀏覽量
178727 -
智能計(jì)算
+關(guān)注
關(guān)注
0文章
199瀏覽量
17090 -
AI芯片
+關(guān)注
關(guān)注
17文章
2147瀏覽量
36843
發(fā)布評(píng)論請(qǐng)先 登錄
【RISC-V開放架構(gòu)設(shè)計(jì)之道|閱讀體驗(yàn)】RV64指令集設(shè)計(jì)的思考以及與流水線設(shè)計(jì)的邏輯
《算力芯片 高性能 CPU/GPU/NPU 微架構(gòu)分析》第1-4章閱讀心得——算力之巔:從基準(zhǔn)測試到CPU微架構(gòu)的深度探索
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......
AI 芯片浪潮下,職場晉升新契機(jī)?
基于蜂鳥E203架構(gòu)的指令集K擴(kuò)展
僅用7個(gè)月就設(shè)計(jì)出了一款基于RISC-V指令集的AI芯片
CPU、架構(gòu)、指令集與芯片的關(guān)系與區(qū)別
解讀CPU的組成指令集架構(gòu)
對(duì)ARM架構(gòu)的芯片講解其相關(guān)的指令集
精簡指令集架構(gòu)RISC與復(fù)雜指令集架構(gòu)CISC有何區(qū)別
芯片指令集架構(gòu)真的很重要嗎
關(guān)于CPU芯片江湖中的門派標(biāo)志指令集
為什么CPU指令集和微架構(gòu)是江湖門派標(biāo)志?
AI芯片技術(shù)演進(jìn)的雙軌路徑:從通用架構(gòu)到領(lǐng)域?qū)S玫牟⑿醒葸M(jìn)——指令集優(yōu)化與電路級(jí)重構(gòu)協(xié)同塑造智能計(jì)
評(píng)論