來源:編譯自semiwiki
RVA23 標志著主流 CPU 性能擴展方式的一個轉折點。它強制要求使用 RISC-V 向量擴展 (RVV),從而將結構化、顯式并行計算提升到與標量執行相同的架構地位。向量計算不再是附加在高負載運算核心上的可選加速器,而是軟件可以依賴的基礎功能。
RVA23 并非強制標量執行實現確定性,而只是使確定性成為可能,因為標量部分不再負責吞吐量。向量單元顯式地處理并行工作,而標量核心則成為一個協調器,在不犧牲性能的前提下,實現簡單、可預測和低功耗。
要理解這種轉變為何如此重要,不妨回顧一下推測執行是如何徹底主導高性能 CPU 設計的。它確實帶來了速度提升,但代價也越來越高——功耗、復雜性、驗證負擔和安全風險都在增加。RVA23 并非否定推測執行,而是力求恢復平衡。它承認,可預測的、向量驅動的并行計算如今已成為提升性能的可靠主流途徑。
強制向量支持從根本上改變了軟件性能契約。編譯器、庫和應用程序現在可以假定每個兼容的核心都存在 RVV(資源向量向量)。優化策略從“讓 CPU 猜測”轉向顯式、結構化的并行處理。工具鏈必須能夠可靠地生成向量代碼。數學和 DSP 庫可以減少或消除標量回退。應用程序開發人員獲得了一個可預測的模型,用于擴展循環和數據并行工作負載。
這種文化轉變意義重大:并行性不再是硬件試圖推斷的東西,而是軟件直接表達的東西。對于硬件設計者而言,這種轉變雖然不同,但同樣意義深遠。向量單元現在是強制性的,但規范仍然保留了微架構的自由度。
實現者可以選擇通道寬度、流水線深度、指令發出策略和內存設計。改變的是性能重心。設計者不再被迫完全依賴更深層次的推測——更大的分支預測器、更寬的重排序緩沖區和日益復雜的恢復機制——來保持競爭力。
相反,面積和功耗可以轉移到向量吞吐量和內存帶寬上。對于曾經需要復雜推測性機制的工作負載而言,配備強大向量引擎的更簡單的順序執行內核變得可行。
推測執行并非一蹴而就,而是從放寬嚴格順序執行限制的技術中逐步發展而來。1967 年,羅伯特·托馬蘇洛 (Robert Tomasulo) 在IBM System/360 Model 91上的工作引入了動態調度和寄存器重命名,使得指令可以亂序執行而不違反程序語義。大約在同一時期,詹姆斯·桑頓 (James Thornton) 在CDC 6600中設計的記分板機制,使得流水線在遇到沖突時也能保持運行。這些機制本身并不進行推測,但它們消除了曾經迫使處理器停頓的結構性障礙。一旦亂序執行成為可能,推測便勢不可擋。
20世紀70年代末80年代初,詹姆斯·E·史密斯正式提出了分支預測的概念,將推測性操作建立在概率基礎之上。內存不再是處理器被動等待的對象,而是需要預先獲取的對象。數據在確認需要之前就被提取出來。緩存也從局部性優化器演變為能夠吸收推測性執行過程中各種波動的緩沖區。
學術界也強化了這一方向。斯坦福大學和伯克利大學的指令級并行研究將推測視為前進的方向。約翰·亨尼西將推測定義 為一種在不放棄順序編程的前提下提高性能的方法。大衛·帕特森闡述了“內存墻”的概念,鼓勵采用更深層次的緩存和分層存儲。
業界紛紛效仿。英特爾奔騰Pro(P6)將具有深度緩存層次結構的推測性亂序執行技術確立為主流CPU模板。IBM POWER和AMD Zen強化了這一模式:通過擴展緩沖、帶寬和內存級并行性來支持日益增長的在執行推測性工作量。每一代CPU都在擴展推測能力,而不是質疑它。
隨著時間的推移,成本問題變得愈發清晰。在2014年國際計算機科學與技術大會(ISSCC)全體會議上,馬克·霍洛維茨指出,能源——而非晶體管密度或原始邏輯速度——已成為計算領域的主要制約因素。算術運算僅消耗幾個皮焦耳的能量。緩存訪問的成本要高出一個數量級。DRAM訪問的成本則要高出兩到三個數量級。數據傳輸而非計算,才是能源消耗的主要來源。
電壓調節停滯不前,頻率調節也達到了散熱極限。簡單地增加核心數已無法恢復以往的性能曲線。與此同時,末級緩存和寄存器文件體積龐大,其能耗開始與它們所服務的核心相當,甚至往往超過后者。現代內存層次結構并非獨立演進,而是與推測執行協同發展。它們成為支撐大量進行中、不確定工作所需的框架。推測執行旨在優化程序運行的假象。內存系統的存在正是為了維持這種假象,并在預測失敗時進行清理。
在 DRAM 層面上,Onur Mutlu展示了現代處理器如何通過干擾、行沖突和不可預測的訪問模式來給內存系統帶來壓力——其中許多并非由已提交的計算驅動,而是由最終會被丟棄的推測驅動。
從這個角度來看,現代CPU內存層次結構并非獨立演化而來,而是與推測性亂序執行共同演化,成為支撐這種機制的物理基礎。推測性執行的核心在于優化一種錯覺——即通過預測未來執行的線程,使單個順序線程的運行速度看起來更快。
相比之下,確定性執行針對已知因素進行優化。它將延遲視為可調度因素,而不是需要通過不斷增加帶寬來掩蓋的問題。推測性架構通過增加復雜性來彌補不確定性,而確定性架構則通過提高可預測性和持續吞吐量來提升性能。
推測并非不可避免。西摩·克雷的向量機證明,推測絕非唯一的出路。他們完全摒棄了推測,轉而依賴可預測的內存步長模式、明確的向量長度和確定性調度。并行性直接暴露在硬件面前,而非通過猜測推斷,延遲也需要提前規劃,而不是試圖隱藏。
他們的內存系統設計旨在實現穩定、高吞吐量的訪問,而不是后來推測性架構所需的猜測和恢復行為。從這個意義上講,Cray 的方法更接近 RVV 的結構化、長度無關模型,而不是后來主導通用 CPU 的推測性超標量架構。
歷史上,推測編程之所以能夠勝出,是因為它保留了順序編程模型,并將軟件中斷降至最低。但這種成功也造成了路徑依賴。內存層次結構為了提高推測吞吐量而進行了優化,卻導致功耗、驗證復雜性和架構不透明性不斷增加。
人工智能、機器學習和信號處理工作負載具有結構化特征,并且本質上是數據并行的。它們的訪問模式通常是可知的,而非概率性的。在這些領域,顯式并行比推測性猜測更具優勢。RVA23 通過強制使用 RVV,確保了硬件對這類工作負載的支持。結構化并行從可選擴展轉變為架構基線。這并沒有消除推測,而是消除了排他性。
諸如 Simplex Micro 探索的那種確定性、基于時間的調度方法等架構,現在可以將向量計算能力作為基礎。它們不再彌補推測性計算的低效,而是顯式地協調計算和內存。性能的擴展取決于資源利用率和可預測性,而非推測深度。對于向量和矩陣工作負載而言,這與其說是一場革命,不如說是回歸到曾經被推測性計算所取代的架構傳統。
RVA23 的意義遠不止于指令編碼。編譯器基礎設施可以假定支持向量。操作系統可以考慮向量資源進行調度。硬件實現可以優化向量效率,而無需擔心生態系統是否會忽略它。三十年來,推測性技術獲得了持續的架構投資,而結構化并行技術卻沒有。
RVA23 改變了這一點。它并非強制放棄推測式架構,而是強制要求架構上的對等性。設計人員可以在適當的情況下同時部署這兩種架構,但結構化并行不再是次要的。非此即彼的錯誤二元論——要么通過推測式架構擴展,要么接受性能下降——不再適用。
借助 RVA23,向量運算能力的不確定性降低,確定性方法能夠實現一流性能的疑慮減少,擴展性方面對推測計算的依賴也降低。不再僅僅依賴推測計算來實現擴展。如今的工作負載本身就是并行的,而非通過編譯器從順序代碼中巧妙提取而來。對于這類工作負載,推測計算的成本越來越大于其收益。
RVA23 并沒有終結投機時代,而是終結了投機壟斷。這種轉變——而非任何單一的技術特性——或許才是它對處理器架構最重要的貢獻。
參考鏈接:
https://semiwiki.com/ip/risc-v/367094-rva23-ends-speculations-monopoly-in-risc-v-cpus/
-
處理器
+關注
關注
68文章
20253瀏覽量
252237 -
cpu
+關注
關注
68文章
11277瀏覽量
224958 -
RISC-V
+關注
關注
48文章
2886瀏覽量
52991
發布評論請先 登錄
RISC-V,正式崛起
RISC-V市占,直逼25%
新思科技全棧工具鏈助力RISC-V設計高效進階
躍昉科技亮相2025 RISC-V產業發展大會暨RDSA國際論壇
為什么RISC-V是嵌入式應用的最佳選擇
普華基礎軟件亮相2025 RISC-V中國峰會
RISC-V 手冊
2025新思科技RISC-V科技日活動圓滿結束
RISC-V如何盈利?本土企業率先破局
RISC-V 發展態勢與紅帽系統適配進展
RISC-V International CEO:RISC-V 應用全面開花,2031 年滲透率將達 25.7%
RISC-V和ARM有何區別?
FPGA與RISC-V淺談
原來,它們用的都是國產RISC-V芯片
RISC-V生態崛起:政策落地與高性能芯片的崛起
RISC-V迎來關鍵拐點
評論