夜夜偷天天爽夜夜爱,青青亚洲精品国产一区二区 ,久久成人激情

電子發燒友網報道（文/吳子鵬）在AI大模型技術迅猛發展的今天，算力已成為決定模型性能與商業價值的關鍵因素。然而，隨著模型參數量與訓練計算量的激增，傳統"算力堆砌"模式已難以為繼。當前，行業正經歷從單純追求規模向注重效率與生態的范式躍遷——長期以來，以GPU為核心的算力體系深陷“高功耗、高成本、生態鎖定”的三重困境，而國產算力更是面臨“跟隨式創新”的瓶頸。

在此背景下，奕行智能推出的Epoch芯片率先采用RISC-V+RVV指令集架構，結合自研的VISA（虛擬指令集）技術和類TPU的雙脈動矩陣計算引擎，不僅在算力效率、數據精度支持、生態兼容上實現突破，更推動國產算力完成從“規模堆砌”到“效率精耕”的關鍵一躍，為AGI時代的算力底層創新提供了中國方案。

算力困局：從“堆芯片”到“提效能”的必然轉向

AI大模型的飛速發展，正倒逼算力產業進行一場深刻變革。數據顯示，AI模型參數量和訓練計算量的增長速度，已遠超硬件算力的提升速度，算力供需矛盾日益突出。與此同時，大模型的發展模式也從“預訓練主導”演進為“預訓練→訓練后優化→測試時推理”的三階段擴展模式，推理需求迎來爆發，推動算力競爭的核心從“規模”轉向“效率與規模并重”。

?

在傳統模式下，“算力堆疊”是提升AI性能的主要手段——通過增加GPU數量、擴大集群規模來滿足計算需求。但這種模式的邊際效益正在遞減，不僅帶來高昂的硬件和電力成本，還面臨算力利用率低、延遲高等問題。并且，長期以來，英偉達憑借CUDA生態構筑了近乎封閉的護城河。盡管不少國產芯片嘗試通過“CUDA兼容”切入市場，但正如奕行智能所指出的，CUDA是為英偉達硬件量身定制的鑰匙，在英偉達的GPGPU上才能充分發揮其強大性能，而API層面的兼容普遍存在著水土不服的問題，且難以跟上其快速迭代節奏。

此外，隨著大模型進入推理時代，Token成為核心產品形態。與軟件近乎零成本復制不同，Token的生產以算力和電力為原料，提升算力利用率與能效，直接等同于降低推理成本、提高毛利率。在此背景下，以谷歌TPU為代表的領域專用AI計算架構（DSA）憑借突出的能效比崛起。高盛最近的一份報告指出，谷歌TPU v6到TPU v7，每百萬token 的推理成本降低了約70%。

?

與兼顧通用性的 GPU 不同，TPU采取了精簡的架構設計，砍掉與AI推理無關的圖形處理單元，將寶貴的晶體管資源集中于大模型最核心的矩陣運算。其獨特的脈動陣列架構，讓數據如流水般在計算單元間連續流動，大幅減少了對寄存器的頻繁讀寫。配合大容量片上 SRAM 緩存與高效的數據搬運引擎 DMA，TPU 顯著降低了“數據搬運”這一主要能耗瓶頸。

谷歌TPU v7構建起規模達9216個TPU的“World Size”，并引入光學電路交換（OCS）技術，根據計算任務動態優化網絡拓撲，實現高效定制化互聯。在軟件層面，谷歌借助XLA編譯器及StableHLO中間表示層，實現對TensorFlow、JAX和PyTorch等主流框架的高效兼容，并通過OpenXLA開源項目構建起跨框架的通用編譯生態，TorchTPU項目實現TPU對PyTorch的原生支持，顯著降低開發者的遷移門檻。

與此同時，英偉達在GPGPU中持續提升DSA的比例，從Volta架構首次引入Tensor Core，到Blackwell架構進一步擴大張量核心規模并加入針對Transformer的優化引擎，體現出向領域定制化演進的趨勢。

架構創新：RISC-V + 類TPU的雙重優勢

在這場全球AI基礎設施的范式重構中，國內AI芯片企業奕行智能敏銳地捕捉到了行業趨勢變革，創新性地將RISC-V的開放靈活性與類TPU架構的高效性相結合，打造出全新的AI計算底座。

不同于傳統指令集的封閉性，奕行智能在業內率先采用RISC-V + RVV（向量擴展）指令集構建AI芯片架構，并且率先支持RVV 1024 bit位寬，拓寬數據通道。

相較于傳統的X86和ARM架構，RISC-V在AI計算領域的優勢尤為突出：
·開放的圖靈完備指令：天然支持復雜控制流，可避免NPU的靈活性短板；
·RVV向量優勢：天然契合AI張量計算，掩碼操作原生支持稀疏矩陣；
·成熟生態借力：GCC/LLVM主流編譯器已完全支持，主流AI框架正在積極適配；
·定制化潛力：允許在標準之上擴展專用指令，完美平衡通用性與專用性。

據介紹，奕行智能Epoch芯片的EVAMIND AI內核集成多組RISC-V高性能核。其中，RISC-V標量計算引擎負責核內計算和控制，支持雙發射核內的VISA指令發射及調度運行；RISC-V向量加速引擎中，圖靈完備的高性能RVV向量加速RV核，超寬的D-length及I-Length利用RVV擴展技術對AI常用的超越函數硬件指令化，大幅提升AI計算性能。

?

在內核設計上，奕行智能的Epoch芯片采用了與谷歌TPU相似的架構思路。

據介紹，該芯片集成了高性能RISC-V核與性能強大的雙脈動流水矩陣運算引擎，其矩陣、向量、標量的精簡架構設計，完全匹配大模型的計算特點，顯著降低了傳統GPGPU 架構中用于調度與資源分配的額外開銷（包含算力、帶寬、編程投入等，通常占總開銷的10%-20%），有效提高能效比與面積效率，打滿算力。

其大尺寸矩陣運算引擎，采用類TPU的雙脈動流水設計，數據復用率提升數倍，且顯著減少了數據前處理的開銷。相比同類方案，編程也更為簡單易用，限制更少——例如幾乎無需為規避bank沖突特意做手動編排，能夠直接支持模型中開發難度大的卷積矩陣乘算子等。

面對AI計算中頻繁出現的4D數據，奕行智能的高性能4D DMA引擎展現出明顯優勢。相比競品往往需要多次數據搬移與處理，該引擎僅通過一次操作即可完成4D數據的整體搬移，并在過程中同步完成數據變換與重排。此外，通過配置大容量片上緩存，將熱點與關鍵數據置于 L1/L2 中，其訪問速度相比存放在 DDR 的方案提升1–2個數量級。其近存計算設計，讓產品在實測中 Flash Attention 關鍵算子利用率相比競品提升4.5倍。

奕行智能指出，該公司推出的國內業界首款RISC-V AI算力芯片Epoch及計算平臺解決方案于2025年啟動量產，目前正在大規模量產出貨中。

除了RISC-V+類TPU，奕行智能的AI芯片還有一大創新，即精準卡位“低位寬高精度”技術浪潮。在深度學習領域，數據精度與計算效率始終存在權衡關系。例如，TPU Tensor Core 在FP8模式下可提供2倍于BF16的算力密度；Ironwood（TPU v7）的FP8峰值算力達到4.6PetaFLOPS，而BF16僅為2.3PFLOPS。2025年6月，NVIDIA正式發布NVFP4，將大模型精度進一步壓縮至4-bit，精度卻接近BF16水準，標志行業進入4-bit時代。

奕行智能AI芯片支持DeepSeek所需的基于分塊量化的FP8計算精度，并在其新一代產品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿的數據格式，可高效釋放算力，大幅降低存儲開銷，助力客戶在大模型時代以更低功耗、更小成本，獲得更卓越的智能體驗。

奕行智能自研的互聯技術方案ELink，支持超大帶寬與超低延遲的Scale Up 擴展，并且配合交換側，已經實現對前沿在網計算技術的支持，意味著可將部分計算卸載至網絡交換節點，而無需在計算卡間搬運大量數據，從而減輕帶寬負擔，降低通信延遲。

為了提升開發人員基于奕行智能AI芯片部署AI大模型的效率，奕行智能以獨創的虛擬指令（VISA）技術在軟件與硬件之間建立中間抽象層，上層的算子及AI編譯器建立在VISA之上，而硬件則負責VISA宏指令的執行。這一設計巧妙地隔離了硬件迭代對上層軟件的沖擊，有效解決了芯片升級帶來的軟件兼容性挑戰。同時，VISA通過軟流水、循環展開等極致優化，解決了AI計算中高級Tensor操作直接編譯到底層指令時性能陡降的行業痼疾。

?

針對AI數據規整性強的特點，奕行智能推出了Tile級動態調度架構。該架構由Tile級虛擬指令集、智能編譯器和硬件調度器組成，原生適配當前興起的Tile（如Triton、TileLang）編程范式。它能夠自動管理指令間依賴、順序流水和內存切分，不僅大幅提高了編程的易用性，更突破了靜態優化的性能天花板。

同時，基于自研的ETK基礎軟件棧，奕行智能全面兼容PyTorch、TensorFlow、JAX等主流框架，提供豐富的深度優化高性能算子。目前，奕行智能正與Triton國際社區展開重量級合作，計劃開源其虛擬指令集，合力打造RISC-V DSA領域的“CUDA”級生態。

結語

從“算力堆疊”到“精耕細作”，國產AI芯片正在探索一條屬于自己的進階之路。奕行智能通過RISC-V+類TPU的架構創新，確立硬件的高效與靈活；通過低位寬高精度的技術突破，高效軟硬件協同以及動態調度架構，實現商業成本的極致優化；通過VISA虛擬指令集架構、兼容主流框架的軟件棧等，打破生態壁壘。這款正在大規模量產出貨的Epoch芯片，不僅是奕行智能技術實力的集中展現，更是國產算力在AGI時代實現彎道超車、邁向高質量發展的一個重要縮影。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴