電子發燒友網報道(文/李彎彎)2025年,人工智能正式邁入應用推理時代。大模型從實驗室走向千行百業,推理需求呈指數級爆發。然而,高昂的推理成本與有限的算力供給之間的矛盾日益凸顯,成為制約AI規模化落地的關鍵瓶頸。在此背景下,云天勵飛推出其第五代芯片架構——GPNPU(General-Purpose Neural Processing Unit,通用神經網絡處理單元),以一場底層架構的革命,試圖重塑AI算力格局,推動大模型推理走向極致性價比時代。
GPNPU的核心定位是:做推理時代的優等生。它摒棄了傳統芯片追求大而全的通用計算思路,轉而聚焦大模型推理的核心場景,如Prefill準備階段和Decode生成階段,進行深度定制與優化。其目標極具挑戰性:將當前約1美元/百萬Token的推理成本,壓縮至僅需1美分/百萬Token,實現百倍效率提升。
GPNPU的黑科技源于三大底層創新。首先是算力積木設計思想。傳統芯片往往一刀切,難以兼顧云、邊、端多樣化的部署需求。GPNPU采用模塊化架構,如同樂高積木般可靈活堆疊,實現一次流片、多規格輸出。其算力覆蓋從8T到256T,既能支撐云端大模型推理,也能賦能邊緣設備與終端智能體,如機器人、手機、AR眼鏡,真正實現全場景覆蓋。
其次,GPNPU采用3D堆疊存儲技術,直面內存墻難題。大模型推理對帶寬極為敏感,數據搬運速度常成為性能瓶頸。通過3D堆疊,GPNPU大幅提升存儲密度與帶寬利用率,讓計算單元得以持續滿血運行,顯著提升能效比。
第三,GPNPU實現異構化與靈活調度。它深刻洞察到推理任務的動態特性:Prefill階段重算力,Decode階段重帶寬。因此,通過軟硬協同優化,GPNPU可動態調整算力、帶寬與存儲的配比,不再依賴單一芯片硬扛,而是以靈活架構適配任務變化,實現資源最優利用。
與傳統架構相比,GPNPU展現出顯著差異化優勢。傳統GPU雖生態成熟、通用性強,但推理成本高昂;傳統NPU能效較高,但多聚焦終端推理,通用性受限。而GPNPU則兼具GPU的通用性與NPU的高能效,專為大模型推理優化,覆蓋端、邊、云全場景,并以算力積木實現前所未有的架構靈活性,真正實現極致性價比。
目前,基于GPNPU架構的芯片正加速落地。正在研發的Nova 500系列,作為第五代GPNPU芯片,重點提升帶寬與能效,是實現“1元內搞定百萬Token”目標的關鍵一步。展望未來,Nova 600系列將探索光電一體化互聯,構建高性價比的算力網絡,進一步將推理成本推向分級成本新低。
依托GPNPU,云天勵飛已構建“深穹”(云端)、“深界”(邊緣)、“深擎”(具身智能)三大芯片產品矩陣,全面服務于互聯網大廠、智能終端廠商與機器人企業,推動AI應用的廣泛落地。
在國產工藝受限、高端GPU供應不確定的現實下,云天勵飛沒有選擇在制程工藝上硬拼,而是以架構創新另辟蹊徑。GPNPU不僅是技術的突破,更是一種戰略智慧的體現——通過“算力積木+3D堆疊”的創新路徑,走出一條高能效、低成本、全場景的差異化發展之路。它預示著,AI算力將不再昂貴稀缺,而是如水電般普惠,真正賦能千行百業的智能化變革。
GPNPU的核心定位是:做推理時代的優等生。它摒棄了傳統芯片追求大而全的通用計算思路,轉而聚焦大模型推理的核心場景,如Prefill準備階段和Decode生成階段,進行深度定制與優化。其目標極具挑戰性:將當前約1美元/百萬Token的推理成本,壓縮至僅需1美分/百萬Token,實現百倍效率提升。
GPNPU的黑科技源于三大底層創新。首先是算力積木設計思想。傳統芯片往往一刀切,難以兼顧云、邊、端多樣化的部署需求。GPNPU采用模塊化架構,如同樂高積木般可靈活堆疊,實現一次流片、多規格輸出。其算力覆蓋從8T到256T,既能支撐云端大模型推理,也能賦能邊緣設備與終端智能體,如機器人、手機、AR眼鏡,真正實現全場景覆蓋。
其次,GPNPU采用3D堆疊存儲技術,直面內存墻難題。大模型推理對帶寬極為敏感,數據搬運速度常成為性能瓶頸。通過3D堆疊,GPNPU大幅提升存儲密度與帶寬利用率,讓計算單元得以持續滿血運行,顯著提升能效比。
第三,GPNPU實現異構化與靈活調度。它深刻洞察到推理任務的動態特性:Prefill階段重算力,Decode階段重帶寬。因此,通過軟硬協同優化,GPNPU可動態調整算力、帶寬與存儲的配比,不再依賴單一芯片硬扛,而是以靈活架構適配任務變化,實現資源最優利用。
與傳統架構相比,GPNPU展現出顯著差異化優勢。傳統GPU雖生態成熟、通用性強,但推理成本高昂;傳統NPU能效較高,但多聚焦終端推理,通用性受限。而GPNPU則兼具GPU的通用性與NPU的高能效,專為大模型推理優化,覆蓋端、邊、云全場景,并以算力積木實現前所未有的架構靈活性,真正實現極致性價比。
目前,基于GPNPU架構的芯片正加速落地。正在研發的Nova 500系列,作為第五代GPNPU芯片,重點提升帶寬與能效,是實現“1元內搞定百萬Token”目標的關鍵一步。展望未來,Nova 600系列將探索光電一體化互聯,構建高性價比的算力網絡,進一步將推理成本推向分級成本新低。
依托GPNPU,云天勵飛已構建“深穹”(云端)、“深界”(邊緣)、“深擎”(具身智能)三大芯片產品矩陣,全面服務于互聯網大廠、智能終端廠商與機器人企業,推動AI應用的廣泛落地。
在國產工藝受限、高端GPU供應不確定的現實下,云天勵飛沒有選擇在制程工藝上硬拼,而是以架構創新另辟蹊徑。GPNPU不僅是技術的突破,更是一種戰略智慧的體現——通過“算力積木+3D堆疊”的創新路徑,走出一條高能效、低成本、全場景的差異化發展之路。它預示著,AI算力將不再昂貴稀缺,而是如水電般普惠,真正賦能千行百業的智能化變革。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
90文章
38414瀏覽量
297711
發布評論請先 登錄
相關推薦
熱點推薦
端側AI“堆疊DRAM”技術,這些國內廠商發力!
正3D DRAM等定制化存儲方案正是基于利基存儲和先進封裝,以近存計算的方式滿足AI推理的存儲需求。SoC廠商、下游終端廠商都在積極適配這一類新型存儲。 ? 華邦電子CUBE ? 華邦
硅芯科技:AI算力突破,新型堆疊EDA工具持續進化
電子發燒友網報道(文/黃晶晶)先進封裝是突破算力危機的核心路徑。2.5D/3D Chiplet異構集成可破解內存墻、功耗墻與面積墻,但面臨多物理場分析、測試容錯等EDA設計挑戰。現有E
國產AI芯片真能扛住“算力內卷”?海思昇騰的這波操作藏了多少細節?
反而壓到了310W。更有意思的是它的異構架構:NPU+CPU+DVPP的組合,居然能同時扛住訓練和推理場景,之前做自動駕駛算法時,用它跑模型時延直接降了20%。
但疑惑也有:這種算力密
發表于 10-27 13:12
積算科技上線赤兔推理引擎服務,創新解鎖FP8大模型算力
北京2025年7月30日 /美通社/ -- 近日,北京積算科技有限公司(以下簡稱"積算科技")宣布其算力服務平臺上線赤兔推理引擎。積
AI原生架構升級:RAKsmart服務器在超大規模模型訓練中的算力突破
近年來,隨著千億級參數模型的崛起,AI訓練對算力的需求呈現指數級增長。傳統服務器架構在應對分布式
RAKsmart服務器如何重塑AI高并發算力格局
在AI大模型參數量突破萬億級、實時推理需求激增的當下,傳統服務器架構的并發處理能力已逼近物理極限。RAKsmart通過“硬件重構+軟件定義”的雙引擎
Marvell展示2納米芯片3D堆疊技術,應對設計復雜性挑戰!
隨著現代科技的迅猛發展,芯片設計面臨著前所未有的挑戰。特別是在集成電路(IC)領域,隨著設計復雜性的增加,傳統的光罩尺寸已經成為制約芯片性能和功能擴展的瓶頸。為了解決這一問題,3D堆疊技術應運而生
不再是HBM,AI推理流行,HBF存儲的機會來了?
NAND閃存和高帶寬存儲器(HBM)的特性,能更好地滿足AI推理的需求。 ? HBF的堆疊設計類似于HBM,通過硅通孔(TSVs)將多個高性能閃存核心芯片

算力積木+3D堆疊!GPNPU架構創新,應對AI推理需求
評論