云天勵飛副總裁羅憶看好AI推理需求的增長,他指出國內AI面臨兩大拐點:1、算力需求爆發,大模型推理算力需求將在2026年超越訓練需求,成為算力消耗的主題,占據所有算力需求的比例將超過70%。2、國產算力芯片的使用比例不久將會超過海外芯片,目前兩者達到五五分。

圖1:AI推理需求爆發
10月29日,在安博會的2025智能算力應用及產業發展論壇上,超聚變數字技術有限公司深圳解決方案總監丁元釗表示,原來我們預計2026年是AI推理爆發元年,2025年DeepSeek-R1,V3模型推出,直接推動AI推理市場的上揚,未來3-5年都是AI推理領域的規模應用階段。不管是行業應用,還是算力相關的芯片,都將大規模的圍繞AI推理來爆發。
AI推理火爆主要的驅動力是什么?高通最新AI推理芯片,還有國內AI推理芯片領域,沐曦科技、云天勵飛、百度昆侖芯片的最新進展如何?本文將詳細匯總和分析。
AI推理火爆背后驅動力:邊緣AI需求暴增,Token調用量攀升,成本可控成新趨勢
2025年以來,隨著大模型(如DeepSeek、ChatGPT等)在醫療、金融、政務、消費電子等場景廣泛部署,AI工作負載正從“訓練”轉向“推理”。2025年,全球推理任務占比預計達67%,2028年將提升至73%。
2025年被視為“AI Agent元年”,智能體從被動執行轉向自主規劃與決策,單次任務消耗的Token量是傳統對話的100倍以上。大模型普及正驅動全球日均Token調用量飛速攀升,據統計,全球AI巨頭月消耗token量已經來到千萬億量級,且仍在持續提升。Token調用量的攀升直接帶動了推理算力需求的指數級增長。據麥肯錫預測,全球AI推理市場將于2028年達到1500億美元,年復合增長率達40%,遠高于訓練市場的20%。
云天勵飛副總裁羅憶指出,Token數可能每年增長10倍,但是算力基礎設施投入上,基本是一倍增加,如何彌補中間的鴻溝?這就意味著需要更少的算力解決更多Token的推理。
高通發布兩款AI芯片,進軍數據中心AI推理市場
10月27日晚間,美國移動芯片巨頭高通宣布推出兩款數據中心人工智能芯片——AI200和AI250,兩款芯片對應的AI推理優化解決方案,可提供更高內存容量和優秀的AI推理優化,預計分別于2026年和2027年商用。
與英偉達主導數據中心GPU不同的是,高通選擇了一條差異化競爭策略:以機架級性能、高內存實現快速的生成式AI推理為核心方向,強調其在能效、總擁有成本等方面的優勢。
AI200 推出一款專用機架級 AI 推理解決方案,旨在為大型語言和多模態模型 (LLM、LMM) 推理及其他 AI 工作負載提供低總擁有成本 (TCO) 和優化的性能。它支持每卡 768 GB LPDDR,可提供更高的內存容量和更低的成本,從而為 AI 推理提供卓越的擴展性和靈活性。

AI250 解決方案將首次采用基于近內存計算的創新內存架構,通過提供超過 10 倍的有效內存帶寬和更低的功耗,為 AI 推理工作負載帶來效率和性能的跨越式提升。
據悉,AI200 和 AI250 產品均采用直接液體冷卻技術進行冷卻,利用 PCIe 互連進行縱向擴展,利用以太網進行橫向擴展,并提供 160kW 的機架級功耗。高通沒有透露有關每個機架的芯片數量或機架將提供的計算性能的信息。
高通還透露,首批AI機架解決方案將于2026年起部署于中東客戶“HUMAIN”公司的數據中心。這被視為高通AI芯片商業化的重要里程碑。
沐曦C600登場,單卡算力和內存超越H20
在最新沐曦科技披露的IPO文件看,2025年前3個月,沐曦來自訓推一體系列產品的收入占比高達97.87%。沐曦科技主要產品覆蓋AI計算、通用計算、圖形渲染三大領域,先后推出用于智算推理的曦思N系列GPU、用于訓推一體和通用計算的曦云C系列GPU,以及正在研發用于圖形渲染的曦彩G系列GPU。
2023年,沐曦推出首款訓推一體GPU芯片曦云C500,并在此基礎上推出了曦云C550;該系列基于國產供應鏈的產品曦云C600已完成流片。

圖:曦云C600 圖片來自沐曦科技微信
以英偉達 H20為例,其核心優勢在于大容量顯存、高速互連帶寬、多精度計算能力等。曦云C500系列產品的單卡算力已超過 H20,最新一代曦云 C600 系列產品的單卡算力亦領先于英偉達H20,并具備 FP8 計算單元,能夠支持多精度計算。同時,曦云 C600 系列產品配備了大容量顯存,超過 H20 的96GB 版本,可以有效承載更大規模數據與模型、減少數據交換的性能損耗、提升多任務并行執行能力。
據悉,曦云C500系列產品的下游客戶以國家人工智能公共算力平臺、運營商智算平臺、商業化智算中心以及教科研、金融等行業客戶為主。
云天勵飛推出四款推理芯片,覆蓋邊緣到云的多種場景
云天勵飛在灣芯展展出了多款自研芯片——DeepEdge 10、DeepEdge 10C、DeepEdge 10 Max、DeepEdge 200,覆蓋從邊緣到云端的多種推理場景。
DeepEdge10芯片是云天勵飛自主研發的AI推理高性能芯片,采用國產14nm Chiplet工藝,并內置國產RISC-V核。該系列芯片基于“算力積木”AI芯片架構,能夠封裝成不同算力的芯片,覆蓋8T至256T的算力應用,可支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各類主流模型的高效推理,并已完成DeepSeek 系列模型以及國產鴻蒙操作系統的適配。

圖:云天勵飛四款AI推理芯片
公司還推出了更高階的 DeepEdge 200 芯片,面向更高并發和云端推理場景。該芯片采用 D2D Chiplet + C2C Mesh Torus 互連,可把多顆 Die 像積木一樣拼成 256 TOPS 的“單片”,這款芯片通過“算力積木”把 256 TOPS 級別的大算力塞進 35 W 功耗包絡,同時保留橫向擴展和軟件棧兼容性,成為目前國產 AI 推理芯片中少數能兼顧“邊緣高能效”與“云端高并發”的單芯片方案。
百度昆侖芯P800,部分性能與A100相當,中標中國移動采購大單
2025年2月20日,百度旗下的昆侖芯團隊正式發布了P800型號AI芯片,成為國產AI芯片領域的一次重大創新。此次發布的重要亮點在于,這款芯片首度支持單機部署DeepSeek V3/R1671B滿血版大模型。
推理性能:在運行DeepSeek-R1/V3滿血版671B模型時,昆侖芯P800單機8卡的量達到2437tokens/s,并發量達到256,比英偉達A100更快。在同樣負載情況下,P800的推理延遲比A100降低了18%。值得關注的是,昆侖芯P800在能耗方面比A100提高了約15%的功效比,在資源有限的環境中具有優勢。
2025 年中國移動 AI 通用計算(推理型)集采,P800 拿下三個標包 70%-100% 份額,標志著其進入電信級規模采購。
本文由電子發燒友原創,轉載請注明以上來源。微信號zy1052625525。需入群交流,請添加微信elecfans999,投稿爆料采訪需求,請發郵箱zhangying@huaqiu.com。
-
芯片
+關注
關注
462文章
53456瀏覽量
457766 -
高通
+關注
關注
78文章
7676瀏覽量
198384 -
云天勵飛
+關注
關注
0文章
167瀏覽量
12570 -
沐曦
+關注
關注
0文章
52瀏覽量
1643
發布評論請先 登錄
國產AI芯片真能扛住“算力內卷”?海思昇騰的這波操作藏了多少細節?
首款全國產通用GPU芯片發布 沐曦集成推出曦云C600
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰
國產真自研高性能圖形 GPU 重磅發布:跑分超 RTX4060,暢玩《黑神話?悟空》
信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代
當我問DeepSeek AI爆發時代的FPGA是否重要?答案是......
AI 新品首秀 超云重磅亮相 2024 英特爾新質生產力技術生態大會

AI推理需求爆發!高通首秀重磅產品,國產GPU的自主牌怎么打?
評論