1月22日,第31屆亞洲及南太平洋設計自動化會議(ASP-DAC 2026)在香港成功舉辦。后摩智能先進存算技術研發部負責人陳剛受邀出席,并在專題討論會"超越GPU:AI計算架構與設計方法論之爭"中發表報告。
ASP-DAC始于1995年,由IEEE和ACM聯合主辦,是亞洲及南太平洋地區規模最大的VLSI和系統電子設計自動化 (EDA) 會議,也是集成電路設計自動化領域的國際頂級會議之一。本次會議中,ASP-DAC面向亞洲與南太平洋地區的設計人員,致力于展示LSI設計和設計自動化領域的最新技術和未來方向。
存算一體正重塑AI技術架構,推動AI從云端走向端邊。后摩智能作為存算一體領域的企業代表之一,與包括清華大學、北京大學、香港科技大學、上海交通大學等高校共同參與技術交流,并圍繞AI計算架構與設計中的“硬件架構”、“存內計算”、“評估范式”和“產學研協作”四大維度,分享對于技術趨勢與產業挑戰的見解。
以下摘取部分精彩觀點:
硬件架構:通用化與專用化的終極路徑
Q:展望2030年,你認為主導AI計算的架構將延續GPU的演進路線,還是會被ASIC或神經形態計算、存內計算等新興技術取代?
陳剛:在我看來,未來三到五年,GPU的地位會有所松動。因為AI需求過于多元化,且不同場景的需求差異巨大——有些應用追求極致性能,有些需要超低功耗,還有些對成本極其敏感。面對如此多元的需求,很難設計出一種“一刀切”的架構來滿足所有人。
Q:英偉達的黃仁勛與AMD的蘇姿豐都曾公開力推ASIC,目前也有從GPGPU向場景專用硬件演進的趨勢,這種“專用化”趨勢會成為未來主流嗎?
陳剛:我不這么認為。通用化代表靈活性,專用化則意味著更優的PPA(性能、功耗、面積)。從我們實操來看,二者始終需要權衡取舍。它們應當根據不同的產品定位協同滿足市場需求,而不是相互競爭。
同時,在硬件設計里,靈活性和PPA哪個更重要,得看產品的定位和市場需求。這本質上是基于市場洞察的商業決策。決策前,我們需要問自己:是否需要增加冗余硬件資源、犧牲當前PPA,以換取對未來潛在市場機會的快速響應?如果是,設計就應更偏向通用化;否則,專用化才是優先方向。
Q:Agentic AI要求硬件支持大規模持續上下文(KV-Cache)與低延遲決策,而非傳統的高吞吐計算。這一轉變會打破GPU的壟斷嗎?
陳剛:我認為GPU的主導地位會被打破。因為它過于通用,就必然會造成PPA損失。而對于那些對PPA極度敏感的場景,就需要專用的AI芯片——比如云端垂直整合或邊緣側專用NPU(dNPU)。
存內計算:從概念到主流應用的挑戰
Q:JEDEC正在推動LPDDR6-PIM標準。這是否意味著PIM即將被主流產業接納?還是算法的持續演進(如MHA→GQA→MLA)與GPU架構的迭代將再次讓PIM錯失機會?
陳剛:這里討論的PIM實際上是2D PIM。如果能納入JEDEC標準,我認為它將獲得更大的市場機會。本質上,2D PIM只是DDR的擴展——它還是標準產品,只是針對AI需求做了少量調整。由于其依賴專用產線,現在主導權仍掌握在傳統DRAM廠商手中。正如GDDR定義了圖形時代、LPDDR推動了智能手機爆發,AI時代也必將誕生專屬的DDR。未來,可能我們可以稱之為ADDR或AIDDR。
Q:2D PIM受限于DRAM工藝能效與互連瓶頸,而3D堆疊性能更優但成本高昂。在性能與成本之間,PIM應選擇怎樣的技術演進路徑?
陳剛:在我看來,技術應為產品目標服務。因此技術路徑的選擇必須與產品定位匹配。2D與3D PIM各有優勢——2D PIM更適合成本敏感場景,3D PIM適用于高性能需求,但相應成本也更高。它們將共存而非相互替代。
Q:為何主流CPU/GPU廠商除高通收購UPMEM外,少有收購PIM公司?
陳剛:對于2D PIM,由于其依賴專用產線,主導權必然屬于傳統DRAM廠商——這些產線投資巨大,難以被輕易收購。至于3D PIM,我認為技術目前尚不成熟,因此行業巨頭仍在觀望。一旦技術成熟,他們會迅速入場。
評估范式:從理論指標到實際效率
Q:TOPS等傳統指標已無法有效反映生成式AI的實際性能。對于LLM推理,TOPS僅是理論峰值且已過時。真正的瓶頸在于TTFT、TPOT、TPS與MBU,為何行業仍基于TOPS宣傳芯片?
陳剛:我認為這可能源于CNN時代。如今進入LLM時代,它實際上已經過時了。
Q:是否需要建立新的“生成式基準測試”以揭示架構的實際可用性?應采用哪些指標?
陳剛:我認為需要。也許在Prefill與Decode場景中,每秒生成token數、每美元token數、每瓦特token數等指標都比當前的TOPS基準更具參考價值。
產學研協作:從研發生態到創新循環
Q:學術界專注前沿探索與基礎創新,工業界致力于產品化與規模化應用。許多學術論文提出新穎的AI加速器架構,但工業界往往不予采納。你認為最大的脫節點在哪里?
陳剛:我認為關鍵在于學術界與工業界需要更緊密地系統性協作。以CIM IP設計為例,模擬與數字CIM都適合矩陣加速與降功耗,各有優勢。在同一工藝節點下,模擬CIM能效更高,而數字CIM更能受益于工藝縮放。因此,兩者均能勝任矩陣處理。但這只是開始,如果想將技術推向大規模量產必須考慮后續問題。
比如,至少需要解決如何讓CIM設計與現有的DFT工具兼容,以實現更高的測試覆蓋率、更低的測試成本,并降低客戶的DPPM。因此,從量產角度看,為CIM設計開發專用DFT算法同樣關鍵,而不僅僅是提出一套電路設計方案。
-
gpu
+關注
關注
28文章
5194瀏覽量
135427 -
eda
+關注
關注
72文章
3113瀏覽量
182862 -
后摩智能
+關注
關注
0文章
51瀏覽量
1699
原文標題:ASP-DAC 2026|后摩智能陳剛:在PPA敏感場景,將迎來dNPU關鍵機會
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
2026年AI-MES:制造業從“自動化”向“智能化”跨越
展會預告 | 2026合肥國際工業自動化暨機器人展覽會
光庫科技創新成果亮相APE 2026亞洲光電博覽會
后摩智能4篇論文入選人工智能頂會ICLR 2026
展會邀請 | 深視智能SinceVision與您相約AW2026韓國首爾工業自動化展
后摩智能M50芯片成功部署OpenClaw
長城汽車亮相CES 2026國際消費電子展
羅克韋爾自動化榮獲 2026《商業周刊》彭博綠金 ESG 杰出項目
奇捷科技亮相第62屆設計自動化大會
多摩川編碼器:助力自動化控制系統實現更精準的運動控制
華為星河AI高算效數據中心網絡,助力太平洋保險打造“數字員工”
后摩智能亮相ASP-DAC 2026亞洲及南太平洋設計自動化會議
評論