專家洞察
主機經濟的啟示
想知道圖形技術的發展方向?關注主機市場就對了。并非因為主機技術精湛或代表著計算機圖形學的巔峰——事實并非如此。但它們確實占據著游戲生態系統中最大的收入份額,而受發行商驅動的游戲開發商們,永遠追隨資金流向。
主機還經過精巧設計以控制成本。售價500美元的PlayStation或Xbox無法原生支持4K分辨率、高幀率、復雜材質、全局光照和實時光線追蹤——物理系統無法支撐,散熱系統無法應對,經濟性更是完全行不通。
主機可視為受限圖形處理的入口。通過控制芯片面積和限制散熱來降低成本的需求,促使硬件采用先進技術高效實現新一代特效。
那么,主機正在做什么?最新一代主機并不是在增加更多專用的圖形功能,而是將重點投入到AI加速上:更多的重建與超分辨率技術,更多的時間性技巧與學習型近似算法,以及對純粹光柵化吞吐力的投入則相對減少。
這并非妥協,而是實用主義。原生4K渲染所需的計算量約是1080p的4倍,但通過AI驅動從1080p超分至4K,僅需一小部分成本就能實現視覺上相近的效果。同樣的畫質,只需四分之一的計算預算——經濟賬無可辯駁。
當主機廠商如此重注于重建技術而非原生渲染時,整個生態系統都會隨之轉向。游戲引擎為此優化,藝術家學習與之協作。待這些技術成熟時,它們便成為預期的基準。這不僅是主機的方向,也是智能手機、電視和汽車中受限實時圖形技術的發展方向。
我們如何走到今天?
幾十年來,丹納德縮放定律(Dennard scaling wall)給予芯片設計者一份厚禮:縮小晶體管,就能獲得更多晶體管,它們能以相同功耗運行得更快。我們可以塞進更多圖形核心、更多計算單元、更多專用模塊,而經濟效益依然成立。每一代都能帶來“免費”的性能提升。
這種模式早已失效,但半導體行業仍慣性前行,仿佛舊規則依然有效。事實并非如此。如今縮小晶體管尺寸雖能實現更高密度集成,但性能不再倍增,功耗也無法像過去那樣線性增長,熱管理更成為重大挑戰。唯一出路在于提升架構效率,而非單純堆砌更多晶體管。
這引發了我們對于處理器設計思路的轉變。我們需要更明智地決策構建什么以及如何使用——而AI恰逢其時地出現,帶來了我們所急需的下一代圖形效率浪潮。
圖形演變為計算
事實上,在所有市場中,現代渲染技術正逐漸擺脫傳統圖形學的面貌,更趨近于精密的信號處理。去噪光線追蹤照明是計算問題,時域抗鋸齒是計算問題,分辨率提升更是不折不扣的計算問題。就連光柵化技術也日益依賴計算著色器來實現剔除、可見性判定和材質評估。
“圖形工作負載”與“計算工作負載”之間的界限正在消融。看似圖形的任務,往往是恰好生成像素的計算——而GPU已經演變得非常善于處理這類負載。
該能力已開始被重新部署至其他應用場景。在邊緣計算場景中,GPU通常承擔著處理計算攝影、擴展現實(XR)、虛擬與增強現實(VR/AR)以及復雜傳感器融合等核心工作負載的任務。這些操作包括處理攝像頭數據流、整合激光雷達點云、對傳感器數據執行快速傅里葉變換(FFT),以及在三維空間中追蹤物體。此類預處理步驟對于實現更豐富、更沉浸式的體驗以及精準的環境感知至關重要。
融合之勢
這些任務占據著獨特的交叉領域,既不同于傳統圖形處理,也區別于AI工作負載。它們代表了一類異構計算任務——這類任務在AI近期爆發之前就已存在,卻依然是移動計算、交互計算和感知計算等現代應用的核心需求。
由此催生出成熟的計算軟件生態系統,將GPU視為核心計算單元。API、標準、庫、編譯器及工具鏈一應俱全,確保開發者能輕松將AI模型部署至GPU通用計算單元。
這至關重要——因為殘酷的現實是:當前主導技術路線圖的AI算法,很可能無法支撐五年后的運行需求。并非算法本身缺陷,而是它們針對電力與計算資源充沛的時代進行優化,而這種資源規模化擴張終將受限。
運行于數據中心、耗電量巨大的Transformer模型或許能推動短期經濟增長,但它們同樣面臨擴展極限,而無限免費的能源仍是科幻設想。新一代算法的誕生勢在必行——物理定律與經濟規律共同催生著變革。部分算法將提升數據中心計算效率,另一些則將推動AI走出數據中心,轉向另一高效計算資源:邊緣設備。
稀疏架構、新型量化方案、尚未構想的混合方法——無論算法如何演進,硬件都需做好準備。歷史已為我們提供范例:專家系統讓位于神經網絡,全連接網絡讓位于CNN,CNN又讓位于Transformer。每次變革都遺留著針對舊技術的專用硬件。
邊緣計算的差異在于部署周期。數據中心每2-3年即可更新換代(經濟與基礎設施允許的情況下),而汽車SoC的壽命卻長達十年以上。邊緣硬件無法承受過度優化算法的代價——這些算法可能在首款芯片出貨前就已過時。
這對GPU意味著什么?
但專用加速器并非邊緣AI的唯一解決方案。GPU已進化為AI機器;其計算資源的主要應用場景確實是圖形處理,但GPU的魅力在于可編程性和靈活性。它可應用于當今的AI算法——當數據中心資源限制真正顯現時,它將成為更高效模型變體的實際加速器。
當代GPU早已超越圖形處理器的范疇,亦非單純的計算處理器或AI加速器——它們同時兼具三者特性。這對架構設計意味著什么?
真正的異構性:光柵化、光線追蹤、張量運算及計算仍需專用功能模塊。但調度機制與資源分配必須具備足夠靈活性,避免工作負載轉移時產生資源泡沫。當幀重建階段啟動時,光線追蹤單元應轉為計算或AI任務使用,而非閑置。
內存分層結構比峰值吞吐量更關鍵:邊緣設備無法依靠海量內存池蠻力解決問題。緩存策略、數據壓縮與傳輸機制屬于架構設計范疇,而非算法層面。當GPU進行幀重建而非完整渲染時,內存訪問模式將發生根本性變化,架構設計必須預見這種轉變。
數值靈活性優先于峰值性能:當前神經網絡可能采用INT8精度,但未來可能需要INT4、FP4或尚未標準化的三元表示法。現有圖形渲染依賴FP32精度,而重建算法可能需要我們尚未預見的位寬。設計應追求適應性,而非僅針對單一狹窄格式的效率優化。
可編程性不可妥協:今日設計的車載GPU必須能運行尚未誕生的算法。這要求編程模型能讓開發者自由表達創新算法,而非受限于架構。固定功能模塊雖能提升效率,但前提是它們不會在工作負載演進時將你逼入死胡同。
我們一再忽視的規律
過去四十年間,計算產業反復經歷著這樣的循環:規模化帶來性能提升,我們據此構建基礎設施,卻忽略了物理定律設下的邊界。算法隨之調整以彌補不足,而過往的優化方案逐漸失效。
當下我們正身處轉型期。關鍵不在于變革是否發生——丹納德縮放定律的極限已然顯現,算法變革勢在必行,邊緣部署加速推進。關鍵在于我們構建的是能適應變革的架構,還是將在轉型完成后被淘汰的舊體系。而邊緣計算領域正面臨最嚴峻的考驗。構建適應未來發展的架構遠比優化現有方案困難,但唯有如此才能經受十年部署的考驗。
作者介紹Ed Plowman,是GPU架構與機器學習加速領域的資深專家,擁有逾30年推動圖形處理、計算及系統性能創新的經驗。在Imagination Technologies擔任首席技術官期間,他主導先進GPU流水線研發,探索新型算術邏輯單元設計、圖神經網絡及機器學習驅動的性能建模技術,以推動人工智能與圖形領域的可擴展計算發展。其過往工作涵蓋移動GPU、精準農業及虛擬制作領域,曾榮獲英國女王獎和科技艾美獎。埃德是Khronos集團創始成員,在自適應計算和可編程圖形領域擁有多項專利。
英文鏈接:https://blog.imaginationtech.com/the-convergence-pattern-why-edge-gpus-cant-afford-specialisation
聲明:本文為原創文章,轉載需注明作者、出處及原文鏈接。
-
gpu
+關注
關注
28文章
5194瀏覽量
135425 -
主機
+關注
關注
0文章
1053瀏覽量
36741 -
晶體管
+關注
關注
78文章
10395瀏覽量
147723
發布評論請先 登錄
專家觀點:功率而非面積:邊緣GPU設計為何迎來新紀元
GPU固件無法使用重新編譯的內核加載怎么解決?
探索NXP i.MX 93應用處理器家族:高效邊緣計算的理想之選
長晶科技通過2025年專精特新“小巨人”企業復核
是什么讓邊緣電腦真正工業化?
專利+專精特新筑牢根基,瑞之辰傳感器國產替代加速
圖為科技錨定具身智能新時代:NVIDIA Jetson引領邊緣計算融合創新
為何邊緣設備正成為AI的新重心
【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家
Imagination:E系列GPU 16虛擬機解鎖邊緣AI新效能
福田歐曼銀河9重新定義全球重卡標準
有獎直播 | @4/1 智在邊緣:解鎖邊緣人工智能的無限可能
專家洞察 I 融合之勢:為何邊緣GPU無法承受“專精化”之重
評論