專家洞察
主機(jī)經(jīng)濟(jì)的啟示
想知道圖形技術(shù)的發(fā)展方向?關(guān)注主機(jī)市場(chǎng)就對(duì)了。并非因?yàn)橹鳈C(jī)技術(shù)精湛或代表著計(jì)算機(jī)圖形學(xué)的巔峰——事實(shí)并非如此。但它們確實(shí)占據(jù)著游戲生態(tài)系統(tǒng)中最大的收入份額,而受發(fā)行商驅(qū)動(dòng)的游戲開(kāi)發(fā)商們,永遠(yuǎn)追隨資金流向。
主機(jī)還經(jīng)過(guò)精巧設(shè)計(jì)以控制成本。售價(jià)500美元的PlayStation或Xbox無(wú)法原生支持4K分辨率、高幀率、復(fù)雜材質(zhì)、全局光照和實(shí)時(shí)光線追蹤——物理系統(tǒng)無(wú)法支撐,散熱系統(tǒng)無(wú)法應(yīng)對(duì),經(jīng)濟(jì)性更是完全行不通。
主機(jī)可視為受限圖形處理的入口。通過(guò)控制芯片面積和限制散熱來(lái)降低成本的需求,促使硬件采用先進(jìn)技術(shù)高效實(shí)現(xiàn)新一代特效。
那么,主機(jī)正在做什么?最新一代主機(jī)并不是在增加更多專用的圖形功能,而是將重點(diǎn)投入到AI加速上:更多的重建與超分辨率技術(shù),更多的時(shí)間性技巧與學(xué)習(xí)型近似算法,以及對(duì)純粹光柵化吞吐力的投入則相對(duì)減少。
這并非妥協(xié),而是實(shí)用主義。原生4K渲染所需的計(jì)算量約是1080p的4倍,但通過(guò)AI驅(qū)動(dòng)從1080p超分至4K,僅需一小部分成本就能實(shí)現(xiàn)視覺(jué)上相近的效果。同樣的畫質(zhì),只需四分之一的計(jì)算預(yù)算——經(jīng)濟(jì)賬無(wú)可辯駁。
當(dāng)主機(jī)廠商如此重注于重建技術(shù)而非原生渲染時(shí),整個(gè)生態(tài)系統(tǒng)都會(huì)隨之轉(zhuǎn)向。游戲引擎為此優(yōu)化,藝術(shù)家學(xué)習(xí)與之協(xié)作。待這些技術(shù)成熟時(shí),它們便成為預(yù)期的基準(zhǔn)。這不僅是主機(jī)的方向,也是智能手機(jī)、電視和汽車中受限實(shí)時(shí)圖形技術(shù)的發(fā)展方向。
我們?nèi)绾巫叩浇裉欤?/strong>
幾十年來(lái),丹納德縮放定律(Dennard scaling wall)給予芯片設(shè)計(jì)者一份厚禮:縮小晶體管,就能獲得更多晶體管,它們能以相同功耗運(yùn)行得更快。我們可以塞進(jìn)更多圖形核心、更多計(jì)算單元、更多專用模塊,而經(jīng)濟(jì)效益依然成立。每一代都能帶來(lái)“免費(fèi)”的性能提升。
這種模式早已失效,但半導(dǎo)體行業(yè)仍慣性前行,仿佛舊規(guī)則依然有效。事實(shí)并非如此。如今縮小晶體管尺寸雖能實(shí)現(xiàn)更高密度集成,但性能不再倍增,功耗也無(wú)法像過(guò)去那樣線性增長(zhǎng),熱管理更成為重大挑戰(zhàn)。唯一出路在于提升架構(gòu)效率,而非單純堆砌更多晶體管。
這引發(fā)了我們對(duì)于處理器設(shè)計(jì)思路的轉(zhuǎn)變。我們需要更明智地決策構(gòu)建什么以及如何使用——而AI恰逢其時(shí)地出現(xiàn),帶來(lái)了我們所急需的下一代圖形效率浪潮。
圖形演變?yōu)橛?jì)算
事實(shí)上,在所有市場(chǎng)中,現(xiàn)代渲染技術(shù)正逐漸擺脫傳統(tǒng)圖形學(xué)的面貌,更趨近于精密的信號(hào)處理。去噪光線追蹤照明是計(jì)算問(wèn)題,時(shí)域抗鋸齒是計(jì)算問(wèn)題,分辨率提升更是不折不扣的計(jì)算問(wèn)題。就連光柵化技術(shù)也日益依賴計(jì)算著色器來(lái)實(shí)現(xiàn)剔除、可見(jiàn)性判定和材質(zhì)評(píng)估。
“圖形工作負(fù)載”與“計(jì)算工作負(fù)載”之間的界限正在消融。看似圖形的任務(wù),往往是恰好生成像素的計(jì)算——而GPU已經(jīng)演變得非常善于處理這類負(fù)載。
該能力已開(kāi)始被重新部署至其他應(yīng)用場(chǎng)景。在邊緣計(jì)算場(chǎng)景中,GPU通常承擔(dān)著處理計(jì)算攝影、擴(kuò)展現(xiàn)實(shí)(XR)、虛擬與增強(qiáng)現(xiàn)實(shí)(VR/AR)以及復(fù)雜傳感器融合等核心工作負(fù)載的任務(wù)。這些操作包括處理攝像頭數(shù)據(jù)流、整合激光雷達(dá)點(diǎn)云、對(duì)傳感器數(shù)據(jù)執(zhí)行快速傅里葉變換(FFT),以及在三維空間中追蹤物體。此類預(yù)處理步驟對(duì)于實(shí)現(xiàn)更豐富、更沉浸式的體驗(yàn)以及精準(zhǔn)的環(huán)境感知至關(guān)重要。
融合之勢(shì)
這些任務(wù)占據(jù)著獨(dú)特的交叉領(lǐng)域,既不同于傳統(tǒng)圖形處理,也區(qū)別于AI工作負(fù)載。它們代表了一類異構(gòu)計(jì)算任務(wù)——這類任務(wù)在AI近期爆發(fā)之前就已存在,卻依然是移動(dòng)計(jì)算、交互計(jì)算和感知計(jì)算等現(xiàn)代應(yīng)用的核心需求。
由此催生出成熟的計(jì)算軟件生態(tài)系統(tǒng),將GPU視為核心計(jì)算單元。API、標(biāo)準(zhǔn)、庫(kù)、編譯器及工具鏈一應(yīng)俱全,確保開(kāi)發(fā)者能輕松將AI模型部署至GPU通用計(jì)算單元。
這至關(guān)重要——因?yàn)闅埧岬默F(xiàn)實(shí)是:當(dāng)前主導(dǎo)技術(shù)路線圖的AI算法,很可能無(wú)法支撐五年后的運(yùn)行需求。并非算法本身缺陷,而是它們針對(duì)電力與計(jì)算資源充沛的時(shí)代進(jìn)行優(yōu)化,而這種資源規(guī)模化擴(kuò)張終將受限。
運(yùn)行于數(shù)據(jù)中心、耗電量巨大的Transformer模型或許能推動(dòng)短期經(jīng)濟(jì)增長(zhǎng),但它們同樣面臨擴(kuò)展極限,而無(wú)限免費(fèi)的能源仍是科幻設(shè)想。新一代算法的誕生勢(shì)在必行——物理定律與經(jīng)濟(jì)規(guī)律共同催生著變革。部分算法將提升數(shù)據(jù)中心計(jì)算效率,另一些則將推動(dòng)AI走出數(shù)據(jù)中心,轉(zhuǎn)向另一高效計(jì)算資源:邊緣設(shè)備。
稀疏架構(gòu)、新型量化方案、尚未構(gòu)想的混合方法——無(wú)論算法如何演進(jìn),硬件都需做好準(zhǔn)備。歷史已為我們提供范例:專家系統(tǒng)讓位于神經(jīng)網(wǎng)絡(luò),全連接網(wǎng)絡(luò)讓位于CNN,CNN又讓位于Transformer。每次變革都遺留著針對(duì)舊技術(shù)的專用硬件。
邊緣計(jì)算的差異在于部署周期。數(shù)據(jù)中心每2-3年即可更新?lián)Q代(經(jīng)濟(jì)與基礎(chǔ)設(shè)施允許的情況下),而汽車SoC的壽命卻長(zhǎng)達(dá)十年以上。邊緣硬件無(wú)法承受過(guò)度優(yōu)化算法的代價(jià)——這些算法可能在首款芯片出貨前就已過(guò)時(shí)。
這對(duì)GPU意味著什么?
但專用加速器并非邊緣AI的唯一解決方案。GPU已進(jìn)化為AI機(jī)器;其計(jì)算資源的主要應(yīng)用場(chǎng)景確實(shí)是圖形處理,但GPU的魅力在于可編程性和靈活性。它可應(yīng)用于當(dāng)今的AI算法——當(dāng)數(shù)據(jù)中心資源限制真正顯現(xiàn)時(shí),它將成為更高效模型變體的實(shí)際加速器。
當(dāng)代GPU早已超越圖形處理器的范疇,亦非單純的計(jì)算處理器或AI加速器——它們同時(shí)兼具三者特性。這對(duì)架構(gòu)設(shè)計(jì)意味著什么?
真正的異構(gòu)性:光柵化、光線追蹤、張量運(yùn)算及計(jì)算仍需專用功能模塊。但調(diào)度機(jī)制與資源分配必須具備足夠靈活性,避免工作負(fù)載轉(zhuǎn)移時(shí)產(chǎn)生資源泡沫。當(dāng)幀重建階段啟動(dòng)時(shí),光線追蹤單元應(yīng)轉(zhuǎn)為計(jì)算或AI任務(wù)使用,而非閑置。
內(nèi)存分層結(jié)構(gòu)比峰值吞吐量更關(guān)鍵:邊緣設(shè)備無(wú)法依靠海量?jī)?nèi)存池蠻力解決問(wèn)題。緩存策略、數(shù)據(jù)壓縮與傳輸機(jī)制屬于架構(gòu)設(shè)計(jì)范疇,而非算法層面。當(dāng)GPU進(jìn)行幀重建而非完整渲染時(shí),內(nèi)存訪問(wèn)模式將發(fā)生根本性變化,架構(gòu)設(shè)計(jì)必須預(yù)見(jiàn)這種轉(zhuǎn)變。
數(shù)值靈活性優(yōu)先于峰值性能:當(dāng)前神經(jīng)網(wǎng)絡(luò)可能采用INT8精度,但未來(lái)可能需要INT4、FP4或尚未標(biāo)準(zhǔn)化的三元表示法。現(xiàn)有圖形渲染依賴FP32精度,而重建算法可能需要我們尚未預(yù)見(jiàn)的位寬。設(shè)計(jì)應(yīng)追求適應(yīng)性,而非僅針對(duì)單一狹窄格式的效率優(yōu)化。
可編程性不可妥協(xié):今日設(shè)計(jì)的車載GPU必須能運(yùn)行尚未誕生的算法。這要求編程模型能讓開(kāi)發(fā)者自由表達(dá)創(chuàng)新算法,而非受限于架構(gòu)。固定功能模塊雖能提升效率,但前提是它們不會(huì)在工作負(fù)載演進(jìn)時(shí)將你逼入死胡同。
我們一再忽視的規(guī)律
過(guò)去四十年間,計(jì)算產(chǎn)業(yè)反復(fù)經(jīng)歷著這樣的循環(huán):規(guī)模化帶來(lái)性能提升,我們據(jù)此構(gòu)建基礎(chǔ)設(shè)施,卻忽略了物理定律設(shè)下的邊界。算法隨之調(diào)整以彌補(bǔ)不足,而過(guò)往的優(yōu)化方案逐漸失效。
當(dāng)下我們正身處轉(zhuǎn)型期。關(guān)鍵不在于變革是否發(fā)生——丹納德縮放定律的極限已然顯現(xiàn),算法變革勢(shì)在必行,邊緣部署加速推進(jìn)。關(guān)鍵在于我們構(gòu)建的是能適應(yīng)變革的架構(gòu),還是將在轉(zhuǎn)型完成后被淘汰的舊體系。而邊緣計(jì)算領(lǐng)域正面臨最嚴(yán)峻的考驗(yàn)。構(gòu)建適應(yīng)未來(lái)發(fā)展的架構(gòu)遠(yuǎn)比優(yōu)化現(xiàn)有方案困難,但唯有如此才能經(jīng)受十年部署的考驗(yàn)。
作者介紹Ed Plowman,是GPU架構(gòu)與機(jī)器學(xué)習(xí)加速領(lǐng)域的資深專家,擁有逾30年推動(dòng)圖形處理、計(jì)算及系統(tǒng)性能創(chuàng)新的經(jīng)驗(yàn)。在Imagination Technologies擔(dān)任首席技術(shù)官期間,他主導(dǎo)先進(jìn)GPU流水線研發(fā),探索新型算術(shù)邏輯單元設(shè)計(jì)、圖神經(jīng)網(wǎng)絡(luò)及機(jī)器學(xué)習(xí)驅(qū)動(dòng)的性能建模技術(shù),以推動(dòng)人工智能與圖形領(lǐng)域的可擴(kuò)展計(jì)算發(fā)展。其過(guò)往工作涵蓋移動(dòng)GPU、精準(zhǔn)農(nóng)業(yè)及虛擬制作領(lǐng)域,曾榮獲英國(guó)女王獎(jiǎng)和科技艾美獎(jiǎng)。埃德是Khronos集團(tuán)創(chuàng)始成員,在自適應(yīng)計(jì)算和可編程圖形領(lǐng)域擁有多項(xiàng)專利。
英文鏈接:https://blog.imaginationtech.com/the-convergence-pattern-why-edge-gpus-cant-afford-specialisation
聲明:本文為原創(chuàng)文章,轉(zhuǎn)載需注明作者、出處及原文鏈接。
-
gpu
+關(guān)注
關(guān)注
28文章
5245瀏覽量
136000 -
主機(jī)
+關(guān)注
關(guān)注
0文章
1059瀏覽量
36816 -
晶體管
+關(guān)注
關(guān)注
78文章
10428瀏覽量
148390
發(fā)布評(píng)論請(qǐng)先 登錄
專家觀點(diǎn):功率而非面積:邊緣GPU設(shè)計(jì)為何迎來(lái)新紀(jì)元
GPU固件無(wú)法使用重新編譯的內(nèi)核加載怎么解決?
探索NXP i.MX 93應(yīng)用處理器家族:高效邊緣計(jì)算的理想之選
長(zhǎng)晶科技通過(guò)2025年專精特新“小巨人”企業(yè)復(fù)核
深耕AI云網(wǎng)融合賽道 中宇聯(lián)成上海邊緣AI網(wǎng)絡(luò)建設(shè)核心力量——滬上專精特新企業(yè)以“技術(shù)+市場(chǎng)”雙優(yōu)勢(shì)領(lǐng)跑
是什么讓邊緣電腦真正工業(yè)化?
適應(yīng)邊緣AI全新時(shí)代的GPU架構(gòu)
專利+專精特新筑牢根基,瑞之辰傳感器國(guó)產(chǎn)替代加速
圖為科技錨定具身智能新時(shí)代:NVIDIA Jetson引領(lǐng)邊緣計(jì)算融合創(chuàng)新
Arm 洞察與思考:為什么 AI 向邊緣遷移的速度超乎想象
為何邊緣設(shè)備正成為AI的新重心
【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+混合專家
Imagination:E系列GPU 16虛擬機(jī)解鎖邊緣AI新效能
福田歐曼銀河9重新定義全球重卡標(biāo)準(zhǔn)
邊緣計(jì)算與AI融合:技術(shù)創(chuàng)新與產(chǎn)業(yè)變革的交匯點(diǎn)
專家洞察 I 融合之勢(shì):為何邊緣GPU無(wú)法承受“專精化”之重
評(píng)論