本文轉(zhuǎn)自:TechSugar
隨著人工智能技術(shù)在大模型訓(xùn)練、邊緣計(jì)算、自動(dòng)駕駛等領(lǐng)域的深度滲透,核心算力硬件的競(jìng)爭(zhēng)進(jìn)入白熱化階段。圖形處理單元(GPU)與專用集成電路(ASIC)作為兩大主流技術(shù)路線,正圍繞性能、成本、靈活性等核心維度展開(kāi)激烈角逐,各自憑借獨(dú)特優(yōu)勢(shì)占據(jù)細(xì)分市場(chǎng),同時(shí)也面臨著技術(shù)迭代與市場(chǎng)需求變革帶來(lái)的挑戰(zhàn)。
GPU憑借其與生俱來(lái)的并行計(jì)算基因,成為當(dāng)前AI訓(xùn)練與復(fù)雜推理任務(wù)的中堅(jiān)力量。最初為圖形渲染設(shè)計(jì)的GPU,通過(guò)集成數(shù)百乃至數(shù)千個(gè)計(jì)算核心,能夠高效處理深度學(xué)習(xí)中大量重復(fù)的矩陣乘法、卷積運(yùn)算等并行任務(wù)。以英偉達(dá)的DGX系列硬件平臺(tái)為例,其搭載的多顆GPU通過(guò)CUDA編程框架的優(yōu)化,能夠?yàn)門(mén)ransformer架構(gòu)大模型、計(jì)算機(jī)視覺(jué)中的多尺度圖像特征提取等提供強(qiáng)大算力支撐,讓科研機(jī)構(gòu)和企業(yè)在短時(shí)間內(nèi)完成海量數(shù)據(jù)的模型訓(xùn)練。這種強(qiáng)大的通用性是GPU的核心競(jìng)爭(zhēng)力,它無(wú)需針對(duì)特定算法進(jìn)行定制,能夠適配自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音合成等多種AI應(yīng)用場(chǎng)景,支持TensorFlow、PyTorch等主流深度學(xué)習(xí)框架,開(kāi)發(fā)者無(wú)需重構(gòu)代碼即可快速部署不同類型的模型。
成熟的軟件生態(tài)進(jìn)一步鞏固了GPU的市場(chǎng)地位,英偉達(dá)的CUDA工具包提供了豐富的開(kāi)發(fā)接口和優(yōu)化資源,降低了并行編程的門(mén)檻,吸引了全球數(shù)百萬(wàn)開(kāi)發(fā)者參與生態(tài)建設(shè),形成了“硬件性能領(lǐng)先—生態(tài)持續(xù)完善—用戶粘性增強(qiáng)”的良性循環(huán)。
然而,GPU的短板也在大規(guī)模應(yīng)用中逐漸顯現(xiàn)。為維持強(qiáng)大的并行計(jì)算能力,GPU需要搭載復(fù)雜的電路設(shè)計(jì)和大容量顯存,導(dǎo)致其硬件成本居高不下。英偉達(dá)最新的DGX B200 8GPU平臺(tái)功耗高達(dá)14.3kW,單臺(tái)設(shè)備采購(gòu)成本動(dòng)輒數(shù)百萬(wàn)元,對(duì)于中小企業(yè)和預(yù)算有限的研究機(jī)構(gòu)而言,無(wú)疑構(gòu)成了巨大的資金壓力。高功耗帶來(lái)的不僅是能源成本的增加,更對(duì)數(shù)據(jù)中心的散熱系統(tǒng)提出了嚴(yán)苛要求,限制了其在邊緣計(jì)算、移動(dòng)終端等對(duì)功耗敏感的場(chǎng)景中的應(yīng)用。此外,GPU的通用架構(gòu)使其在處理特定算法時(shí)存在算力冗余,部分計(jì)算單元無(wú)法充分發(fā)揮作用,導(dǎo)致能效比低于專門(mén)定制的芯片,這在大規(guī)模推理等場(chǎng)景中尤為明顯。
與GPU的通用性形成鮮明對(duì)比,ASIC以“定制化”為核心賣點(diǎn),在特定AI場(chǎng)景中展現(xiàn)出極致的性能與能效優(yōu)勢(shì)。ASIC通過(guò)針對(duì)具體算法和任務(wù)優(yōu)化電路設(shè)計(jì),去除了不必要的通用計(jì)算模塊,能夠?qū)⑺懔型度氲胶诵倪\(yùn)算中,實(shí)現(xiàn)性能與功耗的精準(zhǔn)匹配。
谷歌研發(fā)的TPU(張量處理單元)作為典型的AI ASIC芯片,通過(guò)高密度乘法器和累加器陣列(MAC)優(yōu)化矩陣運(yùn)算,在深度學(xué)習(xí)推理任務(wù)中,相比通用GPU性能提升顯著,同時(shí)功耗大幅降低。亞馬遜推出的Trainium芯片在推理場(chǎng)景中,相比英偉達(dá)H100 GPU的成本降低30%至40%,隨著量產(chǎn)規(guī)模擴(kuò)大,單位成本優(yōu)勢(shì)進(jìn)一步凸顯,成為大型數(shù)據(jù)中心大規(guī)模部署AI推理任務(wù)的優(yōu)選。華為昇騰則是華為為AI時(shí)代量身打造的“神經(jīng)網(wǎng)絡(luò)處理器”(NPU),在大模型訓(xùn)練、深度學(xué)習(xí)推理等核心場(chǎng)景中,展現(xiàn)出極強(qiáng)的“專精性”。據(jù)海外專業(yè)機(jī)構(gòu)SemiAnalysis的數(shù)據(jù)證實(shí):昇騰384超節(jié)點(diǎn)的整體計(jì)算能力是英偉達(dá)GB200機(jī)柜的1.6倍。
這種高能效比讓ASIC在邊緣計(jì)算設(shè)備、智能終端等功耗受限場(chǎng)景中具備不可替代的優(yōu)勢(shì),例如自動(dòng)駕駛汽車的傳感器數(shù)據(jù)實(shí)時(shí)處理、智能家居設(shè)備的語(yǔ)音喚醒功能,都需要ASIC在低功耗前提下提供穩(wěn)定的算力支持。
但ASIC的定制化特性也帶來(lái)了天然的局限性。芯片設(shè)計(jì)周期長(zhǎng)、研發(fā)投入大,一旦完成流片生產(chǎn),其支持的算法和任務(wù)類型便基本固定,難以適應(yīng)AI技術(shù)快速迭代的節(jié)奏。當(dāng)新的深度學(xué)習(xí)算法出現(xiàn)時(shí),舊款A(yù)SIC可能面臨被淘汰的風(fēng)險(xiǎn),這對(duì)于技術(shù)路線尚未完全穩(wěn)定的新興應(yīng)用場(chǎng)景而言,無(wú)疑增加了市場(chǎng)風(fēng)險(xiǎn)。
此外,ASIC的軟件生態(tài)尚不完善,開(kāi)發(fā)工具和適配資源相對(duì)匱乏,開(kāi)發(fā)者需要針對(duì)特定芯片進(jìn)行專門(mén)的代碼優(yōu)化和模型遷移,不僅提高了開(kāi)發(fā)成本,也延長(zhǎng)了產(chǎn)品落地周期。這種“專用性”與“靈活性”的矛盾,使得ASIC難以像GPU那樣覆蓋廣泛的應(yīng)用場(chǎng)景,更多局限于算法成熟、需求穩(wěn)定的大規(guī)模部署場(chǎng)景。
當(dāng)前,AI芯片市場(chǎng)的競(jìng)爭(zhēng)并非非此即彼的零和博弈,而是呈現(xiàn)出“差異化競(jìng)爭(zhēng)+生態(tài)互補(bǔ)”的格局。GPU憑借通用性和完善生態(tài),繼續(xù)主導(dǎo)大模型訓(xùn)練、科研創(chuàng)新等需要靈活適配多算法的場(chǎng)景,尤其是在生成式AI爆發(fā)的背景下,對(duì)高性能GPU的需求持續(xù)旺盛。博通雖為谷歌、AWS定制ASIC芯片,其CEO Hock Ta坦言:“通用GPU仍是復(fù)雜AI工作流的基石。”
而ASIC則在數(shù)據(jù)中心大規(guī)模推理、邊緣計(jì)算、智能終端等場(chǎng)景加速滲透,隨著AI應(yīng)用從實(shí)驗(yàn)室走向產(chǎn)業(yè)化,算法逐漸固化,ASIC的成本和能效優(yōu)勢(shì)將進(jìn)一步放大。谷歌、亞馬遜、華為等科技巨頭紛紛加大ASIC研發(fā)投入,同時(shí)英偉達(dá)等GPU龍頭也在通過(guò)芯片架構(gòu)優(yōu)化、專用計(jì)算單元集成等方式提升能效比,雙方技術(shù)路線呈現(xiàn)相互借鑒的趨勢(shì)。
展望未來(lái),AI芯片市場(chǎng)將朝著“異構(gòu)融合”的方向發(fā)展,GPU與ASIC并非相互替代,而是通過(guò)合理搭配實(shí)現(xiàn)算力效率的最大化。在數(shù)據(jù)中心,“CPU+GPU+ASIC”的異構(gòu)計(jì)算架構(gòu)將成為主流,GPU負(fù)責(zé)靈活的訓(xùn)練任務(wù)和復(fù)雜推理,ASIC承擔(dān)規(guī)模化的標(biāo)準(zhǔn)推理任務(wù),CPU則統(tǒng)籌調(diào)度,充分發(fā)揮各類芯片的比較優(yōu)勢(shì)。
技術(shù)創(chuàng)新將成為打破當(dāng)前格局的關(guān)鍵變量,3D堆疊技術(shù)、新型半導(dǎo)體材料的應(yīng)用將進(jìn)一步提升芯片的算力密度和能效比,而機(jī)器學(xué)習(xí)輔助芯片設(shè)計(jì)的方式,有望縮短ASIC的研發(fā)周期、降低定制成本。軟件生態(tài)的互聯(lián)互通也將成為競(jìng)爭(zhēng)焦點(diǎn),無(wú)論是GPU廠商還是ASIC開(kāi)發(fā)者,都需要通過(guò)兼容主流框架、提供便捷遷移工具等方式降低用戶使用門(mén)檻。
對(duì)于企業(yè)而言,選擇GPU還是ASIC路線,本質(zhì)上是對(duì)應(yīng)用場(chǎng)景、成本預(yù)算和技術(shù)迭代速度的綜合考量。科研機(jī)構(gòu)和創(chuàng)新型企業(yè)更傾向于選擇GPU以快速響應(yīng)算法變化,而大規(guī)模部署的成熟應(yīng)用則更適合采用ASIC降低長(zhǎng)期成本。隨著人工智能產(chǎn)業(yè)的持續(xù)升溫,GPU與ASIC的競(jìng)爭(zhēng)將推動(dòng)整個(gè)AI芯片行業(yè)不斷突破性能、功耗和成本的邊界,為人工智能技術(shù)的規(guī)模化應(yīng)用注入源源不斷的算力動(dòng)力,而這場(chǎng)博弈的最終受益者,將是整個(gè)AI產(chǎn)業(yè)生態(tài)與終端用戶。
-
asic
+關(guān)注
關(guān)注
34文章
1271瀏覽量
124117 -
gpu
+關(guān)注
關(guān)注
28文章
5118瀏覽量
134556 -
人工智能
+關(guān)注
關(guān)注
1813文章
49807瀏覽量
262202 -
AI芯片
+關(guān)注
關(guān)注
17文章
2077瀏覽量
36596
發(fā)布評(píng)論請(qǐng)先 登錄
中國(guó)AI芯片市場(chǎng):華為將占半壁江山,英偉達(dá)跌落,這家第二
蘋(píng)果AI革命:M5芯片10核GPU、AI處理速度翻倍,Apple Glass在路上
維修總趕不上故障?智能管理系統(tǒng)用 AI 建模,把設(shè)備隱患掐滅在萌芽里
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)
AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?
AI芯片,需要ASIC
從14nm到3nm:AI ASIC算力、能效雙突破
邊緣AI盒子技術(shù)解析:ASIC/FPGA/GPU芯片及邊緣-云端協(xié)同與自適應(yīng)推理
FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
AI推理帶火的ASIC,開(kāi)發(fā)成敗在此一舉!
英偉達(dá)組建ASIC團(tuán)隊(duì),挖掘臺(tái)灣設(shè)計(jì)服務(wù)人才
ASIC芯片會(huì)成為AI的下一件大事嗎

AI芯片市場(chǎng)鏖戰(zhàn),GPU與ASIC誰(shuí)將占據(jù)主動(dòng)?
評(píng)論