電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日,英偉達高端GPU對中國供應受到限制的消息,引起熱議。8月31日,英偉達發(fā)布公告稱,美國通知公司向中國出口A100和H100芯片將需要新的許可證要求,同時DGX或任何其他包含A100或H100芯片的產(chǎn)品,以及未來性能高于A100的芯片都將受到新規(guī)管制。
9月1日,英偉達方面又表示已經(jīng)獲得出口許可。盡管如此,美國這番操作必然引起國內(nèi)相關(guān)企業(yè)的警惕,接下來中國的互聯(lián)網(wǎng)、云服務廠商可能會積極自研芯片,或者更多采用國內(nèi)企業(yè)提供的算力芯片,然而目前國內(nèi)的算力芯片能力如何呢?
A100和H100出口限制,對中國有何影響
英偉達是全球GPU領(lǐng)域的絕對龍頭,A100是其2020年推出的數(shù)據(jù)中心級云端加速芯片,擁有540億晶體管,采用臺積電7nm工藝制程,支持FP16、FP32和FP64浮點運算,為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。
相比于上一代V100,A100在AI訓練和推理、HPC上性能都有很大的改進。據(jù)英偉達在今年8月透露,特斯拉采用了7000塊A100芯片升級了其用來訓練自動駕駛系統(tǒng)的超算中心。
?
H100是英偉達今年3月發(fā)布的最新一代數(shù)據(jù)中心GPU,集成800億晶體管,采用臺積電定制的4nm工藝,預計在今年下半年正式發(fā)貨,英偉達CEO黃仁勛此前表示,這款GPU具有超強的計算能力,20個H100 GPU便可承托相當于全球互聯(lián)網(wǎng)的流量。相比于A100,H100在FP16、FP32和FP64計算上比A100快三倍,非常適用于當下流行且訓練難度高的大模型。
如果A100和H100芯片出口受到限制,對中國有何影響?目前國內(nèi)高端場景基本采用英偉達的A100,包括OEM廠商浪潮、聯(lián)想等,云服務公司阿里、騰訊、百度等,對于即將量產(chǎn)的H100,國內(nèi)主流廠商也已經(jīng)預定,如阿里云、百度云和騰訊云等,而且目前國內(nèi)沒有能夠與其相對標的硬件產(chǎn)品,如果限制,這些廠商在一些高端的應用上將無法買到可替代產(chǎn)品。
不過有行業(yè)分析師表示,如果出口限制,確實只是對一些高端廠商的應用有影響,而在更普遍的應用場景中,英偉達的產(chǎn)品并不在限制的范圍,而且國內(nèi)也有可替代的產(chǎn)品。
國產(chǎn)算力芯片如何突圍
從長遠來看,加速算力芯片的發(fā)展是必然的,那么國內(nèi)算力芯片的能力怎樣,如何突圍呢?目前服務器加速,主要采用的是GPU芯片,占比接近90%,另外則是ASIC、FPGA等。
GPGPU芯片廣泛用于商業(yè)計算和大數(shù)據(jù)處理,如天氣預報、工業(yè)設計、基因工程、藥物發(fā)現(xiàn)、金融工程等,在人工智能領(lǐng)域,使用GPGPU在云端運行模型訓練算法,可以顯著縮短海量訓練數(shù)據(jù)的訓練時長,減少能源消耗,從而進一步降低人工智能的應用成本。
不同應用領(lǐng)域,對芯片計算能力及運算精度要求也有所不同,比如用于商業(yè)計算和大數(shù)據(jù)處理(CAE仿真、物理化學、石油勘探、生命科學、氣象環(huán)境等),需要雙精度浮點、單精度浮點、32位整型運算;人工智能(模型訓練、應用推理),要求混合精度浮點、半精度浮點、16位整型、8位整型運算。
近幾年國內(nèi)不少企業(yè)在這方面取得進展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。
海光信息成立于2014年,不久前在科創(chuàng)板上市,海光信息的產(chǎn)品包括通用處理器(CPU)和協(xié)處理器(DCU),海光DCU屬于GPGPU的一種。
海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運算精度,支持4個HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價快速遷移至ROCm平臺。
可以看到,海光DCU是國內(nèi)唯一支持FP64雙精度浮點運算的產(chǎn)品,英偉達的A100、H100都支持FP64,從這一點來看,海光DCU在這方面是比較領(lǐng)先的。
壁仞科技今年8月發(fā)布的首款通用GPU BR100,集成770億晶體管,支持FP16半精度浮點運算,在這方面相比英偉達、海光DCU較弱,不過據(jù)該公司介紹,BR100的16位浮點算力能達到1000T以上,8位定點算力達到2000T以上,超過英偉達的A100。
另外燧原科技此前發(fā)布的第二代人工智能訓練產(chǎn)品邃思2.0,支持從FP32、TF32、FP16、BF16 到INT8運算,單精度FP32峰值算力40 TFLOPS,單精度張量TF32峰值算力160 TFLOPS。
天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓練,單芯算力每秒147T@FP16。
另外值得關(guān)注的還有,寒武紀2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強了FP16、BF16以及FP32的浮點算力,在全新MLUarch03架構(gòu)和7nm先進工藝加持下,8位定點算力最高為256TOPS。
對比來看,目前國內(nèi)廠商的芯片水平,相比于英偉達的A100和H100是存在差距的。不過在國內(nèi)市場需求和美國出口限制的背景下,這些芯片廠商具有足夠的技術(shù)和經(jīng)驗積累,去實現(xiàn)進一步的突破。
那么國內(nèi)的芯片廠商需要如何突圍呢?難度肯定是大的,燧原科技創(chuàng)始人趙立東在日前世界人工智能大會的論壇上談到,國際巨頭用幾代人、數(shù)十年的時間投入積攢下的技術(shù)實力,我們想靠兩代和幾十名工程師就超越,是不可能的。
要縮短差距,除了資金、人力等的高密集投入外,也需要有更快的更迭,還有就是架構(gòu)創(chuàng)新,趙立東認為,唯有架構(gòu)實現(xiàn)原始創(chuàng)新,才能真正擁抱開放生態(tài),使產(chǎn)業(yè)得到健康發(fā)展。
另外與國外芯片執(zhí)著于先進的制程,國內(nèi)不少廠商開始通過更先進的封裝工藝、異構(gòu)芯片等來尋求突破。比如寒武紀思元370采用chiplet技術(shù),在一顆芯片中封裝2顆AI計算芯粒(MLU-Die),每一個 MLU-Die 具備獨立的AI計算單元、內(nèi)存、IO以及 MLU-Fabric控制和接口,通過MLU-Fabric保證兩個MLU-Die間的高速通訊,可以通過不同MLU-Die組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價比AI芯片,壁仞科技今年8月發(fā)布的GPU BR100GPU芯片也采用了Chiplet技術(shù)。
小結(jié)
整體而言,美國限制英偉達高端GPU芯片A100和H100的出口,短期來看對中國的影響不是很大,反而對于國內(nèi)算力芯片的發(fā)展或許具有促進作用。
從目前國內(nèi)芯片廠商的產(chǎn)品來看,與英偉達A100和H100存在差距,不過也有海光信息、壁仞科技等在某些方面已經(jīng)取得突破的企業(yè),未來想要超越仍然存在困難,然而卻讓人相信一點點取得突破是有可能的。
9月1日,英偉達方面又表示已經(jīng)獲得出口許可。盡管如此,美國這番操作必然引起國內(nèi)相關(guān)企業(yè)的警惕,接下來中國的互聯(lián)網(wǎng)、云服務廠商可能會積極自研芯片,或者更多采用國內(nèi)企業(yè)提供的算力芯片,然而目前國內(nèi)的算力芯片能力如何呢?
A100和H100出口限制,對中國有何影響
英偉達是全球GPU領(lǐng)域的絕對龍頭,A100是其2020年推出的數(shù)據(jù)中心級云端加速芯片,擁有540億晶體管,采用臺積電7nm工藝制程,支持FP16、FP32和FP64浮點運算,為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。
相比于上一代V100,A100在AI訓練和推理、HPC上性能都有很大的改進。據(jù)英偉達在今年8月透露,特斯拉采用了7000塊A100芯片升級了其用來訓練自動駕駛系統(tǒng)的超算中心。
?H100是英偉達今年3月發(fā)布的最新一代數(shù)據(jù)中心GPU,集成800億晶體管,采用臺積電定制的4nm工藝,預計在今年下半年正式發(fā)貨,英偉達CEO黃仁勛此前表示,這款GPU具有超強的計算能力,20個H100 GPU便可承托相當于全球互聯(lián)網(wǎng)的流量。相比于A100,H100在FP16、FP32和FP64計算上比A100快三倍,非常適用于當下流行且訓練難度高的大模型。
如果A100和H100芯片出口受到限制,對中國有何影響?目前國內(nèi)高端場景基本采用英偉達的A100,包括OEM廠商浪潮、聯(lián)想等,云服務公司阿里、騰訊、百度等,對于即將量產(chǎn)的H100,國內(nèi)主流廠商也已經(jīng)預定,如阿里云、百度云和騰訊云等,而且目前國內(nèi)沒有能夠與其相對標的硬件產(chǎn)品,如果限制,這些廠商在一些高端的應用上將無法買到可替代產(chǎn)品。
不過有行業(yè)分析師表示,如果出口限制,確實只是對一些高端廠商的應用有影響,而在更普遍的應用場景中,英偉達的產(chǎn)品并不在限制的范圍,而且國內(nèi)也有可替代的產(chǎn)品。
國產(chǎn)算力芯片如何突圍
從長遠來看,加速算力芯片的發(fā)展是必然的,那么國內(nèi)算力芯片的能力怎樣,如何突圍呢?目前服務器加速,主要采用的是GPU芯片,占比接近90%,另外則是ASIC、FPGA等。
GPGPU芯片廣泛用于商業(yè)計算和大數(shù)據(jù)處理,如天氣預報、工業(yè)設計、基因工程、藥物發(fā)現(xiàn)、金融工程等,在人工智能領(lǐng)域,使用GPGPU在云端運行模型訓練算法,可以顯著縮短海量訓練數(shù)據(jù)的訓練時長,減少能源消耗,從而進一步降低人工智能的應用成本。
不同應用領(lǐng)域,對芯片計算能力及運算精度要求也有所不同,比如用于商業(yè)計算和大數(shù)據(jù)處理(CAE仿真、物理化學、石油勘探、生命科學、氣象環(huán)境等),需要雙精度浮點、單精度浮點、32位整型運算;人工智能(模型訓練、應用推理),要求混合精度浮點、半精度浮點、16位整型、8位整型運算。
近幾年國內(nèi)不少企業(yè)在這方面取得進展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。
海光信息成立于2014年,不久前在科創(chuàng)板上市,海光信息的產(chǎn)品包括通用處理器(CPU)和協(xié)處理器(DCU),海光DCU屬于GPGPU的一種。
海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運算精度,支持4個HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價快速遷移至ROCm平臺。
可以看到,海光DCU是國內(nèi)唯一支持FP64雙精度浮點運算的產(chǎn)品,英偉達的A100、H100都支持FP64,從這一點來看,海光DCU在這方面是比較領(lǐng)先的。
壁仞科技今年8月發(fā)布的首款通用GPU BR100,集成770億晶體管,支持FP16半精度浮點運算,在這方面相比英偉達、海光DCU較弱,不過據(jù)該公司介紹,BR100的16位浮點算力能達到1000T以上,8位定點算力達到2000T以上,超過英偉達的A100。
另外燧原科技此前發(fā)布的第二代人工智能訓練產(chǎn)品邃思2.0,支持從FP32、TF32、FP16、BF16 到INT8運算,單精度FP32峰值算力40 TFLOPS,單精度張量TF32峰值算力160 TFLOPS。
天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓練,單芯算力每秒147T@FP16。
另外值得關(guān)注的還有,寒武紀2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強了FP16、BF16以及FP32的浮點算力,在全新MLUarch03架構(gòu)和7nm先進工藝加持下,8位定點算力最高為256TOPS。
對比來看,目前國內(nèi)廠商的芯片水平,相比于英偉達的A100和H100是存在差距的。不過在國內(nèi)市場需求和美國出口限制的背景下,這些芯片廠商具有足夠的技術(shù)和經(jīng)驗積累,去實現(xiàn)進一步的突破。
那么國內(nèi)的芯片廠商需要如何突圍呢?難度肯定是大的,燧原科技創(chuàng)始人趙立東在日前世界人工智能大會的論壇上談到,國際巨頭用幾代人、數(shù)十年的時間投入積攢下的技術(shù)實力,我們想靠兩代和幾十名工程師就超越,是不可能的。
要縮短差距,除了資金、人力等的高密集投入外,也需要有更快的更迭,還有就是架構(gòu)創(chuàng)新,趙立東認為,唯有架構(gòu)實現(xiàn)原始創(chuàng)新,才能真正擁抱開放生態(tài),使產(chǎn)業(yè)得到健康發(fā)展。
另外與國外芯片執(zhí)著于先進的制程,國內(nèi)不少廠商開始通過更先進的封裝工藝、異構(gòu)芯片等來尋求突破。比如寒武紀思元370采用chiplet技術(shù),在一顆芯片中封裝2顆AI計算芯粒(MLU-Die),每一個 MLU-Die 具備獨立的AI計算單元、內(nèi)存、IO以及 MLU-Fabric控制和接口,通過MLU-Fabric保證兩個MLU-Die間的高速通訊,可以通過不同MLU-Die組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價比AI芯片,壁仞科技今年8月發(fā)布的GPU BR100GPU芯片也采用了Chiplet技術(shù)。
小結(jié)
整體而言,美國限制英偉達高端GPU芯片A100和H100的出口,短期來看對中國的影響不是很大,反而對于國內(nèi)算力芯片的發(fā)展或許具有促進作用。
從目前國內(nèi)芯片廠商的產(chǎn)品來看,與英偉達A100和H100存在差距,不過也有海光信息、壁仞科技等在某些方面已經(jīng)取得突破的企業(yè),未來想要超越仍然存在困難,然而卻讓人相信一點點取得突破是有可能的。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
芯片
+關(guān)注
關(guān)注
463文章
54010瀏覽量
466099 -
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135460
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
華為領(lǐng)銜,三劍客入局!十萬卡智算集群落地,國產(chǎn)算力芯片強勢崛起
的“驅(qū)動燃料”。中移動在現(xiàn)場展示了“國芯國連”AI算力集群,移動云磐石智算交換機、超級點AI算力集群也閃亮登場。在奔向AI+時代當中,AI
“四算合一”算力平臺,芯片國產(chǎn)化率超九成,兼容8種國產(chǎn)AI芯片
電子發(fā)燒友網(wǎng)報道(文/李彎彎)4月11日消息,由中國移動承建的全國首個“四算合一”算力網(wǎng)絡調(diào)度平臺正式投入使用。四算合一是指將通用算
云天勵飛正式舉辦大算力芯片戰(zhàn)略前瞻會
2月3日,云天勵飛正式舉辦“大算力芯片戰(zhàn)略前瞻會”,首次對外公布未來三年的大算力 AI 推理芯片
中國算力芯片的拐點時刻
作者|Taylor出品|芯片技術(shù)與工藝當OpenAI的GPT-5在得克薩斯州的機房中晝夜轟鳴,當Nvdia的H200芯片被炒至數(shù)十萬美元仍一卡難求,中國的算力
賦能電源芯片國產(chǎn)替代,智芯谷助力AI算力穩(wěn)定前行
需求激增與技術(shù)迭代的雙重壓力下,電源管理芯片也正面臨設計復雜度提升、供應鏈波動加劇、國產(chǎn)替代進程加速等多重挑戰(zhàn)。一、算力增長背后的“供電危機”電源管理
融資超20億,這家“非GPU”芯片公司躋身國產(chǎn)AI算力第一梯隊
電子發(fā)燒友報道(文/黃晶晶)谷歌 TPU 對英偉達 GPU 的直接競爭,引發(fā)市場廣泛關(guān)注。而如今,中國 AI 芯片領(lǐng)域也正加速布局,發(fā)力非GPU芯片
“汽車智能化” 和 “家電高端化”
“帶輪子的超級計算機” 了!而這一切都離不開 7nm 級別的高算力芯片:?
智能座艙的 “大腦” 需求:現(xiàn)在新車流行的 7 屏聯(lián)動、4K 高清顯示、語音控制、人臉識別,都需要芯片有超
發(fā)表于 10-28 20:46
國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細節(jié)?
最近行業(yè)都在說“算力是AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎?
前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下算
發(fā)表于 10-27 13:12
算力需求狂飆下的“效率競賽”,國產(chǎn)AI芯片有何破局之道?
電子發(fā)燒友原創(chuàng) 章鷹 近日,國產(chǎn)算力芯片廠商云天勵飛發(fā)布2025年上半年財報,公司實現(xiàn)營業(yè)收入6.46億元,同比增長123.1%。虧損大幅收窄,較上年同期減少1.04億元。毛利率提升至
阿里自研AI芯片央視曝光,國產(chǎn)算力崛起新里程碑
,因為其中披露了阿里旗下平頭哥最新研發(fā)的面向人工智能的PPU芯片。這一曝光,不僅讓大眾看到了阿里在AI芯片領(lǐng)域的深厚積累與卓越成果,更標志著國產(chǎn)AI芯片產(chǎn)業(yè)邁向了新的發(fā)展階段。 ? 從
摩爾線程副總裁王華:AI工廠全棧技術(shù)重構(gòu)算力基建,開啟國產(chǎn) GPU 黃金時代
協(xié)同,重新定義了?AI?基礎設施的生產(chǎn)力公式 ——AI?工廠生產(chǎn)效率?=?加速計算通用性 × 單芯片有效算力 × 單節(jié)點效率 × 集群效率 × 集群穩(wěn)定性。作為國內(nèi)率先實現(xiàn)單
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應用到原理
前言
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中的芯片知識是比較接近當前的頂尖芯
發(fā)表于 06-18 19:31
AIGC算力基礎設施技術(shù)架構(gòu)與行業(yè)實踐
代提升1.5倍,內(nèi)存容量達288GB,適配千億參數(shù)模型訓練需求。 國產(chǎn)突破?:國內(nèi)首款6nm高性能GPU芯片于2025年5月成功點亮,性能對標國際中端產(chǎn)品,已獲億元級訂單;國產(chǎn)
大算力芯片的生態(tài)突圍與算力革命
電子發(fā)燒友網(wǎng)報道(文 / 李彎彎)大算力芯片,即具備強大計算能力的集成電路芯片,主要應用于高性能計算(HPC)、人工智能(AI)、數(shù)據(jù)中心、
高端GPU芯片拉警報,國產(chǎn)算力芯片能力如何?
評論