色蜜桃久久夜色精品国产,一区二区三区日韩精品电影,色综合天天综合高清网

電子發(fā)燒友網(wǎng)報道（文/李彎彎）近日，英偉達高端GPU對中國供應受到限制的消息，引起熱議。8月31日，英偉達發(fā)布公告稱，美國通知公司向中國出口A100和H100芯片將需要新的許可證要求，同時DGX或任何其他包含A100或H100芯片的產(chǎn)品，以及未來性能高于A100的芯片都將受到新規(guī)管制。

9月1日，英偉達方面又表示已經(jīng)獲得出口許可。盡管如此，美國這番操作必然引起國內(nèi)相關(guān)企業(yè)的警惕，接下來中國的互聯(lián)網(wǎng)、云服務廠商可能會積極自研芯片，或者更多采用國內(nèi)企業(yè)提供的算力芯片，然而目前國內(nèi)的算力芯片能力如何呢？

A100和H100出口限制，對中國有何影響

英偉達是全球GPU領(lǐng)域的絕對龍頭，A100是其2020年推出的數(shù)據(jù)中心級云端加速芯片，擁有540億晶體管，采用臺積電7nm工藝制程，支持FP16、FP32和FP64浮點運算，為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。

相比于上一代V100，A100在AI訓練和推理、HPC上性能都有很大的改進。據(jù)英偉達在今年8月透露，特斯拉采用了7000塊A100芯片升級了其用來訓練自動駕駛系統(tǒng)的超算中心。

?

H100是英偉達今年3月發(fā)布的最新一代數(shù)據(jù)中心GPU，集成800億晶體管，采用臺積電定制的4nm工藝，預計在今年下半年正式發(fā)貨，英偉達CEO黃仁勛此前表示，這款GPU具有超強的計算能力，20個H100 GPU便可承托相當于全球互聯(lián)網(wǎng)的流量。相比于A100，H100在FP16、FP32和FP64計算上比A100快三倍，非常適用于當下流行且訓練難度高的大模型。

如果A100和H100芯片出口受到限制，對中國有何影響？目前國內(nèi)高端場景基本采用英偉達的A100，包括OEM廠商浪潮、聯(lián)想等，云服務公司阿里、騰訊、百度等，對于即將量產(chǎn)的H100，國內(nèi)主流廠商也已經(jīng)預定，如阿里云、百度云和騰訊云等，而且目前國內(nèi)沒有能夠與其相對標的硬件產(chǎn)品，如果限制，這些廠商在一些高端的應用上將無法買到可替代產(chǎn)品。

不過有行業(yè)分析師表示，如果出口限制，確實只是對一些高端廠商的應用有影響，而在更普遍的應用場景中，英偉達的產(chǎn)品并不在限制的范圍，而且國內(nèi)也有可替代的產(chǎn)品。

國產(chǎn)算力芯片如何突圍

從長遠來看，加速算力芯片的發(fā)展是必然的，那么國內(nèi)算力芯片的能力怎樣，如何突圍呢？目前服務器加速，主要采用的是GPU芯片，占比接近90%，另外則是ASIC、FPGA等。

GPGPU芯片廣泛用于商業(yè)計算和大數(shù)據(jù)處理，如天氣預報、工業(yè)設計、基因工程、藥物發(fā)現(xiàn)、金融工程等，在人工智能領(lǐng)域，使用GPGPU在云端運行模型訓練算法，可以顯著縮短海量訓練數(shù)據(jù)的訓練時長，減少能源消耗，從而進一步降低人工智能的應用成本。

不同應用領(lǐng)域，對芯片計算能力及運算精度要求也有所不同，比如用于商業(yè)計算和大數(shù)據(jù)處理（CAE仿真、物理化學、石油勘探、生命科學、氣象環(huán)境等），需要雙精度浮點、單精度浮點、32位整型運算；人工智能（模型訓練、應用推理），要求混合精度浮點、半精度浮點、16位整型、8位整型運算。

近幾年國內(nèi)不少企業(yè)在這方面取得進展，包括海光信息、壁仞科技、燧原科技、摩爾線程等。

海光信息成立于2014年，不久前在科創(chuàng)板上市，海光信息的產(chǎn)品包括通用處理器（CPU）和協(xié)處理器（DCU），海光DCU屬于GPGPU的一種。

海光DCU 8000系列，典型功耗260-350W，支持INT4、INT8、FP16、FP32、FP64運算精度，支持4個HBM2內(nèi)存通道，最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計算生態(tài)，由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性，CUDA用戶可以以較低代價快速遷移至ROCm平臺。

可以看到，海光DCU是國內(nèi)唯一支持FP64雙精度浮點運算的產(chǎn)品，英偉達的A100、H100都支持FP64，從這一點來看，海光DCU在這方面是比較領(lǐng)先的。

壁仞科技今年8月發(fā)布的首款通用GPU BR100，集成770億晶體管，支持FP16半精度浮點運算，在這方面相比英偉達、海光DCU較弱，不過據(jù)該公司介紹，BR100的16位浮點算力能達到1000T以上，8位定點算力達到2000T以上，超過英偉達的A100。

另外燧原科技此前發(fā)布的第二代人工智能訓練產(chǎn)品邃思2.0，支持從FP32、TF32、FP16、BF16 到INT8運算，單精度FP32峰值算力40 TFLOPS，單精度張量TF32峰值算力160 TFLOPS。

天數(shù)智芯的BI芯片，集成240億晶體管，采用7納米先進制程，支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓練，單芯算力每秒147T@FP16。

另外值得關(guān)注的還有，寒武紀2021年11月發(fā)布的第三代云端AI芯片思元370，相比于上一代芯片，思元370全面加強了FP16、BF16以及FP32的浮點算力，在全新MLUarch03架構(gòu)和7nm先進工藝加持下，8位定點算力最高為256TOPS。

對比來看，目前國內(nèi)廠商的芯片水平，相比于英偉達的A100和H100是存在差距的。不過在國內(nèi)市場需求和美國出口限制的背景下，這些芯片廠商具有足夠的技術(shù)和經(jīng)驗積累，去實現(xiàn)進一步的突破。

那么國內(nèi)的芯片廠商需要如何突圍呢？難度肯定是大的，燧原科技創(chuàng)始人趙立東在日前世界人工智能大會的論壇上談到，國際巨頭用幾代人、數(shù)十年的時間投入積攢下的技術(shù)實力，我們想靠兩代和幾十名工程師就超越，是不可能的。

要縮短差距，除了資金、人力等的高密集投入外，也需要有更快的更迭，還有就是架構(gòu)創(chuàng)新，趙立東認為，唯有架構(gòu)實現(xiàn)原始創(chuàng)新，才能真正擁抱開放生態(tài)，使產(chǎn)業(yè)得到健康發(fā)展。

另外與國外芯片執(zhí)著于先進的制程，國內(nèi)不少廠商開始通過更先進的封裝工藝、異構(gòu)芯片等來尋求突破。比如寒武紀思元370采用chiplet技術(shù)，在一顆芯片中封裝2顆AI計算芯粒（MLU-Die），每一個 MLU-Die 具備獨立的AI計算單元、內(nèi)存、IO以及 MLU-Fabric控制和接口，通過MLU-Fabric保證兩個MLU-Die間的高速通訊，可以通過不同MLU-Die組合規(guī)格多樣化的產(chǎn)品，為用戶提供適用不同場景的高性價比AI芯片，壁仞科技今年8月發(fā)布的GPU BR100GPU芯片也采用了Chiplet技術(shù)。

小結(jié)

整體而言，美國限制英偉達高端GPU芯片A100和H100的出口，短期來看對中國的影響不是很大，反而對于國內(nèi)算力芯片的發(fā)展或許具有促進作用。

從目前國內(nèi)芯片廠商的產(chǎn)品來看，與英偉達A100和H100存在差距，不過也有海光信息、壁仞科技等在某些方面已經(jīng)取得突破的企業(yè)，未來想要超越仍然存在困難，然而卻讓人相信一點點取得突破是有可能的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54010

瀏覽量
466099
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5194

瀏覽量
135460

搜索歷史

高端GPU芯片拉警報，國產(chǎn)算力芯片能力如何？

評論