電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))從去年國(guó)產(chǎn)GPU開(kāi)始陸續(xù)冒尖后,今年各大廠商的動(dòng)作明顯更大了一些,新品頻繁面世。但從這些新品的規(guī)格和技術(shù)來(lái)看,其實(shí)每家公司對(duì)于自己GPU產(chǎn)品的定位都是不同的,我們就選幾家國(guó)產(chǎn)GPU廠商來(lái)分析一下他們的產(chǎn)品定位以及未來(lái)技術(shù)趨勢(shì)。
摩爾線程
作為近期剛發(fā)布了新品的國(guó)產(chǎn)GPU廠商,摩爾線程確實(shí)收獲了不少關(guān)注,他們最新的顯卡MTT S80也一度成了熱點(diǎn)話題。MTT S80作為一張游戲顯卡,搭載了MT-春曉芯片核心,功耗最高250W,單精度浮點(diǎn)算力高達(dá)14.4TFLOPS。
不僅如此,MTT S80也是業(yè)內(nèi)首個(gè)PCIe 5.0的顯卡,支持雙向128GB/s的傳輸帶寬。更重要的是,哪怕標(biāo)榜的是游戲顯卡,MTT S80依然支持3D圖形渲染、智能多媒體、物理仿真及科學(xué)計(jì)算和AI計(jì)算加速的全功能應(yīng)用。

MTT S3000 / 摩爾線程
除了MTT S80以外,春曉這一芯片也為摩爾線程帶來(lái)了面向服務(wù)器GPU市場(chǎng)的新產(chǎn)品,MTT S3000。單從芯片規(guī)格上來(lái)看,MTT S3000與MTT S80都用的是完整的MT-春曉芯片,都內(nèi)置了4096個(gè)MUSA流處理單元,但前者將主頻提高到了1.9GHz,F(xiàn)P32也因此提升到了15.2TFLOPS。
為了讓MTT S3000更適用于服務(wù)器市場(chǎng),摩爾線程也將其顯存提升至了32GB,并增加了對(duì)虛擬化的支持,可對(duì)GPU彈性切分,MTT S3000也從MTT S80的主動(dòng)散熱改為了被動(dòng)散熱。
到了AI上,摩爾線程的MUSA架構(gòu)和軟件棧為MTT S3000提供了訓(xùn)推一體的支持。除了訓(xùn)練支持TensorFlow、PyTorch、飛槳等常見(jiàn)框架外,摩爾線程還在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源碼的方案。
可以看出,摩爾線程不僅已經(jīng)在游戲GPU市場(chǎng)有了彌足珍貴的進(jìn)展,同樣想在服務(wù)器市場(chǎng)實(shí)現(xiàn)突破,甚至是通過(guò)兼容CUDA來(lái)吸引更多的客戶,這其實(shí)也是英偉達(dá)這樣的GPU巨頭主攻的兩大方向。但兼容或?qū)?biāo)CUDA一法,AMD、英特爾這樣的國(guó)際大廠也都在推進(jìn),卻也都是各自為戰(zhàn),考慮到其中涉及的開(kāi)發(fā)投入和難度之大,或許在軟件生態(tài)上走合作之路會(huì)更適合。
芯動(dòng)科技
在使用GPU這類產(chǎn)品的過(guò)程中,支持不同的圖形與計(jì)算API對(duì)于開(kāi)發(fā)者來(lái)說(shuō)尤為重要。而芯動(dòng)科技的風(fēng)華GPU在這API上的支持尤為亮眼,目前已經(jīng)完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,這也為風(fēng)華GPU的開(kāi)發(fā)生態(tài)奠定了基礎(chǔ)。
雖然其產(chǎn)品性能本身已經(jīng)足夠亮眼,但風(fēng)華GPU真正最大的優(yōu)勢(shì)在于芯動(dòng)自研高性能接口IP上,包括高帶寬內(nèi)存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒體(HDMI 2.1、eDP 1.4)等等,同時(shí)這些IP也實(shí)現(xiàn)了對(duì)先進(jìn)工藝的覆蓋。而且芯動(dòng)科技已經(jīng)在最近推出了跨工藝、跨封裝的Chiplet互聯(lián)解決方案Innolink Chiplet,同時(shí)兼容UCIe Chiplet。
對(duì)于高性能GPU來(lái)說(shuō),如果說(shuō)核心IP決定了性能上限的話,那么這些接口IP就決定了GPU能發(fā)揮出多少實(shí)力,以及是否能在未來(lái)的服務(wù)器市場(chǎng)大放異彩。目前看來(lái),風(fēng)華2號(hào)的定位是一款低功耗的GPU產(chǎn)品,更適合用于智能座艙之類的應(yīng)用中,而風(fēng)華1號(hào)則是面向服務(wù)器市場(chǎng),尤其是像云游戲、云手機(jī)之類的場(chǎng)景。
可從規(guī)格來(lái)看,這兩款一年以內(nèi)發(fā)布的產(chǎn)品其實(shí)都還沒(méi)有用到PCIe 5.0之類的新接口技術(shù)。芯動(dòng)科技已經(jīng)在8月公開(kāi)表示,風(fēng)華3號(hào)也已經(jīng)基本完成研發(fā),還支持光線追蹤技術(shù),據(jù)了解該產(chǎn)品和風(fēng)華1號(hào)一樣也是面向服務(wù)器/數(shù)據(jù)中心市場(chǎng)的,但或許還是會(huì)側(cè)重在云游戲等商用場(chǎng)景上,相信我們會(huì)在未來(lái)的發(fā)布上看到風(fēng)華3號(hào)更強(qiáng)大的性能表現(xiàn)。
壁仞科技
雖然壁仞科技最近遇上了一些麻煩,但不可否認(rèn)的是,其BR100系列通用GPU芯片確實(shí)在性能上達(dá)到了極高的水準(zhǔn)。與上面提到的兩個(gè)GPU不同,BR100雖然是通用計(jì)算GPU,但明顯更適合于AI和科學(xué)計(jì)算這樣的高性能計(jì)算場(chǎng)景,所以BR100并沒(méi)有去做DirectX和Vulkan這樣的圖形API支持。
這點(diǎn)從BR100的芯片設(shè)計(jì)上也能看出,單個(gè)BR100由16個(gè)流處理簇構(gòu)成,每個(gè)都采用了16個(gè)執(zhí)行單元的設(shè)計(jì),而每個(gè)執(zhí)行單元包含16個(gè)流處理核心(V-core)和一個(gè)向量引擎(T-Core)。V-Core作為SIMT處理器,支持到FP32、FP16、INT32、INT16,用于通用計(jì)算。
而T-core在SPC級(jí)別的2.5D GEMM架構(gòu)下,可以極大加速常見(jiàn)的AI運(yùn)算,諸如MMA矩陣乘加和卷積等。T-Core不僅支持FP32、TF32這些主流數(shù)據(jù)精度外,還原創(chuàng)定義了TF32+數(shù)據(jù)精度,相較TF32在實(shí)現(xiàn)更高精度的同時(shí),也提高了吞吐性能。
從軟件平臺(tái)上看,壁仞科技的BIRENSUPA不僅支持PyTorch之類的主流框架,也有壁仞自研的推理加速引擎。從BIRENSUPA平臺(tái)框圖中的應(yīng)用定位來(lái)看,壁仞科技的主要發(fā)力方向看來(lái)還是多媒體、自動(dòng)駕駛和推薦系統(tǒng)等重AI的場(chǎng)景。

壁仞100P OAM模組 / 壁仞科技
壁仞科技也是在一眾國(guó)產(chǎn)PCIe產(chǎn)品中,唯一推出了OAM模組的廠商,壁仞科技也和浪潮合作推出了“海玄”這種OAM服務(wù)器,實(shí)現(xiàn)了8PFLLOPS的峰值算力。不過(guò)也正是因?yàn)閷?shí)現(xiàn)了如此高的性能,似乎招致了一些惡意阻礙,但這也恰恰說(shuō)明了他們走的方向是對(duì)的,如果他們能走出這一困境的話,無(wú)疑能在服務(wù)器市場(chǎng)大有作為。
摩爾線程
作為近期剛發(fā)布了新品的國(guó)產(chǎn)GPU廠商,摩爾線程確實(shí)收獲了不少關(guān)注,他們最新的顯卡MTT S80也一度成了熱點(diǎn)話題。MTT S80作為一張游戲顯卡,搭載了MT-春曉芯片核心,功耗最高250W,單精度浮點(diǎn)算力高達(dá)14.4TFLOPS。
不僅如此,MTT S80也是業(yè)內(nèi)首個(gè)PCIe 5.0的顯卡,支持雙向128GB/s的傳輸帶寬。更重要的是,哪怕標(biāo)榜的是游戲顯卡,MTT S80依然支持3D圖形渲染、智能多媒體、物理仿真及科學(xué)計(jì)算和AI計(jì)算加速的全功能應(yīng)用。

MTT S3000 / 摩爾線程
除了MTT S80以外,春曉這一芯片也為摩爾線程帶來(lái)了面向服務(wù)器GPU市場(chǎng)的新產(chǎn)品,MTT S3000。單從芯片規(guī)格上來(lái)看,MTT S3000與MTT S80都用的是完整的MT-春曉芯片,都內(nèi)置了4096個(gè)MUSA流處理單元,但前者將主頻提高到了1.9GHz,F(xiàn)P32也因此提升到了15.2TFLOPS。
為了讓MTT S3000更適用于服務(wù)器市場(chǎng),摩爾線程也將其顯存提升至了32GB,并增加了對(duì)虛擬化的支持,可對(duì)GPU彈性切分,MTT S3000也從MTT S80的主動(dòng)散熱改為了被動(dòng)散熱。
到了AI上,摩爾線程的MUSA架構(gòu)和軟件棧為MTT S3000提供了訓(xùn)推一體的支持。除了訓(xùn)練支持TensorFlow、PyTorch、飛槳等常見(jiàn)框架外,摩爾線程還在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源碼的方案。
可以看出,摩爾線程不僅已經(jīng)在游戲GPU市場(chǎng)有了彌足珍貴的進(jìn)展,同樣想在服務(wù)器市場(chǎng)實(shí)現(xiàn)突破,甚至是通過(guò)兼容CUDA來(lái)吸引更多的客戶,這其實(shí)也是英偉達(dá)這樣的GPU巨頭主攻的兩大方向。但兼容或?qū)?biāo)CUDA一法,AMD、英特爾這樣的國(guó)際大廠也都在推進(jìn),卻也都是各自為戰(zhàn),考慮到其中涉及的開(kāi)發(fā)投入和難度之大,或許在軟件生態(tài)上走合作之路會(huì)更適合。
芯動(dòng)科技
在使用GPU這類產(chǎn)品的過(guò)程中,支持不同的圖形與計(jì)算API對(duì)于開(kāi)發(fā)者來(lái)說(shuō)尤為重要。而芯動(dòng)科技的風(fēng)華GPU在這API上的支持尤為亮眼,目前已經(jīng)完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,這也為風(fēng)華GPU的開(kāi)發(fā)生態(tài)奠定了基礎(chǔ)。
雖然其產(chǎn)品性能本身已經(jīng)足夠亮眼,但風(fēng)華GPU真正最大的優(yōu)勢(shì)在于芯動(dòng)自研高性能接口IP上,包括高帶寬內(nèi)存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒體(HDMI 2.1、eDP 1.4)等等,同時(shí)這些IP也實(shí)現(xiàn)了對(duì)先進(jìn)工藝的覆蓋。而且芯動(dòng)科技已經(jīng)在最近推出了跨工藝、跨封裝的Chiplet互聯(lián)解決方案Innolink Chiplet,同時(shí)兼容UCIe Chiplet。
對(duì)于高性能GPU來(lái)說(shuō),如果說(shuō)核心IP決定了性能上限的話,那么這些接口IP就決定了GPU能發(fā)揮出多少實(shí)力,以及是否能在未來(lái)的服務(wù)器市場(chǎng)大放異彩。目前看來(lái),風(fēng)華2號(hào)的定位是一款低功耗的GPU產(chǎn)品,更適合用于智能座艙之類的應(yīng)用中,而風(fēng)華1號(hào)則是面向服務(wù)器市場(chǎng),尤其是像云游戲、云手機(jī)之類的場(chǎng)景。
可從規(guī)格來(lái)看,這兩款一年以內(nèi)發(fā)布的產(chǎn)品其實(shí)都還沒(méi)有用到PCIe 5.0之類的新接口技術(shù)。芯動(dòng)科技已經(jīng)在8月公開(kāi)表示,風(fēng)華3號(hào)也已經(jīng)基本完成研發(fā),還支持光線追蹤技術(shù),據(jù)了解該產(chǎn)品和風(fēng)華1號(hào)一樣也是面向服務(wù)器/數(shù)據(jù)中心市場(chǎng)的,但或許還是會(huì)側(cè)重在云游戲等商用場(chǎng)景上,相信我們會(huì)在未來(lái)的發(fā)布上看到風(fēng)華3號(hào)更強(qiáng)大的性能表現(xiàn)。
壁仞科技
雖然壁仞科技最近遇上了一些麻煩,但不可否認(rèn)的是,其BR100系列通用GPU芯片確實(shí)在性能上達(dá)到了極高的水準(zhǔn)。與上面提到的兩個(gè)GPU不同,BR100雖然是通用計(jì)算GPU,但明顯更適合于AI和科學(xué)計(jì)算這樣的高性能計(jì)算場(chǎng)景,所以BR100并沒(méi)有去做DirectX和Vulkan這樣的圖形API支持。
這點(diǎn)從BR100的芯片設(shè)計(jì)上也能看出,單個(gè)BR100由16個(gè)流處理簇構(gòu)成,每個(gè)都采用了16個(gè)執(zhí)行單元的設(shè)計(jì),而每個(gè)執(zhí)行單元包含16個(gè)流處理核心(V-core)和一個(gè)向量引擎(T-Core)。V-Core作為SIMT處理器,支持到FP32、FP16、INT32、INT16,用于通用計(jì)算。
而T-core在SPC級(jí)別的2.5D GEMM架構(gòu)下,可以極大加速常見(jiàn)的AI運(yùn)算,諸如MMA矩陣乘加和卷積等。T-Core不僅支持FP32、TF32這些主流數(shù)據(jù)精度外,還原創(chuàng)定義了TF32+數(shù)據(jù)精度,相較TF32在實(shí)現(xiàn)更高精度的同時(shí),也提高了吞吐性能。
從軟件平臺(tái)上看,壁仞科技的BIRENSUPA不僅支持PyTorch之類的主流框架,也有壁仞自研的推理加速引擎。從BIRENSUPA平臺(tái)框圖中的應(yīng)用定位來(lái)看,壁仞科技的主要發(fā)力方向看來(lái)還是多媒體、自動(dòng)駕駛和推薦系統(tǒng)等重AI的場(chǎng)景。

壁仞100P OAM模組 / 壁仞科技
壁仞科技也是在一眾國(guó)產(chǎn)PCIe產(chǎn)品中,唯一推出了OAM模組的廠商,壁仞科技也和浪潮合作推出了“海玄”這種OAM服務(wù)器,實(shí)現(xiàn)了8PFLLOPS的峰值算力。不過(guò)也正是因?yàn)閷?shí)現(xiàn)了如此高的性能,似乎招致了一些惡意阻礙,但這也恰恰說(shuō)明了他們走的方向是對(duì)的,如果他們能走出這一困境的話,無(wú)疑能在服務(wù)器市場(chǎng)大有作為。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135494 -
AI
+關(guān)注
關(guān)注
91文章
39794瀏覽量
301456
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
熱點(diǎn)推薦
OrangePi RV2 深度技術(shù)評(píng)測(cè):RISC-V AI融合架構(gòu)的先行者
x265 視頻編碼 :僅1.2 fps,遠(yuǎn)低于主流 ARM 平臺(tái)
整體結(jié)論 :通用計(jì)算性能相當(dāng)于5 年前入門(mén)級(jí) ARM 處理器 (如Cortex-A53),無(wú)法勝任重度計(jì)算任務(wù)。
2.2 AI 算力
發(fā)表于 03-03 20:19
又一國(guó)產(chǎn)GPU企業(yè)上市
GPU企業(yè)、國(guó)內(nèi)首家實(shí)現(xiàn)“訓(xùn)練+推理”通用GPU雙量產(chǎn)的企業(yè),天數(shù)智芯的上市標(biāo)志著國(guó)產(chǎn)高端芯片產(chǎn)業(yè)邁入資本驅(qū)動(dòng)與技術(shù)突破并行的關(guān)鍵階段。 ? 從技術(shù)深耕到資本進(jìn)階 ? 天數(shù)智芯成立于2
Banana Pi 基于龍芯2K3000的國(guó)產(chǎn)信創(chuàng)工業(yè)計(jì)算網(wǎng)關(guān)設(shè)計(jì),采用無(wú)風(fēng)扇設(shè)計(jì)
2K3000的國(guó)產(chǎn)信創(chuàng)工業(yè)計(jì)算網(wǎng)關(guān)[]()
設(shè)計(jì)原則
設(shè)計(jì)基于2K3000處理器的全功能COM-E(Type6)核心板,覆蓋處理器所有資源,避免因需求變化,而必須對(duì)核心板進(jìn)行裁剪及重新設(shè)計(jì)的工作量,增強(qiáng)通用
發(fā)表于 12-17 11:06
為啥 AI 計(jì)算速度這么驚人?—— 聊聊 GPU、內(nèi)存與并行計(jì)算
提到AI,大家常說(shuō)它“算得快”,其實(shí)是指AI能在眨眼間處理海量數(shù)據(jù)。可它為啥有這本事?答案就藏在“GPU+高速內(nèi)存+并行計(jì)算”這trio(組合)里。咱們可以把
Imagination中國(guó)區(qū)董事長(zhǎng)兼亞太區(qū)總裁白農(nóng):通用計(jì)算GPU驅(qū)動(dòng)端側(cè)AI發(fā)展
,通用計(jì)算GPU正成為驅(qū)動(dòng)端側(cè)AI發(fā)展的重要引擎。當(dāng)前,端側(cè)AI算力迎來(lái)爆發(fā)式增長(zhǎng),端側(cè)芯片需承載感知數(shù)據(jù)處理、圖像渲染、AI大模型
首款全國(guó)產(chǎn)通用GPU芯片發(fā)布 沐曦集成推出曦云C600
沐曦集成電路(南京)有限公司近日正式發(fā)布了首款全國(guó)產(chǎn)通用GPU——曦云C600,這標(biāo)志著國(guó)產(chǎn)高性能GPU實(shí)現(xiàn)歷史性突破。 據(jù)新華日?qǐng)?bào)報(bào)道顯示
摩爾線程副總裁王華:AI工廠全棧技術(shù)重構(gòu)算力基建,開(kāi)啟國(guó)產(chǎn) GPU 黃金時(shí)代
協(xié)同,重新定義了?AI?基礎(chǔ)設(shè)施的生產(chǎn)力公式 ——AI?工廠生產(chǎn)效率?=?加速計(jì)算通用性 × 單芯片有效算力 × 單節(jié)點(diǎn)效率 × 集群效率 × 集群穩(wěn)定性。作為國(guó)內(nèi)率先實(shí)現(xiàn)單芯片集成?
國(guó)產(chǎn)化FMC接口通用計(jì)算平臺(tái)設(shè)計(jì)原理圖:2367-基于FMQL45T900 FMC接口通用計(jì)算平臺(tái)
, 數(shù)字信號(hào)處理卡, FMC接口通用計(jì)算平臺(tái), FMQL45T900I, 前端信號(hào)處理
GPU架構(gòu)深度解析
GPU架構(gòu)深度解析從圖形處理到通用計(jì)算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計(jì)算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行
Imagination與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)
的深度融合展開(kāi)合作。雙方將結(jié)合 Imagination 領(lǐng)先的 GPU IP 技術(shù)與澎峰科技在 AI 模型壓縮與性能優(yōu)化方面的軟硬協(xié)同能力,共同開(kāi)拓面向 AI 行業(yè)應(yīng)用的計(jì)算解決方案
發(fā)表于 05-21 09:40
?1220次閱讀
Imagination與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)
近日,ImaginationTechnologies與國(guó)內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合云服務(wù)提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開(kāi)合作。雙方將
黑芝麻A2000#高階智能駕駛與通用AI計(jì)算芯片詳細(xì)解析
、產(chǎn)品定位與核心目標(biāo) A2000家族是黑芝麻智能華山系列的最新產(chǎn)品, 定位于高階智能駕駛與通用AI計(jì)算 ,目標(biāo)是通過(guò)高算力、高能效的芯片設(shè)計(jì)
AI演進(jìn)的核心哲學(xué):使用通用方法,然后Scale Up!
,得到一個(gè)AI發(fā)展的重要?dú)v史教訓(xùn):利用計(jì)算能力的通用方法最終是最有效的,而且優(yōu)勢(shì)明顯”。核心原因是摩爾定律,即單位計(jì)算成本持續(xù)指數(shù)級(jí)下降。大多數(shù) A
沐曦曦云C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測(cè)試
近日,沐曦曦云C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級(jí)兼容性測(cè)試。測(cè)試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是沐曦加入飛槳“硬件生態(tài)共創(chuàng)計(jì)劃”后的階段性成果。
摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練
并行訓(xùn)練和推理,顯著提升了訓(xùn)練效率與穩(wěn)定性。摩爾線程是國(guó)內(nèi)率先原生支持FP8計(jì)算精度的國(guó)產(chǎn)GPU企業(yè),此次開(kāi)源不僅為AI訓(xùn)練和推理提供了全新的國(guó)產(chǎn)
AI、游戲與通用計(jì)算,國(guó)產(chǎn)GPU的定位

評(píng)論