国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全球十大AI訓練芯片大盤點:華為昇騰910是中國唯一入選

章鷹觀察 ? 來源:內容轉載自公眾號「Qbit ? 作者:佚名 ? 2019-10-15 10:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI芯片哪家強?現在,有直接的對比與參考了。

英國一名資深芯片工程師James W. Hanlon,盤點了當前十大AI訓練芯片。

并給出了各個指標的橫向對比,也是目前對AI訓練芯片最新的討論與梳理。

其中,華為昇騰910是中國芯片廠商唯一入選的芯片,其性能如何,也在這一對比中有了展現。

Cerebras Wafer-Scale Engine

這一芯片于今年8月份正式面世,被稱為“史上最大AI芯片”,名為“晶圓級引擎”(Cerebras Wafer Scale Engine,簡稱WSE)。

其最大的特征是將邏輯運算、通訊和存儲器集成到單個硅片上,是一種專門用于深度學習的芯片。

一舉創下4項世界紀錄:

1、晶體管數量最多的運算芯片:總共包含1.2萬億個晶體管。雖然三星曾造出2萬億個晶體管的芯片,卻是用于存儲的eUFS。

2、芯片面積最大:尺寸約20厘米×23厘米,總面積46225平方毫米。

3、片上緩存最大:包含18GB的片上SRAM存儲器。

4、運算核心最多:包含410,592個處理核心

之所以能夠有如此亮眼的數據,直接得益于其集成了84個高速互連的芯片,單個芯片在FP32上的峰值性能表現為40 Tera FLOPs,芯片功率達15千瓦,與AI集群相當。

片上緩存也達到了18GB,是GPU緩存的3000倍;可提供每秒9PB的內存帶寬, 比GPU快10,000倍。

晶片規模集成,并不是一個新的想法,但產量、功率傳輸和熱膨脹相關的問題使其很難商業化。在這些方面,Cerebras都給出了相應的解決辦法:

1、為了解決缺陷導致良率不高的問題,Cerebras在設計的芯片時候考慮了1~1.5%的冗余,添加了額外的核心,當某個核心出現問題時將其屏蔽不用,因此有雜質不會導致整個芯片報廢。

2、Cerebras與臺積電合作發明了新技術,來處理具有萬億加晶體管芯片的刻蝕和通訊問題。

3、在芯片上方安裝了一塊“冷卻板”,使用多個垂直安裝的水管直接冷卻芯片。

Cerebras公司由Sean Lie(首席硬件架構師)、Andrew Feldman(首席執行官)等人于2016年創立。后者曾創建微型服務器公司SeaMicro,并以3.34億美元的價格出售給AMD

該公司在加州有194名員工,其中包括173名工程師,迄今為止已經從Benchmark等風投機構獲得了1.12億美元的投資。

Google TPU(v1、v2、v3)

Google TPU系列芯片正式發布于2016年,第一代芯片TPU v1只用于推理,而且只支持整數運算。

通過在PCIe-3之間發送指令來執行矩陣乘法和應用激活函數,從而為主機CPU提供加速,節省了大量的設計和驗證時間。其主要數據為:

1、芯片面積331平方毫米,28nm制程

2、頻率為700 MHz,功耗28-40W

3、片上存儲為28 MB SRAM:24MB 用于激活,4MB 用于累加器

4、芯片面積比例:35%用于內存,24%用于矩陣乘法單元,剩下的41%面積用于邏輯。

5、256x256x8b收縮矩陣乘法單元(64K MACs/cycle)

6、Int8和 INT16算法(峰值分別為92和23 TOPs/s)

IO數據:

可以通過兩個接口訪問8 GB DDR3-2133 DRAM,速度為34 GB/s

1、PCIe-3x16 (14 GBps)

2017年5月,Google TPU v2發布,改進了TPU v1的浮點運算能力,并增強了其內存容量、帶寬以及HBM 集成內存,不僅能夠用于推理,也能夠用于訓練。其單個芯片的數據如下:

2、20nm制程,功耗在200-250W(推測)

3、BFloat16上性能表現為45 TFLOPs,也支持 FP32

4、具有標量和矩陣單元的雙核

5、集成4塊芯片后,峰值性能為180 TFLOPs

單核數據:

1、128x128x32b收縮矩陣單元(MXU)

2、8GB專用HBM,接入帶寬300 GBps

3、BFloat16上的最大吞吐量為22.5 TFLOPs

IO數據:

4、16Gb HBM集成內存,600 GBps帶寬(推測)

5、PCIe-3 x8 (8 GBps)

6、Google TPU v2發布一年之后,Google再度發布新版芯片——TPU v3。

但關于TPU v3的細節很少,很可能只是對TPU v2一個漸進式改版,性能表現翻倍,增加了HBM2內存使容量和帶寬翻倍。其單個芯片的數據如下:

1、16nm或12nm制程,功耗估計在200W

2、BFloat16的性能為105 TFLOPs,可能是MXUs的2倍到4倍

3、每個MXU都能訪問8GB的專用內存

4、集成4個芯片后,峰值性能420 TFLOPs

IO數據:

32GB的HBM2集成內存,帶寬為1200GBps (推測)

PCIe-3 x8 (8 GBps)(推測)

Graphcore IPU

Graphcore成立于成立于2016年,不僅備受資本和業界巨頭的青睞,還頗受業內大佬的認可。

2018年12月,宣布完成2億美元的D輪融資,估值17億美元。投資方有寶馬、微軟等業界巨頭,還有著名的風投公司Sofina、Atomico等。

AI巨頭Hinton、DeepMind創始人哈薩比斯,都直接表達了贊美。

Graphcore IPU是這家公司的明星產品,其架構與大量具有小內存的簡單處理器高度并行,通過一個高帶寬的“交換”互連連接在一起。

其架構在一個大容量同步并行(BSP)模型下運行,程序的執行按照一系列計算和交換階段進行。同步用于確保所有進程準備好開始交換。

  • BSP模型是一個強大的編程抽象,用于排除并發性風險,并且BSP的執行,允許計算和交換階段充分利用芯片的能源,從而更好地控制功耗。可以通過鏈接10個IPU間鏈路來建立更大的IPU芯片系統。其核心數據如下:
  • 16nm制程,236億個晶體管,芯片面積大約為800平方毫米,功耗為150W,PCIe卡為300 W
  • 1216個處理器,在FP32累加的情況下,FP16算法峰值達到125 TFLOPs
  • 分布在處理器核心之間有300 MB的片上內存,提供45 TBps的總訪問帶寬
  • 所有的模型狀態保存在芯片上,沒有直接連接DRAM

IO數據:

  • 2x PCIe-4的主機傳輸鏈接
  • 10倍的卡間IPU鏈接
  • 共384GBps的傳輸帶寬

單核數據:

  • 1、混合精度浮點隨機算法
  • 2、最多運行六個線程

Habana Labs Gaudi

Habana Labs同樣成立于2016年,是一家以色列AI芯片公司。

2018年11月,完成7500萬美元的B輪募資,總募資約1.2億美元。

Gaudi芯片于今年6月亮相,直接對標英偉達的V100。

其整體的設計,與GPU也有相似之處,尤其是更多的SIMD并行性和HBM2內存。

芯片集成了10個100G 以太網鏈路,支持遠程直接內存訪問(RDMA)。與英偉達的NVLink或OpenCAPI相比,這種數據傳輸功能允許使用商用網絡設備構建大型系統。其核心數據如下:

  • TSMC 16 nm制程(CoWoS工藝),芯片尺寸大約為500平方毫米
  • 異構架構:GEMM操作引擎、8個張量處理核(TPCs)
  • SRAM內存共享
  • PCIe卡功耗為200W,夾層卡為300W
  • 片上內存未知

TPC核心數據:

  • VLIW SIMD并行性和一個本地SRAM內存
  • 支持混合精度運算:FP32、 BF16,以及整數格式運算(INT32、INT16、INT8、UINT32、UINT8)
  • 隨機數生成、超越函數:Sigmoid、Tanh、GeLU

IO數據:

  • 4x 提供32 GB的HBM2-2000 DRAM 堆棧, 整體達1 TBps
  • 芯片上集成10x 100GbE 接口,支持融合以太網上的 RDMA (RoCE v2)
  • PCIe-4 x16主機接口

Huawei Ascend 910

華為昇騰910,同樣直接對標英偉達V100,于今年8月份正式商用,號稱業內算力最強的AI訓練芯片。主打深度學習的訓練場景,主要客戶面向AI數據科學家和工程師。

其核心數據為:

  • 7nm+EUV工藝,456平方毫米
  • 集成4個96平方毫米的 HBM2棧和 Nimbus IO處理器芯片
  • 32個達芬奇內核
  • FP16性能峰值256TFLOPs (32x4096x2) ,是 INT8的兩倍
  • 32 MB的片上 SRAM (L2緩存)
  • 功耗350W

互聯和IO數據:

  • 內核在6 x 4的2d網格封包交換網路中相互連接,每個內核提供128 GBps 的雙向帶寬
  • 4 TBps的L2緩存訪問
  • 1.2 TBps HBM2接入帶寬
  • 3x30GBps 芯片內部 IOs
  • 2 x 25 GBps RoCE 網絡接口

單個達芬奇內核數據:

  • 3D 16x16x16矩陣乘法單元,提供4,096個 FP16 MACs 和8,192個 INT8 MACs
  • 針對 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量運算
  • 支持標量操作
  • Intel NNP-T

這是Xeon Phi之后,英特爾再次進軍AI訓練芯片,歷時4年,壕購4家創業公司,花費超過5億美元,在今年8月份發布。

神經網絡訓練處理器NNP-T中的“T”指Train,也就是說這款芯片用于AI推理,處理器代號為Spring Crest。

NNP-T將由英特爾的競爭對手臺積電(TSMC)制造,采用16nm FF+工藝。

NNP-T有270億個16nm晶體管,硅片面積680平方毫米,60mmx60mm 2.5D封裝,包含24個張量處理器組成的網格。

核心頻率最高可達1.1GHz,60MB片上存儲器,4個8GB的HBM2-2000內存,它使用x16 PCIe 4接口,TDP為150~250W。

每個張量處理單元都有一個微控制器,用于指導是數學協處理器的運算,還可以通過定制的微控制器指令進行擴展。

NNP-T支持3大主流機器學習框架:TensorFlow、PyTorch、PaddlePaddle,還支持C++ 深度學習軟件庫、編譯器nGraph。

在算力方面,芯片最高可以達到每秒119萬億次操作(119TOPS),但是英特爾并未透露是在INT8還是INT4上的算力。

作為對比,英偉達Tesla T4在INT8上算力為130TOPS,在INT4上為260TOPS。

英偉達Volta架構芯片

英偉達Volta,2017年5月公布,從 Pascal 架構中引入了張量核、 HBM2和 NVLink 2.0。

  • 英偉達V100芯片就是基于此架構的首款GPU芯片,其核心數據為:
  • TSMC 12nm FFN工藝,211億個晶體管,面積為815平方毫米
  • 功耗為300W,6 MB L2緩存
  • 84個SM,每個包含:64個 FP32 CUDA 核,32個 FP64 CUDA 核和8個張量核(5376個 FP32核,2688個 FP64核,672個 TCs)。
  • 單個Tensor Core每時鐘執行64個FMA操作(總共128 FLOPS),每個SM具有8個這樣的內核,每個SM每個時鐘1024個FLOPS。
  • 相比之下,即使采用純FP16操作,SM中的標準CUDA內核只能在每個時鐘產生256個FLOPS。
  • 每個SM,128 KB L1數據緩存 / 共享內存和4個16K 32位寄存器

IO數據:

  • 32 GB HBM2 DRAM,900 GBps帶寬
  • 300 GBps的NVLink 2.0

英偉達Turing架構芯片

Turing架構是對Volta架構的升級,于2018年9月發布,但 CUDA 和張量核更少。

因此,它的尺寸更小,功率也更低。除了機器學習任務,它還被設計用來執行實時射線追蹤。其核心數據為:

  • TSMC 12nm FFN工藝,面積為754平方毫米,186億個晶體管,功耗260W
  • 72個SM,每個包含:64個 FP32核,64個 INT32核,8個張量核(4608個 FP32核,4608個 INT32核和576個 TCs)
  • 帶有boost時鐘的峰值性能:FP32上為16.3 TFLOPs、FP16上為130.5 TFLOPs、INT8上為261 TFLOPs、INT4上為522 TFLOPs
  • 片上內存為24.5 MB,在6MB的 L2緩存和256KB 的 SM 寄存器文件之間
  • 基準時鐘為1455 MHz

IO數據:

  • 12x32位 GDDR6存儲器,提供672 GBps 聚合帶寬
  • 2x NVLink x8鏈接,每個鏈接提供多達26 GBps 的雙向速度

本文來自轉載自公眾號「QbitAI」和「量子位」,本文作為轉載分享。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1807

    瀏覽量

    60519
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135432
  • 昇騰910
    +關注

    關注

    0

    文章

    14

    瀏覽量

    7190
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為深度適配智譜AI全新開源模型GLM-5

    ,在真實編程場景的使用體驗逼近Claude Opus 4.5,更擅長復雜系統工程與長程Agent任務。直同步支持智譜GLM系列模型,此次GLM-5模型經開源發布,
    的頭像 發表于 02-25 14:41 ?682次閱讀
    <b class='flag-5'>華為</b><b class='flag-5'>昇</b><b class='flag-5'>騰</b>深度適配智譜<b class='flag-5'>AI</b>全新開源模型GLM-5

    香橙派系列開發板如何部署OpenClaw

    位24小時全天候在線的“全能AI員工”讓您的高算力開發板如虎添翼,其性能和價值得以充分發揮。無論你是要部署更復雜的智能體流程,還是處理更高負載的自動化任務,
    發表于 02-25 10:13

    【華強x杯賽題發布】用國產AI算力打造下代沉浸式體驗!2026集創賽攜手華強共筑AI+文化融合創新平

    2026第屆全國大學生集成電路創新創業大賽(集創賽)即將啟幕!作為我國集成電路領域規模最大、且唯一入選中國高等教育學會全國高校競賽排行榜的專業賽事,集創賽始終聚焦產業需求、深耕人才培養,持續為我國
    的頭像 發表于 02-05 08:02 ?606次閱讀
    【華強x<b class='flag-5'>昇</b><b class='flag-5'>騰</b>杯賽題發布】用國產<b class='flag-5'>AI</b>算力打造下<b class='flag-5'>一</b>代沉浸式體驗!2026集創賽<b class='flag-5'>昇</b><b class='flag-5'>騰</b>攜手華強共筑<b class='flag-5'>AI</b>+文化融合創新平

    AI+FPGA助力生態新篇章|2025AI技術研討會·杭州站成功舉辦

    中國·杭州2025年12月17日“華強筑鏈·萬里”華為&華強半導體2025
    的頭像 發表于 12-24 08:05 ?591次閱讀
    <b class='flag-5'>AI</b>+FPGA助力<b class='flag-5'>昇</b><b class='flag-5'>騰</b>生態新篇章|2025<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>技術研討會·杭州站成功舉辦

    潤和軟件AIRUNS訓推體化平臺與910C芯片深度適配

    近日,在江蘇鯤鵬?生態創新中心的全程支持下,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)自主研發的AIRUNS訓推體化平臺完成與搭載
    的頭像 發表于 12-22 14:51 ?644次閱讀
    潤和軟件AIRUNS訓推<b class='flag-5'>一</b>體化平臺與<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>910</b>C<b class='flag-5'>芯片</b>深度適配

    2025AI技術研討會·杭州站盛大開啟!小眼睛科技誠邀您共同見證AI+FPGA賦能新生態!

    在人工智能浪潮奔涌、產業智能化縱深躍遷的背景下,AI生態正成為推動中國AI產業自主創新的重要力量。小眼睛科技依托
    的頭像 發表于 12-11 08:03 ?680次閱讀
    2025<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>技術研討會·杭州站盛大開啟!小眼睛科技誠邀您共同見證<b class='flag-5'>AI</b>+FPGA賦能<b class='flag-5'>昇</b><b class='flag-5'>騰</b>新生態!

    國產AI芯片真能扛住“算力內卷”?海思的這波操作藏了多少細節?

    最近行業都在說“算力是AI的命門”,但國產芯片真的能接住這波需求嗎? 前陣子接觸到海思910B,實測下來有點超出預期——7nm工藝下算力
    發表于 10-27 13:12

    華為全球開發者共贏生態

    華為全聯接大會2025期間,華為計算業務總裁張迪煊發表了“以開發者為中心,加速自主創新,共贏
    的頭像 發表于 09-20 15:57 ?1940次閱讀

    華為首次公布芯片新路線圖

    9月18日在上海世博中心舉辦的 2025 華為全聯接大會上,華為副董事長、輪值董事長徐直軍登臺發表演講,首次對外公布了 AI
    的頭像 發表于 09-19 16:49 ?1718次閱讀
    <b class='flag-5'>華為</b>首次公布<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>芯片</b>新路線圖

    中軟國際出席華為計算產業發展峰會

    今天,計算產業發展峰會在北京召開。作為人工智能產業的重要參與者與華為核心合作伙伴,中軟國際受邀出席本次峰會,與眾多AI領軍企業、合作伙伴、高校及科研機構代表齊聚
    的頭像 發表于 08-07 18:14 ?1581次閱讀

    智能客服驅動效率和體驗升級,上海電信+AI次民生應用實踐

    上海電信+AI次民生應用實踐
    的頭像 發表于 07-30 23:44 ?2944次閱讀
    智能客服驅動效率和體驗升級,上海電信+<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>的<b class='flag-5'>一</b>次民生應用實踐

    中軟國際簽約成為華為大模型體機伙伴

    7月26日,2025世界人工智能大會(WAIC 2025)在上海世博展覽館拉開序幕。大會中,中軟國際與華為舉行了“大模型體機伙伴合作”簽約儀式,華為
    的頭像 發表于 07-30 09:42 ?1350次閱讀
    中軟國際簽約成為<b class='flag-5'>華為</b><b class='flag-5'>昇</b><b class='flag-5'>騰</b>大模型<b class='flag-5'>一</b>體機伙伴

    華為人工智能伙伴峰會成功舉行

    近日,在華為中國合作伙伴大會期間,人工智能伙伴峰會在深圳正式召開。會上,華為
    的頭像 發表于 04-01 15:38 ?1359次閱讀

    軟通動力入選2025十大DeepSeek部署典型案例

    軟通動力AI體機助力中鐵魯班實現AI全面升級,幫助其完成與DeepSeek大模型的全棧對接。這
    的頭像 發表于 03-27 11:05 ?1212次閱讀

    創思遠達與合作推動AI PC應用創新

    近日,端側智能領域創新者創思遠達攜手,基于算力平臺正式發布系列AIPC應用。雙方深度融合了
    的頭像 發表于 03-25 10:22 ?1362次閱讀