国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達H100 Transformer引擎加速AI訓練 準確而且高達6倍性能

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2022-04-01 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在當今計算平臺上,大型 AI 模型可能需要數月來完成訓練。而這樣的速度對于企業來說太慢了。

隨著一些模型(例如大型語言模型)達到數萬億參數,AI、高性能計算和數據分析變得日益復雜。

NVIDIA Hopper 架構從頭開始構建,憑借強大的算力和快速的內存來加速這些新一代 AI 工作負載,從而處理日益增長的網絡和數據集。

Transformer 引擎是全新 Hopper 架構的一部分,將顯著提升 AI 性能和功能,并助力在幾天或幾小時內訓練大型模型。

使用 Transformer 引擎訓練 AI 模型

Transformer 模型是當今廣泛使用的語言模型(例如 asBERT 和 GPT-3)的支柱。Transformer 模型最初針對自然語言處理用例而開發,但因其通用性,現在逐步應用于計算機視覺、藥物研發等領域。

與此同時,模型大小不斷呈指數級增長,現在已達到數萬億個參數。由于計算量巨大,訓練時間不得不延長到數月,而這樣就無法滿足業務需求。

Transformer 引擎采用 16 位浮點精度和新增的 8 位浮點數據格式,并整合先進的軟件算法,將進一步提升 AI 性能和功能。

AI 訓練依賴浮點數,浮點數是小數,例如 3.14。TensorFloat32 (TF32) 浮點格式是隨 NVIDIA Ampere 架構而面世的,現已成為 TensorFlow 和 PyTorch 框架中的默認 32 位格式。

大多數 AI 浮點運算采用 16 位“半”精度 (FP16)、32 位“單”精度 (FP32),以及面向專業運算的 64 位“雙”精度 (FP64)。Transformer 引擎將運算縮短為 8 位,能以更快的速度訓練更大的網絡。

與 Hopper 架構中的其他新功能(例如,在節點之間提供直接高速互連的 NVLink Switch 系統)結合使用時,H100 加速服務器集群能夠訓練龐大網絡,而這些網絡此前幾乎無法以企業所需的速度進行訓練。

更深入地研究 Transformer 引擎

Transformer 引擎采用軟件和自定義 NVIDIA Hopper Tensor Core 技術,該技術旨在加速訓練基于常見 AI 模型構建模塊(即 Transformer)構建的模型。這些 Tensor Core 能夠應用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 計算。采用 FP8 的 Tensor Core 運算在吞吐量方面是 16 位運算的兩倍。

模型面臨的挑戰是智能管理精度以保持準確性,同時獲得更小、更快數值格式所能實現的性能。Transformer 引擎利用定制的、經NVIDIA調優的啟發式算法來解決上述挑戰,該算法可在 FP8 與 FP16 計算之間動態選擇,并自動處理每層中這些精度之間的重新投射和縮放。

b39541ba-b14d-11ec-aa7f-dac502259ad0.png

Transformer Engine 使用每層統計分析來確定模型每一層的最佳精度(FP16 或 FP8),在保持模型精度的同時實現最佳性能。

與上一代 TF32、FP64、FP16 和 INT8 精度相比,NVIDIA Hopper 架構還將每秒浮點運算次數提高了三倍,從而在第四代 Tensor Core 的基礎上實現了進一步提升。Hopper Tensor Core 與 Transformer 引擎和第四代 NVLink 相結合,可使 HPC 和 AI 工作負載的加速實現數量級提升。

加速 Transformer 引擎

AI 領域的大部分前沿工作都圍繞 Megatron 530B 等大型語言模型展開。下圖顯示了近年來模型大小的增長趨勢,業界普遍認為這一趨勢將持續發展。許多研究人員已經在研究用于自然語言理解和其他應用的超萬億參數模型,這表明對 AI 計算能力的需求有增無減。

b3a976d0-b14d-11ec-aa7f-dac502259ad0.jpg

自然語言理解模型仍在快速增長。

為滿足這些持續增長的模型的需求,高算力和大量高速內存缺一不可。NVIDIA H100 Tensor Core GPU 兩者兼備,再加上 Transformer 引擎實現的加速,可助力 AI 訓練更上一層樓。

通過上述方面的創新,就能夠提高吞吐量,將訓練時間縮短 9 倍——從 7 天縮短到僅 20 個小時:

b3c3821e-b14d-11ec-aa7f-dac502259ad0.jpg

與上一代相比,NVIDIA H100 Tensor Core GPU 提供 9 倍的訓練吞吐量,從而可在合理的時間內訓練大型模型。

Transformer 引擎還可用于推理,無需進行任何數據格式轉換。以前,INT8 是實現出色推理性能的首選精度。但是,它要求經訓練的網絡轉換為 INT8,這是優化流程的一部分,而 NVIDIA TensorRT 推理優化器可輕松實現這一點。

使用以 FP8 精度訓練的模型時,開發者可以完全跳過此轉換步驟,并使用相同的精度執行推理操作。與 INT8 格式的網絡一樣,使用 Transformer 引擎的部署能以更小的內存占用空間運行。

在 Megatron 530B 上,NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍,響應延遲為 1 秒,這表明它是適用于 AI 部署的上佳平臺:

b3d518bc-b14d-11ec-aa7f-dac502259ad0.jpg

對于低延遲應用,Transformer 引擎還可將推理吞吐量提高 30 倍。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301364
  • 英偉達
    +關注

    關注

    23

    文章

    4086

    瀏覽量

    99169
  • H100
    +關注

    關注

    0

    文章

    33

    瀏覽量

    588

原文標題:GTC22 | H100 Transformer 引擎大幅加速 AI 訓練,在不損失準確性的情況下提供高達 6 倍的性能

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    羅姆強勢入局AI服務器800VDC電源方案 原創

    % 。 AI 訓練耗電量是網絡搜索的 10 以上 。 AI 服務器 GPU 性能增長的同時功率持續飆升。以
    的頭像 發表于 12-13 00:25 ?8362次閱讀

    突發!特朗普批準英偉H200芯片對華出口,抽成25%

    一種“妥協”。此前,英偉一直希望向中國銷售其更先進的Blackwell系列芯片,但美政府目前仍明確表示不贊成。H200芯片性能雖低于Blackwell,但強于此前已獲準對華出口的
    的頭像 發表于 12-09 17:58 ?1591次閱讀

    英偉 Q3 狂攬 308 億

    廠商季度合計 500 億美元資本支出中,約 30% 流向了英偉。 新一代 Blackwell 芯片已全面投產,Q3 交付 1.3 萬個 GPU 樣品,H200 GPU 理論性能
    的頭像 發表于 11-20 18:11 ?1245次閱讀

    黃仁勛:英偉AI芯片訂單排到2026年 英偉上季營收加速增長62%再超預期

    AI芯片總龍頭英偉的財報終于帶來了驚喜;英偉公司發布財報數據顯示,上季營收加速增長62%;再
    的頭像 發表于 11-20 11:36 ?1250次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    Transformer 模型 通過簡化Transformer 模型而不影響其收斂性能和下游任務性能加速GPU中的
    發表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    的我我們講解了這幾種芯片的應用場景,設計流程、結構等。 CPU: 還為我們講解了一種算法:哈希表算法 GPU: 介紹了英偉H100GPU芯片。使用了一下關鍵技術: ①張量核
    發表于 09-12 16:07

    英偉 H100 GPU 掉卡?做好這五點,讓算力穩如泰山!

    H100服務器停工一天損失的算力成本可能比維修費還高。今天,我們給大家總結一套“防掉卡秘籍”,從日常管理到環境把控,手把手教你把掉卡風險壓到最低。一、供電是“生命線”,這3點必須盯緊H100滿載功耗
    的頭像 發表于 09-05 11:03 ?1149次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b> <b class='flag-5'>H100</b> GPU 掉卡?做好這五點,讓算力穩如泰山!

    英偉被傳暫停生產H20芯片 外交部回應

    韓國三星電子、美國安靠科技、富士康等關鍵零部件供應商。 據悉,美國安靠科技(Amkor)負責H20芯片的封裝,而三星電子負責提供高帶寬的內存芯片。 業界人士分析稱,一方面英偉H20芯
    的頭像 發表于 08-22 15:58 ?2827次閱讀

    搞定英偉 H100 ECC 報錯:從原理到維修,一步到位解煩憂

    最近,捷智算GPU維修室收到了不少H100服務器需要維修,故障問題集中為ECC報錯。為了幫大家更好地認識和了解情況,下面就詳細分享一下ECC報錯系統化排查方法和維修流程。一、ECC報錯
    的頭像 發表于 08-14 18:05 ?2230次閱讀
    搞定<b class='flag-5'>英偉</b><b class='flag-5'>達</b> <b class='flag-5'>H100</b> ECC 報錯:從原理到維修,一步到位解煩憂

    H20中國區賣爆!英偉緊急向臺積電加訂30萬塊

    性能上相當于英偉另一款主流GPU芯片H100的20%左右。 ? 盡管如此,在美國解禁對H20芯片的出口后,需求仍然超出了想象。據路透社報
    的頭像 發表于 07-30 08:08 ?3304次閱讀

    GPU 維修干貨 | 英偉 GPU H100 常見故障有哪些?

    上漲,英偉H100GPU憑借其強大的算力,成為AI訓練、高性能計算領域的核心硬件。然而,隨著使
    的頭像 發表于 05-05 09:03 ?2989次閱讀
    GPU 維修干貨 | <b class='flag-5'>英偉</b><b class='flag-5'>達</b> GPU <b class='flag-5'>H100</b> 常見故障有哪些?

    海思SD3403邊緣計算AI數據訓練概述

    模型,將模型轉化為嵌入式AI模型,模型升級AI攝像機,進行AI識別應用。 AI訓練模型是不斷迭代優化過程,譬如,
    發表于 04-28 11:11

    特朗普要叫停英偉對華特供版 英偉H20出口限制 或損失55億美元

    是“中國特供版”人工智能芯片;是英偉公司為符合美國出口規定專門為中國市場開發的定制芯片,H20芯片在訓練AI模型方面不如
    的頭像 發表于 04-16 16:59 ?2083次閱讀

    新思科技攜手英偉加速芯片設計,提升芯片電子設計自動化效率

    宣布在英偉 Grace Blackwell 平臺上實現高達 30 的預期性能提升,加速下一代
    發表于 03-19 17:59 ?492次閱讀