国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI訓練勢起,GPU要讓位了?

? 來源:電子發燒友網 ? 作者:周凱揚 ? 2021-12-18 06:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發燒友網報道(文/周凱揚)人工智能在進化的過程中,最不可或缺的便是模型和算力。訓練出來的通用大模型省去了重復的開發工作,目前不少大模型都為學術研究和AI開發提供了方便,比如華為的盤古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。

那么訓練出這樣一個大模型需要怎樣的硬件前提?如何以較低的成本完成自己模型訓練工作?這些都是不少AI初創企業需要考慮的問題,那么如今市面上有哪些訓練芯片是經得起考驗的呢?我們先從國外的幾款產品開始看起。

英偉達A100

英偉達的A100可以說是目前AI訓練界的明星產品,A100剛面世之際可以說是世界上最快的深度學習GPU。盡管近來有無數的GPU或其他AI加速器試圖在性能上撼動它的地位,但綜合實力來看,A100依然穩坐頭把交椅。

A100 GPU / 英偉達A100可是英偉達特推出的首個7nm GPU,在826mm2的芯片大小上鋪滿了542億個晶體管。要知道,其消費級GPU雖然同樣采用安培架構,但仍在使用三星的8nm制程。至于算力什么的,GPU在單個或多個處理器配置上都有著不俗的優勢,甚至還能憑借英偉達自己的互聯技術實現更高的帶寬。具體的算力數據我們也已提過多次,我們這次講的是AI訓練,自然是要比訓練上的表現,這里先留個懸念。 性能雖高,但使用A100的成本可并不便宜。今年10月,微軟和英偉達推出了迄今為止訓練最強大的生成語言模型Megatron-Turing Natural Language Generation(MT-NLG),擁有5300億個參數。如此強大的模型究竟是如何訓練出來的呢?答案是560個英偉達DGX A100服務器,每個服務器都內置了8 x A100 80GB GPU,訓練出這個模型的造價最低也要在百萬美元以上。 如此看來,難不成這些模型只能靠購置昂貴的GPU,或是靠花錢如流水一般的GPU服務器來訓練了?并非如此。

英特爾Gaudi和Ponte Vecchio

19年12月,英特爾收購了以色列的Habana Labs,將其旗下的AI加速器產品線納入囊中。Habana Labs目前推出了用于推理的Goya處理器和用于訓練的Gaudi處理器。盡管Habana Labs已經隸屬英特爾,但現有的產品仍然基于臺積電的16nm制程,傳言稱其正在開發的Gaudi2將用上臺積電的7nm制程。 目前Gaudi已經用于亞馬遜云服務AWS的EC2 DL1訓練實例中,該實例選用了AWS定制的英特爾第二代Xeon可擴展處理器,最多可配置8個Gaudi處理器,每個處理器配有32GB的HBM內存,400Gbps的網絡架構加上100Gbps的互聯帶寬,并支持4TB的NVMe存儲。

Gaudi與A100在ResNet-50和BERT訓練成本上的對比 / Habana Labs Habana Labs和AWS共同宣稱,Gaudi的方案可以提供云端深度學習模型訓練的最佳性價比,與最新的GPU實例相比性價比高出40%。Habana Labs給出了直接的價格對比,在對比AWS EC2 P4d實例(8個英偉達A100 GPU)時,8個Gaudi處理器的每小時價格為13.11美元,比前者低了60%。針對特定的模型,Habana Labs也對A100和V100方案進行了對比,比如利用Tensorflow實現ResNet50圖像處理(BF16/FP16)時,Gaudi處理每張圖片的成本要比A100低46%,更是比V100低了61%。 Habana Labs為Gaudi定義的用例主要在物體識別/分割、圖像分類和自然語言處理器方面的深度學習模型訓練。比如生產中的故障檢測、醫療中的2D/3D掃描和醫學成像自動駕駛中的物體分割以及文本情感分析等等。 我們都知道在超算領域中,英特爾在主要處理器上的份額與出場率都比較高,加速器上則依舊是英偉達和AMD的GPU占優,不過Habana Labs的Gaudi其實已經開始發力,比如圣地亞哥超級計算中心SDSC)打造的AI超算Voyager。這里的Voyager可不是TOP500新晉第十名的Voyager-EUS2,而是SDSC打造的一款試驗性超算,專注于高性能高效率的AI運算,該超算集成了336個Gaudi訓練處理器和16個Goya推理處理器。

A100與Ponte Vecchio在ResNet-50 v1.5上的訓練表現對比 / 英特爾 不過英特爾似乎也不打算放棄GPU這條路,甚至打算走的更遠一點。今年的架構日上,英特爾為其Ponte Vecchio Xe HPC GPU透露了更多的細節。英特爾拿出了ResNet-50單個GPU處理圖像的訓練結果對比,Ponte Vecchio獲得了超過3400張圖片每秒的成績,而英偉達單張A100 GPU的成績為2963張圖片每秒。根據Habana Labs于19年六月公布的數據,單個Gaudi處理器的成績為1650張圖片每秒。 單從結果來看,英特爾和英偉達兩者打造的旗艦GPU在模型訓練上還是很有優勢的,而且還能承擔推理工作負載,Gaudi的性能確實更適合高性價比的專用訓練場景。依小編的觀點來看,Ponte Vecchio更像是英特爾為HPC+AI準備的一張GPU,明年開始出貨后我們說不定會在超算上看到更多應用。而Gaudi更像是為云服務和數據中心準備的訓練處理器,讓開發者在可負擔的價格下享受到優秀的性能。更不用說英特爾也開始為FPGA(Stratix 10 NX)在相同的方向上鋪路,英特爾可以說是為AI開發者提供了多個選擇。

亞馬遜Trainium

最后我們以亞馬遜的訓練芯片收尾,亞馬遜提供的服務器實例可以說是最多樣化的,也包含了以上提到的A100和Gaudi。亞馬遜作為云服務巨頭,早已開始部署自己的服務器芯片生態,不僅在今年推出了第三代Graviton服務器處理器,也正式發布了去年公開的訓練芯片Trainium,并推出了基于該芯片的Trn1實例。

Trn1實例的參數 / 亞馬遜 Trn1的計算引擎頻率達到了3GHz,峰值內存帶寬為13.1TB/s,FP32的算力為840TFLOPS,最出色的數據還是800Gbps的網絡帶寬,亞馬遜甚至還提供了一個1.6TB。再次重申,這些都只是紙面參數而已,實際表現才是最重要的。

亞馬遜訓練實例對比 / 亞馬遜 據亞馬遜發布的數據,同樣是在兩周內完成GPT-3模型的訓練,需要600個8 x V100 GPU的實例,或是128個8xA100 GPU的實例,但若用上16 x Trainium的實例,則只要96個。亞馬遜稱Trn1為云端成本效率最高的實例,這一點還真沒說錯。

小結

GPU一時半會不會跌落AI訓練的神壇,但其他訓練芯片的推陳出新證明了他們面對A100和Ponte Vecchio這種大規模芯片同樣不懼,甚至還有自己獨到的優勢。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135486
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301454
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    數據傳輸拖慢訓練?三維一體調度讓AI任務提速40%

    作為AI開發者,你是否無數次陷入這樣的困境:訓練千億參數大模型,數據傳輸占了總耗時的60%,GPU空轉等待如同“帶薪摸魚”;跨地域調用算力,公網帶寬瓶頸讓TB級數據集傳輸動輒耗時數天;算力、數據
    的頭像 發表于 01-26 14:20 ?135次閱讀

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設備的基礎運行;GPU憑借并行算力,成為AI訓練與圖形處理的“主力”;TPU在Google生態中深耕云端大模型訓練;NPU則讓
    的頭像 發表于 12-17 17:13 ?1751次閱讀
    <b class='flag-5'>AI</b>硬件全景解析:CPU、<b class='flag-5'>GPU</b>、NPU、TPU的差異化之路,一文看懂!?

    NVIDIA Isaac Lab多GPU多節點訓練指南

    NVIDIA Isaac Lab 是一個適用于機器人學習的開源統一框架,基于 NVIDIA Isaac Sim 開發,其模塊化高保真仿真適用于各種訓練環境,可提供各種物理 AI 功能和由 GPU 驅動的物理仿真,縮小仿真與現實世
    的頭像 發表于 09-23 17:15 ?2413次閱讀
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多節點<b class='flag-5'>訓練</b>指南

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    連接定義神經網絡的拓撲結構。 不同神經網絡的DNN: 一、基于大模型的AI芯片 1、Transformer 模型與引擎 1.1 Transformer 模型概述 Transformer 模型的出現
    發表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    當今社會,AI已經發展很迅速,但是你了解AI的發展歷程嗎?本章作者將為我們打開AI的發展歷程以及需求和挑戰的面紗。 從2017年開始生成式AI
    發表于 09-12 16:07

    睿海光電以高效交付與廣泛兼容助力AI數據中心800G光模塊升級

    引領AI時代網絡變革:睿海光電的核心競爭力 在AI時代,數據中心正經歷從傳統架構向AI工廠與AI云的轉型。AI工廠依賴超大規模
    發表于 08-13 19:01

    ai_cube訓練模型最后部署失敗是什么原因?

    ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發表于 07-30 08:15

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經安裝了cuda和cudnn,在全局的py里添加了torch,能夠調用gpu,當還是只能看到默認的gpu0,顯示不了gpu1
    發表于 07-25 08:18

    并行計算的崛起:為什么GPU將在邊緣AI中取代NPU

    人工智能(AI)不僅是一項技術突破,它更是軟件編寫、理解和執行方式的一次永久性變革。傳統的軟件開發基于確定性邏輯和大多是順序執行的流程,而如今這一范式正在讓位于概率模型、訓練行為以及數據驅動的計算
    的頭像 發表于 06-06 14:55 ?704次閱讀
    并行計算的崛起:為什么<b class='flag-5'>GPU</b>將在邊緣<b class='flag-5'>AI</b>中取代NPU

    提升AI訓練性能:GPU資源優化的12個實戰技巧

    在人工智能與機器學習技術迅速發展的背景下,GPU計算資源的高效利用已成為關鍵技術指標。優化的GPU資源分配不僅能顯著提升模型訓練速度,還能實現計算成本的有效控制。根據AI基礎設施聯盟2
    的頭像 發表于 05-06 11:17 ?1548次閱讀
    提升<b class='flag-5'>AI</b><b class='flag-5'>訓練</b>性能:<b class='flag-5'>GPU</b>資源優化的12個實戰技巧

    海思SD3403邊緣計算AI數據訓練概述

    AI數據訓練:基于用戶特定應用場景,用戶采集照片或視頻,通過AI數據訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練
    發表于 04-28 11:11

    Deepseek海思SD3403邊緣計算AI產品系統

    海思SD3403邊緣計算AI框架,提供一套開放式AI訓練產品工具包,解決客戶低成本AI系統,針對差異化
    發表于 04-28 11:05

    適用于數據中心和AI時代的800G網絡

    和性能隔離能力,以保障不同用戶任務互不干擾。 分布式AI計算與網絡架構設計 分布式計算已成為AI訓練的主流方式,通過將工作負載分配到多個GPU節點并行處理,以加速模型
    發表于 03-25 17:35

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現
    的頭像 發表于 03-17 17:05 ?1528次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b><b class='flag-5'>訓練</b>

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮也不行,ram占用過大,有無解決方案?
    發表于 03-11 07:18