色综合久久中文字幕综合网,久久婷综合五月天啪网,久久精品欧美日韩精品

作者：算力魔方創始人/英特爾創新大使劉力

在CNN時代，AI模型的參數規模都在百萬級別，僅需在單張消費類顯卡上即可完成訓練。例如，以業界知名的CNN模型：ResNet50為例，模型參數量是約為 25.63M，在ImageNet1K數據集上，使用單張消費類顯卡RTX-4090只需大約35~40個小時，即可完成ResNet50模型的預訓練。在大模型時代，由于大模型參數規模龐大，無法跟CNN時代的小模型一樣在單張顯卡上完成訓練，需要構建多張AI加速卡的集群才能完成AI大模型的預訓練。例如：DeepSeek-V3在其技術報告中介紹，DeepSeek-V3的模型參數量為671B，需要278萬8千個H800 GPU小時才能完成預訓練，換句話說，在有1萬張H800的GPU集群上，需要訓練278.8個小時。

包含1萬張H800的AI數據中心包括：帶H800的服務器節點、網絡、存儲、電源、散熱等，一般來說，總建設預算在15億美金左右。以從AWS上租用1萬張H800為例，每小時的租金大約為12.3萬美金/小時。以訓練DeepSeek-V3為例，

訓練效率每提升1%，相當于節約278.8*1%*12.3=34.3萬美金，

即240萬人民幣的租金。所以，在大模型時代，如何充分利用分布式的GPU集群算力，是深度學習框架首先需要考慮的點。

要充分利用分布式的GPU集群算力，就需要充分使用復雜的并行策略，

包括數據并行、張量并行、參數分片并行、流水線并行、序列并行、專家并行等；并且還要提升GPU與GPU，服務器節點與服務器節點間的通訊效率；除此之外，還要考慮AI數據中心不同算力芯片的適配；前沿模型快速發展時，對新型模型的支持等等...若要求AI模型科學家既要

熟知模型結構，還要深入了解芯片特點、硬件架構、并行策略、調度邏輯等等

，這會使得大模型的開發和性能優化的

技術門檻變得非常高

，大大制約了大模型的開發和訓練效率。針對上述需求和痛點，

飛槳新一代框架3.0

應運而生，該版本提供了豐富的深度學習相關的各種開發接口：

表示層：專注于計算圖的表達與轉換，通過高可擴展中間表示PIR，實現動轉靜、自動微分、自動并行、算子組合以及計算圖優化等核心功能；

調度層：負責對代碼或計算圖進行智能編排與高效調度，支持動態圖和靜態圖兩種不同的執行模式；

算子層：由神經網絡編譯器CINN和算子庫PHI共同構成，涵蓋了張量定義、算子定義、算子自動融合和算子內核實現等關鍵功能；

適配層：則用于實現與底層芯片適配，包括設備管理、算子適配、通信適配以及編譯接入等功能。

飛槳框架3.0憑借強大的功能和優化的設計，

幫助算法工程師和科研人員以更低的成本進行算法創新，

并實現產業應用。以百度文心大模型為例，飛槳框架3.0在訓練、推理等方面為文心大模型提供端到端優化，訓練方面重點提升訓練吞吐、訓練有效率和收斂效率，集群訓練有效率超過98%；推理部署方面通過注意力機制量化推理、通用投機解碼等技術提升推理吞吐和效率；全面支持文心4.5、文心X1等大模型的技術創新和產業應用。

飛槳框架3.0 Github倉：https://github.com/PaddlePaddle/Paddle。

如果你有更好的文章，歡迎投稿！

稿件接收郵箱：nami.liu@pasuntech.com

更多精彩內容請關注“算力魔方?”！

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

深度學習

深度學習

+關注

關注
73

文章
5598

瀏覽量
124394
大模型

大模型

+關注

關注
2

文章
3648

瀏覽量
5179
DeepSeek

DeepSeek

+關注

關注
2

文章
835

瀏覽量
3255

搜索歷史

大模型時代的深度學習框架

評論