螞蟻集團AI創(chuàng)新研發(fā)部門NextEvo近日宣布,他們將全面開源AI Infra技術(shù),以推動AI研發(fā)效率的提升。該技術(shù)框架名為DLRover,目標(biāo)在于實現(xiàn)大規(guī)模分布式訓(xùn)練的智能化。
DLRover技術(shù)能夠幫助大模型千卡訓(xùn)練實現(xiàn)高效運行,有效時間占比超過95%。這意味著在訓(xùn)練過程中,大部分時間都能夠得到充分利用,而不是浪費在無謂的操作上。通過實現(xiàn)訓(xùn)練時的“自動駕駛”,該技術(shù)能夠顯著提高AI研發(fā)的效率。
為了進(jìn)一步提高大模型訓(xùn)練的效率和穩(wěn)定性,NextEvo團隊還對DLRover進(jìn)行了持續(xù)的優(yōu)化和完善。最新集成進(jìn)DLRover的是Flash Checkpoint(FCP)方案。在模型訓(xùn)練過程中,通常需要打Checkpoint以便在中斷時能夠恢復(fù)到最近的狀態(tài)。然而,常規(guī)的Checkpoint做法存在一些缺點,如耗時長、高頻打點易降低訓(xùn)練可用時間、低頻打點恢復(fù)時丟失過多等。
針對這些問題,F(xiàn)CP方案進(jìn)行了優(yōu)化。通過應(yīng)用FCP方案,在千卡千億參數(shù)模型訓(xùn)練中,Checkpoint導(dǎo)致的訓(xùn)練浪費時間降低了約5倍。此外,持久化時間降低了約70倍,有效訓(xùn)練時間從90%提升至95%。這一改進(jìn)顯著提高了模型訓(xùn)練的效率和穩(wěn)定性,進(jìn)一步推動了AI技術(shù)的發(fā)展。
螞蟻集團開源DLRover技術(shù)的舉措將為AI研發(fā)領(lǐng)域帶來積極的影響。通過分享和交流,這一技術(shù)有望成為推動AI領(lǐng)域發(fā)展的重要力量。我們期待看到更多基于DLRover技術(shù)的創(chuàng)新應(yīng)用和突破性成果,為人工智能的發(fā)展做出更大的貢獻(xiàn)。
-
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301427 -
開源
+關(guān)注
關(guān)注
3文章
4207瀏覽量
46144 -
螞蟻集團
+關(guān)注
關(guān)注
0文章
107瀏覽量
4614
發(fā)布評論請先 登錄
使用NORDIC AI的好處
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
AI 芯片浪潮下,職場晉升新契機?
睿海光電800G光模塊助力全球AI基建升級
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
ai_cube訓(xùn)練模型最后部署失敗是什么原因?
聲智科技與螞蟻集團共探聲學(xué)AI前沿技術(shù)
DevEco Studio AI輔助開發(fā)工具兩大升級功能 鴻蒙應(yīng)用開發(fā)效率再提升
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)
摩爾線程GPU原生FP8計算助力AI訓(xùn)練
螞蟻集團AI研發(fā)部門開源AI Infra技術(shù),助力大模型訓(xùn)練效率提升
評論