電子發(fā)燒友網(wǎng)報道(文/李彎彎)隨著AI技術(shù)的飛速發(fā)展,大模型的訓(xùn)練和推理任務(wù)對算力的需求日益增長。然而,單一品牌的芯片往往難以滿足所有需求,且可能存在供應(yīng)鏈風(fēng)險。因此,異構(gòu)芯片混訓(xùn)成為了一種重要的解決方案。通過混合使用多種異構(gòu)芯片,可以充分利用不同芯片的優(yōu)勢,提高算力利用率,降低算力成本,并推動AI技術(shù)的廣泛應(yīng)用。
異構(gòu)混訓(xùn)能夠整合不同架構(gòu)芯片資源
在2024年世界人工智能大會AI基礎(chǔ)設(shè)施論壇上,無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪發(fā)布了全球首個千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺,千卡異構(gòu)混合訓(xùn)練集群算力利用率最高達(dá)到了97.6%。
同時,無問芯穹Infini-AI云平臺已集成大模型異構(gòu)千卡混訓(xùn)能力,是全球首個可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺,具備萬卡擴(kuò)展性,支持包括AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練。通過Infini-AI云平臺,用戶可以在異構(gòu)算力資源上實現(xiàn)高效的模型訓(xùn)練和推理,從而加速AI應(yīng)用的開發(fā)和部署。
據(jù)稱,已有智譜AI、月之暗面、生數(shù)科技等大模型公司客戶在Infini-AI上穩(wěn)定使用異構(gòu)算力,還有20余家AI Native應(yīng)用創(chuàng)業(yè)公司在Infini-AI上持續(xù)調(diào)用各種預(yù)置模型。
異構(gòu)混訓(xùn)平臺具有多樣化算力資源、高效算力分配、靈活性與可擴(kuò)展性、降低總體擁有成本(TCO)、推動技術(shù)創(chuàng)新和生態(tài)整合等特點。
具體來看,異構(gòu)混訓(xùn)平臺能夠整合來自不同廠商、不同架構(gòu)的芯片資源,這些芯片在各自擅長的領(lǐng)域具有不同的性能優(yōu)勢。通過智能的調(diào)度算法和任務(wù)分發(fā)機(jī)制,異構(gòu)混訓(xùn)平臺能夠根據(jù)任務(wù)的特性和需求,將最適合的算力資源分配給相應(yīng)的芯片,從而實現(xiàn)算力資源的最大化利用。
異構(gòu)混訓(xùn)平臺支持多種芯片和算法的組合使用,能夠靈活應(yīng)對不同規(guī)模、不同復(fù)雜度的訓(xùn)練任務(wù)。同時,它也具備較高的可擴(kuò)展性,能夠根據(jù)實際需求進(jìn)行算力資源的動態(tài)擴(kuò)展。通過整合不同架構(gòu)的芯片資源,避免對單一硬件平臺的過度依賴,異構(gòu)混訓(xùn)平臺能夠降低供應(yīng)鏈風(fēng)險,并通過提高算力利用率和訓(xùn)練效率來降低總體擁有成本。
異構(gòu)混訓(xùn)平臺為AI技術(shù)創(chuàng)新提供了更加廣闊的舞臺,通過整合不同芯片和算法的優(yōu)勢資源,可以激發(fā)更多的創(chuàng)新靈感和技術(shù)突破。同時,它也有助于打破不同硬件生態(tài)系統(tǒng)之間的壁壘,促進(jìn)生態(tài)整合與協(xié)同發(fā)展。
異構(gòu)混訓(xùn)在AI領(lǐng)域的需求日益凸顯
近年來,隨著人工智能技術(shù)的不斷發(fā)展,大模型的參數(shù)量急劇增加,從十億、百億到千億甚至萬億級別。以ChatGPT、LLama等為代表的大模型技術(shù)正持續(xù)推動社會變革,引發(fā)新一輪人工智能熱潮。這些大模型具有數(shù)千億甚至上萬億參數(shù)規(guī)模,單個計算節(jié)點無法滿足訓(xùn)練需求,訓(xùn)練過程耗時巨大。
面對如此龐大的模型,傳統(tǒng)的同構(gòu)算力集群已經(jīng)無法滿足訓(xùn)練需求。即使采用分布式訓(xùn)練框架,也需要充分整合可調(diào)動的算力資源進(jìn)行分布式并行加速。然而,由于不同廠商的智算芯片之間存在計算架構(gòu)、緩存資源、互聯(lián)方式等諸多差異,以及AI計算框架與各廠商基礎(chǔ)軟件棧深度綁定,導(dǎo)致多種智算芯片難以協(xié)同工作,限制了算力資源的充分利用。
異構(gòu)芯片混訓(xùn)成了解決算力限制的重要方式,目前已經(jīng)有諸多應(yīng)用案例。如,醫(yī)療機(jī)構(gòu)采用異構(gòu)芯片混訓(xùn)平臺,將NVIDIA GPU、Intel CPU以及華為昇騰AI處理器等多種芯片混合使用。通過平臺的高效調(diào)度和算力分配,實現(xiàn)了對醫(yī)學(xué)影像數(shù)據(jù)的快速處理和分析。
異構(gòu)芯片混訓(xùn)平臺能夠顯著提高了醫(yī)療影像分析系統(tǒng)的處理速度和精度,為醫(yī)生提供了更加準(zhǔn)確和及時的診斷支持。
自動駕駛汽車研發(fā)公司采用異構(gòu)芯片混訓(xùn)平臺,將AMD GPU、NVIDIA GPU以及專用AI加速器等多種芯片混合使用。通過平臺的異構(gòu)并行訓(xùn)練能力,實現(xiàn)了對自動駕駛算法模型的高效訓(xùn)練和優(yōu)化。
異構(gòu)芯片混訓(xùn)平臺能顯著提高自動駕駛算法模型的訓(xùn)練速度和精度,為自動駕駛汽車的研發(fā)提供了有力支持。同時,通過降低算力成本和提高資源利用率,也可以幫助公司加快自動駕駛技術(shù)的商業(yè)化進(jìn)程。
寫在最后
當(dāng)然,在異構(gòu)芯片混訓(xùn)過程中,可能會面臨一些技術(shù)挑戰(zhàn),如不同芯片間的通信問題、性能差異等。為了解決這些問題,可以采取相應(yīng)的措施,如建立通用的集合通信庫,實現(xiàn)不同種芯片的高效通信,兼容多種硬件;提出基于流水線并行的非均勻拆分方案,解決不同硬件效率不一樣的問題,針對自身情況分配最適合的任務(wù)等。
-
AI
+關(guān)注
關(guān)注
91文章
39771瀏覽量
301372 -
算力
+關(guān)注
關(guān)注
2文章
1529瀏覽量
16741 -
大模型
+關(guān)注
關(guān)注
2文章
3650瀏覽量
5179
發(fā)布評論請先 登錄
GPU 利用率<30%?這款開源智算云平臺讓算力不浪費 1%
華為發(fā)布AI容器技術(shù)Flex:ai,算力平均利用率提升30%
從CPU、GPU到NPU,美格智能持續(xù)優(yōu)化異構(gòu)算力計算效能
國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?
中科曙光超智融合方案助力國產(chǎn)算力中心建設(shè)
立訊技術(shù)解讀ETH-X超節(jié)點高速互連技術(shù)的現(xiàn)狀與未來
海光DCU率先展開文心系列模型的深度技術(shù)合作 FLOPs利用率(MFU)達(dá)47%
AIGC算力基礎(chǔ)設(shè)施技術(shù)架構(gòu)與行業(yè)實踐
壁仞科技擔(dān)任智算集群異構(gòu)混訓(xùn)工作組組長
DeepSeek MoE架構(gòu)下的網(wǎng)絡(luò)負(fù)載如何優(yōu)化?解鎖90%網(wǎng)絡(luò)利用率的關(guān)鍵策略
異構(gòu)混訓(xùn)整合不同架構(gòu)芯片資源,提高算力利用率
評論