国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

超算訓練大模型,不浪費一丁點計算資源

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚 ? 2024-05-20 07:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/周凱揚)近年來,有關(guān)大語言模型(LLM)的開發(fā)非?;钴S,尤其是在中國、美國等市場。以OpenAI開發(fā)的ChatGPT為例,其迅速普及極大影響了技術(shù)研發(fā)、經(jīng)濟系統(tǒng)等,為此不少國家政府也投入到LLM的計算資源整合中來,從而不至于落后這輪新的全球技術(shù)軍備戰(zhàn)。同樣的計算資源競爭也發(fā)生在超算領(lǐng)域,而兩者的計算資源存在一定的重合,不少人開始借助超算來進行LLM的開發(fā)。

超算訓練大模型的天然優(yōu)勢

大語言模型的訓練經(jīng)常會撞上GPU的內(nèi)存墻,比如訓練一個萬億參數(shù)的模型,就需要至少24TB的GPU內(nèi)存。好在對于現(xiàn)代超算系統(tǒng)而言,GPU已經(jīng)成為不可或缺的算力資源之一,不少超算的GPU規(guī)模與云服務廠商的數(shù)據(jù)中心相比,也不遑多讓。以目前排名第一的Frontier超算為例,就集成了37888塊AMD MI250X GPU。

美國橡樹嶺國家實驗室的研究人員除了用Frontier完成科學計算任務以外,也使用了一部分GPU資源訓練一個萬億級參數(shù)的LLM。據(jù)他們發(fā)布的論文,使用3072塊MI250X GPU,他們訓練了一個一萬億參數(shù)的大語言模型,這樣的規(guī)模已經(jīng)與OpenAI的GPT-4在同一水平線上了。

絕大多數(shù)模型的內(nèi)存要求,除了來自參數(shù)量外,也來自梯度和優(yōu)化器狀態(tài)。盡管對大模型訓練的任務進行了并行分解,美國橡樹嶺國家實驗室的研究人員發(fā)現(xiàn)訓練一個萬億級別的大模型還是需要14TB的內(nèi)存,好在單個MI250X就擁有64GB的顯存,足以滿足訓練要求。

富岳大模型

日前,一隊日本研究員發(fā)布了富岳-LLM,一個專門針對日語能力進行加強的大語言模型,由RIKEN的超算系統(tǒng)富岳訓練。盡管目前GPU才是訓練LLM的首選硬件,而富岳超算是基于自研的Arm架構(gòu)處理器構(gòu)筑的,只有CPU并沒有GPU。

為了在富岳上訓練大語言模型,研究員們開發(fā)了分布式的訓練方案,將深度學習框架Megatron-DeepSpeed移植到富岳上,從而優(yōu)化Transformer模型在富岳上的性能表現(xiàn)。通過加速Transformer的密集矩陣乘法庫,并結(jié)合三種并行化技術(shù)優(yōu)化富岳的通信性能,富岳的并行訓練能力得到了最大化。

富岳大模型有130億參數(shù),比目前已經(jīng)在日本廣泛使用的70億參數(shù)模型規(guī)模還要大,盡管市面上早已出現(xiàn)參數(shù)更大的模型,但對于富岳超算來說,這已經(jīng)是一個平衡高性能與計算資源的選擇了。

除此之外,不少日本公司開發(fā)的大模型采用持續(xù)學習,采用海外開發(fā)的公開模型,用日本數(shù)據(jù)進行持續(xù)訓練。而富岳大模型則是采用團隊自己的數(shù)據(jù)從頭開始訓練的,所以在透明度和安全性上更高一籌。

富岳大模型用到了3800萬個Token和富岳超算的13824個節(jié)點,其數(shù)據(jù)60%為日語,并與英語、數(shù)學運算和代碼結(jié)合。該模型在人文和社會科學任務中獲得了9.18的基準跑分,可以結(jié)合敬語或日語的其他特征進行自然對話。

寫在最后

隨著各地區(qū)紛紛開始建設超算智算資源,如何提高這些計算資源的利用率也成了關(guān)鍵。而訓練大模型恰好需要用到如此龐大的計算資源,也有助于為各行各業(yè)提供可用大模型應用,由此看來,未來超算上大模型訓練的場景也會越來越普遍。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 超算
    +關(guān)注

    關(guān)注

    1

    文章

    118

    瀏覽量

    9532
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5183
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中科曙光3套scaleX萬卡集群落地國家互聯(lián)網(wǎng)鄭州核心節(jié)點

    2月5日,由中科曙光提供的3套萬卡集群系統(tǒng)在國家互聯(lián)網(wǎng)鄭州核心節(jié)點同時上線試運行,成為全國首個實現(xiàn)3萬卡部署、且實際投入運營的最大國產(chǎn)AI力池,全面覆蓋萬億參數(shù)
    的頭像 發(fā)表于 02-09 10:32 ?469次閱讀

    訓練到推理:大模型力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓練所需的力投入。個萬億參數(shù)大模型
    的頭像 發(fā)表于 02-05 16:07 ?799次閱讀
    從<b class='flag-5'>訓練</b>到推理:大<b class='flag-5'>模型</b><b class='flag-5'>算</b>力需求的新拐點已至

    數(shù)據(jù)傳輸拖慢訓練?三維體調(diào)度讓AI任務提速40%

    作為AI開發(fā)者,你是否無數(shù)次陷入這樣的困境:訓練千億參數(shù)大模型,數(shù)據(jù)傳輸占了總耗時的60%,GPU空轉(zhuǎn)等待如同“帶薪摸魚”;跨地域調(diào)用力,公網(wǎng)帶寬瓶頸讓TB級數(shù)據(jù)集傳輸動輒耗時數(shù)天;
    的頭像 發(fā)表于 01-26 14:20 ?131次閱讀

    GPU 利用率<30%?這款開源智云平臺讓浪費 1%

    作為 AI 開發(fā)者,你是否早已受夠這些困境:花數(shù)百萬采購的 GPU 集群,利用率常年低于 30%,力閑置如同燒錢;跨 CPU/GPU/NPU 異構(gòu)資源調(diào)度難如登天,模型訓練卡在
    的頭像 發(fā)表于 01-26 14:20 ?183次閱讀

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓練框架提高顯存使用效率

    策略;理解這些策略對顯存的影響,才能更好地規(guī)劃訓練參數(shù),在 OOM (out of memory) 的情況下盡可能提升硬件使用效率。
    的頭像 發(fā)表于 10-21 10:55 ?1149次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>框架提高顯存使用效率

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升力還是智力

    持續(xù)發(fā)展體現(xiàn)在: 1、收益遞減 大模型的基礎(chǔ)的需要極大的力,這首先源于昂貴的高性能AI芯片,然后是寶貴的電力、水等與環(huán)境相關(guān)的資源。 收益遞減體現(xiàn)在: ①模型大小 ②
    發(fā)表于 09-14 14:04

    面向萬億級參數(shù)大模型,“節(jié)點”涌現(xiàn)

    UniPoD系列節(jié)點產(chǎn)品,旨在為萬億級參數(shù)大模型訓練與推理提供更強勁、更智能且更綠色的力支持。 ? H3C UniPoD系列節(jié)點產(chǎn)
    的頭像 發(fā)表于 08-03 02:37 ?8902次閱讀
    面向萬億級參數(shù)大<b class='flag-5'>模型</b>,“<b class='flag-5'>超</b>節(jié)點”涌現(xiàn)

    模型推理顯存和計算量估計方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學習大模型在各個領(lǐng)域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰(zhàn)。為了解決這
    發(fā)表于 07-03 19:43

    力網(wǎng)絡的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓練范式

    過程中,由于單個AI芯片的力提升速度無法跟上模型參數(shù)的增長速率,再加上龐大的模型參數(shù)和訓練數(shù)據(jù),已遠遠超出單個AI芯片甚至單臺服務器的能力范圍。因此,需要將數(shù)據(jù)樣本和
    的頭像 發(fā)表于 06-08 08:11 ?7442次閱讀
    <b class='flag-5'>算</b>力網(wǎng)絡的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式<b class='flag-5'>訓練</b>范式

    AI原生架構(gòu)升級:RAKsmart服務器在超大規(guī)模模型訓練中的力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓練力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務器架構(gòu)在應對分布式訓練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶
    的頭像 發(fā)表于 04-24 09:27 ?790次閱讀

    如何高效訓練AI模型?這些常用工具你必須知道!

    特定領(lǐng)域的中小型模型。這類模型針對垂直領(lǐng)域,性價比更高,在特定場景下能以較低資源實現(xiàn)高準確率的專項任務。例如在邊緣計算領(lǐng)域,模型推理所需
    的頭像 發(fā)表于 04-17 16:43 ?2239次閱讀
    如何高效<b class='flag-5'>訓練</b>AI<b class='flag-5'>模型</b>?這些常用工具你必須知道!

    RAKsmart智能力架構(gòu):異構(gòu)計算+低時延網(wǎng)絡驅(qū)動企業(yè)AI訓練范式升級

    在AI大模型參數(shù)量突破萬億、多模態(tài)應用爆發(fā)的今天,企業(yè)AI訓練正面臨力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能力架構(gòu),以異構(gòu)計算
    的頭像 發(fā)表于 04-17 09:29 ?763次閱讀

    力芯片的生態(tài)突圍與力革命

    據(jù)的爆發(fā)式增長,大力芯片已成為科技競爭的核心領(lǐng)域之。 ? 大力芯片的核心應用場景豐富多樣。在人工智能訓練與推理方面,大模型(如 GPT
    的頭像 發(fā)表于 04-13 00:02 ?3244次閱讀

    利用RAKsmart服務器托管AI模型訓練的優(yōu)勢

    AI模型訓練需要強大的計算資源、高效的存儲和穩(wěn)定的網(wǎng)絡支持,這對服務器的性能提出了較高要求。而RAKsmart服務器憑借其核心優(yōu)勢,成為托管AI模型
    的頭像 發(fā)表于 03-18 10:08 ?691次閱讀