在利用 OpenAI 的 GPT-4 為 Bing Chat、 Bing Image Creator、Microsoft 365 Copilot、Azure OpenAI Service 和 GitHub Copilot X 引入了類似 ChatGPT 的功能后。微軟現(xiàn)又宣布推出 DeepSpeed-Chat,一種用于 RLHF 訓(xùn)練的低成本開源解決方案,基于微軟開源的深度學(xué)習(xí)優(yōu)化庫 DeepSpeed;聲稱即使是使用單個 GPU,任何人也都可以創(chuàng)建高質(zhì)量的 ChatGPT 式模型。
該公司表示,盡管開源社區(qū)付出了巨大的努力,但目前仍缺乏一個支持端到端的基于人工反饋機(jī)制的強(qiáng)化學(xué)習(xí)(RLHF)的規(guī)模化系統(tǒng),這使得訓(xùn)練強(qiáng)大的類 ChatGPT 模型十分困難。ChatGPT 模型的訓(xùn)練是基于 InstructGPT 論文中的 RLHF 方式,與常見的大語言模型的預(yù)訓(xùn)練和微調(diào)截然不同,使得現(xiàn)有深度學(xué)習(xí)系統(tǒng)在訓(xùn)練類 ChatGPT 模型時存在種種局限。因此,為了讓 ChatGPT 類型的模型更容易被普通數(shù)據(jù)科學(xué)家和研究者使用,并使 RLHF 訓(xùn)練真正普及到 AI 社區(qū),他們發(fā)布了 DeepSpeed-Chat。

DeepSpeed-Chat 具有以下三大核心功能:
簡化 ChatGPT 類型模型的訓(xùn)練和強(qiáng)化推理體驗(yàn):只需一個腳本即可實(shí)現(xiàn)多個訓(xùn)練步驟,包括使用 Huggingface 預(yù)訓(xùn)練的模型、使用 DeepSpeed-RLHF 系統(tǒng)運(yùn)行 InstructGPT 訓(xùn)練的所有三個步驟、甚至生成你自己的類 ChatGPT 模型。此外,還提供了一個易于使用的推理 API,用于用戶在模型訓(xùn)練后測試對話式交互。
DeepSpeed-RLHF 模塊:DeepSpeed-RLHF 復(fù)刻了 InstructGPT 論文中的訓(xùn)練模式,并確保包括 a) 監(jiān)督微調(diào)(SFT),b) 獎勵模型微調(diào)和 c) 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在內(nèi)的三個步驟與其一一對應(yīng)。此外,還提供了數(shù)據(jù)抽象和混合功能,以支持用戶使用多個不同來源的數(shù)據(jù)源進(jìn)行訓(xùn)練。
DeepSpeed-RLHF 系統(tǒng):其將 DeepSpeed 的訓(xùn)練(training engine)和推理能力(inference engine) 整合到一個統(tǒng)一的混合引擎(DeepSpeed Hybrid Engine or DeepSpeed-HE)中用于 RLHF 訓(xùn)練。DeepSpeed-HE 能夠在 RLHF 中無縫地在推理和訓(xùn)練模式之間切換,使其能夠利用來自 DeepSpeed-Inference 的各種優(yōu)化,如張量并行計(jì)算和高性能 CUDA 算子進(jìn)行語言生成,同時對訓(xùn)練部分還能從 ZeRO- 和 LoRA-based 內(nèi)存優(yōu)化策略中受益。DeepSpeed-HE 還能夠自動在 RLHF 的不同階段進(jìn)行智能的內(nèi)存管理和數(shù)據(jù)緩存。
文檔內(nèi)容指出,DeepSpeed Chat 與其他先進(jìn)方案相比的優(yōu)勢在于:效率和經(jīng)濟(jì)性方面比現(xiàn)有系統(tǒng)快 15 倍以上,在 Azure 云上只需 9 小時即可訓(xùn)練一個 OPT-13B 模型,只需 18 小時既可訓(xùn)練 OPT-30B 模型,分別花費(fèi)不到 300 美元和 600 美元。
在速度和可擴(kuò)展性方面,即使是 13B 的模型也可以在 1.25 小時內(nèi)訓(xùn)練,龐大的 175B 模型可以在不到一天的時間內(nèi)使用 64 個 GPU 集群進(jìn)行訓(xùn)練。在 RLHF 的可訪問性和普及化方面,則可以在單個 GPU 上訓(xùn)練超過 130 億參數(shù)的模型。此外還支持在相同的硬件上分別運(yùn)行 6.5B 和 50B 的模型,實(shí)現(xiàn)高達(dá) 7.5 倍的提升。



盡管近期關(guān)于對 ChatGPT 類大語言模型發(fā)展的反對和擔(dān)憂之聲不斷,但微軟似乎仍在全力推進(jìn)其 AI 開發(fā)。對于微軟的此次發(fā)布,前 Meta AI 專家 Elvis 也激動地表示,DeepSpeed Chat 提供了 Alpaca 和 Vicuna 等所缺少的、一個端到端的 RLHF 管道來訓(xùn)練類似 ChatGPT 的模型,解決的是成本和效率方面的挑戰(zhàn)。這是 “微軟令人印象深刻的開源努力。..。.. 是一件大事”。
審核編輯 :李倩
-
微軟
+關(guān)注
關(guān)注
4文章
6741瀏覽量
107860 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5599瀏覽量
124398 -
ChatGPT
+關(guān)注
關(guān)注
31文章
1598瀏覽量
10267
原文標(biāo)題:微軟開源“傻瓜式”類ChatGPT模型訓(xùn)練工具,提速省錢15倍
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
摩爾線程發(fā)布SimuMax v1.1:從仿真工具升級為全棧工作流平臺,助力大模型訓(xùn)練提效
openDACS 2025 開源EDA與芯片賽項(xiàng) 賽題七:基于大模型的生成式原理圖設(shè)計(jì)
在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)
NVIDIA開源Audio2Face模型及SDK
摩爾線程發(fā)布大模型訓(xùn)練仿真工具SimuMax v1.0
新一代超大模型訓(xùn)練引擎XTuner V1開源
微軟推出多項(xiàng)革新性AI工具
傻瓜式操作!燈具外殼氣密性檢測儀上手就會
如何高效訓(xùn)練AI模型?這些常用工具你必須知道!
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
支持48位尋址!華為開源文件系統(tǒng)EROFS跨入大模型訓(xùn)練
恩智浦eIQ Time Series Studio工具使用教程之模型訓(xùn)練
用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集
微軟開源“傻瓜式”類ChatGPT模型訓(xùn)練工具
評論