国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

爆了!GPT-4模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集信息都被扒出來了

CVer ? 來源:機器之心 ? 2023-07-12 14:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一直以來,大家都對 GPT-4 的模型架構(gòu)、基礎(chǔ)設(shè)施、訓(xùn)練數(shù)據(jù)集、成本等信息非常好奇。

奈何 OpenAI 嘴太嚴,很長時間以來,大家也都只是猜測這些數(shù)據(jù)。

不久之前,「天才黑客」喬治?霍茲(George Hotz)在接受一家名為 Latent Space 的 AI 技術(shù)播客采訪時透露出一個小道消息,稱 GPT-4 是由 8 個混合專家模型組成的集成系統(tǒng),每個專家模型都有 2200 億個參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。

雖然此消息無法驗證,但其流傳度非常高,也被部分業(yè)內(nèi)人士認為非常合理。

最近,更多的消息似乎被泄露了出來。

今日,SemiAnalysis 發(fā)布了一篇付費訂閱的內(nèi)容,「揭秘」了有關(guān) GPT-4 的更多信息。

62a83668-2073-11ee-962d-dac502259ad0.png

文章稱,他們從許多來源收集了大量有關(guān) GPT-4 的信息,包括模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施、推理基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集組成、token 量、層數(shù)、并行策略、多模態(tài)視覺適應(yīng)、不同工程權(quán)衡背后的思維過程、獨特的實現(xiàn)技術(shù)以及如何減輕與巨型模型推理有關(guān)的瓶頸等。

作者表示,GPT-4 最有趣的方面是理解 OpenAI 為什么做出某些架構(gòu)決策。

此外,文章還介紹了 A100 上 GPT-4 的訓(xùn)練和推理成本,以及如何拓展到下一代模型架構(gòu) H100 。

我們根據(jù) Deep Trading(一家算法交易公司)創(chuàng)始人 Yam Peleg 的推文(目前已刪除),整理了以下關(guān)于 GPT-4 的數(shù)據(jù)信息。感興趣的讀者可以細致研究下。

62c6c88a-2073-11ee-962d-dac502259ad0.png

不過請注意,這并非官方確認的數(shù)據(jù),大家自行判斷其準確性。

62de8ec0-2073-11ee-962d-dac502259ad0.png

1、參數(shù)量:GPT-4 的大小是 GPT-3 的 10 倍以上。文章認為它 120 層網(wǎng)絡(luò)中總共有 1.8 萬億個參數(shù)。

2、確實是混合專家模型。OpenAI 能夠通過使用混合專家(MoE)模型來保持合理成本。他們在模型中使用了 16 個專家模型,每個專家模型大約有 111B 個參數(shù)。這些專家模型中的 2 個被路由到每個前向傳遞。

3、MoE 路由:盡管文獻中對于選擇將每個 token 路由到哪個專家模型的高級路由算法進行了大量討論,但據(jù)稱 OpenAI 在當前的 GPT-4 模型中采用了相當簡單的路由方式。該模型大約使用了 550 億個共享參數(shù)來進行注意力計算。

62f0bb4a-2073-11ee-962d-dac502259ad0.png

4、推理:每次前向傳遞的推理(生成 1 個 token)僅利用約 2800 億個參數(shù)和約 560 TFLOP 的計算量。相比之下,純密集模型每次前向傳遞需要大約 1.8 萬億個參數(shù)和約 3700 TFLOP 的計算量。

5、數(shù)據(jù)集:GPT-4 的訓(xùn)練數(shù)據(jù)集包含約 13 萬億個 token。這些 token 是重復(fù)計算之后的結(jié)果,多個 epoch 中的 token 都計算在內(nèi)。

Epoch 數(shù)量:針對基于文本的數(shù)據(jù)進行了 2 個 epoch 的訓(xùn)練,而針對基于代碼的數(shù)據(jù)進行了 4 個 epoch 的訓(xùn)練。此外,還有來自 ScaleAI 和內(nèi)部的數(shù)百萬行的指令微調(diào)數(shù)據(jù)。

6、GPT-4 32K:在預(yù)訓(xùn)練階段,GPT-4 使用了 8k 的上下文長度(seqlen)。而 32k 序列長度版本的 GPT-4 是在預(yù)訓(xùn)練后對 8k 版本進行微調(diào)而得到的。

636c0728-2073-11ee-962d-dac502259ad0.png

7、Batch Size:在計算集群上,幾天時間里,batch size 逐漸增加,最后,OpenAI 使用 batch size 達到了 6000 萬!當然,由于不是每個專家模型都能看到所有 token,因此這僅僅是每個專家模型處理 750 萬個 token 的 batch size。

真實的 batch size:將這個數(shù)字除以序列長度(seq len)即可得到真實的 batch size。請不要再使用這種誤導(dǎo)性的數(shù)字了。

8、并行策略:為了在所有 A100 GPU 上進行并行計算,他們采用了 8 路張量并行,因為這是 NVLink 的極限。除此之外,他們還采用了 15 路流水線并行。(很可能使用了 ZeRo Stage 1,也可能使用了塊級的 FSDP)。

641a88f2-2073-11ee-962d-dac502259ad0.png

9、訓(xùn)練成本:OpenAI 在 GPT-4 的訓(xùn)練中使用了大約 2.15e25 的 FLOPS,使用了約 25,000 個 A100 GPU,訓(xùn)練了 90 到 100 天,利用率(MFU)約為 32% 至 36%。這種極低的利用率部分是由于大量的故障導(dǎo)致需要重新啟動檢查點。

如果他們在云端的每個 A100 GPU 的成本大約為每小時 1 美元,那么僅此次訓(xùn)練的成本將達到約 6300 萬美元。(而如今,如果使用約 8192 個 H100 GPU 進行預(yù)訓(xùn)練,用時將降到 55 天左右,成本為 2150 萬美元,每個 H100 GPU 的計費標準為每小時 2 美元。)

10、使用專家混合模型時的 tradeoff:在使用專家混合模型時存在多方面 tradeoff。

例如,在推理過程中處理 MoE 非常困難,因為并非模型的每個部分都在每個 token 生成時被利用。這意味著在某些部分被使用時,其他部分可能處于閑置狀態(tài)。在為用戶提供服務(wù)時,這會嚴重影響資源利用率。研究人員已經(jīng)證明使用 64 到 128 個專家比使用 16 個專家能夠?qū)崿F(xiàn)更好的損失(loss),但這僅僅是研究的結(jié)果。

選擇較少的專家模型有多個原因。OpenAI 選擇 16 個專家模型的一大原因是:在許多任務(wù)中,更多的專家模型很難泛化,也可能更難收斂。

由于進行了如此大規(guī)模的訓(xùn)練,OpenAI 選擇在專家模型數(shù)量上更加保守。

643928ac-2073-11ee-962d-dac502259ad0.png

11、推理成本:GPT-4 的推理成本是 1750 億參數(shù)的 Davinci 模型的 3 倍。這主要是因為 GPT-4 需要更大規(guī)模的集群,并且達到的利用率要低得多。

據(jù)估計,在用 128 個 A100 GPU 進行推理的情況下,8k 版本 GPT-4 推理的成本為每 1,000 個 token 0.0049 美分。如果使用 128 個 H100 GPU 進行推理,同樣的 8k 版本 GPT-4 推理成本為每 1,000 個 token 0.0021 美分。值得注意的是,這些估計假設(shè)了高利用率和保持較高的 batch size。

12、Multi-Query Attention:OpenAI 和其他機構(gòu)一樣,也在使用 Multi-Query Attention(MQA)。由于使用 MQA 只需要一個注意力頭(head),并且可以顯著減少用于 KV 緩存的內(nèi)存容量。即便如此,32k 序列長度的 GPT-4 也絕對無法在 40GB 的 A100 GPU 上運行,而 8k 序列長度的模型則受到了最大 batch size 的限制。

64c135f8-2073-11ee-962d-dac502259ad0.png

13、連續(xù) batching:OpenAI 實現(xiàn)了可變 batch size 和連續(xù) batching。這樣做是為了允許一定程度的最大延遲,并優(yōu)化推理成本。

14、視覺多模態(tài):它是一個獨立于文本編碼器的視覺編碼器,二者之間存在交叉注意力。該架構(gòu)類似于 Flamingo。這在 GPT-4 的 1.8 萬億個參數(shù)之上增加了更多參數(shù)。在純文本的預(yù)訓(xùn)練之后,它又經(jīng)過了另外約 2 萬億個 token 的微調(diào)。

對于視覺模型,OpenAI 本來希望從零開始訓(xùn)練,但由于其尚未成熟,所以他們決定先從文本開始訓(xùn)練來降低風(fēng)險。

這種視覺能力的主要目的之一是使自主智能體能夠閱讀網(wǎng)頁并轉(zhuǎn)錄圖像和視頻中的內(nèi)容。

他們訓(xùn)練的一部分數(shù)據(jù)是聯(lián)合數(shù)據(jù)(包括渲染的 LaTeX / 文本)、網(wǎng)頁的截屏、YouTube 視頻(采樣幀),并使用 Whisper 對其進行運行以獲取轉(zhuǎn)錄文本。

6572b53a-2073-11ee-962d-dac502259ad0.png

15、推測式解碼(Speculative Decoding):OpenAI 可能在 GPT-4 的推理過程中使用了推測式解碼技術(shù)(不確定是否 100%)。這種方法是使用一個更小更快的模型提前解碼多個 token,并將它們作為單個 batch 輸入到一個大型的預(yù)測模型(oracle model)中。

如果小型模型對其預(yù)測是正確的,大型模型將會同意,我們可以在單個 batch 中解碼多個 token。

但是,如果大型模型拒絕了草稿模型預(yù)測的 token,那么 batch 中剩余的部分將被丟棄,然后我們將繼續(xù)使用大型模型進行解碼。

有些陰謀論指出,新的 GPT-4 質(zhì)量已經(jīng)下降,這可能只是因為他們讓推測式解碼模型(speculative decoding model)將概率較低的序列傳遞給預(yù)測模型,從而導(dǎo)致了這種誤解。

65a0d032-2073-11ee-962d-dac502259ad0.png

16、推理架構(gòu):推理運行在由 128 個 GPU 組成的集群上。在不同地點的多個數(shù)據(jù)中心存在多個這樣的集群。推理過程采用 8 路張量并行(tensor parallelism)和 16 路流水線并行(pipeline parallelism)。每個由 8 個 GPU 組成的節(jié)點僅具有約 1300 億個參數(shù)。

該模型有 120 層,因此適合于 15 個不同的節(jié)點。可能第一個節(jié)點的層數(shù)較少,因為它還需要計算嵌入。

根據(jù)這些數(shù)字,如果 OpenAI 試圖按照 chinchilla 的最佳指標進行訓(xùn)練,他們應(yīng)該使用的 token 數(shù)量是現(xiàn)在的兩倍。這表明他們在獲取高質(zhì)量數(shù)據(jù)方面遇到了困難。

最后想說的是,這應(yīng)該是迄今為止關(guān)于 GPT-4 最為詳細的數(shù)據(jù)揭秘。目前還不能求證是否真實,但也值得大家研究下。正如原文作者所說,「有趣的方面是理解 OpenAI 為什么做出某些架構(gòu)決策。」

關(guān)于 GPT-4 的這些架構(gòu)信息,你怎么看?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52101
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26190
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10064

原文標題:爆了!GPT-4模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集信息都被扒出來了...

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    訓(xùn)練到推理:大模型算力需求的新拐點已至

    算力正在成為市場關(guān)注的新焦點。一、訓(xùn)練算力的"一次性投入"困境大模型訓(xùn)練是典型的"一次性高成本投入"模式。根據(jù)OpenAI的公開數(shù)據(jù)
    的頭像 發(fā)表于 02-05 16:07 ?794次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    模型。 我們使用MNIST數(shù)據(jù)訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識別。一旦模型
    發(fā)表于 10-22 07:03

    訓(xùn)練平臺數(shù)據(jù)過大無法下載數(shù)據(jù)至本地怎么解決?

    起因是現(xiàn)在平臺限制圖片數(shù)量,想要本地訓(xùn)練下載數(shù)據(jù)時發(fā)現(xiàn)只會跳出網(wǎng)絡(luò)異常的錯誤,請問這有什么解決辦法?
    發(fā)表于 07-22 06:03

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    DeepSeek-V3的MoE架構(gòu)革新與DeepSeek-R1的強化學(xué)習(xí)突破,更揭開了中國大模型“五百萬美元創(chuàng)造GPT-4級性能”的工程奇跡。 書中讓我們看到國產(chǎn)模型如何在
    發(fā)表于 07-17 11:59

    OCR識別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄26張圖片,都標注好了,點擊開始訓(xùn)練,顯示訓(xùn)練成,也將壓縮包發(fā)到郵箱,下載下來后,壓縮包里面是空的 OCR圖片2
    發(fā)表于 05-28 06:46

    DeepSeek MoE架構(gòu)下的網(wǎng)絡(luò)負載如何優(yōu)化?解鎖90%網(wǎng)絡(luò)利用率的關(guān)鍵策略

    近年來,隨著AI大模型訓(xùn)練(如GPT-4、Gemini)的爆發(fā)式增長,數(shù)據(jù)中心網(wǎng)絡(luò)的流量壓力急劇上升。單次訓(xùn)練任務(wù)可能涉及數(shù)千張GPU卡協(xié)同
    的頭像 發(fā)表于 04-28 12:04 ?883次閱讀
    DeepSeek MoE<b class='flag-5'>架構(gòu)</b>下的網(wǎng)絡(luò)負載如何優(yōu)化?解鎖90%網(wǎng)絡(luò)利用率的關(guān)鍵策略

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?789次閱讀

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    ,聯(lián)發(fā)科帶來了全面升級的天璣AI開發(fā)套件2.0,在模型庫規(guī)模、架構(gòu)開放程度、前沿端側(cè)AI技術(shù)支持和端側(cè)LoRA訓(xùn)練落地等方面均迎來全面躍遷,為開發(fā)者提供
    發(fā)表于 04-13 19:52

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)

    ,成為新一代AI數(shù)據(jù)中心的核心驅(qū)動力。 AI時代的兩大數(shù)據(jù)中心:AI工廠與AI云 AI時代催生了兩類數(shù)據(jù)中心架構(gòu): AI工廠:用于大規(guī)模
    發(fā)表于 03-25 17:35

    請問如何在imx8mplus上部署和運行YOLOv5訓(xùn)練模型

    我正在從事 imx8mplus yocto 項目。我已經(jīng)在自定義數(shù)據(jù)上的 YOLOv5 上訓(xùn)練了對象檢測模型。它在 ubuntu 電腦上運行良好。現(xiàn)在我想在我的 imx8mplus
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉(zhuǎn)換為大語言模型能直接使用的二進制數(shù)據(jù),以便提升訓(xùn)練
    的頭像 發(fā)表于 03-21 18:24 ?4302次閱讀
    用PaddleNLP為<b class='flag-5'>GPT</b>-2<b class='flag-5'>模型</b>制作FineWeb二進制預(yù)<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    數(shù)據(jù)標注服務(wù)—奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,
    的頭像 發(fā)表于 03-21 10:30 ?3286次閱讀

    標貝數(shù)據(jù)標注服務(wù):奠定大模型訓(xùn)練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,
    的頭像 發(fā)表于 03-21 10:27 ?1109次閱讀
    標貝<b class='flag-5'>數(shù)據(jù)</b>標注服務(wù):奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    請問如何能讓模型的效果更好?

    重現(xiàn)步驟 我用yolov8n訓(xùn)練出的模型,跑出來的識別是沒有問題的,問題是在部署到開發(fā)板上,無論是穩(wěn)定性還是框的大小以及識別的準確性都比較差,再試了幾次訓(xùn)練后的效果還是不好,請問有什么
    發(fā)表于 03-11 07:21

    是否可以輸入隨機數(shù)據(jù)來生成INT8訓(xùn)練后量化模型

    無法確定是否可以輸入隨機數(shù)據(jù)來生成 INT8 訓(xùn)練后量化模型
    發(fā)表于 03-06 06:45