? ? 在2023 人工智能大會上,據統計,有 24 款大模型新品在大會上發布或升級,發布主體不僅包括互聯網龍頭企業,也包括移動聯通等運營商、創業公司及各大高校。 與國內大模型產品相比,chatGPT 效果依然最優。根據 InfoQ 數據顯示,chatGPT 在大模型產品測評中分數最高,綜合得分率為 77.13%,國內大模型產品文心一言正迅速追趕,在國內大語言模型中位列第一。

介紹GPT-4 詳細參數及英特爾發布 Gaudi2 加速器相關內容,對大模型及 GPU 生態進行探討和展望。英特爾發布高性價比Gaudi2加速卡GPT4詳細參數分析。 與國內大模型產品相比,chatGPT 效果依然最優。根據 InfoQ 數據顯示,chatGPT 在大模型產品測評中分數最高,綜合得分率為 77.13%,國內大模型產品文心一言正迅速追趕,在國內大語言模型中位列第一。
在這一背景下,市場普遍認為 GPT-4 的模型架構、基礎設施、參數設計等具有一定程度的領先。由于官方并未公布 GPT-4 的詳細參數,業內人士對 GPT-4 的詳細參數進行了推斷. 參數量:GPT-4 的大小是 GPT-3 的 10 倍以上,包含 1.8 萬億個參數; 混合專家模型:OpenAI 使用混合專家(MoE)模型,依此保持相應的成本。混合專家模型使用了 16 個專家模型,每個模型大約有 111B 個參數,每次計算將其中兩個專家模型通過前向傳遞的方式將結果進行反饋; 數據集:GPT-4 的訓練數據集將多個 epoch 中的 token 計算在內包含約 13萬億個 token; 推理:相較于純密集模型每次前向傳遞需要大約 1.8 萬億個參數和約 3700TFLOP 的計算量,GPT-4 每次前向傳遞(生成 1 個 token)僅利用約 2800 億個參數和約 560 TFLOP 的計算量; 并行策略:為了在所有 A100 GPU 上進行并行計算,GPT-4 采用了 8 路張量并行,因為這是 NVLink 的極限。
除此之外,GPT-4 采用了 15 路流水線并行; 訓練成本:OpenAI 在 GPT-4 的訓練中使用了大約 2.15e25 的 FLOPS,使用了約 25,000 個 A100 GPU,訓練了 90 到 100 天,利用率(MFU)約為32% 至 36%。假定云端的每個 A100 GPU 的成本大約為每小時 1 美元,那么單次訓練的成本將達到約 6300 萬美元,如果使用約 8192 個 H100 GPU進行預訓練,用時約為 55 天左右,成本為 2150 萬美元,每個 H100 GPU的計費標準為每小時 2 美元;
推理成本:GPT-4 的推理成本是 1750 億參數模型的 3 倍,這主要是因為GPT-4 的集群規模更大,并且利用率很低。根據測算,在用 128 個 A100GPU 進行推理的情況下,8k 版本 GPT-4 推理的成本為每 1,000 個 token0.0049 美分。如果使用 128 個 H100 GPU 進行推理,同樣的 8k 版本 GPT-4推理成本為每 1,000 個 token 0.0021 美分; 推理架構:推理運行在由 128 個 GPU 組成的集群上。在不同地點的多個數據中心存在多個這樣的集群。
推理過程采用 8 路張量并行(tensor parallelism)和16 路流水線并行(pipeline parallelism)。 視覺多模態:獨立于文本編碼器的視覺編碼器,二者之間存在交叉注意力。該架構類似于 Flamingo。這在 GPT-4 的 1.8 萬億個參數之上增加了更多參數,經過了純文本的預訓練之后,又新增了約 2 萬億個 token 的微調。 由于大模型訓練成本較高,性價比問題凸顯。7 月 11 日,Intel 面向國內提出了新的解決方案,推出了第二代 Gaudi 深度學習加速器 Habana Gaudi2。Gaudi2深度學習以第一代 Gaudi 高性能架構為基礎,多方位性能與能效比提升,加速高性能大語言模型運行。該加速器具備以下性能:
?96GB HBM2E 內存容量;
?2.4TB/秒的總內存帶寬;
?48MB 片上 SRAM;
?集成多媒體處理引擎。
Habana Gaudi2 深度學習加速器和第四代英特爾至強可擴展處理器在 MLPerfTraining 3.0 基準測試上表現優異。
在大語言模型 GPT-3 的評測上,Gaudi2 也展示了其較優的性能。它是僅有的兩個提交了 GPT-3 LLM 訓練性能結果的解決方案之一(另一個是英偉達H100)。在 GPT-3 的訓練上,英特爾使用 384 塊 Gaudi 2 加速器使用 311 分鐘訓練完成,在 GPT-3 模型上從 256 個加速器到 384 個加速器實現了近線性 95%的擴展。
目前,已有部分廠商推出了基于英特爾 AI 加速卡的產品。在發布活動中,英特爾宣布 Gaudi2 首先將通過浪潮信息向國內客戶提供,打造并發售基于 Gaudi2深度學習加速器的浪潮信息 AI 服務器 NF5698G7。其服務器集成了 8 塊 Gaudi2加速卡 HL-225B,還包含兩顆第四代英特爾至強可擴展處理器。 編輯:黃飛
?
電子發燒友App












































評論