国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對標OpenAI GPT-4,MiniMax國內首個MoE大語言模型全量上線

jf_WZTOguxH ? 來源:AI前線 ? 2024-01-16 15:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 月 16 日,InfoQ 獲悉,經過了半個月的部分客戶的內測和反饋,MiniMax 全量發布大語言模型 abab6,該模型為國內首個 MoE(Mixture-of-Experts)大語言模型。

早在上個月舉辦的數字中國論壇成立大會暨數字化發展論壇的一場分論壇上,MiniMax 副總裁魏偉就曾透露將于近期發布國內首個基于 MoE 架構的大模型,對標 OpenAI GPT-4。

在 MoE 結構下,abab6 擁有大參數帶來的處理復雜任務的能力,同時模型在單位時間內能夠訓練足夠多的數據,計算效率也可以得到大幅提升。改進了 abab5.5 在處理更復雜、對模型輸出有更精細要求場景中出現的問題。 為什么選擇 MoE 架構?

那么,MoE 到底是什么?MiniMax 的大模型為何要使用使用 MoE 架構?

MoE 架構全稱專家混合(Mixture-of-Experts),是一種集成方法,其中整個問題被分為多個子任務,并將針對每個子任務訓練一組專家。MoE 模型將覆蓋不同學習者(專家)的不同輸入數據。

621db644-b431-11ee-8b88-92fbcf53809c.png

圖片來源:https ://arxiv.org/pdf/1701.06538.pdf

有傳聞稱,GPT-4 也采用了相同的架構方案。

2023 年 4 月,MiniMax 發布了開放平臺。過去半年多,MiniMax 陸續服務了近千家客戶,包括金山辦公、小紅書、騰訊、小米和閱文在內的多家頭部互聯網公司,MiniMax 開放平臺平均單日的 token 處理量達到了數百億。

MiniMax 在官微中發文稱:“這半年多來,客戶給我們提供了很多有價值的反饋和建議。例如,大家認為我們做得比較好的地方有:在寫作、聊天、問答等場景中,abab5.5 的表現不錯,達到了 GPT-3.5 的水平。”

但是和最先進的模型 GPT-4 相比,仍有明顯差距。這主要體現在處理更復雜的、對模型輸出有精細要求的場景時,存在一定概率違反用戶要求的輸出格式,或是在推理過程中發生錯誤。當然,這不僅是 abab5.5 的問題,也是目前除 GPT-4 以外,幾乎所有大語言模型存在的缺陷。

為了解決這個問題,進一步提升模型在復雜任務下的效果,MiniMax 技術團隊從去年 6 月份起開始研發 MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已應用于其 C 端產品中)。

雖然MiniMax 并未透露Abab6 的具體參數,但據MiniMax 透露,Abab6 比上一個版本大了一個量級。更大的模型意味著 abab6 可以更好的從訓練語料中學到更精細的規律,完成更復雜的任務。

但僅擴大參數量會帶來新的問題:降低模型的推理速度以及更慢的訓練時間。在很多應用場景中,訓練推理速度和模型效果同樣重要。為了保證 abab6 的運算速度,MiniMax 技術團隊使用了 MoE (Mixture of Experts 混合專家模型)結構。在該結構下,模型參數被劃分為多組“專家”,每次推理時只有一部分專家參與計算。基于 MoE 結構,abab6 可以具備大參數帶來的處理復雜任務的能力;計算效率也會得到提升,模型在單位時間內能夠訓練足夠多的數據。

目前大部分大語言模型開源和學術工作都沒有使用 MoE 架構。為了訓練 abab6,MiniMax 還自研了高效的 MoE 訓練和推理框架,也發明了一些 MoE 模型的訓練技巧。到目前為止,abab6 是國內第一個千億參數量以上的基于 MoE 架構的大語言模型。

測評結果

為了對比各模型在復雜場景下的表現,MiniMax 對 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用進行了自動評測。在簡單的任務上,abab5.5 已經做得比較好,因此 MiniMax 選擇了三種涵蓋了較復雜的問題的評測方法:

IFEval:這個評測主要測試模型遵守用戶指令的能力。在測試時,提問者會問模型一些帶有約束條件的問題,例如“以 XX 為標題,列出三個具體對方法,每個方法的描述不超過兩句話”,然后統計有多少回答嚴格滿足了約束條件。

MT-Bench:這個評測衡量模型的英文綜合能力。提問者會問模型多個類別的問題,包括角色扮演、寫作、信息提取、推理、數學、代碼、知識問答。MiniMax 技術團隊會用另一個大模型(GPT-4)對模型的回答打分,并統計平均分。

AlignBench:該評測反映了模型的中文綜合能力測試,測試形式與 MT-Bench 類似。

測評及對比結果如下:

6221c5d6-b431-11ee-8b88-92fbcf53809c.png

注:對比模型均選擇各自最新、效果最好的版本,分別為 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 號的版本。

可以看出,abab6 在三個測試集中均明顯好于前一代模型 abab5.5。在指令遵從、中文綜合能力和英文綜合能力上,abab6 大幅超過了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵從、中文綜合能力和英文綜合能力上略勝一籌。相較于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵從和中文綜合能力上都優于 Mistral-Medium,在英文綜合能力上與 Mistral- Medium 旗鼓相當。

如果想體驗 MiniMax MoE 大模型,可訪問 MiniMax 開放平臺官網:api.minimax.chat

ps:MiniMax 方面稱,模型還在持續訓練中,遠沒有收斂,歡迎大家反饋。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11310
  • OpenAI
    +關注

    關注

    9

    文章

    1245

    瀏覽量

    10058
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5179

原文標題:對標OpenAI GPT-4,MiniMax 國內首個 MoE 大語言模型全量上線

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5震撼發布:AI領域的重大飛躍

    躍升重新定義了人工智能的能力邊界。OpenAI首席執行官山姆·奧特曼在發布會上直言:“這不僅是模型的升級,更是通往通用人工智能(AGI)的關鍵里程碑。” ? ? GPT-5:集成模型
    的頭像 發表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發布:AI領域的重大飛躍

    登臨科技KS系列GPU產品全面適配MiniMax M2.5模型

    近日,蘇州登臨科技股份有限公司(以下簡稱“登臨科技”)自主研發的KS系列高性能通用GPU已全面完成對最新一代大模型MiniMax M2.5的深度適配與優化。通過創新的GPU+架構,登臨科技不僅實現了
    的頭像 發表于 03-04 17:49 ?1084次閱讀
    登臨科技KS系列GPU產品全面適配<b class='flag-5'>MiniMax</b> M2.5<b class='flag-5'>模型</b>

    沐曦曦云C500/C550 GPU產品深度適配MiniMax M2.5模型

    2月13日晚間,MiniMax正式開源MiniMax M2.5模型。沐曦技術團隊依托MXMACA軟件棧,在24小時內完成曦云C500/C550 對該模型的深度適配。
    的頭像 發表于 02-26 14:19 ?586次閱讀

    NVIDIA Grace Blackwell平臺實現MoE模型性能十倍提升

    如今,幾乎任一前沿模型的內部結構都采用混合專家 (MoE) 模型架構,這種架構旨在模擬人腦的高效運作機制。
    的頭像 發表于 12-13 09:23 ?888次閱讀
    NVIDIA Grace Blackwell平臺實現<b class='flag-5'>MoE</b><b class='flag-5'>模型</b>性能十倍提升

    GPT-5.1發布 OpenAI開始拼情商

    OpenAI正式上線GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網友實測發現
    的頭像 發表于 11-13 15:49 ?701次閱讀

    OpenAI Sora 2模型上線微軟Azure AI Foundry國際版

    我們非常激動地宣布,OpenAI 的新一代多模態視頻生成模型 Sora 2 現已在 Azure AI Foundry(國際版)上線,進入公共預覽階段。
    的頭像 發表于 10-22 09:44 ?766次閱讀
    <b class='flag-5'>OpenAI</b> Sora 2<b class='flag-5'>模型</b><b class='flag-5'>上線</b>微軟Azure AI Foundry國際版

    中科曙光助力首個地質大模型“坤樞”上線

    近日,首個地質領域專用大語言模型“坤樞”在河南鄭州正式上線,該大模型的部署將有助于夯實地質產業數字化基礎,在保障國家能源資源信息安全前提下,
    的頭像 發表于 10-14 16:12 ?779次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    Token (TPS)。 這兩個 gpt-oss 模型是具有鏈式思維和工具調用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型
    的頭像 發表于 08-15 20:34 ?2297次閱讀
    NVIDIA從云到邊緣加速<b class='flag-5'>OpenAI</b> <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實現150萬TPS推理

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企
    的頭像 發表于 08-14 11:34 ?1402次閱讀

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發布兩款全新的大語言模型gpt-oss-120b和gpt-oss-20b,性能與o
    的頭像 發表于 08-13 16:43 ?1565次閱讀

    SuperX全新發布多種規格的多模型一體機:全新定義企業級智能生產力

    該一體機將預搭載OpenAI最新發布的GPT-OSS-120B 和 GPT-OSS-20B性能卓越的大語言模型(LLM),也可選擇下載全球其
    的頭像 發表于 08-08 08:52 ?605次閱讀
    SuperX全新發布多種規格的多<b class='flag-5'>模型</b>一體機:全新定義企業級智能生產力

    OpenAI或在周五凌晨發布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或將發布。據外媒的報道,GPT-5很可能在周五凌晨發布。這是
    的頭像 發表于 08-07 14:13 ?1.2w次閱讀

    亞馬遜云科技現已上線OpenAI開放權重模型

    客戶現可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權重模型,實現將先進的開放權重模型與全球最廣泛云服務的深度集成。 亞馬遜云科技首次上線
    的頭像 發表于 08-06 19:29 ?843次閱讀

    OpenAI發布2款開源模型

    OpenAI開源了兩款高性能權重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI
    的頭像 發表于 08-06 14:25 ?1026次閱讀

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    開源新一代通義千問模型Qwen3。據悉,Qwen3模型參數量僅為DeepSeek - R1的1/3,能夠大幅降低成本,而且性能全面超越R1、OpenAI - o1等全球頂尖模型,登頂全
    的頭像 發表于 04-30 16:08 ?1318次閱讀