国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

幻方量化發布了國內首個開源MoE大模型—DeepSeekMoE

OSC開源社區 ? 來源:OSC開源社區 ? 2024-01-23 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

幻方量化旗下組織深度求索發布了國內首個開源 MoE 大模型 ——DeepSeekMoE,全新架構,免費商用。

今年 4 月,幻方量化發布公告稱,公司將集中資源和力量,全力投身到服務于全人類共同利益的人工智能技術之中,成立新的獨立研究組織,探索 AGI 的本質。幻方將這個新組織命名為 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代碼、論文均已同步發布。

模型下載:https://huggingface.co/deepseek-ai

微調代碼:https://github.com/deepseek-ai/DeepSeek-MoE

技術報告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

據介紹,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均領先:

DeepSeekMoE-2B 可接近 MoE 模型的理論上限2B Dense 模型性能(即相同 Attention/FFN 參數配比的 2B Dense 模型),僅用了 17.5% 計算量

DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同時,僅用了 40% 計算量,也是本次主力開源模型,40G 顯存可單卡部署

DeepSeekMoE-145B 上的早期實驗進一步證明該 MoE 架構明顯領先于 Google 的 MoE 架構 GShard,僅用 28.5%(甚至 18.2%)計算量即可匹配 67B Dense 模型的性能

c8cd958e-b13a-11ee-8b88-92fbcf53809c.pngc8e00fca-b13a-11ee-8b88-92fbcf53809c.png

混合專家模型 (Mixed Expert Models,簡稱 MoEs)是用于提高大語言模型效率和準確度的技術。這種方法的核心是將復雜任務劃分為更小、更易管理的子任務,每個子任務由專門的小型模型或 “專家” 負責,然后根據輸入數據的特性選擇性地激活這些 “專家”。 MoE 核心組成:

專家 (Experts):訓練有素的小型神經網絡,擅長特定領域。每個專家通常專注于處理一種特定類型的數據或任務。專家的設計可以是多種形式,如完全連接的網絡、卷積網絡等。

門控機制 (Gating Mechanism):MoE 架構決策者,這是一個智能路由系統,負責決定哪些專家應該被激活來處理當前的輸入數據。門控機制基于輸入數據的特性,動態地將數據分配給不同的專家。

官方稱 DeepSeekMoE 是自研的全新 MoE 框架,主要包含兩大創新:

細粒度專家劃分:不同于傳統 MoE 直接從與標準 FFN 大小相同的 N 個專家里選擇激活 K 個專家(如 Mistral 7B8 采取 8 個專家選 2 專家),DeepSeekMoE把 N 個專家粒度劃分更細,在保證激活參數量不變的情況下,從 mN 個專家中選擇激活 mK 個專家(如 DeepSeekMoE 16B 采取 64 個專家選 8 個專家),如此可以更加靈活地組合多個專家

共享專家分離:DeepSeekMoE 把激活專家區分為共享專家(Shared Expert)和獨立路由專家(Routed Expert),此舉有利于將共享和通用的知識壓縮進公共參數,減少獨立路由專家參數之間的知識冗余

c907f634-b13a-11ee-8b88-92fbcf53809c.png






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107745
  • 智能路由
    +關注

    關注

    0

    文章

    9

    瀏覽量

    7229
  • 卷積網絡
    +關注

    關注

    0

    文章

    43

    瀏覽量

    3205
  • DeepSeek
    +關注

    關注

    2

    文章

    835

    瀏覽量

    3255

原文標題:幻方量化開源國內首個MoE大模型,全新架構、免費商用

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    眾智FlagOS適配面壁智能開源全模態大模型MiniCPM-o 4.5

    2月3日,面壁智能正式發布開源集語言、視覺、語音于一體的全模態大模型 MiniCPM-o 4.5。作為首個全雙工全模態大
    的頭像 發表于 02-09 14:45 ?631次閱讀
    眾智FlagOS適配面壁智能<b class='flag-5'>開源</b>全模態大<b class='flag-5'>模型</b>MiniCPM-o 4.5

    商湯大裝置助力上海發布全國規劃資源領域首個基礎大模型

    近日,上海量子城市空間智能建設年度成果之一——全國規劃資源領域首個基礎大模型“云宇星空大模型(專業版)”正式發布
    的頭像 發表于 12-30 14:38 ?599次閱讀
    商湯大裝置助力上海<b class='flag-5'>發布</b>全國規劃資源領域<b class='flag-5'>首個</b>基礎大<b class='flag-5'>模型</b>

    今日看點:小米正式發布開源模型 MiMo-V2-Flash;磷酸鐵鋰開啟漲價潮

    小米正式發布開源模型 MiMo-V2-Flash 近日小米正式發布開源模型 MiMo-V
    的頭像 發表于 12-17 09:42 ?4202次閱讀

    NVIDIA Grace Blackwell平臺實現MoE模型性能十倍提升

    如今,幾乎任一前沿模型的內部結構都采用混合專家 (MoE) 模型架構,這種架構旨在模擬人腦的高效運作機制。
    的頭像 發表于 12-13 09:23 ?888次閱讀
    NVIDIA Grace Blackwell平臺實現<b class='flag-5'>MoE</b><b class='flag-5'>模型</b>性能十倍提升

    商湯科技正式發布開源全新多模態模型架構NEO

    商湯科技正式發布開源與南洋理工大學S-Lab合作研發的全新多模態模型架構 —— NEO,為日日新SenseNova 多模態模型奠定
    的頭像 發表于 12-08 11:19 ?1014次閱讀
    商湯科技正式<b class='flag-5'>發布</b>并<b class='flag-5'>開源</b>全新多模態<b class='flag-5'>模型</b>架構NEO

    大規模專家并行模型在TensorRT-LLM的設計

    DeepSeek-V3 / R1 等模型采用大規模細粒度混合專家模型 (MoE) 架構,大幅提升了開源模型的質量。Llama 4 和 Qwe
    的頭像 發表于 09-06 15:21 ?1224次閱讀
    大規模專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設計

    中科曙光發布國內首個開放架構AI超集群系統

    9月5日,在2025重慶世界智能產業博覽會上,中科曙光發布國內首個基于AI計算開放架構設計的產品——曙光AI超集群系統。該系統以GPU為核心,實現
    的頭像 發表于 09-06 09:11 ?1444次閱讀

    華為宣布開源盤古7B稠密和72B混合專家模型

    關鍵一步,為全球開發者、企業及研究人員提供強大的技術支撐。 ? 華為此次開源行動涵蓋三大核心板塊:盤古Pro MoE 72B模型權重與基礎推理代碼已率先上線
    的頭像 發表于 07-06 05:51 ?7404次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型和基于昇騰的模型
    的頭像 發表于 06-30 11:19 ?1329次閱讀

    瑞芯微模型量化文件構建

    模型是一張圖片輸入時,量化文件如上圖所示。但是我現在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型訓練時數據集只標注
    發表于 06-13 09:07

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發布開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源
    的頭像 發表于 05-08 11:45 ?2986次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳實踐

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    似乎國內外AI競爭日趨白熱化,就在阿里巴巴發布Qwen3(通義千問3)之后,引發業界廣泛關注;很多大廠在跟進,大模型不斷上新: 阿里巴巴開源新一代通義千問
    的頭像 發表于 04-30 16:08 ?1317次閱讀

    NVIDIA發布全球首個開源人形機器人基礎模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技術,助力人形機器人開發。其中包括全球首個開源且完全可定制的基礎模型NVIDIA Isaac GR00T N1,該模型可賦能通用人形機器人實現推理及各項
    的頭像 發表于 03-20 14:34 ?1696次閱讀

    英偉達GROOT N1 全球首個開源人形機器人基礎模型

    英偉達GROOT N1 全球首個開源人形機器人基礎大模型
    的頭像 發表于 03-20 11:05 ?2136次閱讀

    首個Mamba系列模型量化方案MambaQuant解讀

    MambaQuant在Mamba系列模型上實現W8A8/W4A8量化的方法,精度逼近浮點,超過Quarot等SOTA方法。該工作已被人工智能頂會ICLR-2025接收。
    的頭像 發表于 03-05 11:10 ?1283次閱讀
    <b class='flag-5'>首個</b>Mamba系列<b class='flag-5'>模型</b><b class='flag-5'>量化</b>方案MambaQuant解讀