伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探索DeepSeek多樣化技術路徑,英特爾架構師用至強CPU嘗鮮

話說科技 ? 來源:話說科技 ? 作者:話說科技 ? 2026-02-05 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期大模型領域里最火的熱詞,或者說技術創新點,非Engram (DeepSeek最新論文里設計的Engram機制) 莫屬。今天我們想分享的,是英特爾圍繞Engram開展的早期探索——用至強? 處理器獨立運行整個Engram模塊,并使用其內置的英特爾? AMX(高級矩陣擴展)技術對其進行加速的初步成果或收獲。

我們希望這次分享,或能作為參考,或是作為開端,能為未來Engram以及集成它的大模型的部署和實踐,拓展和探明更多可能性及隨之而來的潛在應用優勢。

Engram設計初衷:

讓大模型走向“查算分離”

讓我們先簡單回顧Engram的源起,它出現在公眾視野,是源自DeepSeek聯合北京大學發布的論文《Conditional Memory via Scalable Lookup》。業界對它的評價,是為“破解萬物皆推理”模式引發的大模型的記憶困境提供了全新思路。這里提到的記憶困境,指的是寶貴的算力被消耗在本可直接調取的靜態知識檢索上,這不僅會拖慢響應速度、增加推理成本,還讓大模型在復雜任務上的性能突破陷入瓶頸。

該論文創新地在大模型中提出了“查算分離”理念,通過Engram引入外置記憶模塊,將“靜態、常見、局部”的知識從計算里解放出來,在拉升檢索效率至O(1)復雜度的同時,也把寶貴的算力資源留給Transformer專心做上下文理解和推理。

Engram核心創新:

用“外置記憶模塊”實現查算分離理念

Engram將“查算分離”落到實處的做法,就是把大模型里的“計算”和“超大規模記憶”解耦,Transformer的算子全部在GPU/加速卡上計算,而龐大的Engram Embedding表放在CPU內存或高速存儲設備上存查。如圖1所示,GPU與CPU分工合作并通過異步方式協同,GPU執行前一步計算的同時,CPU可提前預取后續計算所需的N-gram Embedding表,當計算執行到“Transformer Block with Engram”時,所需的靜態知識已經就位。

這種分工模式改變了傳統大模型“推理既要計算又要記憶”的狀態,就像給學者配備了一本可即時查閱的百科詞典,無需每次都從頭推導基礎知識點,而是將精力集中在深度思考上。

wKgZPGmECsuASTw8AABORamL8tc639.png

圖1 大模型通過集成Engram實現查算分離

同時基于這一設計,Engram能充分利用CPU平臺對大容量內存的有效支持,將“超大規模記憶”部分卸載至CPU平臺上。論文數據提到:“將 1000 億參數的表卸載至CPU內存時,僅產生可忽略的開銷(小于 3%)。” 這表明,Engram 能有效突破GPU顯存限制,為大規模參數擴展提供支持,從而為大模型用戶帶來顯性收益。i

Engram計算流程解析

如圖2所示,在Engram的計算架構中,其被嵌入Transformer主干網絡,有以下幾個主要工作階段:

wKgZO2mECsyAEBbGAACdO5Ic46E119.png

圖2 Engram計算架構及核心工作流程

N-gram哈希檢索階段:模塊對輸入序列提取2-gram、3-gram等不同子序列(如圖中的“the Great”、“Alexander the Great”),每個子序列對應其階數的多頭哈希機制,從預構建的靜態N-gram 嵌入表(如圖中的2-Gram Embedding、3-Gram Embedding表)中以O (1)復雜度查詢對應嵌入。

動態門控融合階段:N-gram 嵌入表先經Concat(通道拼接)形成融合記憶向量,再通過兩個Linear(線性轉換)層分別投影為Key(記憶語義摘要)與Value(待注入信息)。隨后將當前Transformer層的Input Hidden(全局上下文)與 Key 做 Scaled Dot Product (點積計算)生成門控權重,動態過濾與上下文無關的Value信息。加權后的Value再通過Conv卷積計算完成局部融合。

殘差集成階段:局部融合后的記憶特征通過加法操作,殘差加回該Transformer Block的輸入,并直接輸入后續的Attention與MoE層。

英特爾的探索:

用CPU獨立運行及加速整個Engram模塊

在Engram相關論文發表,DeepSeek開源上述流程的Demo代碼后,不少業內專家和機構都開展了相關的復現、驗證及測試工作。我們的探索則更進一步——不同于原論文中Concat之后的工作任務將交還給GPU執行,我們不僅將N-gram哈希檢索階段的計算放在至強? 平臺上執行,還將動態門控融合階段中的Linear轉換計算和Conv卷積計算也放到該平臺上運行。換言之,我們是基于充分的性能調優,嘗試用CPU平臺獨立運行和加速整個Engram模塊。

這種“更進一步”的底氣,來自AMX技術,這是從第四代英特爾? 至強? 可擴展處理器開始就內置于至強? 處理器,且到目前為止也是全球主流服務器CPU產品中僅為該產品線所獨有的CPU內置型矩陣計算加速技術。無論是Linear轉換計算還是Conv卷積計算,都屬于矩陣密集型計算,因此,理論上內置AMX的至強? 處理器可以“順勢”完成整個Engram的運行和加速。

wKgZPGmECsyAPz3iAADAZIXTDys42.jpeg

圖3 從Engram原有工作流程轉向用CPU運行整個模塊并導入AMX加速

基于此,我們著手在Linear轉換計算和Conv卷積計算中利用AMX技術開展了性能加速。具體來說,在Engram中,兩個Linear轉換計算分別需要處理大量維度映射的矩陣乘法,而AMX的專用矩陣計算單元可并行處理多批次、長序列的高維矩陣乘法,且單條指令可完成更大規模的矩陣運算,運算效率遠超傳統CPU計算或向量計算(如AVX-512)。在Conv的 short_conv(短卷積)計算中,AMX的矩陣運算能力也可針對短卷積的“小窗口、高并行” 特性實現優化。此外,AMX還對BF16/FP16/INT8等不同的數據格式有著良好支持,能進一步提升矩陣運算加速的性能與靈活性。

我們目前已完成了一些初步測試,如圖4和圖5所示,其結果表明,在同一款至強? 6處理器平臺上,如果使用AVX-512加速,在batch size等于50,token length等于14的FP16數據格式下,整個Engram的耗時需要10.046ms, 而使用AMX來加速Linear轉換計算和Conv卷積計算,Engram的耗時只要6.022ms,整體性能提升至AVX-512的1.67倍ii。

wKgZO2mECsyAYSMjAABWPnzMbbI05.jpeg

圖4 測試得出的在FP16數據格式下分別用AMX 和AVX-512加速的執行時間

(每次測試結果都可能存在少許浮動,在可接受范圍)

wKgZPGmECs2AMkgGAACPpdeItB0171.png

圖5 用英特爾? AMX加速Engram模塊中Linear和卷積計算的性能表現

上述探索和測試是基于DeepSeek開源的deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models的相關代碼,歡迎同行們一起討論交流。

接下來英特爾會繼續圍繞Engram及集成它的大模型開展更多、更為深入的探索,特別是在DeepSeek相關模型正式發布后,我們會更為全面、系統地評估CPU獨立運行和加速Engram模塊會對整個模型的端到端性能、部署和應用的門檻,以及投資回報等維度帶來怎樣的影響,相關進展與成果也將在第一時間分享。

正如開篇所說,我們相信這些工作與Engram的設計初衷是相向而行的,即在用 “查算分離” 理念打破傳統大模型的記憶困境的同時,也讓AI基礎設施中的GPU和CPU實現更好的協作,并充分釋放它們各自的潛能,進而大幅提升AI系統的部署效率及投資回報,或者進一步拉低AI部署與實踐的成本或門檻。我們的工作,就是希望能為這一目標的達成拓展出更為多樣化的技術路徑與更強的靈活性。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10310

    瀏覽量

    180777
  • 架構師
    +關注

    關注

    0

    文章

    48

    瀏覽量

    4923
  • DeepSeek
    +關注

    關注

    2

    文章

    837

    瀏覽量

    3330
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    超越臺積電?英特爾首個18A工藝芯片邁向大規模量產

    Lake作為英特爾首款基于Intel 18A制程工藝打造的產品,意義非凡。這一制程是英特爾研發并制造的最先進半導體工藝,標志著英特爾技術領域邁出了關鍵一步。 ?
    的頭像 發表于 10-11 08:14 ?9212次閱讀
    超越臺積電?<b class='flag-5'>英特爾</b>首個18A工藝芯片邁向大規模量產

    英特爾至強6“芯”動GTC 2026,為英偉達DCG Rubin解鎖系統級性能

    的關鍵階段,至強系列處理器為GPU加速AI系統,提供架構一致性與強大擴展能力所發揮的重要支撐作用。 英特爾公司副總裁兼數據中心戰略項目總經理Jeff McVeigh表示: “當前,AI發展正從大規模訓練加速階段,轉向由智能體AI
    的頭像 發表于 03-19 16:43 ?183次閱讀

    英特爾與華陽通用聯手推出全新AI Box解決方案

    英特爾宣布推出基于最新英特爾 酷睿 Ultra 架構的AI Box解決方案,將PC級旗艦算力引入汽車、工業自動、軌道交通、機器人等多種工業環境,為各行各業接入AI大模型提供高效靈活的
    的頭像 發表于 03-02 14:15 ?542次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現已為DeepSeek-V3.1提供深度優化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實現從模型訓練的深度突破到推理部署的實時響應,為大模型的加速落地提供
    的頭像 發表于 08-26 19:18 ?3144次閱讀
    <b class='flag-5'>英特爾</b>Gaudi 2E AI加速器為<b class='flag-5'>DeepSeek</b>-V3.1提供加速支持

    英特爾連通愛爾蘭Fab34與Fab10晶圓廠,加速先進制程芯片生產進程

    決定連通愛爾蘭的Fab 34與Fab 10晶圓廠。 ? 目前,英特爾先進制程技術Intel 4/3的主要生產重擔,落在了位于愛爾蘭萊克斯利普的Fab 34晶圓廠肩頭。這一晶圓廠對于英特爾至關重要,當下熱門的
    的頭像 發表于 08-25 15:05 ?954次閱讀

    英特爾至強6助力阿里云第九代企業級ECS實例100天贏得超萬家客戶青睞

    近日,搭載英特爾? 至強? 6性能核處理器的阿里云第九代企業級ECS實例g9i正式迎來商業100天里程碑,并獲得超過10,000家客戶的信賴與選擇。通過全場景的卓越性能提升,至強6性
    的頭像 發表于 07-29 15:44 ?635次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    問題,又像橫在發展路上的巨石,提醒我技術創新并非坦途,新架構在帶來優勢的同時,也會伴隨新挑戰。 五、小結 讀完第三章,DeepSeek - V3 的技術剖析讓我從
    發表于 07-20 15:07

    主控CPU全能選手,英特爾至強6助力AI系統高效運轉

    2025年3月,英偉達發布了DGX B300 AI加速計算平臺。2025年5月,英特爾發布了三款全新英特爾至強6性能核處理器,其中一款6776P被用作是DGX B300的主控CPU,這
    的頭像 發表于 06-27 11:44 ?934次閱讀
    主控<b class='flag-5'>CPU</b>全能選手,<b class='flag-5'>英特爾</b><b class='flag-5'>至強</b>6助力AI系統高效運轉

    術業有專攻——AI系統主控CPU英特爾至強6新品處理器淺析

    一、至強6與NVIDIA GPU?協同的硬件基礎 在 AI 異構計算架構中,英特爾至強6處理器作為主控CPU可以與NVIDIA最新GPU 很
    的頭像 發表于 06-19 16:37 ?871次閱讀
    術業有專攻——AI系統主控<b class='flag-5'>CPU</b><b class='flag-5'>英特爾</b><b class='flag-5'>至強</b>6新品處理器淺析

    分析英特爾轉型之路,機遇與挑戰并存

    內容編譯自投資分析Oliver Rodzianko觀點文章 作為一名長期關注英特爾發展的投資者,我對陳立武(Lip-Bu Tan)出任英特爾 CEO充滿期待。陳立武的管理風格兼具魄力與戰略眼光
    的頭像 發表于 06-10 10:59 ?619次閱讀
    分析<b class='flag-5'>師</b>:<b class='flag-5'>英特爾</b>轉型之路,機遇與挑戰并存

    Intel-Altera FPGA:通信行業的加速引擎,開啟高速互聯新時代

    地位。Intel-Altera FPGA的獨立運營標志著英特爾戰略重心的轉移,同時也為FPGA業務開辟了新的增長路徑。未來,Altera需在技術創新與市場拓展間找到平衡,以應對日益激烈的行業競爭。
    發表于 04-25 10:19

    英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能

    英特爾在智能座艙領域的創新產品組合。同時,英特爾還宣布與黑芝麻智能、面壁智能、BOS Semiconductors等公司建立合作關系,共同攻克汽車智能進程中的技術難題,建設開放共贏的
    的頭像 發表于 04-23 21:20 ?1478次閱讀
    <b class='flag-5'>英特爾</b>首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能<b class='flag-5'>化</b>

    英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能

    基于芯粒架構的設計,進一步擴展了英特爾在智能座艙領域的創新產品組合。同時,英特爾還宣布與黑芝麻智能、面壁智能、BOS Semiconductors等公司建立合作關系,共同攻克汽車智能
    發表于 04-23 14:26 ?797次閱讀

    盟通科技攜手Acontis助力英特爾虛擬驅動工業負載整合

    近期,盟通科技聯合合作伙伴Acontis與英特爾針對虛擬驅動工業負載的整合這一課題展開了合作。Acontis經過多年技術積累,推出了成熟、可靠且高效的實時虛擬擴展方案,對于這些方案
    的頭像 發表于 04-11 10:50 ?997次閱讀
    盟通科技攜手Acontis助力<b class='flag-5'>英特爾</b>虛擬<b class='flag-5'>化</b>驅動工業負載整合

    1.9倍性能提升!英特爾至強6在MLPerf基準測試中表現卓越

    與第五代至強處理器相比,英特爾至強6性能核的性能平均提高了1.9倍。 今日,MLCommons公布了最新的MLPerf推理v5.0基準測試結果,其中,英特爾??
    的頭像 發表于 04-07 10:58 ?729次閱讀