2026年1月13日凌晨，DeepSeek突然發布由創始人梁文鋒署名的新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》，并同步開源記憶模塊Engram。這一機制通過可擴展查找結構，讓大模型實現O(1)時間復雜度的"條件反射式"記憶檢索，被業界視為破解Transformer效率瓶頸的關鍵鑰匙。

傳統Transformer的"記憶困境"

當前大語言模型面臨三大結構性問題：注意力計算的O(n2)復雜度在長序列下成為瓶頸；所有知識隱式存儲在參數中，檢索常識需激活整個網絡；早期層負擔過重，既要做語義理解又要承擔知識檢索。這種"低效的反復計算"導致算力浪費，尤其在知識調用、代碼補全等需要高頻查表的任務中表現突出。

Engram的"雙通道記憶"設計

DeepSeek從神經科學汲取靈感：人腦分為程序性記憶（騎自行車）和陳述性記憶（回憶電話號碼）。Engram將這一機制映射到模型架構中——條件記憶負責快速查表，注意力負責靈活推理，兩者協同構成"稀疏性的新軸"。

技術實現上，Engram采用哈希N-Gram嵌入機制：對輸入Token序列進行連續N個詞的切片，通過哈希算法映射到可擴展的靜態查找表。這種方法是確定性且O(1)時間復雜度的，無論存儲多少萬億記憶片段，檢索速度恒定，算力消耗極低。同時，輕量化門控機制會根據當前上下文判斷是否啟用查表結果，避免生硬注入。

實測數據：性能提升超預期

DeepSeek在同等參數和算力條件下進行嚴格對比測試（均為38億激活參數，2620億訓練Token）：

知識密集型任務 ：MMLU提升3分，CMMLU提升4.0分，TriviaQA提升1.9分

通用推理與代碼 ：BBH大幅提升5.0分，HumanEval代碼生成提升3.0分，數學任務MATH提升2.4分

長上下文能力 ：Multi-Query NIAH準確率從84.2躍升至97.0，Variable Tracking從77.0提升到89.0

更關鍵的是，Engram讓模型早期層不再做"苦力活"，第5層的表征即可達到基線模型第12層的水平，有效深度增加一倍，省下的層數用于更復雜的推理。

行業意義：DeepSeek V4的前奏

梁文鋒連續署名兩篇論文（mHC架構與Engram），預示DeepSeek V4的技術輪廓日漸清晰。如果說mHC是底層架構創新，Engram則是在架構層面做"分工重構"。這種"存算分離"設計，完美契合算力受限環境下的性價比路線——在同等算力下實現更強性能。

對行業而言，開源Engram的價值在于：它提供了第一個可微分、可訓練、原生嵌入模型結構的記憶增強方案，讓開發者無需從零構建。從代碼補全到醫療知識庫，從多語言翻譯到法律條文檢索，O(1)查找式記憶將為垂直領域大模型帶來35-45%的吞吐量提升和25-35%的成本降低。

效率革命的"陽謀"

DeepSeek此舉既是技術突破，更是戰略卡位。當行業陷入"算力軍備競賽"，它選擇用架構創新打破硬約束。Engram的巧妙在于不挑戰Transformer根基，而是增強其薄弱環節，與MoE形成"計算-記憶"雙稀疏，實現1+1>2。

但挑戰同樣存在：哈希沖突率如何控制？靜態記憶表更新機制是否成熟？在創意生成等需要強泛化場景下，Engram是否會產生"記憶固化"副作用？這些都需要大規模實戰檢驗。

Engram的開源，標志著大模型優化從"參數競賽"轉向"架構效率"。當梁文鋒將"記憶痕跡"這一神經科學概念注入AI，我們看到的不僅是性能數字的提升，更是中國AI企業在技術路線上從追隨到并跑的自信。若DeepSeek V4搭載Engram如期上線，或將證明：在算力受限時代，聰明的架構設計比野蠻的參數量堆砌更具長期價值。這場記憶革命，才剛剛開始。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴