2026年1月13日凌晨,DeepSeek突然發(fā)布由創(chuàng)始人梁文鋒署名的新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,并同步開源記憶模塊Engram。這一機制通過可擴展查找結(jié)構(gòu),讓大模型實現(xiàn)O(1)時間復雜度的"條件反射式"記憶檢索,被業(yè)界視為破解Transformer效率瓶頸的關鍵鑰匙。
傳統(tǒng)Transformer的"記憶困境"
當前大語言模型面臨三大結(jié)構(gòu)性問題:注意力計算的O(n2)復雜度在長序列下成為瓶頸;所有知識隱式存儲在參數(shù)中,檢索常識需激活整個網(wǎng)絡;早期層負擔過重,既要做語義理解又要承擔知識檢索。這種"低效的反復計算"導致算力浪費,尤其在知識調(diào)用、代碼補全等需要高頻查表的任務中表現(xiàn)突出。
Engram的"雙通道記憶"設計
DeepSeek從神經(jīng)科學汲取靈感:人腦分為程序性記憶(騎自行車)和陳述性記憶(回憶電話號碼)。Engram將這一機制映射到模型架構(gòu)中——條件記憶負責快速查表,注意力負責靈活推理,兩者協(xié)同構(gòu)成"稀疏性的新軸"。
技術(shù)實現(xiàn)上,Engram采用哈希N-Gram嵌入機制:對輸入Token序列進行連續(xù)N個詞的切片,通過哈希算法映射到可擴展的靜態(tài)查找表。這種方法是確定性且O(1)時間復雜度的,無論存儲多少萬億記憶片段,檢索速度恒定,算力消耗極低。同時,輕量化門控機制會根據(jù)當前上下文判斷是否啟用查表結(jié)果,避免生硬注入。
實測數(shù)據(jù):性能提升超預期
DeepSeek在同等參數(shù)和算力條件下進行嚴格對比測試(均為38億激活參數(shù),2620億訓練Token):
知識密集型任務 :MMLU提升3分,CMMLU提升4.0分,TriviaQA提升1.9分
通用推理與代碼 :BBH大幅提升5.0分,HumanEval代碼生成提升3.0分,數(shù)學任務MATH提升2.4分
長上下文能力 :Multi-Query NIAH準確率從84.2躍升至97.0,Variable Tracking從77.0提升到89.0
更關鍵的是,Engram讓模型早期層不再做"苦力活",第5層的表征即可達到基線模型第12層的水平,有效深度增加一倍,省下的層數(shù)用于更復雜的推理。
行業(yè)意義:DeepSeek V4的前奏
梁文鋒連續(xù)署名兩篇論文(mHC架構(gòu)與Engram),預示DeepSeek V4的技術(shù)輪廓日漸清晰。如果說mHC是底層架構(gòu)創(chuàng)新,Engram則是在架構(gòu)層面做"分工重構(gòu)"。這種"存算分離"設計,完美契合算力受限環(huán)境下的性價比路線——在同等算力下實現(xiàn)更強性能。
對行業(yè)而言,開源Engram的價值在于:它提供了第一個可微分、可訓練、原生嵌入模型結(jié)構(gòu)的記憶增強方案,讓開發(fā)者無需從零構(gòu)建。從代碼補全到醫(yī)療知識庫,從多語言翻譯到法律條文檢索,O(1)查找式記憶將為垂直領域大模型帶來35-45%的吞吐量提升和25-35%的成本降低。
效率革命的"陽謀"
DeepSeek此舉既是技術(shù)突破,更是戰(zhàn)略卡位。當行業(yè)陷入"算力軍備競賽",它選擇用架構(gòu)創(chuàng)新打破硬約束。Engram的巧妙在于不挑戰(zhàn)Transformer根基,而是增強其薄弱環(huán)節(jié),與MoE形成"計算-記憶"雙稀疏,實現(xiàn)1+1>2。
但挑戰(zhàn)同樣存在:哈希沖突率如何控制?靜態(tài)記憶表更新機制是否成熟?在創(chuàng)意生成等需要強泛化場景下,Engram是否會產(chǎn)生"記憶固化"副作用?這些都需要大規(guī)模實戰(zhàn)檢驗。
Engram的開源,標志著大模型優(yōu)化從"參數(shù)競賽"轉(zhuǎn)向"架構(gòu)效率"。當梁文鋒將"記憶痕跡"這一神經(jīng)科學概念注入AI,我們看到的不僅是性能數(shù)字的提升,更是中國AI企業(yè)在技術(shù)路線上從追隨到并跑的自信。若DeepSeek V4搭載Engram如期上線,或?qū)⒆C明:在算力受限時代,聰明的架構(gòu)設計比野蠻的參數(shù)量堆砌更具長期價值。這場記憶革命,才剛剛開始。
審核編輯 黃宇
-
AI
+關注
關注
91文章
39755瀏覽量
301356 -
大模型
+關注
關注
2文章
3648瀏覽量
5179 -
DeepSeek
+關注
關注
2文章
835瀏覽量
3255
發(fā)布評論請先 登錄
從"替代人力"到"智能協(xié)同":履帶式巡檢機器人的產(chǎn)業(yè)躍遷
選EtherCAT模塊,別只看價格,先看"體檢報告"
L3試點落地,和芯星通如何成為車企突圍的"隱形守護者"?
"Access violation" 錯誤,復位位置,重新打印
南柯電子|現(xiàn)場解決EMC電磁輻射干擾:"雷區(qū)"讓90%的人栽在接地
智慧路燈的"智慧"從何而來?一文讀懂單燈控制器工作原理
光耦合器:電子世界的 "光橋梁"
精密設備的"電力保鏢":優(yōu)比施UPS如何守護數(shù)據(jù)與硬件安全?
Modbus RTU通訊協(xié)議:瑞銀電能表的"普通話"指南
地熱發(fā)電環(huán)網(wǎng)柜局放監(jiān)測設備:清潔能源電網(wǎng)的"安全衛(wèi)士"
為什么GNSS/INS組合被譽為導航界的"黃金搭檔"?
人形機器人為什么要定制? ——揭秘工業(yè)場景的"千面需求"
倉儲界的"速效救心丸",Ethercat轉(zhuǎn)PROFINET網(wǎng)關實戰(zhàn)案例
電纜局部放電在線監(jiān)測:守護電網(wǎng)安全的"黑科技"
隧道管廊變壓器局放在線監(jiān)測:為地下"電力心臟"裝上智能聽診器
DeepSeek開源Engram:讓大模型擁有"過目不忘"的類腦記憶
評論