近日,DeepSeek公司宣布推出一種全新的稀疏注意力機制——NSA(Native Sparse Attention)。據(jù)DeepSeek介紹,NSA旨在與現(xiàn)代硬件實現(xiàn)高度一致,并且具備本機可訓(xùn)練的特性,專為超快速的長上下文訓(xùn)練和推理而設(shè)計。
NSA通過針對現(xiàn)代硬件的優(yōu)化設(shè)計,顯著加快了推理速度,并大幅度降低了預(yù)訓(xùn)練成本,同時保持了卓越的性能表現(xiàn)。這一機制在確保效率的同時,并未犧牲模型的準確性或功能。
在廣泛的基準測試、涉及長上下文的任務(wù)以及基于指令的推理場景中,NSA的表現(xiàn)與采用完全注意力機制的模型相當,甚至在部分測試中展現(xiàn)出更優(yōu)的性能。這一成果不僅驗證了NSA機制的有效性和實用性,也展示了DeepSeek在人工智能領(lǐng)域的深厚技術(shù)積累和創(chuàng)新能力。
DeepSeek推出的NSA機制,不僅為長上下文訓(xùn)練和推理提供了全新的解決方案,也為人工智能領(lǐng)域的發(fā)展注入了新的活力。
-
人工智能
+關(guān)注
關(guān)注
1817文章
50094瀏覽量
265271 -
NSA
+關(guān)注
關(guān)注
4文章
108瀏覽量
19242 -
DeepSeek
+關(guān)注
關(guān)注
2文章
835瀏覽量
3255
發(fā)布評論請先 登錄
NVIDIA BlueField-4為推理上下文記憶存儲平臺提供強大支持
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
深入解析NVIDIA Nemotron 3系列開放模型
奇異摩爾入選2025中國科創(chuàng)好公司半導(dǎo)體榜單
大語言模型如何處理上下文窗口中的輸入
請問riscv中斷還需要軟件保存上下文和恢復(fù)嗎?
英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持
今日看點丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車出口暴增130%
【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】--全書概覽
【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得
信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代
鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無法在EntryAbility中無法使用最新版
DeepSeek推出NSA機制,加速長上下文訓(xùn)練與推理
評論