八戒八戒精品一区二区三区,热久久大香蕉国产丝袜,@sifangxiu.com

繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會認可后，后摩智能再傳捷報——4篇論文成功入選國際頂級人工智能會議ICLR 2026（International Conference on Learning Representations），聚焦大模型低秩壓縮、非線性算子高效近似、矢量量化以及MOE專項量化等端側部署關鍵技術，提出多項創新性解決方案，進一步夯實后摩智能在端側AI芯片與算法融合領域的技術壁壘，助力大模型在資源受限設備上實現高精度、高效率落地。

01【ICLR-2026】NLI：非均勻線性插值LUT

后摩智能芯片算法團隊和東南大學聯合提出非均勻線性插值方法NLI（Non-Uniform Interpolation LUT），并設計配套的NLI Engine硬件模塊，攻克了大語言模型中非線性算子（如EXP、Rsqrt）在端側部署時“精度與效率不可兼得”的難題，通過動態規劃優化插值節點布局，實現非線性函數的高效近似，大幅降低硬件資源開銷，適配各類端側NPU平臺。相關研究成果已應用于后摩智能端側AI芯片的非線性計算單元設計。

非線性算子是LLMs推理過程中的核心組件，直接影響模型精度，但這類算子計算復雜，在端側資源受限設備上難以高效部署。現有解決方案主要分為兩類：一是基于神經網絡的LUT擬合（如NN-LUT），但泛化能力差，易出現精度驟降；二是均勻插值LUT方法，無法適配非線性函數的曲率差異，高曲率區域誤差過大，且硬件實現需大量比較器，資源開銷高。這些問題嚴重制約了LLMs在端側的實時推理性能。

NLI以“數據無關、全局最優、硬件友好”為核心目標，通過兩大核心創新實現突破，同時配套硬件模塊優化，形成“算法-硬件”協同解決方案：

核心創新一：動態規劃非均勻節點布局（DP-based Non-Uniform Cutpoint Placement）。將插值節點（cutpoints）選擇問題轉化為動態規劃問題，在固定節點預算下，基于FP16數值范圍的曲率特征，全局優化節點分布，在高曲率區域密集布局節點，低曲率區域精簡節點，既保證近似精度，又減少節點數量，避免資源浪費；同時無需數據校準，適配各類非線性算子，泛化能力極強。

核心創新二：兩級地址翻譯計算策略（Two-Level Address Translation）。設計“宏區間-微區間”兩級布局，將全局節點劃分為10個宏區間，中間8個宏區間再細分為32個微區間，僅需10個比較器即可完成地址定位，相比傳統均勻插值方法（需259個比較器），大幅降低硬件開銷；同時預計算插值系數，通過簡單乘加運算完成線性插值，兼顧效率與精度。

核心創新三：NLI Engine硬件模塊。NLI Engine采用四級流水線設計，適配1GHz時鐘頻率，集成LUT存儲、兩級地址翻譯、線性插值計算等功能，可直接作為 plug-and-play 模塊集成到端側NPU中。實驗表明，NLI在各項指標上全面超越現有SOTA方法：

軟件層面：在LLaMA3、Qwen2.5等系列大模型上，替換非線性算子后，零樣本精度、困惑度（PPL）與FP32浮點模型基本一致，最壞-case誤差低于1.2×10?3，超越NN-LUT等方法；硬件層面：NLI Engine相比NN-LUT、RI-LUT硬件模塊，面積分別節省68%、69%，功耗降低26%、29%，效率提升4.02×、4.29×，且吞吐量保持1GHz，完美適配端側資源受限場景，為LLMs端側實時推理提供核心計算支撐。

文章鏈接：https://arxiv.org/abs/2602.02988

02【ICLR-2026】SAES-SVD：自適應誤差抑制SVD

后摩智能芯片算法團隊提出自適應誤差抑制低秩壓縮框架SAES-SVD（Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression），創新性地將累積誤差補償與自適應權重優化融入SVD低秩分解，攻克了傳統低秩壓縮方法中“層間誤差累積、精度持續下降”的核心痛點，無需微調或混合秩策略，即可實現大模型高效壓縮與高精度保留，為端側大模型的參數壓縮部署提供全新解決方案。

低秩壓縮（基于SVD）是大模型端側部署的關鍵技術之一，具有硬件無關、兼容性強的優勢，已被廣泛應用于LLMs壓縮。但現有SVD-based方法（如ASVD、SVD-LLM）均采用“逐層獨立優化”策略，僅關注單一層級的重構誤差最小化，忽視了壓縮誤差的層間傳播與累積——上游層的微小重構誤差，會隨著網絡深度增加不斷放大，導致下游層輸入分布偏移，最終使模型輸出與浮點基線偏差顯著，難以滿足端側部署的精度要求。

SAES-SVD通過兩大核心模塊協同工作，實現“局部誤差抑制+全局誤差補償”，徹底解決誤差累積問題：

核心模塊一：累積誤差感知層壓縮（CEALC）。打破逐層獨立優化的局限，將壓縮目標定義為“局部重構誤差+累積誤差補償”的加權組合，不僅最小化當前層的輸出重構誤差，還通過對齊當前層與浮點模型的輸出，補償上游層傳播的累積誤差；基于二階激活統計量（輸入協方差、差分協方差）推導閉解，無需存儲海量原始激活數據，大幅降低內存開銷，同時保證優化效率。

核心模塊二：自適應協同誤差抑制（ACES）。針對不同層對累積誤差的敏感度差異，引入自適應加權系數，通過最大化低秩子空間的能量保留率（RER），動態調整累積誤差補償的強度——對高敏感度層增強補償，對低敏感度層精簡資源，確保在固定秩預算下，保留模型關鍵信息，提升壓縮效率，避免過度補償導致的資源浪費。

實驗表明，SAES-SVD在各類LLMs上表現優異，優勢顯著：在LLaMA-3-8B模型上，壓縮比為0.2時，相比傳統SVD-LLM，輸出與浮點模型的余弦相似度從0.79提升至0.95以上，有效抑制誤差累積；在LLaMA-7B模型上，0.2壓縮比下，零樣本精度下降僅0.02，遠低于現有方法。無需任何微調或混合秩策略，即可實現“高壓縮比、高精度、低開銷”，為端側大模型低秩壓縮提供全新范式。

文章鏈接：https://arxiv.org/abs/2602.03051

03【ICLR-2026】KBVQ-MoE：面向MoE大模型的KLT引導SVD與偏置校正矢量量化方法

后摩智能芯片算法團隊提出面向混合專家（MoE）大語言模型的矢量量化框架KBVQ-MoE（KLT-guided SVD with Bias-Corrected Vector Quantization for MoE LLMs），創新性地融合KLT變換、SVD低秩分解與偏置校正技術，專門解決MoE架構量化中“專家間冗余浪費碼本、量化誤差累積導致分布偏移”的核心痛點，實現MoE大模型超低比特量化下的高精度保留與高效部署，填補了現有MoE量化方法缺乏輸入驅動協同優化機制的空白，相關成果可直接適配端側資源受限設備的MoE大模型部署需求。

MoE大模型憑借“專家分工、稀疏激活”的特性，在參數規模與推理效率間實現平衡，成為端側部署的重要選擇，但現有MoE量化方法存在明顯局限：多數方法未整合輸入激活的統計特征，既無法充分利用專家間共享的輸入相關共性模式，也未能針對性校正專家量化誤差導致的分布偏移，在高壓縮比場景下難以平衡模型精度與部署效率，無法適配端側設備的存儲與計算約束。

KBVQ-MoE以“輸入驅動去冗余、偏置校正穩輸出”為核心，構建兩大關鍵模塊協同工作的完整框架，形成“預處理-量化-后處理”的全流程優化方案，同時兼顧算法創新性與端側硬件適配性：

核心模塊一：輸入驅動冗余消除（IDRE）?；谳斎爰せ畹慕y計特征，通過KLT變換構建輸入相干空間，將所有專家的權重矩陣投影至該空間，實現權重結構與輸入特征的精準對齊；隨后通過SVD分解提取專家間的共享主導分量并保留全精度，僅對專家專屬的非冗余分量進行量化，大幅降低冗余信息對碼本的占用，提升量化效率。該模塊通過三步實現冗余消除：一是對輸入激活進行KLT分解，構建基于輸入能量排序的正交相干基；二是將專家權重投影至該相干空間，建立權重與輸入特征的直接關聯；三是通過SVD分解分離共享分量與專家專屬分量，共享分量全精度保留，專屬分量用于后續量化。

核心模塊二：偏置校正輸出穩定（BCOS）。針對專家專屬分量量化后產生的累積偏置，設計通道級仿射補償機制，通過對齊量化輸出與全精度輸出的均值和方差，抑制量化誤差導致的分布偏移，確保模型輸出穩定性。具體而言，先對專家專屬分量進行矢量量化，再引入通道級縮放因子與偏置項，基于最小均方誤差（MMSE）準則優化參數，僅增加少量額外參數（每一層2倍輸出通道數），即可實現低開銷的偏置校正，避免誤差在專家聚合過程中被放大。

實驗表明，KBVQ-MoE在主流MoE大模型上表現遠超現有SOTA方法，適配端側超低比特部署場景：在Qwen3-30B-A3B、Mixtral-8x7B等模型上，2-3bit量化時，零樣本平均精度接近FP16全精度，其中Mixtral-8x7B在3bit量化下，WikiText2數據集上的困惑度（PPL）低至4.07，與全精度模型僅相差0.19；相比GPTQ、MoEQuant等現有方法，KBVQ-MoE在2bit量化時，Qwen3-30B-A3B的平均精度提升10個百分點以上，困惑度降低近6個點。同時，該框架可作為通用插件，與現有矢量量化方法（如GPTVQ、VPTQ）集成，進一步提升其性能，在Qwen1.5-MoE-A2.7B模型上，與GPTVQ集成后3bit量化的困惑度提升近30%。

在端側部署適配性上，KBVQ-MoE無需修改MoE模型的專家結構與路由機制，量化后模型推理速度較全精度模型提升1.5-1.6倍，僅增加可忽略的計算與存儲開銷，完美適配后摩智能端側AI芯片架構，可廣泛應用于車載、嵌入式、邊緣設備等資源受限場景，為MoE大模型的端側規?；渴鹛峁┖诵募夹g支撐。

文章鏈接：https://github.com/xuzukang/kbvq_moe/blob/main/VQMoe_iclr2026__camera_ready_.pdf

04【ICLR-2026】PCDVQ：基于極性聚類的矢量量化

后摩智能芯片算法團隊提出極性聚類矢量量化框架PCDVQ（Polar Clustering Vector Quantization），創新性地將極性聚類與矢量量化深度結合，攻克了大語言模型（LLMs）超低比特量化中碼本利用率低、精度損失顯著的核心痛點，為LLMs在邊緣設備、嵌入式終端的極致壓縮部署提供了高效解決方案。

隨著LLMs參數規模持續擴大，超低比特（2-bit及以下）量化成為實現端側部署的關鍵手段，但傳統矢量量化方法存在兩大核心瓶頸：一是碼本學習過程中易出現“碼本崩潰”，部分碼本長期閑置，導致量化精度下降；二是忽視權重極性特征，將正負權重混合量化，加劇誤差累積，難以在超低比特場景下保留模型性能。現有方法雖嘗試通過復雜碼本初始化緩解問題，但仍無法兼顧量化效率與精度，難以適配端側設備的資源約束。

PCDVQ以極性聚類為核心創新點，構建“極性分離-聚類優化-協同量化”的三級框架，通過三大核心設計實現突破：

核心設計一：極性分離編碼（Polar Separation Encoding）。首次將權重矢量按極性劃分為正、負兩個獨立子集，分別進行量化處理，避免正負權重混合量化帶來的誤差干擾，同時保留權重的極性特征，減少對模型損失函數的影響，為高精度量化奠定基礎。

核心設計二：動態極性聚類（Dynamic Polar Clustering）。基于K-means聚類算法優化碼本生成，針對正負權重子集分別學習專屬碼本，通過動態調整聚類中心，提升碼本利用率，緩解“碼本崩潰”問題；同時結合率失真理論，在有限比特預算下實現量化誤差最小化。

核心設計三：跨極性協同優化（Cross-Polar Cooperative Optimization）。引入協同正則化項，聯合優化正負權重的量化參數，確保量化后模型的權重分布與浮點模型保持一致，減少極性分離帶來的性能波動，進一步提升量化精度。

實驗表明，PCDVQ在主流LLMs上表現卓越，全面超越當前SOTA方法：在LLaMA-3-70B模型上，2.25-bit量化時，零樣本平均精度達71.98%，接近FP16浮點精度；在LLaMA-3-8B模型上，2.25-bit量化的零樣本平均精度較VPTQ提升1.23%；在Mistral-7B模型上，2-bit量化時的QA平均精度達64.33%，顯著優于GPTQ、AQLM等現有方法，真正實現“超低比特、高精度、高效率”的量化目標，為端側大模型部署提供核心技術支撐。

文章鏈接：https://arxiv.org/abs/2506.05432

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1817

文章
50094

瀏覽量
265267
后摩智能

后摩智能

+關注

關注
0

文章
51

瀏覽量
1699
大模型

大模型

+關注

關注
2

文章
3648

瀏覽量
5179

原文標題：后摩前沿丨后摩智能4篇論文入選人工智能頂會ICLR 2026，持續突破大模型端側部署核心技術瓶頸

文章出處：【微信號：后摩智能，微信公眾號：后摩智能】歡迎添加關注！文章轉載請注明出處。

搜索歷史

后摩智能4篇論文入選人工智能頂會ICLR 2026

評論