国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

后摩智能4篇論文入選人工智能頂會ICLR 2026

后摩智能 ? 來源:后摩智能 ? 2026-02-09 14:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼斬獲NeurIPS、ICCV、AAAI、ACMMM四大頂會認可后,后摩智能再傳捷報——4篇論文成功入選國際頂級人工智能會議ICLR 2026(International Conference on Learning Representations),聚焦大模型低秩壓縮、非線性算子高效近似、矢量量化以及MOE專項量化等端側部署關鍵技術,提出多項創新性解決方案,進一步夯實后摩智能在端側AI芯片與算法融合領域的技術壁壘,助力大模型在資源受限設備上實現高精度、高效率落地。

01【ICLR-2026】NLI:非均勻線性插值LUT

后摩智能芯片算法團隊和東南大學聯合提出非均勻線性插值方法NLI(Non-Uniform Interpolation LUT),并設計配套的NLI Engine硬件模塊,攻克了大語言模型中非線性算子(如EXP、Rsqrt)在端側部署時“精度與效率不可兼得”的難題,通過動態規劃優化插值節點布局,實現非線性函數的高效近似,大幅降低硬件資源開銷,適配各類端側NPU平臺。相關研究成果已應用于后摩智能端側AI芯片的非線性計算單元設計。

非線性算子是LLMs推理過程中的核心組件,直接影響模型精度,但這類算子計算復雜,在端側資源受限設備上難以高效部署。現有解決方案主要分為兩類:一是基于神經網絡的LUT擬合(如NN-LUT),但泛化能力差,易出現精度驟降;二是均勻插值LUT方法,無法適配非線性函數的曲率差異,高曲率區域誤差過大,且硬件實現需大量比較器,資源開銷高。這些問題嚴重制約了LLMs在端側的實時推理性能。

NLI以“數據無關、全局最優、硬件友好”為核心目標,通過兩大核心創新實現突破,同時配套硬件模塊優化,形成“算法-硬件”協同解決方案:

核心創新一:動態規劃非均勻節點布局(DP-based Non-Uniform Cutpoint Placement)。將插值節點(cutpoints)選擇問題轉化為動態規劃問題,在固定節點預算下,基于FP16數值范圍的曲率特征,全局優化節點分布,在高曲率區域密集布局節點,低曲率區域精簡節點,既保證近似精度,又減少節點數量,避免資源浪費;同時無需數據校準,適配各類非線性算子,泛化能力極強。

核心創新二:兩級地址翻譯計算策略(Two-Level Address Translation)。設計“宏區間-微區間”兩級布局,將全局節點劃分為10個宏區間,中間8個宏區間再細分為32個微區間,僅需10個比較器即可完成地址定位,相比傳統均勻插值方法(需259個比較器),大幅降低硬件開銷;同時預計算插值系數,通過簡單乘加運算完成線性插值,兼顧效率與精度。

核心創新三:NLI Engine硬件模塊。NLI Engine采用四級流水線設計,適配1GHz時鐘頻率,集成LUT存儲、兩級地址翻譯、線性插值計算等功能,可直接作為 plug-and-play 模塊集成到端側NPU中。實驗表明,NLI在各項指標上全面超越現有SOTA方法:

軟件層面:在LLaMA3、Qwen2.5等系列大模型上,替換非線性算子后,零樣本精度、困惑度(PPL)與FP32浮點模型基本一致,最壞-case誤差低于1.2×10?3,超越NN-LUT等方法;硬件層面:NLI Engine相比NN-LUT、RI-LUT硬件模塊,面積分別節省68%、69%,功耗降低26%、29%,效率提升4.02×、4.29×,且吞吐量保持1GHz,完美適配端側資源受限場景,為LLMs端側實時推理提供核心計算支撐。

文章鏈接:https://arxiv.org/abs/2602.02988

02【ICLR-2026】SAES-SVD:自適應誤差抑制SVD

后摩智能芯片算法團隊提出自適應誤差抑制低秩壓縮框架SAES-SVD(Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression),創新性地將累積誤差補償與自適應權重優化融入SVD低秩分解,攻克了傳統低秩壓縮方法中“層間誤差累積、精度持續下降”的核心痛點,無需微調或混合秩策略,即可實現大模型高效壓縮與高精度保留,為端側大模型的參數壓縮部署提供全新解決方案。

低秩壓縮(基于SVD)是大模型端側部署的關鍵技術之一,具有硬件無關、兼容性強的優勢,已被廣泛應用于LLMs壓縮。但現有SVD-based方法(如ASVD、SVD-LLM)均采用“逐層獨立優化”策略,僅關注單一層級的重構誤差最小化,忽視了壓縮誤差的層間傳播與累積——上游層的微小重構誤差,會隨著網絡深度增加不斷放大,導致下游層輸入分布偏移,最終使模型輸出與浮點基線偏差顯著,難以滿足端側部署的精度要求。

SAES-SVD通過兩大核心模塊協同工作,實現“局部誤差抑制+全局誤差補償”,徹底解決誤差累積問題:

核心模塊一:累積誤差感知層壓縮(CEALC)。打破逐層獨立優化的局限,將壓縮目標定義為“局部重構誤差+累積誤差補償”的加權組合,不僅最小化當前層的輸出重構誤差,還通過對齊當前層與浮點模型的輸出,補償上游層傳播的累積誤差;基于二階激活統計量(輸入協方差、差分協方差)推導閉解,無需存儲海量原始激活數據,大幅降低內存開銷,同時保證優化效率。

核心模塊二:自適應協同誤差抑制(ACES)。針對不同層對累積誤差的敏感度差異,引入自適應加權系數,通過最大化低秩子空間的能量保留率(RER),動態調整累積誤差補償的強度——對高敏感度層增強補償,對低敏感度層精簡資源,確保在固定秩預算下,保留模型關鍵信息,提升壓縮效率,避免過度補償導致的資源浪費。

實驗表明,SAES-SVD在各類LLMs上表現優異,優勢顯著:在LLaMA-3-8B模型上,壓縮比為0.2時,相比傳統SVD-LLM,輸出與浮點模型的余弦相似度從0.79提升至0.95以上,有效抑制誤差累積;在LLaMA-7B模型上,0.2壓縮比下,零樣本精度下降僅0.02,遠低于現有方法。無需任何微調或混合秩策略,即可實現“高壓縮比、高精度、低開銷”,為端側大模型低秩壓縮提供全新范式。

文章鏈接:https://arxiv.org/abs/2602.03051

03【ICLR-2026】KBVQ-MoE:面向MoE大模型的KLT引導SVD與偏置校正矢量量化方法

后摩智能芯片算法團隊提出面向混合專家(MoE)大語言模型的矢量量化框架KBVQ-MoE(KLT-guided SVD with Bias-Corrected Vector Quantization for MoE LLMs),創新性地融合KLT變換、SVD低秩分解與偏置校正技術,專門解決MoE架構量化中“專家間冗余浪費碼本、量化誤差累積導致分布偏移”的核心痛點,實現MoE大模型超低比特量化下的高精度保留與高效部署,填補了現有MoE量化方法缺乏輸入驅動協同優化機制的空白,相關成果可直接適配端側資源受限設備的MoE大模型部署需求。

MoE大模型憑借“專家分工、稀疏激活”的特性,在參數規模與推理效率間實現平衡,成為端側部署的重要選擇,但現有MoE量化方法存在明顯局限:多數方法未整合輸入激活的統計特征,既無法充分利用專家間共享的輸入相關共性模式,也未能針對性校正專家量化誤差導致的分布偏移,在高壓縮比場景下難以平衡模型精度與部署效率,無法適配端側設備的存儲與計算約束。

KBVQ-MoE以“輸入驅動去冗余、偏置校正穩輸出”為核心,構建兩大關鍵模塊協同工作的完整框架,形成“預處理-量化-后處理”的全流程優化方案,同時兼顧算法創新性與端側硬件適配性:

核心模塊一:輸入驅動冗余消除(IDRE)?;谳斎爰せ畹慕y計特征,通過KLT變換構建輸入相干空間,將所有專家的權重矩陣投影至該空間,實現權重結構與輸入特征的精準對齊;隨后通過SVD分解提取專家間的共享主導分量并保留全精度,僅對專家專屬的非冗余分量進行量化,大幅降低冗余信息對碼本的占用,提升量化效率。該模塊通過三步實現冗余消除:一是對輸入激活進行KLT分解,構建基于輸入能量排序的正交相干基;二是將專家權重投影至該相干空間,建立權重與輸入特征的直接關聯;三是通過SVD分解分離共享分量與專家專屬分量,共享分量全精度保留,專屬分量用于后續量化。

核心模塊二:偏置校正輸出穩定(BCOS)。針對專家專屬分量量化后產生的累積偏置,設計通道級仿射補償機制,通過對齊量化輸出與全精度輸出的均值和方差,抑制量化誤差導致的分布偏移,確保模型輸出穩定性。具體而言,先對專家專屬分量進行矢量量化,再引入通道級縮放因子與偏置項,基于最小均方誤差(MMSE)準則優化參數,僅增加少量額外參數(每一層2倍輸出通道數),即可實現低開銷的偏置校正,避免誤差在專家聚合過程中被放大。

實驗表明,KBVQ-MoE在主流MoE大模型上表現遠超現有SOTA方法,適配端側超低比特部署場景:在Qwen3-30B-A3B、Mixtral-8x7B等模型上,2-3bit量化時,零樣本平均精度接近FP16全精度,其中Mixtral-8x7B在3bit量化下,WikiText2數據集上的困惑度(PPL)低至4.07,與全精度模型僅相差0.19;相比GPTQ、MoEQuant等現有方法,KBVQ-MoE在2bit量化時,Qwen3-30B-A3B的平均精度提升10個百分點以上,困惑度降低近6個點。同時,該框架可作為通用插件,與現有矢量量化方法(如GPTVQ、VPTQ)集成,進一步提升其性能,在Qwen1.5-MoE-A2.7B模型上,與GPTVQ集成后3bit量化的困惑度提升近30%。

在端側部署適配性上,KBVQ-MoE無需修改MoE模型的專家結構與路由機制,量化后模型推理速度較全精度模型提升1.5-1.6倍,僅增加可忽略的計算與存儲開銷,完美適配后摩智能端側AI芯片架構,可廣泛應用于車載、嵌入式、邊緣設備等資源受限場景,為MoE大模型的端側規?;渴鹛峁┖诵募夹g支撐。

文章鏈接:https://github.com/xuzukang/kbvq_moe/blob/main/VQMoe_iclr2026__camera_ready_.pdf

04【ICLR-2026】PCDVQ:基于極性聚類的矢量量化

后摩智能芯片算法團隊提出極性聚類矢量量化框架PCDVQ(Polar Clustering Vector Quantization),創新性地將極性聚類與矢量量化深度結合,攻克了大語言模型(LLMs)超低比特量化中碼本利用率低、精度損失顯著的核心痛點,為LLMs在邊緣設備、嵌入式終端的極致壓縮部署提供了高效解決方案。

隨著LLMs參數規模持續擴大,超低比特(2-bit及以下)量化成為實現端側部署的關鍵手段,但傳統矢量量化方法存在兩大核心瓶頸:一是碼本學習過程中易出現“碼本崩潰”,部分碼本長期閑置,導致量化精度下降;二是忽視權重極性特征,將正負權重混合量化,加劇誤差累積,難以在超低比特場景下保留模型性能。現有方法雖嘗試通過復雜碼本初始化緩解問題,但仍無法兼顧量化效率與精度,難以適配端側設備的資源約束。

PCDVQ以極性聚類為核心創新點,構建“極性分離-聚類優化-協同量化”的三級框架,通過三大核心設計實現突破:

核心設計一:極性分離編碼(Polar Separation Encoding)。首次將權重矢量按極性劃分為正、負兩個獨立子集,分別進行量化處理,避免正負權重混合量化帶來的誤差干擾,同時保留權重的極性特征,減少對模型損失函數的影響,為高精度量化奠定基礎。

核心設計二:動態極性聚類(Dynamic Polar Clustering)。基于K-means聚類算法優化碼本生成,針對正負權重子集分別學習專屬碼本,通過動態調整聚類中心,提升碼本利用率,緩解“碼本崩潰”問題;同時結合率失真理論,在有限比特預算下實現量化誤差最小化。

核心設計三:跨極性協同優化(Cross-Polar Cooperative Optimization)。引入協同正則化項,聯合優化正負權重的量化參數,確保量化后模型的權重分布與浮點模型保持一致,減少極性分離帶來的性能波動,進一步提升量化精度。

實驗表明,PCDVQ在主流LLMs上表現卓越,全面超越當前SOTA方法:在LLaMA-3-70B模型上,2.25-bit量化時,零樣本平均精度達71.98%,接近FP16浮點精度;在LLaMA-3-8B模型上,2.25-bit量化的零樣本平均精度較VPTQ提升1.23%;在Mistral-7B模型上,2-bit量化時的QA平均精度達64.33%,顯著優于GPTQ、AQLM等現有方法,真正實現“超低比特、高精度、高效率”的量化目標,為端側大模型部署提供核心技術支撐。

文章鏈接:https://arxiv.org/abs/2506.05432

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265267
  • 后摩智能
    +關注

    關注

    0

    文章

    51

    瀏覽量

    1699
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5179

原文標題:后摩前沿丨后摩智能4篇論文入選人工智能頂會ICLR 2026,持續突破大模型端側部署核心技術瓶頸

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    西井科技攜手同濟大學 三AI研究成果入選ICLR 2026

    科技攜手同濟大學長聘教授、上海創智學院全時導師陳廣,共有3人工智能研究成果被大會正式錄用。作為全球人工智能領域最具影響力的學術會議之一,ICLR 致力于推動深度學習與表征學習的前沿突
    的頭像 發表于 02-12 17:42 ?1w次閱讀
    西井科技攜手同濟大學 三<b class='flag-5'>篇</b>AI研究成果<b class='flag-5'>入選</b><b class='flag-5'>頂</b><b class='flag-5'>會</b><b class='flag-5'>ICLR</b> <b class='flag-5'>2026</b>

    智能斬獲多項人工智能行業大獎

    近日,權威科技媒體量子位揭曉「2025人工智能年度榜單」,榜單旨在挖掘中國AI生態最具代表性的一批力量縮影。智能一并斬獲「2025人工智能
    的頭像 發表于 02-02 17:03 ?1210次閱讀

    智能亮相ASP-DAC 2026亞洲及南太平洋設計自動化會議

    1月22日,第31屆亞洲及南太平洋設計自動化會議(ASP-DAC 2026)在香港成功舉辦。智能先進存算技術研發部負責人陳剛受邀出席,并在專題討論
    的頭像 發表于 01-29 14:11 ?355次閱讀

    主線科技入選人工智能+”創新應用實踐案例

    日前,由新華網主辦的“人工智能+”創新應用案例征集評選結果揭曉,主線科技“基于 AI 技術力的自動駕駛卡車在智慧物流的創新應用”案例憑借技術創新性與行業示范價值,成功入選創新應用實踐案例并被
    的頭像 發表于 01-12 09:23 ?380次閱讀

    軟通動力與北京智源人工智能研究院達成生態合作

    1月5日,北京舉辦“2026北京人工智能創新高地建設推進”,這是2026年北京人工智能第一
    的頭像 發表于 01-08 14:56 ?335次閱讀

    小鵬汽車與北京大學研究論文成功入選AAAI 2026

    近日,AAAI 2026公布了論文錄用結果,該會議是人工智能領域的國際頂級會議之一。據悉,AAAI 2026共收到23,680份論文投稿,其
    的頭像 發表于 01-04 11:22 ?615次閱讀
    小鵬汽車與北京大學研究<b class='flag-5'>論文</b>成功<b class='flag-5'>入選</b>AAAI <b class='flag-5'>2026</b>

    維智科技入選2025中國科創好公司人工智能榜單

    12月10日,財聯社與《科創板日報》共同發布的“2025中國科創好公司”榜單正式揭曉。維智科技憑借其在人工智能領域的技術領先性與商業化成果,成功入選人工智能好公司榜單。
    的頭像 發表于 12-12 12:45 ?715次閱讀

    MediaTek多論文入選全球前沿國際學術會議

    MediaTek 宣布,今年旗下多論文入選 ISSCC、NeurIPS、CVPR、ICLR、ICML、ICC、CLOBECOM 等全球半導體、人工
    的頭像 發表于 12-02 14:43 ?628次閱讀

    地平線五論文入選NeurIPS 2025與AAAI 2026

    近日,兩大頂級學術會議錄用結果相繼揭曉,地平線憑借在機器人算法領域的深度鉆研,共有5論文從全球數萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
    的頭像 發表于 11-27 11:39 ?1086次閱讀
    地平線五<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b>NeurIPS 2025與AAAI <b class='flag-5'>2026</b>

    智能論文入選四大國際

    2025年以來,智能在多項前沿研究領域取得突破性進展,近期在NeurIPS、ICCV、AAAI、ACMMM四大國際會上有 6
    的頭像 發表于 11-24 16:42 ?1235次閱讀
    <b class='flag-5'>后</b><b class='flag-5'>摩</b><b class='flag-5'>智能</b>六<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b>四大國際<b class='flag-5'>頂</b><b class='flag-5'>會</b>

    理想汽車12論文入選全球五大AI

    2025年三季度以來,理想汽車基座模型團隊在國際頂級AI學術會議上取得重大突破,共有12高質量研究論文入選AAAI、NeurIPS、EMNLP、ACM MM、ICCV五大
    的頭像 發表于 11-21 14:44 ?754次閱讀
    理想汽車12<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b>全球五大AI<b class='flag-5'>頂</b><b class='flag-5'>會</b>

    Nullmax端到端軌跡規劃論文入選AAAI 2026

    11月8日,全球人工智能 AAAI 2026 公布論文錄用結果,Nullmax 研發團隊的端到端軌跡規劃
    的頭像 發表于 11-12 10:53 ?854次閱讀

    智能論文入選三大國際

    2025 年上半年,繼年初被 AAAI、ICLR、DAC 三大國際會收錄 5 論文
    的頭像 發表于 05-29 15:37 ?1323次閱讀

    云知聲四論文入選自然語言處理ACL 2025

    結果正式公布。云知聲在此次國際學術盛會中表現卓越,共有4論文被接收,其中包括2論文(Ma
    的頭像 發表于 05-26 14:15 ?1310次閱讀
    云知聲四<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b>自然語言處理<b class='flag-5'>頂</b><b class='flag-5'>會</b>ACL 2025

    智能入選中國移動AI能力聯合艦隊

    在第八屆數字中國建設峰會期間,中國移動正式發布 “AI 能力聯合艦隊”。作為存算一體芯片領域的先鋒,智能憑借顛覆式創新技術與強勁的算力支持能力,成功入選中國移動 “AI 能力聯合艦
    的頭像 發表于 05-06 17:14 ?1104次閱讀