近日,國際聲學、語音與信號處理會議 ICASSP 2026 公布錄用結果。江蘇省語言計算及應用實驗室多篇論文被會議接收。ICASSP 長期被視為聲學、語音與信號處理領域最具國際影響力的學術會議之一,其錄用成果集中反映了語音語言技術前沿的發展方向。
江蘇省語言計算及應用重點實驗室(以下簡稱“實驗室”)由思必馳科技股份有限公司牽頭,聯合上海交通大學、蘇州大學共建,是江蘇省在通用人工智能領域布局的重要戰略科技力量。實驗室以思必馳的產業平臺為依托,匯聚上海交大、蘇大的頂尖科研資源,形成“產學研用”深度融合的創新共同體,聚焦語言計算核心技術,貫通基礎理論、關鍵算法、產業落地的全鏈條創新。
實驗室本次收錄的論文成果聚焦多語種語音識別、高效自回歸語音合成與低碼率神經語音編解碼等前沿方向,支撐思必馳核心技術能力持續增強:提升了多語種交互一致性、優化了端云協同實時響應、強化了分布式智能體在復雜場景中的感知與執行穩定性;并進一步升級了車載座艙語音助手、會議軟硬件產品與智能家居終端的交互體驗,同時提升面向海外與多行業客戶的標準化交付效率與可擴展能力。下面介紹本次收錄的代表性成果:
多語種語音識別
復雜口音與多語種環境下的識別魯棒性強化,支撐車載座艙中的多音區交互與跨區域語音服務能力。
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR面向端到端多語種語音識別中的核心難題。該問題長期受限于兩類結構性瓶頸,一是低資源語言數據不足,二是傳統單一投影器難以同時兼顧跨語言共享與語言特異建模。
MOSA 采用簡單適配器混合的結構范式,在統一框架內引入多專家協同機制,使跨語言共享知識與語言專屬性特征能夠實現有效分工與協同學習。該方法并未依賴更重的單體投影結構,而是通過多個輕量適配器的組合提升表示能力,因此在工程資源受限條件下更具部署價值。
實驗結果顯示,在訓練參數量僅為 Ideal-LLM Base 六成的條件下,平均詞錯誤率仍下降 13.3%。這一結果表明,多專家輕量適配策略不僅提升識別精度,同時在數據不平衡情形下展現出更強穩定性,為多語種識別系統的大規模落地提供了可驗證路徑。

高效自回歸語音合成
提升合成語音的可懂度與響應效率,加強車載播報、辦公助手語音反饋與多輪任務執行中的自然表達。
Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy針對自回歸語音合成在長序列建模中的關鍵矛盾展開研究。傳統逐詞元預測方案在序列增長后容易出現注意力不穩定,進而引發時延上升與可懂度下降,這也是高質量合成模型進入實時業務的重要障礙。
DCAR 提出動態分塊預測策略。該策略通過多詞元預測訓練與輕量在軌模塊協同,按語音內容動態調整預測跨度,降低模型對長序列逐步遞推的依賴,同時保持合成細節質量。其核心價值在于將效率優化與語音質量優化統一到同一生成機制內。
在公開實驗中,DCAR 相較傳統逐詞元預測模型實現可懂度最高 72.27% 的提升,并將推理速度提升至 2.61 倍。該結果顯示,動態分塊范式能夠顯著改善實時語音生成能力,為車載播報、會議助手與多輪語音交互中的低時延輸出提供技術基礎。

低碼率神經語音編解碼
優化低碼率語音傳輸與端側資源開銷,賦能智能家居與消費終端中的低功耗部署、弱網穩定交互。
Codecslime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate指向神經語音編解碼中的普遍問題。固定幀率機制默認語音時間信息密度均勻,然而真實語音在靜音段、長元音段與快速過渡段的有效信息密度差異顯著。固定幀率因此會在低信息區產生冗余編碼開銷。
CodecSlime 引入動態幀率機制,以插件化方式嵌入現有神經編解碼體系,在不依賴額外監督的條件下壓縮時間冗余。方法中的 ScheDFR 與 Melt-and-Cool 分別服務于推理側與訓練側,使模型能夠在不同時間密度區間自適應分配編碼資源。
在典型 VQ-GAN 編解碼骨干上,當系統運行于約 40Hz 動態幀率并保持約 600bps 量級碼率時,CodecSlime 的重建詞錯誤率相較固定幀率基線最多下降 28%。同時,模型在不同幀率設置下持續保持競爭性能,體現了重建質量與傳輸成本之間更靈活的工程權衡能力。

產品落地:
智能車載、智慧辦公與智能家居的持續升級
本次收錄的研究成果共同推動思必馳全鏈路對話式人工智能系統在全流程可控、端到端貫通與規模化部署方面持續進階。對于企業級產品而言,這類基礎技術進展不僅提升單點模型指標,更重要的是提升跨模塊協同效率與整體用戶體驗的可感知升級:多語種交互更穩定、語音反饋更自然及時、弱網與低功耗條件下的使用體驗更順暢。依托上述能力,思必馳在多行業項目中的交付效率與場景適配速度持續提升,為客戶提供更一致、更可靠的語音交互服務。
長期以來,思必馳深度參與國內外學術前沿研究,在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML、NeurIPS等頂級學術會議上屢獲佳績,持續產出高質量科研成果,彰顯了在人工智能語音語言關鍵技術領域的深度探索和重大突破。思必馳秉持科研與產業應用緊密結合的理念,將持續推進高水平科研成果向產品能力轉化,圍繞真實業務場景打磨可落地、可規模化、可持續優化的語音語言技術體系。
作為專業的對話式人工智能平臺型企業,思必馳具有源頭技術創新和應用創新的能力,自2022年7月獲國家科技部批準建設“語言計算國家新一代人工智能開放創新平臺”以來,接連于2023-2024年獲批組建蘇州市、江蘇省、長三角三級創新聯合體,并于2025年攜手上海交通大學、蘇州大學,牽頭組建“江蘇省語言計算及應用重點實驗室”,成為國家人工智能戰略科技力量的重要組成部分。
思必馳承擔了包括國家重點研發計劃、國家發改委“互聯網+”重大工程和人工智能創新發展工程、國家工信部人工智能與實體經濟深度融合項目、長三角科技創新共同體聯合攻關計劃項目等十余項國家級、省部級項目,展現出卓越的科研實力與項目落地能力。
思必馳深耕語音語言領域,憑借自主研發的核心技術多次在國際研究機構評測中奪得冠軍;曾三度斬獲國內人工智能最高獎“吳文俊獎”,榮獲中國專利優秀獎,以及信通院車載智能語音交互系統最高級別認證等重要榮譽。技術創新能力備受全球矚目,被高盛全球人工智能報告列為關鍵參與者,也被Gartner評為東亞五大明星AI公司之一。
截至2025年年底,思必馳擁有近100項全球獨創技術,已授權知識產權1700余項,其中已授權發明專利700余項,牽頭/參與了70余項國家/行業/團體標準,獲得23項國家級的產品認證,8項算法通過深度合成算法備案。思必馳堅持自主的大模型技術路線,加速研發端云協同的分布式智能體系統,以任務型交互為核心,結合智能硬件感知優勢,推進分布式的可規劃的可信智能體落地,服務企業客戶。
-
人工智能
+關注
關注
1818文章
50127瀏覽量
265620 -
思必馳
+關注
關注
4文章
400瀏覽量
15997
原文標題:ICASSP 2026|江蘇省語言計算及應用實驗室多項成果入選,持續夯實全鏈路語音語言核心技術
文章出處:【微信號:思必馳,微信公眾號:思必馳】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
佛吉亞鹽城工廠入選2025年度江蘇省綠色工廠
飛譜電子入選2025年度江蘇省博士后創新實踐基地
思必馳出席江蘇省語言計算及應用重點實驗室學術委員會第一次會議
南京峟思榮獲江蘇省“專精特新”中小企業認定
帝奧微榮獲2025年度江蘇省科技創新協會科技創新成果轉化獎
上能電氣入選2025年度江蘇省商標品牌培育和保護項目
左藍微電子入選2025年江蘇省潛在獨角獸企業
普源精電入選2025年度江蘇省高價值專利培育計劃
高德地圖與通義實驗室達成深度合作
美新半導體榮獲2025年江蘇省先進級智能工廠
思必馳與上海交大聯合實驗室12篇論文被ICASSP 2025收錄
江蘇省語言計算及應用實驗室多項成果入選ICASSP 2026
評論