隨著智能體時代到來,云知聲在“山海·Atlas”通用智算基座持續演進基礎上,年前實現了“山海·知醫”5.0醫療大模型升級,今天迎來了“山海·知音”2.0的重磅發布,正在完成“一基兩翼”技術戰略升級的能力拼圖。
“山海·知音”大模型 2.0——依托“山海·Atlas”的多模態、跨語言基座能力,讓“山海·知醫”等垂直專業智能體,惠及千家萬戶——聽懂專業與鄉音、聊出親情與溫度、極致機敏反應,是本次升級的三大能力進化。
1聽懂專業與鄉音——ASR全景升級
此次模型ASR能力在公開測試集和自有全場景測試集中,均顯現了領先的語音識別能力,在評測中實現了從通用到極端全面的領先水平,超過了國內主流的開源和閉源語音大模型,達到業界最高水平。特別是在高難度的復雜噪音與方言口音場景下,相比主流ASR模型性能提升了2.5%至3.6%,在復雜背景音環境下識別準確率更是在業內首次突破90%。

公開測試集

自有測試集
案例展示1:高噪環境下精準識別——商場購物
真實的語音識別環境中,還經常會面臨專業術語識別不清、邏輯混亂等挑戰。作為此次升級中最大的亮點,即模型“能夠聽得懂專業話”,它可結合上下文和行業術語,聽懂專業場景中的每一個術語與指令,識別精度提升 30%。“它不是在‘聽字’,而是在‘理解事’”。
例如在汽車4S店試駕場景中,當銷售提及“方向盤”相關描述時,即使上下文未明確出現“半幅方向盤”,模型仍能通過邏輯推理準確識別。
案例展示2:上下文理解——汽車4S店試駕
而在嚴肅的醫療場景,模型能顯式注入“依帕司他”“二甲雙胍”等術語進行定向增強,確保識別結果更精準。
案例展示3:專業知識庫——醫療對話錄音轉寫
同時,模型支持30余種中文方言及14種國際語言的識別轉寫,無論是晦澀的粵語、閩南語、上海話,還是英、日、韓、法、德、泰等國際語言,均能實現精準轉寫。更進一步,模型還能融合講義等視覺語義,構建“視聽融合”閉環交互,進一步提升識別結果。
案例展示4:多方言語種混切——商務會議
2聊出親情與溫度——TTS聲動進化
如果說ASR能力是“耳朵”,那么TTS能力便是“嘴巴”。山海·知音-TTS以“高度擬人+創意多元”為核心,讓語音合成兼具真實感與創造力,使科技更有溫度。
它目前支持12種方言(粵語、四川話、上海話全拿下)+ 10種外語,清嗓、笑聲、呼吸聲都自然還原,甚至能切換 12種普通話風格,溫柔、干練、親切隨你選。“科技不該高高在上,而該用你最舒服的方式說話。”
案例展示5:細膩情感表達——AI電商直播
山海·知音2.0-TTS合成文本
高興:“家人們!下一個品!魔法保溫杯!矮油厲害啦!倒進去的開水,只要60秒!一分鐘的時間,就變55度溫泉水!再倒杯冰美式進去,半小時還是透心涼!哎淺嘗一下!”
咳嗽:“咳咳…對、對不起啊…太激動了嗆到了…”
沉穩:“呃,等一下等一下等一下…這個杯底怎么在漏水啊?不是吧剛開播就翻車?我打開看下啊,害,是我剛才試用的時候把密封圈給碰歪了。啊沒事,調一下,真金不怕火煉啊!這就沒問題啦!”
大聲:“哎,但是家人們福利來了啊!品牌方剛說了:看過剛才翻車的各位,只要您下單,立享三年只換不修!上鏈接!”
目前模型已支持粵語、四川話、上海話等12種方言,以及日語、韓語、泰語等10種外語。可實現跨方言、跨語種、跨情感的組合生成,針對小語種的語音韻律也進行了專項優化——如日語的“促音”、泰語的“聲調變化”,合成自然度接近母語使用者。
案例展示6:多語種、方言支持——文旅宣傳
山海·知音2.0-TTS合成文本
這就是上海,等你來解鎖更多精彩。
此外,還支持一句話聲音復刻以及播客級長文本合成,賦能有聲內容創作與互動娛樂。
案例展示7:一句話聲音復刻——視頻配音
結合樣音1的音色與樣音2的情感特征,生成目標文本的音頻
山海·知音2.0-TTS合成文本
什么?還要我等三十分鐘?一天有多少個三十分鐘?這天都快黑了,誰愛等誰等。
案例展示8:音色復刻——兒童伴讀
山海·知音2.0-TTS合成文本
在遠離城市燈火的地方,有一處“靜語森林”。這里的樹葉會在傍晚唱起輕柔的搖籃曲,溪水會隨著月光流淌出銀色的旋律。在森林最深處住著一只名叫小絨的松鼠,她有一個特別的身份——她是這片森林的星光編織師。
案例展示9:播客級長文本合成——播客
山海·知音2.0-TTS合成文本
A:哎,你有沒有注意到,長大后我們學到的那些最關鍵的生存技能,其實根本不是學校里教的那些東西?
B:呵,你是說…職場摸魚?
A:呵呵,太膚淺了!呵!其實是“如何體面地結束一場你不想繼續的對話”。這可是門藝術啊!
B:對對對!我最懂這種感受!
A:從電梯里被話癆同事攔住,到家庭聚會上應付催婚的親戚…
B:哦——!我知道了!還有就是,接到那些討厭的推銷電話時,如何不讓對方覺得你是個壞人,卻又能干脆利落地把它掛掉!
基于大模型的語音合成通常采用流匹配(Flow Matching)將大語言模型預測的語音Token轉換為梅爾譜,再通過神經聲碼器(Neural Vocoder)重建為最終語音。但該方案普遍存在延遲較高的問題。業界常通過流匹配分段處理來降低延遲,但效果有限,且容易犧牲音質。
為實現真正高質量、低延遲的流式語音生成,云知聲創新性地設計了基于純因果注意力機制的流匹配模塊,并與神經聲碼器進行聯合優化,構建出端到端的純流式推理架構。該方案在不損失合成質量的前提下,顯著降低系統延遲——在低并發場景下,首包延遲已壓縮至90毫秒以內,達到業界領先的實時交互水平。

因果注意力機制
3極致機敏反應——端到端全雙工交互
真正的智能交互,在于“理解語境、感受情緒、自然回應”。端到端模型實現流暢全雙工面臨的核心挑戰是:需在流式收聲時同步完成理解、決策與生成,并在任意打斷瞬間保持對話狀態連貫。山海·知音2.0基于端到端交互大腦攻克了這一難題,將全雙工能力提升至新高度。
支持隨時打斷、即時接話、連貫追問,就像和一個真正聰明的朋友聊天,行云流水,毫無卡頓。“這不是問答,是對話。”
案例展示10:端到端全雙工交互——與山海大模型對話
背后是誰在支撐這一切?
答案是云知聲獨創的 “山海·Atlas”智算一體基座,將通用多模態大模型底座與Atlas基礎架構深度整合,既是專業智能體的基礎,也是感知AI中樞的根基——將傳統的ASR、TTS和全雙工能力,有效整合到端到端大模型中,做到傳統模塊級聯無法實現的極致交互體驗和效率。
智起山海,知音萬物
從手術室到鄉間小路,從駕駛艙到老人床頭,
云知聲相信:真正的智能,不是炫技,而是融入生活。
山海·知音 2.0,
讓 AI 不再“人工智障”,
而是聽得清、說得真、懂人心的伙伴。
這一次,AI 終于學會好好說話了。
-
云知聲
+關注
關注
0文章
315瀏覽量
9361 -
大模型
+關注
關注
2文章
3648瀏覽量
5179
原文標題:智啟山海,交互無界——云知聲山海·知音 2.0 重磅發布
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
云知聲正式推出Unisound U1-OCR文檔智能基礎大模型
云知聲山海知音大模型2.0重磅發布
評論