“快點!導航去最近的醫院!”,當你焦急地對車載助手說到。
“好的,正在為您規劃路線……”,傳統AI在幾秒后,以平淡語氣回應。一個真正AI應該迅速回應,以沉穩語氣說到:“好的,已為您規劃最快路線,預計12分鐘到達。請小心駕駛!”
讓AI感知用戶情緒,從冰冷服務進化成為心意相通的助手,這并非存在于《Her》或《鋼鐵俠》等科幻電影。大模型加持的語音交互全新升級,能夠輕松應對多輪對話,而且實現情緒響應和個性定制。
2024年8月,科大訊飛發布了星火極速超擬人交互技術,在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現巨大突破,讓語音交互速度變得更快,能夠感知你話語里的喜怒哀樂并用合適的情緒回復,還可根據需要讓超擬人的聲音變換節奏、大小,甚至切換不同的角色聲音和性格對話。
現在超擬人交互API正式上線訊飛開放平臺,面向開發者開放調用。通過接入相應的API,開發者無需從零開始搭建復雜架構,即可實現用戶與AI的實時語音互動,構建契合業務場景的AI實時對話能力,提供高效流暢的溝通體驗。從游戲NPC、虛擬助手到智能客服與數字導游,語音交互的想象邊界正在被重新定義。
01秒級響應,雙商在線的超擬人交互
作為人類與AI交流的最主要入口,語音交互已滲透至我們的日常工作生活中:叫音箱播放指定音樂、讓掃地機器人定時工作、對車載系統喊一句“導航回家”。AI游戲陪玩、AI虛擬陪伴、AI口語陪練等,各種AI應用對語音交互的需求也呈爆發式增長。
然而,在實際使用中,傳統語音交互仍存在明顯痛點:
響應遲緩:動輒數秒的延遲,打斷對話節奏,帶來強烈的割裂感。
情緒單一: 機械化的語調,缺乏情感溫度,難以建立真正的連接。
語境缺失: 難以理解言外之意,導致交互中斷或理解錯位。
大模型時代下,當我們從技術層面分析傳統語音交互體驗不佳的原因會發現,傳統語音交互如同一個需要分布處理的流水線:語音輸入后,先由“語音識別”車間轉成文字,再交由“大模型”車間思考回復文本,最后由“語音合成”車間將文字朗讀出來。這個串聯過程不僅步驟繁瑣,且每個環節都存在延遲,累加起來,3秒的響應時間已是常態。
同時,文本是其中傳遞信息的載體,在語音轉文字再轉語音的過程中,語音的很多情感、副語言信息甚至是環境信息都會丟失,導致語音交互系統只能針對語音的文本內容進行回應,會忽略我們在語音中本身真實的情感、語氣等元素。
在許多關鍵場景中,延遲意味著無法用,甚至危險。如:導航指令若晚幾秒反饋,用戶可能已錯過路口;與智能客服溝通時,頻繁的“空白加載”足以讓用戶不耐煩地掛斷電話。大模型的“聰明”,只有搭配“實時”的響應,才能成為真正有溫度、有價值的交互智能。正如智能手機時代的流暢滑動是用戶接受觸屏的關鍵,「實時」是AI接口從“嘗鮮”走向“常用”的門檻。
星火極速超擬人交互則跨文本和音頻模態,采用了統一神經網絡直接實現語音到語音的端到端建模:
1語音通過音頻編碼器得到音頻表征后,通過適配器與文本語義表征進行對齊;
2對齊完成之后的內容輸入多模LLM,預測輸出表征;
3經過音頻解碼器后,最終輸出情緒自然、節奏準確的合成語音。
星火極速超擬人語音交互技術框架圖
相比于傳統的交互系統,統一的模型大大提升了整體的響應和打斷速度,人與AI的交互也從你問我答的“微信語音模式”,切換到了實時響應的“微信通話模式”。
但反應迅速只是第一步,沒有情感的交互依舊是“冷冰冰”的機器。如何讓語音交互更有溫度?
在星火極速超擬人交互系統中,基于端到端框架之上,融入了多維度語音屬性解耦表征訓練,將內容、情感、語種、音色、韻律等屬性進行解耦,進行對比學習和掩碼預測。不僅實現了內容識別更準、情感等屬性感知度更高,還可以更便捷進行定制,方便系統快速落地。
02“快、準、真”,打造下一代AI語音應用
基于語音交互技術的突破,面向開發者開放的超擬人交互API具有三大核心優勢:
同時,訊飛開放平臺還為開發者提供了詳細開發文檔,方便開發者們快速上手并了解超擬人交互API 的各項功能特色、調用過程中的常見錯誤。
03多場景快速落地,成本低至0.1元/分鐘
超擬人交互API的上線,不僅為開發者提供了一種新的語音應用開發范式,降低了開發門檻,也讓開發者能夠更加聚焦應用創新和場景落地,以更天馬行空的想象力,創造出更具“生命力”的AI應用。
文旅場景
結合故事演繹和RAG(檢索增強生成),AI可以作為數字導游為游客介紹景點,在特定場景下與游客進行角色扮演互動,讓游客“沉浸于”歷史。
游戲場景
基于角色人設,模型與玩家互動時,可以自動生成符合該角色價值觀、人生經歷、語氣的對話,讓虛擬角色栩栩如生。
智能助手場景
可自由設定AI助理各種不同的人設,并以符合人設的背景、語氣與用戶互動,為每個用戶打造獨一無二的AI助理。
智能玩具場景
通過生動復刻各類IP角色,并以角色特有的性格、口吻與兒童互動,建立強烈的情感鏈接與代入感。
為進一步降低高質量語音交互的落地門檻,讓開發者“輕裝上陣”,在API調用成本上,訊飛開放平臺也提供了極具誠意的產品價格:每分鐘交互成本低至0.1元,這意味著,僅需用一杯咖啡的錢,就能讓應用與用戶“暢聊”數小時。
此外,通過企業認證,開發者還可“解鎖”有效期3個月,長達10小時的免費試用,實現對產品的快速驗證。
從OpenAI、微軟、谷歌等AI巨頭,到Character AI 的新銳AI創業公司,語音交互正成為AI應用公司最強大的突破口之一。科大訊飛憑借在語音技術領域持續二十余年的深耕,在這一賽道上有著強大的技術實力和市場競爭力。
IDC發布的報告顯示,2024年上半年,中國人工智能語音語義整體市場規模為 72.3 億元人民幣,同比增長18%,科大訊飛市場份額在主要廠商中位居第一,持續引領行業發展。
現在,借助訊飛開放的超擬人交互API,開發者可以輕松打造真正“能聽會說、情感在線”的AI應用,提高產品競爭力。
-
AI
+關注
關注
91文章
39755瀏覽量
301358 -
科大訊飛
+關注
關注
19文章
860瀏覽量
63711 -
交互技術
+關注
關注
0文章
37瀏覽量
12976
原文標題:首次開放,訊飛超擬人交互API上線!
文章出處:【微信號:訊飛開放平臺,微信公眾號:訊飛開放平臺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
科大訊飛設立子公司:加碼AI與集成電路業務布局
2025科大訊飛全球1024開發者節精彩回顧
科大訊飛發布訊飛星火X1.5及系列AI產品
思必馳助力吉利銀河M9首發超擬人情感智能體Eva
利用蘇寧易購 API 接口,實現蘇寧易購店鋪線上線下庫存一體化
API如何加速電商新功能上線
API讓電商“飛”起來,告別手動操作
科大訊飛亮相第137屆廣交會
科大訊飛深度解析DeepSeek-V3/R1推理系統成本
訊飛超擬人交互API上線
評論