在語音大模型從“能識別”向“懂語境”跨越的關鍵階段,高質量場景化語音數據已成為制約技術突破的核心瓶頸。傳統語音識別數據集采用孤立標注,在語音-文本轉寫中存在信息割裂、上下文缺失及誤差累積問題,導致模型在多輪對話、噪聲環境及語義理解方面表現不佳。
相較于傳統數據集僅關注語音-文本的單點轉寫,端到端語音交互數據集強調在真實多輪對話場景下的全維度信息保留。
其核心特征體現在三方面:其一,覆蓋語音交互全流程,同步捕捉指令采集、意圖解析、上下文關聯、背景音分離及非標準口語(如口頭禪、重復、打斷);其二,通過上下文關聯標注技術實現跨輪次語義連貫性建模,緩解長對話語境遺忘問題;其三,采用情感-語境雙維度標注體系,量化多語種/方言的發音特征、情感色彩及語境差異,構建可量化評估的訓練基線。
標貝科技積極響應市場需求,已系統構建了涵蓋多風格、多情感的高質量方言與外語自然對話數據矩陣。
在方言維度,覆蓋河南、上海、東北、陜西等典型方言區,精確捕捉各區域發音特點、口音輕重及方言特有表達;在多語種維度,涵蓋泰語、印尼語、菲律賓語、日語、葡萄牙語、墨西哥語、越南語、馬來語等語種,形成跨文化交際場景下的全真對話語料庫。所有數據集均基于自然聊天場景采集,完整保留多輪對話的語境連續性、情感動態變化,滿足專業級語音大模型對發音多樣性、情感豐富度及語境復雜度的訓練需求。
基于對語音交互前沿趨勢的持續洞察與技術預判,標貝科技于近期進一步推出兩大專項數據集產品:
01 端到端語音大模型數據集
該數據集專為語音大模型預訓練設計,總時長約8000小時,以“全維度多樣性”為核心,構建模型對復雜語音場景的基礎認知能力:
說話人多樣性:數據集由約7200名發音人參與錄制,年齡層面覆蓋10-79歲全年齡段,性別比例均衡,完整捕捉不同年齡階段的語音特征。
場景全覆蓋:涵蓋日常交流、電商咨詢、客服對話等細分領域。涉及旅游、交通、運動、娛樂、健康、游戲、美食等話題。
精細標注體系:除提供高準確率的語音文本轉寫外,還包含中英文特殊符號、語氣詞、數字規整化以及口音特征保留等多維度標注,助力模型捕捉真實人聲表達細節和語音風格變異。
02對話指令詞數據集
該數據集以“優化對話系統自然交互能力”為目標,聚焦中文普通話對話指令的情感表達與語義關聯,構建"指令理解-情感響應"的閉環訓練體系,總時長約1000小時:
說話人多樣:約1000名發音人參與錄制,年齡跨度覆蓋兒童至老年全階段,性別比例均衡,保障情感響應的普適性。
指令類型完備:語料既包含直接表達的顯性指令(如“請用高興的語氣說…”),直接規定語氣與內容邊界;也涵蓋需意圖推斷的隱式指令(如“你聲音太小了,我聽不太清楚”),有效訓練模型對用戶隱含意圖的感知與上下文推理能力。
情感維度豐富:語料設計包含弱情緒對話,如開心、生氣、驚訝、尷尬、緊張、吐槽等,及情緒表現突出的強指令對話,涵蓋多類別、多強度的情感狀態,適用于生成富有表現力且上下文吻合的語音合成與交互系統。
審核編輯 黃宇
-
大模型
+關注
關注
2文章
3648瀏覽量
5179
發布評論請先 登錄
基于Arm平臺的端到端int8 Conformer模型部署
端側大模型上車:從“語音助手”到“車內 AI 智能體”的躍遷革命
Nullmax感知規劃端到端大模型進化提速
端到端語音交互革命:百度智能云聯合地瓜機器人,重塑AI陪伴體驗
VoNR語音感知端到端優化方案
端到端發展趨勢下,云算力如何賦能智能駕駛技術躍遷?
語音機器人交互系統:核心技術與應用挑戰
廣和通發布自研端側語音識別大模型FiboASR
廣州唯創電子WTN6/WTV系列語音芯片:賦能凈水機智能升級新體驗
端到端語音交互數據 精準賦能語音大模型進階
評論