在語音大模型從“能識別”向“懂語境”跨越的關(guān)鍵階段,高質(zhì)量場景化語音數(shù)據(jù)已成為制約技術(shù)突破的核心瓶頸。傳統(tǒng)語音識別數(shù)據(jù)集采用孤立標(biāo)注,在語音-文本轉(zhuǎn)寫中存在信息割裂、上下文缺失及誤差累積問題,導(dǎo)致模型在多輪對話、噪聲環(huán)境及語義理解方面表現(xiàn)不佳。
相較于傳統(tǒng)數(shù)據(jù)集僅關(guān)注語音-文本的單點轉(zhuǎn)寫,端到端語音交互數(shù)據(jù)集強(qiáng)調(diào)在真實多輪對話場景下的全維度信息保留。
其核心特征體現(xiàn)在三方面:其一,覆蓋語音交互全流程,同步捕捉指令采集、意圖解析、上下文關(guān)聯(lián)、背景音分離及非標(biāo)準(zhǔn)口語(如口頭禪、重復(fù)、打斷);其二,通過上下文關(guān)聯(lián)標(biāo)注技術(shù)實現(xiàn)跨輪次語義連貫性建模,緩解長對話語境遺忘問題;其三,采用情感-語境雙維度標(biāo)注體系,量化多語種/方言的發(fā)音特征、情感色彩及語境差異,構(gòu)建可量化評估的訓(xùn)練基線。
標(biāo)貝科技積極響應(yīng)市場需求,已系統(tǒng)構(gòu)建了涵蓋多風(fēng)格、多情感的高質(zhì)量方言與外語自然對話數(shù)據(jù)矩陣。
在方言維度,覆蓋河南、上海、東北、陜西等典型方言區(qū),精確捕捉各區(qū)域發(fā)音特點、口音輕重及方言特有表達(dá);在多語種維度,涵蓋泰語、印尼語、菲律賓語、日語、葡萄牙語、墨西哥語、越南語、馬來語等語種,形成跨文化交際場景下的全真對話語料庫。所有數(shù)據(jù)集均基于自然聊天場景采集,完整保留多輪對話的語境連續(xù)性、情感動態(tài)變化,滿足專業(yè)級語音大模型對發(fā)音多樣性、情感豐富度及語境復(fù)雜度的訓(xùn)練需求。
基于對語音交互前沿趨勢的持續(xù)洞察與技術(shù)預(yù)判,標(biāo)貝科技于近期進(jìn)一步推出兩大專項數(shù)據(jù)集產(chǎn)品:
01 端到端語音大模型數(shù)據(jù)集
該數(shù)據(jù)集專為語音大模型預(yù)訓(xùn)練設(shè)計,總時長約8000小時,以“全維度多樣性”為核心,構(gòu)建模型對復(fù)雜語音場景的基礎(chǔ)認(rèn)知能力:
說話人多樣性:數(shù)據(jù)集由約7200名發(fā)音人參與錄制,年齡層面覆蓋10-79歲全年齡段,性別比例均衡,完整捕捉不同年齡階段的語音特征。
場景全覆蓋:涵蓋日常交流、電商咨詢、客服對話等細(xì)分領(lǐng)域。涉及旅游、交通、運動、娛樂、健康、游戲、美食等話題。
精細(xì)標(biāo)注體系:除提供高準(zhǔn)確率的語音文本轉(zhuǎn)寫外,還包含中英文特殊符號、語氣詞、數(shù)字規(guī)整化以及口音特征保留等多維度標(biāo)注,助力模型捕捉真實人聲表達(dá)細(xì)節(jié)和語音風(fēng)格變異。
02對話指令詞數(shù)據(jù)集
該數(shù)據(jù)集以“優(yōu)化對話系統(tǒng)自然交互能力”為目標(biāo),聚焦中文普通話對話指令的情感表達(dá)與語義關(guān)聯(lián),構(gòu)建"指令理解-情感響應(yīng)"的閉環(huán)訓(xùn)練體系,總時長約1000小時:
說話人多樣:約1000名發(fā)音人參與錄制,年齡跨度覆蓋兒童至老年全階段,性別比例均衡,保障情感響應(yīng)的普適性。
指令類型完備:語料既包含直接表達(dá)的顯性指令(如“請用高興的語氣說…”),直接規(guī)定語氣與內(nèi)容邊界;也涵蓋需意圖推斷的隱式指令(如“你聲音太小了,我聽不太清楚”),有效訓(xùn)練模型對用戶隱含意圖的感知與上下文推理能力。
情感維度豐富:語料設(shè)計包含弱情緒對話,如開心、生氣、驚訝、尷尬、緊張、吐槽等,及情緒表現(xiàn)突出的強(qiáng)指令對話,涵蓋多類別、多強(qiáng)度的情感狀態(tài),適用于生成富有表現(xiàn)力且上下文吻合的語音合成與交互系統(tǒng)。
審核編輯 黃宇
-
大模型
+關(guān)注
關(guān)注
2文章
3716瀏覽量
5248
發(fā)布評論請先 登錄
基于Arm平臺的端到端int8 Conformer模型部署
端側(cè)大模型上車:從“語音助手”到“車內(nèi) AI 智能體”的躍遷革命
Nullmax感知規(guī)劃端到端大模型進(jìn)化提速
大模型賦能物資需求精準(zhǔn)預(yù)測與采購系統(tǒng):功能特點與平臺架構(gòu)解析
端到端語音交互革命:百度智能云聯(lián)合地瓜機(jī)器人,重塑AI陪伴體驗
VoNR語音感知端到端優(yōu)化方案
端到端發(fā)展趨勢下,云算力如何賦能智能駕駛技術(shù)躍遷?
語音機(jī)器人交互系統(tǒng):核心技術(shù)與應(yīng)用挑戰(zhàn)
廣和通發(fā)布自研端側(cè)語音識別大模型FiboASR
廣州唯創(chuàng)電子WTN6/WTV系列語音芯片:賦能凈水機(jī)智能升級新體驗
端到端語音交互數(shù)據(jù) 精準(zhǔn)賦能語音大模型進(jìn)階
評論