在接入 AI 能力后,耳機(jī)這種日常化的產(chǎn)品,能有多大的想象空間?它不僅能幫你輕松聽懂全球外語和地方方言,還能將語音轉(zhuǎn)化為文字、翻譯成不同語言,甚至自動(dòng)總結(jié)會(huì)議要點(diǎn)、生成思維導(dǎo)圖,適配辦公、學(xué)習(xí)、跨語言交流及日常生活等多類場(chǎng)景,妥妥的人類新型“智能聽覺中樞”!
為了助力開發(fā)者/品牌商快速開發(fā)能聽會(huì)說的 AI 音頻類設(shè)備,涂鴉重磅發(fā)布 AI 音頻轉(zhuǎn)錄總結(jié)方案,覆蓋耳機(jī)、錄音設(shè)備、眼鏡、音箱等硬件形態(tài)。通過簡單易用的涂鴉 API,開發(fā)者只需在涂鴉的面板小程序中少量配置,就能實(shí)現(xiàn) App 收聲,并支持語音識(shí)別、翻譯、摘要、思維導(dǎo)圖生成等功能;搭配強(qiáng)大的 AI 引擎,開發(fā)者開箱即用,開發(fā)門檻更低。
目前,開發(fā)者可通過涂鴉云接入 DeepSeek、豆包、通義千問、Kimi、元寶等國內(nèi)模型,海外則兼容 ChatGPT、Claude、Gemini 等先進(jìn) AI 大模型。
一、落地應(yīng)用案例
1、AI 耳機(jī):錄音翻譯大師
涂鴉賦能 AI 耳機(jī),支持將音頻數(shù)據(jù)傳輸?shù)?App 上,并通過 VAD(語音活動(dòng)檢測(cè))+ ASR(語音轉(zhuǎn)錄文字)能力,實(shí)時(shí)處理數(shù)據(jù)。語音轉(zhuǎn)錄為文字后,就可將識(shí)別結(jié)果即時(shí)反饋給App。此外,依托 AI 大模型技術(shù),涂鴉可進(jìn)一步總結(jié)轉(zhuǎn)換后的文字內(nèi)容,并精準(zhǔn)翻譯,通過耳機(jī)語音播報(bào)給用戶。這不僅提升了用戶的使用體驗(yàn),還能夠滿足線上或面對(duì)面的多語言交流需求。
2、AI 會(huì)議錄音卡片:辦公神助攻
涂鴉賦能AI 會(huì)議錄音卡片,不僅是一個(gè)錄音工具,更能夠與會(huì)議紀(jì)要功能結(jié)合:它支持實(shí)時(shí)總結(jié)會(huì)議音頻內(nèi)容,并智能生成文字摘要和詳細(xì)的會(huì)議紀(jì)要。這一解決方案有效地簡化了會(huì)議記錄+總結(jié)過程,高效率推動(dòng)后續(xù)工作,幫助上班族節(jié)省時(shí)間與精力。
二、App 界面功能演示
下方是涂鴉賦能App 界面的展示,連接 AI 音頻設(shè)備后(接下來將以涂鴉賦能 AI 耳機(jī)為例,進(jìn)行具體介紹),即可擁有現(xiàn)場(chǎng)錄音、同聲傳譯和面對(duì)面翻譯功能。功能將持續(xù)迭代,敬請(qǐng)期待!
1、音頻實(shí)時(shí)轉(zhuǎn)錄成文字
用戶在通話、會(huì)議講座或收聽廣播場(chǎng)景下,AI 耳機(jī)都會(huì)實(shí)時(shí)采集語音。App 接收音頻數(shù)據(jù)后,會(huì)及時(shí)轉(zhuǎn)寫成文字,非常適合語言學(xué)習(xí)者、聽障人群或需要文字記錄的場(chǎng)景。識(shí)別結(jié)果會(huì)同步展示在屏幕上,便于查看、復(fù)制與保存。
下面是該功能的動(dòng)態(tài)示意圖:

2、面對(duì)面翻譯
在跨語言交流場(chǎng)景中,兩人都佩戴 AI 耳機(jī)或一人一只耳機(jī),就可實(shí)現(xiàn)“你說我譯”的雙向語音翻譯功能。語音通過耳機(jī)傳入 App,App 實(shí)時(shí)轉(zhuǎn)寫、翻譯并播報(bào)結(jié)果,大幅降低語言溝通門檻,適用于出境旅行、商務(wù)接待、跨境會(huì)談等多語種場(chǎng)景。

3、會(huì)議錄音
在多人會(huì)議或訪談場(chǎng)景中,AI 耳機(jī)可用作便捷的拾音設(shè)備,實(shí)時(shí)采集多方語音內(nèi)容。App 端實(shí)現(xiàn)同步語音轉(zhuǎn)寫,并可生成完整的會(huì)議紀(jì)要和思維導(dǎo)圖,支持后續(xù)查詢、存檔處理,有效提升會(huì)議效率與內(nèi)容管理能力。


三、涂鴉 AI 音頻技術(shù)的獨(dú)特之處
涂鴉 AI 音頻開發(fā)方案,由三大核心模塊構(gòu)成,即:設(shè)備端、App 端、云端AI,整體架構(gòu)圖可參考下方示意圖:

1、設(shè)備端
設(shè)備作為音頻輸入輸出的載體,支持通過傳統(tǒng) BT 配對(duì)和 Bluetooth LE 的方式連接 App。相比普通藍(lán)牙耳機(jī),涂鴉賦能 AI Pro 耳機(jī)可以通過特定的 DP 點(diǎn)下發(fā)指令,實(shí)現(xiàn)更豐富的雙向控制,如:
App 與 AI 耳機(jī)能夠雙向傳輸指令、同步狀態(tài)
開始/暫停錄音
控制單耳收音和播放
支持雙耳一對(duì)一的同聲翻譯功能(即左右耳可同時(shí)播放不同內(nèi)容,兩個(gè)人分別佩戴一只耳機(jī)即可實(shí)現(xiàn)同聲翻譯)

(左右耳雙道獨(dú)立運(yùn)行流程圖)
2、App 端
App 主要承擔(dān) AI 音頻的數(shù)據(jù)處理與業(yè)務(wù)邏輯運(yùn)行:
業(yè)務(wù)功能:支持現(xiàn)場(chǎng)錄音、同聲傳譯、面對(duì)面翻譯、電話錄音等功能模塊;
音頻處理:本地進(jìn)行 VAD、AEC、ANS、AGC、PLC、振幅處理、轉(zhuǎn)碼、信道管理等技術(shù)處理,能夠讓音質(zhì)的輸出清晰無雜音、更穩(wěn)定,并保持音頻連續(xù)性;
基礎(chǔ)能力:支持 AI 基座協(xié)議、設(shè)備通信協(xié)議、大數(shù)據(jù)通道(藍(lán)牙/Wi-Fi)。
3、云端 AI 能力
涂鴉在云端AI集成了多個(gè)模型與能力,包括:
ASR:搭載高精度的語音自動(dòng)識(shí)別,讓 AI 秒懂人類語言,準(zhǔn)確無誤地將音頻中的語音內(nèi)容轉(zhuǎn)寫為文本;
LLM-based MT:支持用大語言模型做翻譯,語境理解能力更強(qiáng),告別從前死記硬背的機(jī)械式翻譯(涂鴉目前可支持 65+ 地區(qū)語言,并不斷擴(kuò)展中);
TTS:支持文字轉(zhuǎn)語音,能成熟模仿不同人物的音色,并搭配不同情緒的語氣,讓 AI 發(fā)音更擬人化(用戶可自定義配置音色);
其他拓展能力:涂鴉還支持語音分離、離線轉(zhuǎn)錄、會(huì)議總結(jié)、思維導(dǎo)圖生成等功能。
通過統(tǒng)一協(xié)議協(xié)同處理,端云一體可實(shí)現(xiàn)低延遲、高效率、高智商的 AI 語音服務(wù)。

四、AI 音頻技術(shù)的流程處理
涂鴉 AI 音頻技術(shù)的流程處理,總共分為三個(gè)階段:
拾音+3A處理+轉(zhuǎn)碼:即聲音采集與預(yù)處理
VAD+音頻切片:即有效語音檢測(cè)與切片處理
ASR+翻譯+TTS:即智能識(shí)別、翻譯與語音合成
整體流程圖可參考:
1、拾音+3A處理+轉(zhuǎn)碼
首先,由耳機(jī)或 App 采集原始語音,并降噪、消除回聲后統(tǒng)一加工成 PCM 流后,交給 3A 模塊進(jìn)行預(yù)處理。處理后的音頻會(huì)自動(dòng)保存為 wav 文件,便于進(jìn)行振幅計(jì)算(即計(jì)算聲音強(qiáng)度);為了后續(xù)高效處理,涂鴉將音頻數(shù)據(jù)分割為 640b/幀的數(shù)據(jù)塊。

2、VAD+音頻切片
涂鴉會(huì)對(duì)連續(xù) PCM 音頻流進(jìn)行精準(zhǔn)的 VAD 語音識(shí)別檢測(cè),并整合出有效的語音片段,智能區(qū)分哪里是人在說話、哪里是靜音或背景噪音。然后按規(guī)則(如 100ms/段)進(jìn)行切片,緩存發(fā)送到待識(shí)別的 ASR(語音轉(zhuǎn)換為文本)隊(duì)列。

3、ASR+翻譯+TTS
收到語音片段后,系統(tǒng)會(huì)自動(dòng)發(fā)送到云端完成 ASR 識(shí)別
如果用戶開啟了翻譯功能,就會(huì)在完成語音轉(zhuǎn)文字后,同步調(diào)用大模型進(jìn)行語言翻譯;
翻譯后的文字,可通過 TTS,合成目標(biāo)語言播放給用戶聽;
最終,所有識(shí)別或翻譯結(jié)果,都會(huì)通過 AI 基座與業(yè)務(wù)層進(jìn)行通信,并回調(diào)至面板小程序中。
-
音頻
+關(guān)注
關(guān)注
31文章
3188瀏覽量
85551 -
AI
+關(guān)注
關(guān)注
91文章
39755瀏覽量
301358 -
涂鴉智能
+關(guān)注
關(guān)注
7文章
309瀏覽量
20690
發(fā)布評(píng)論請(qǐng)先 登錄
煙絲喂送的‘翻譯官’:EtherCAT與DeviceNet匯川伺服的無縫對(duì)話”
"網(wǎng)關(guān)”成頂流!PROFINET轉(zhuǎn)CC-LINK,汽車產(chǎn)線的“翻譯官”出圈記
智能“翻譯官”:MODBUS轉(zhuǎn)PROFIBUS網(wǎng)關(guān),解鎖攪拌站無人裝載新紀(jì)元
逆變器是什么?廣州郵科如何用“電力翻譯官”守護(hù)通信命脈
聲智科技AI翻譯耳機(jī)重塑智能聽覺體驗(yàn)
工業(yè)網(wǎng)關(guān):連接工業(yè)現(xiàn)場(chǎng)與數(shù)字世界的“翻譯官”
AI玩具或成為下一個(gè)萬億新賽道
水表界的“翻譯官”:讓CCLinkIE和Modbus TCP“無障礙聊天”!
CAN收發(fā)器:總線信號(hào)的“翻譯官”
光模塊科普:1×9與SFP,如何選擇適合你的“信號(hào)翻譯官”?
工業(yè)通信的“超級(jí)翻譯官”Modbus轉(zhuǎn)Profinet如何讓稱重設(shè)備實(shí)現(xiàn)語言自由
EtherCAT轉(zhuǎn)Profinet網(wǎng)關(guān):紡織業(yè)設(shè)備互聯(lián)的“翻譯官”
AI耳機(jī)變身翻譯官+會(huì)議總結(jié)大師?涂鴉AI音頻開發(fā)方案,讓耳機(jī)升級(jí)到下一個(gè)level
評(píng)論