涂鴉智能AI開發(fā)者平臺始終致力于打造行業(yè)內(nèi)最具競爭力的AI硬件創(chuàng)新中間件平臺。我們不斷強化平臺能力、提升開放水平,通過更安全、更可靠、更可規(guī)模化的技術體系,持續(xù)助力客戶實現(xiàn)自主創(chuàng)新,加速下一代AI硬件產(chǎn)品的落地。
今天,我們非常高興地宣布:面向多模態(tài)AI硬件的基座平臺Omni AI Foundation正式發(fā)布V2.6版本。本次升級不僅顯著提升了端到端多模態(tài)交互體驗,還全面開放了基于自研架構Dynamic Orchestration Agent System(DOS)的工作流編排引擎,為全球開發(fā)者提供更強大、更靈活、更高效的AI硬件構建能力。
核心亮點一睹為快:
端到端交互平均時延1.3秒,全球網(wǎng)絡和實時算力穩(wěn)定性雙重加碼;
開放編排引擎,賦能開發(fā)者低代碼構建復雜AI應用,有效降低開發(fā)成本;
自然語音與意圖分類等核心算法升級,靈活適配不同場景的多模態(tài)交互需求;
正式上線OmniMem個體記憶系統(tǒng),提升AI設備交互一致性與情感體驗。
關于Omni AI Foundation:
Omni AI Foundation是涂鴉智能傾力打造的多模態(tài)AI與實時音視頻基座平臺。它整合了涂鴉在實時音視頻(RTC)、AI Agent運行環(huán)境、多Agent編排架構及全球部署方面的核心能力,為企業(yè)和開發(fā)者提供從設備接入、多模態(tài)交互到業(yè)務流程編排的全生命周期AI解決方案。
01
端到端時延與全球穩(wěn)定性再上新臺階
我們持續(xù)加強全球化基礎設施投入和技術布局,截至當前已在全球部署7個數(shù)據(jù)中心、數(shù)10個主流國家實時媒體加速網(wǎng)絡、數(shù)千個主流城市邊緣加速節(jié)點。基于Tuya Real-Time Communication(T-RTC)加速網(wǎng)絡,為全球開發(fā)者提供全球一致的端到端實時交互體驗。
● 全球領先的響應速度:在全球范圍內(nèi),包含記憶、知識庫以及工具調(diào)用的復雜場景下,端到端交互平均時延已穩(wěn)定在1.3秒以內(nèi),顯著優(yōu)于行業(yè)平均水平。
(注:以上數(shù)據(jù)基于800ms VAD時延測得,整體體驗優(yōu)于行業(yè)300-500ms VAD時間。)
●金融級服務可靠性:通過動態(tài)負載均衡技術,支持全球主流大模型就近加速接入和實時(公共/專享)算力調(diào)度,毫秒級容災降級切換,服務穩(wěn)定性高達99.95%。
●全球網(wǎng)絡優(yōu)化:Omni AI Foundation協(xié)議全面支持TCP、UDP及WebSocket協(xié)議,并針對不同業(yè)務場景實現(xiàn)了擁塞控制算法的自適應匹配,確保了在全球任何角落都能獲得穩(wěn)定、低延遲的連接體驗。
(注:WebSocket面向瀏覽器側開放、UDP已釋放APP SDK集成,嵌入式SDK后續(xù)釋放。)
02
更開放、更靈活,賦能開發(fā)者低代碼構建復雜AI應用
本次升級的核心亮點在于聚焦技術架構的全面升級,著力解決開發(fā)者在AI硬件創(chuàng)新中普遍面臨的多模態(tài)能力集成復雜、自主創(chuàng)新受限、開發(fā)效率不足等痛點。主要升級包括:
▍多Agent編排引擎:可視化協(xié)同、最短路徑、多路并行
Omni AI Foundation現(xiàn)已全面支持可視化的多Agent協(xié)同流程。開發(fā)者可通過拖拽式操作,快速搭建「統(tǒng)一輸入→意圖理解與分類→多Agent并行處理→統(tǒng)一輸出」的復雜業(yè)務鏈路。新架構具備最短路徑?jīng)Q策與并行處理能力,以平衡開發(fā)者既要實現(xiàn)更復雜的差異能力又要保持實時端到端響應交互。同時在能力擴展上允許開發(fā)者在不同Agent中靈活啟用或關閉MCP工具,以更簡化的提示詞來降低模型幻覺,提升響應時間。
▍更簡化的MCP集成:端云能力統(tǒng)一、視覺端到端快50%
平臺全面重構了設備側MCP集成方案。在支持標準MCP協(xié)議的基礎上,將AI硬件常用能力(如實時圖像抓取、圖像識別、傳感器數(shù)據(jù)采集、設備控制等),統(tǒng)一抽象為標準化云端服務,使AI Agent可以在統(tǒng)一、安全、可控的方式下調(diào)用端側能力,顯著降低了端側開發(fā)成本,同時實現(xiàn)了更快的端到端多模態(tài)響應,視覺理解鏈路整體性能提升約50%。
(注:端側MCP集成需基于wukongV3.13.0以上版本使用。)
▍更加豐富的平臺協(xié)議開放,支持拓展更多應用場景
為滿足開發(fā)者更為豐富的應用場景,除支持Tuya Wukong AI、TuyaOpen、Tuya APP SDK外,新增開放WebSocket以支持PC/瀏覽器等終端接入,后續(xù)將開放更原子的Foundation SDK,以支持客戶在更多開放系統(tǒng)中使用。
03
核心算法模型持續(xù)升級,全面釋放多模態(tài)交互潛能
為更好適配不同芯片平臺、硬件形態(tài)及應用場景中的自然語音與多模態(tài)交互需求,我們持續(xù)迭代核心算法模型,在確保算法可靠性與一致性的前提下,為開發(fā)者提供更加靈活、開放且可自主選擇的模型能力組合。
▍高精度VAD模型:在“流暢響應”與“誤判控制”之間取得最佳平衡
在語音活動檢測(VAD)落地中,開發(fā)者往往面臨兩難:一方面,追求毫秒級響應速度,極易將環(huán)境噪聲誤判為有效語音,導致頻繁中斷;另一方面,過度強調(diào)準確率又會犧牲交互即時性,造成延遲和不自然體驗。涂鴉自研的高精度VAD模型基于海量真實場景數(shù)據(jù)進行深度優(yōu)化,實現(xiàn)了低至500ms靜音檢測和300ms的極速打斷能力,為用戶帶來更自然流暢的對話體驗。
“建議開發(fā)者在涂鴉AI開發(fā)者平臺將打斷檢測設為極速300ms,VAD檢測設為優(yōu)雅800ms——即便VAD為800ms,全球端到端平均時延仍可控制在1.3s,有效保證用戶體驗。”

▍領域意圖分類模型:降低意圖幻覺,加速決策響應
當開發(fā)者為AI產(chǎn)品拓展能力時,大模型常常會出現(xiàn)意圖幻覺增多、響應鏈路變長等問題。針對這一痛點,涂鴉基于多年在AI硬件領域的場景經(jīng)驗與生態(tài)數(shù)據(jù),推出自訓練的領域意圖分類模型。該模型基于涂鴉對AI硬件的數(shù)據(jù)積累和市場洞察持續(xù)迭代,開發(fā)者只需在工作流中選擇,即可為AI產(chǎn)品實時添加能力擴展。

目前,涂鴉意圖分類模型已全面覆蓋涂鴉官方技能,后續(xù)將逐步開放對第三方MCP工具與客戶自定義技能的分類與召回支持,為開發(fā)者提供更高魯棒性的技能拓展。
▍突破全球多語言技術壁壘,支撐客戶業(yè)務出海
在全球市場部署AI應用,多語言支持是一大核心技術壁壘。不同語言的語法結構、語調(diào)、口音差異巨大,訓練一個在所有語言上都表現(xiàn)優(yōu)異的統(tǒng)一模型極具挑戰(zhàn)。
涂鴉的意圖分類與語音識別(ASR)模型,已針對全球主要市場(如英語、西班牙語、日語及東南亞多語種)進行專項優(yōu)化和數(shù)據(jù)增強,確保不同語言環(huán)境下的高識別率和意圖理解準確性。同時,我們也為開發(fā)者在不同地區(qū)挑選最為優(yōu)秀的合作伙伴,以保障開發(fā)者AI產(chǎn)品在當?shù)乜色@得行業(yè)最佳的準確率和響應時間,為客戶的全球化業(yè)務提供堅實可靠的技術支撐。
(注:以下測試均基于開源音頻測試集(CommonVoice)測得。)

(注:Whisper-large-v3為離線模型無法在對話式語音交互場景使用,但離線模型相比流式模型擁有更低的WER,借助Whisper-large-v3的參考數(shù)據(jù)將更好幫助我們驗證本地區(qū)ASR準確率。)
04
OmniMem個體記憶正式商用,重構AI記憶體驗
OmniMem通過針對AI記憶領域的時間處理、信息干擾、記憶割裂和動態(tài)更新等多個技術痛點進行攻堅,憑借底層架構優(yōu)化與算法創(chuàng)新,實現(xiàn)了低延遲+高精度的有效平衡。平臺只需一步配置,即可快速解鎖AI記憶的核心能力。
OmniMem以開源測試集的領先得分、低延遲表現(xiàn)、多維度痛點解決方案與低門檻落地體驗,成為“更懂用戶、更穩(wěn)性能、更具價值”的AI記憶選擇。后續(xù),我們將帶來多模態(tài)記憶融合、跨設備遷移能力優(yōu)化、記憶擬人化體驗升級等新能力,持續(xù)完善能力邊界,讓智能記憶的價值持續(xù)生長。

戳這里,詳細了解OmniMem的核心技術與優(yōu)勢。
-
DoS
+關注
關注
0文章
129瀏覽量
45917 -
涂鴉智能
+關注
關注
7文章
309瀏覽量
20690 -
ai硬件
+關注
關注
0文章
34瀏覽量
2633
發(fā)布評論請先 登錄
軟硬全開源 + 擴展無邊界!涂鴉 T5 AI 口袋機,讓 AI + IoT 創(chuàng)意在掌心生長
何同學“AI尋牛”硬件激發(fā)創(chuàng)意,2025 SparkS全球AI硬件創(chuàng)新大賽啟動
10分鐘用涂鴉王牌開發(fā)板,打造能玩熱門游戲的AI紙巾盒!低成本低門檻有手就會
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
代碼如何重塑硬件設計,AI如何加速創(chuàng)新?
“端云+多模態(tài)”新范式:《移遠通信AI大模型技術方案白皮書》正式發(fā)布
涂鴉智能重磅發(fā)布四大AIoT技術引擎,賦能開發(fā)者以AI重構物理世界
華為AI WAN SPN打造行業(yè)數(shù)智化新體驗
首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手
涂鴉WuKong AI 2.0開發(fā)框架發(fā)布!情緒感知+多模態(tài)交互,重新定義AI玩具新體驗
移遠通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗
移遠通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)
10分鐘快速打造爆款AI硬件!涂鴉產(chǎn)品AI功能和智能體開發(fā)平臺重磅上新
涂鴉Omni AI Foundation V2.6發(fā)布:低代碼+多模態(tài),重塑AI硬件創(chuàng)新體驗
評論