作者:Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Ronan Naughton
想象一下,你正在智能手機(jī)上編輯視頻,需要為其添加合適的音效;或是你想要生成自定義聲音,用于設(shè)置鈴聲、鬧鐘或發(fā)布社交媒體帖子。你無(wú)需在網(wǎng)上搜索或購(gòu)買音頻片段,只需輸入一段描述,例如“日落時(shí)的輕柔海浪聲”,幾秒鐘后,你的設(shè)備就會(huì)為你生成合適的聲音,甚至無(wú)需聯(lián)網(wǎng)就可實(shí)現(xiàn)。得益于 Arm 和 Stability AI 的新合作,這種完全在端側(cè)直接生成音頻的技術(shù)已變?yōu)楝F(xiàn)實(shí)。
Arm 與 Stability AI 攜手合作,加快文本轉(zhuǎn)音頻的響應(yīng)速度
Stability AI 是一家專注于圖像、視頻、3D 和音頻領(lǐng)域人工智能 (AI) 模型開發(fā)的公司。而 Arm KleidiAI 能夠提供專門針對(duì) Arm CPU 的經(jīng)優(yōu)化的性能關(guān)鍵例程(即微內(nèi)核)。通過(guò) KleidiAI 與 XNNPack 庫(kù)和 ExecuTorch 框架的集成,以及 Stability AI 自身的優(yōu)化,為 Stability AI 的文本轉(zhuǎn)音頻開放模型“Stable Audio Open”帶來(lái)了顯著的 AI 性能提升。
令人驚嘆的結(jié)果包括文本轉(zhuǎn)音頻的 AI 生成時(shí)間從幾分鐘大幅縮短至幾秒鐘,響應(yīng)速度提高了 30 倍。Stable Audio Open 模型完全在基于 Arm CPU 的智能手機(jī)上運(yùn)行,且無(wú)需聯(lián)網(wǎng),對(duì)于文本轉(zhuǎn)音頻 AI 來(lái)說(shuō)是首創(chuàng)之舉。
Stability AI 利用 KleidiAI 自動(dòng)加速功能,加快模型的響應(yīng)速度,從而在不影響質(zhì)量的情況下提升了端側(cè) AI 性能。KleidiAI 帶來(lái)的性能提升,無(wú)需 Stable Audio Open 模型用戶額外投入開發(fā)精力,節(jié)省了時(shí)間和成本。Arm 和 Stability AI 將繼續(xù)合作,以實(shí)現(xiàn)更多性能的躍升,帶來(lái)更為出色的 AI 用戶體驗(yàn)。
顯著的性能提升表明,具有針對(duì)性的硬件和軟件集成,使過(guò)往無(wú)法實(shí)現(xiàn)的 AI 應(yīng)用在移動(dòng)端變得可行,從而推動(dòng)了未來(lái)的創(chuàng)新機(jī)遇。Arm 技術(shù)驅(qū)動(dòng)了全球 99% 的智能手機(jī),這也意味著數(shù)十億智能手機(jī)用戶現(xiàn)可取得先進(jìn)的 AI 音頻功能。
共同應(yīng)對(duì)復(fù)雜的 AI 挑戰(zhàn)
Stable Audio Open 模型具備出色的效率,但在智能手機(jī)的 CPU 上直接由端側(cè)運(yùn)行該模型仍非易事。在初期嘗試時(shí),單個(gè)音頻樣本的生成時(shí)間超過(guò)四分鐘,這對(duì)終端用戶而言不太能接受。
通過(guò)與 Arm 合作,Stability AI 將模型的訓(xùn)練參數(shù)量蒸餾到適合移動(dòng)端的規(guī)模。然后,通過(guò)新的蒸餾模型,并利用 XNNPack 與 ExecuTorch 集成帶來(lái)的 KleidiAI 性能加速,實(shí)現(xiàn)了在移動(dòng)端 Arm CPU 上幾秒內(nèi)就生成音頻片段。
Stability AI 首席執(zhí)行官 Prem Akkaraju 表示:隨著越來(lái)越多的專業(yè)創(chuàng)意工作者和企業(yè)采用生成式 AI 來(lái)幫助提升其生產(chǎn)流程,我們的模型和工作流必須隨處可得,以供構(gòu)建者和創(chuàng)作者使用,這一點(diǎn)至關(guān)重要。我們很高興能就此與 Arm 合作。從服務(wù)器到智能手機(jī),Arm 平臺(tái)在整個(gè)生態(tài)系統(tǒng)中應(yīng)用普及,并且 Arm 通過(guò)將 Arm Kleidi 集成到軟件棧中,致力于加速各類主流框架中的 AI 模型,因此 Arm 是我們的不二之選。
文本轉(zhuǎn)音頻 AI 的興起
自 2022 年以來(lái),Stability AI 始終立于生成式 AI 發(fā)展的前沿,曾憑借行業(yè)領(lǐng)先的圖像模型 Stable Diffusion 引起轟動(dòng)。依托 Stable Diffusion 的成功,該公司隨后推出了 Stable Audio,這是首個(gè)完全獲得授權(quán)的音頻模型之一,專為通過(guò)文本提示詞生成高質(zhì)量的音樂(lè)和音效而設(shè)計(jì)。這些 AI 模型在 Hugging Face 等主要平臺(tái)上均排名前茅,擁有多達(dá)數(shù)百萬(wàn)規(guī)模的用戶數(shù),構(gòu)成了一個(gè)活躍的技術(shù)社區(qū)。
人人皆可享先進(jìn)的音頻 AI 體驗(yàn)
這一成果僅僅只是雙方合作的開始,Arm 和 Stability AI 已規(guī)劃了更多的性能優(yōu)化舉措,旨在為用戶帶來(lái)更加出色的使用體驗(yàn)。通過(guò)攜手合作,Arm 正在為音頻、圖像、視頻和 3D 領(lǐng)域的端側(cè) AI 打好基礎(chǔ),重塑每個(gè)人創(chuàng)作內(nèi)容和與數(shù)字媒體互動(dòng)的方式。通過(guò)蒸餾先進(jìn)的模型并利用經(jīng)過(guò)優(yōu)化的軟件,部署到人們常用的硬件設(shè)備上,從而為未來(lái)鋪平道路,實(shí)現(xiàn)人人都能通過(guò)口袋里的設(shè)備直接享受先進(jìn)的 AI 應(yīng)用、模型和體驗(yàn)。
-
ARM
+關(guān)注
關(guān)注
135文章
9553瀏覽量
391859 -
音頻
+關(guān)注
關(guān)注
31文章
3188瀏覽量
85558 -
AI
+關(guān)注
關(guān)注
91文章
39774瀏覽量
301372 -
人工智能
+關(guān)注
關(guān)注
1817文章
50095瀏覽量
265311
原文標(biāo)題:加快 30 倍!Arm Kleidi 賦能端側(cè)音頻生成提速
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
西門子EDA與Arm攜手合作加速系統(tǒng)設(shè)計(jì)驗(yàn)證進(jìn)程與軟件啟動(dòng)
大家好! 疊層工藝相比傳統(tǒng)工藝,在響應(yīng)速度上具體快在哪里?
新技術(shù)可提升紫外線傳感器響應(yīng)速度
高電壓/高響應(yīng)速度調(diào)光/低紋波線性恒流驅(qū)動(dòng)芯片SS9202
Arm與Meta深化戰(zhàn)略合作
3D打印機(jī)器人堵頭預(yù)警:加熱器NTC熱敏電阻響應(yīng)速度測(cè)試
如何在基于Arm架構(gòu)的邊緣AI設(shè)備上部署飛槳模型
Arm 洞察與思考:為什么 AI 向邊緣遷移的速度超乎想象
SOLIDWORKS2025在性能和響應(yīng)速度方面進(jìn)行了大幅提升
涂鴉OmniAI Foundation 2.2版本正式發(fā)布:AI智能體全面升級(jí),響應(yīng)速度迅猛提高40%
Arm 與微軟合作,為基于 Arm 架構(gòu)的 PC 和移動(dòng)設(shè)備應(yīng)用提供超強(qiáng) AI 體驗(yàn)
Arm與微軟合作加速邊緣設(shè)備上的AI體驗(yàn)
WT588F語(yǔ)音芯片響應(yīng)時(shí)間深度解析:從指令觸發(fā)到音頻播放的技術(shù)全貌
Arm與Stability AI攜手合作加快文本轉(zhuǎn)音頻的響應(yīng)速度
評(píng)論