精品国产一区二区,午夜精品福利一区二区三区,欧美一区二区三区爱爱

NVIDIA Maxine是一款云AI視頻流平臺(tái)，將使用GAN來(lái)提高帶寬性能

Ming-Yu Liu 和Arun Mallya 正在進(jìn)行視頻通話(huà)，其中一個(gè)人的畫(huà)面開(kāi)始出現(xiàn)卡頓，直至畫(huà)面定格。這是一種常見(jiàn)且令人反感的情況。但與大多數(shù)人不同的是，Liu和Mallya可以做出一些改變。他們是NVIDIA的AI研究人員，專(zhuān)攻計(jì)算機(jī)視覺(jué)。在與Ting-Chun Wang共事中，他們意識(shí)到可以使用神經(jīng)網(wǎng)絡(luò)來(lái)替代被稱(chēng)為視頻編解碼器的軟件，這種軟件通常用于視頻在網(wǎng)絡(luò)傳輸過(guò)程中的壓縮和解壓縮。

迄今為止，他們的工作成果將用戶(hù)在視頻通話(huà)時(shí)所需的網(wǎng)絡(luò)帶寬壓縮至原來(lái)的十分之一，還有望將帶寬消耗降低數(shù)個(gè)數(shù)量級(jí)。Mallya表示：“我們希望通過(guò)AI提供更好的視頻溝通體驗(yàn)，即使在帶寬極低的情況下，也可以從語(yǔ)音升級(jí)到視頻通話(huà)?！?/span>

GAN讓連接質(zhì)量更佳

即使用戶(hù)的面部有遮擋（比如戴著帽子、眼鏡、耳機(jī)或口罩），這項(xiàng)技術(shù)同樣適用。為了增加趣味性，他們?cè)谘菔局惺褂昧艘恍┭b飾物，這樣用戶(hù)可以在線(xiàn)上更改其發(fā)型或衣服或者創(chuàng)建頭像。更重要的是，如上圖所示，借助神經(jīng)網(wǎng)絡(luò)定位，無(wú)需再盯著顯示器上方攝像頭才能與對(duì)方對(duì)視，這增強(qiáng)了面對(duì)面對(duì)話(huà)的感覺(jué)。Wang表示：“借助計(jì)算機(jī)視覺(jué)技術(shù)，我們可以從多個(gè)角度來(lái)定位頭部。我們認(rèn)為這將幫助人們更自然地進(jìn)行對(duì)話(huà)?！?/span>迎接最前沿的AI技術(shù)，讓虛擬生活更真實(shí)。

AI賦能視頻通話(huà)的原理

AI輔助視頻通話(huà)的工作機(jī)制十分簡(jiǎn)單。與目前使用壓縮的視頻流的系統(tǒng)類(lèi)似，參考圖像發(fā)送后，僅用戶(hù)眼睛、鼻子和嘴巴周?chē)鷰讉€(gè)關(guān)鍵點(diǎn)的位置數(shù)據(jù)被發(fā)送，而非發(fā)送大量壓縮過(guò)像素的圖像。接收端的生成式對(duì)抗網(wǎng)絡(luò)通過(guò)初始圖像和面部關(guān)鍵點(diǎn)，在本地GPU上重構(gòu)后續(xù)圖像。因此，通過(guò)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)要比之前少得多。

Liu在GAN領(lǐng)域的工作成果GauGAN曾引發(fā)關(guān)注。GauGAN是一種可以將涂鴉轉(zhuǎn)化為寫(xiě)實(shí)藝術(shù)作品的AI工具，目前已經(jīng)創(chuàng)建了超過(guò)一百萬(wàn)張圖像。該工具可在AI Playground中獲取。Liu表示：“疫情期間頻繁的視頻會(huì)議啟發(fā)了我們，因此我們開(kāi)始探索突破帶寬瓶頸的方式，讓供應(yīng)商可以同時(shí)為更多人提供服務(wù)?！?/span>

GPU突破帶寬瓶頸

這一方法順應(yīng)當(dāng)前行業(yè)趨勢(shì)，將網(wǎng)絡(luò)瓶頸轉(zhuǎn)化為計(jì)算任務(wù)，從而借助本地或云端資源更輕松地解決此類(lèi)問(wèn)題。NVIDIA媒體集團(tuán)高級(jí)產(chǎn)品總監(jiān)Andrew Page表示：“如今，許多公司希望將帶寬問(wèn)題轉(zhuǎn)化為計(jì)算問(wèn)題，這是因?yàn)閹捯话愫茈y增加，而增強(qiáng)算力則相對(duì)容易?！?/span>

NVIDIA Maxine搭配了一套視頻會(huì)議和流媒體服務(wù)工具

AI 工具優(yōu)化視頻服務(wù)

GAN視頻壓縮是NVIDIA Maxine即將推出的幾個(gè)功能之一，這是一個(gè)云AI視頻流平臺(tái)，用于增強(qiáng)視頻會(huì)議和電話(huà)質(zhì)量。它將音頻、視頻和對(duì)話(huà)式AI功能整合在一個(gè)工具包中，并支持多種設(shè)備。在上周的GTC大會(huì)上，NVIDIA宣布推出了Maxine平臺(tái)?；谠撈脚_(tái)，服務(wù)提供商能夠在提供超高分辨率的視頻的同時(shí)，實(shí)現(xiàn)實(shí)時(shí)翻譯、噪聲消除和情景感知的閉路字幕。用戶(hù)可以享受到人臉校正、虛擬助手和化身逼真的動(dòng)畫(huà)角色等功能。

Page表示：“視頻會(huì)議正在經(jīng)歷一場(chǎng)復(fù)興。疫情期間，它的缺點(diǎn)給所有人帶來(lái)了不愉快的使用體驗(yàn)，但回歸視覺(jué)動(dòng)物的屬性，視頻終將成為人們今后生活中的一部分。”通過(guò)利用基于Tensor Core核心的NVIDIA GPU，Maxine可運(yùn)行如NVIDIA Jarvis的軟件。NVIDIA Jarvis是用于對(duì)話(huà)式AI的SDK，提供了一套語(yǔ)音和文本功能。它們共同提供了當(dāng)今有用的AI功能，并成為未來(lái)視頻產(chǎn)品和服務(wù)的基石。

fqj

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
39793

瀏覽量
301405
視頻通話(huà)

視頻通話(huà)

+關(guān)注

關(guān)注
0

文章
49

瀏覽量
12392

搜索歷史

AI提供更好的視頻溝通體驗(yàn)，GAN消除視頻通話(huà)中的抖動(dòng)

評(píng)論

搜索歷史

AI提供更好的視頻溝通體驗(yàn)，GAN消除視頻通話(huà)中的抖動(dòng)

評(píng)論

AI提供更好的視頻溝通體驗(yàn)，GAN消除視頻通話(huà)中的抖動(dòng)