C位是近年網(wǎng)絡(luò)上一個(gè)比較熱門的詞,最早來源于DOTA等游戲領(lǐng)域,是核心位置(Carry位)的簡(jiǎn)稱,代表的是能夠在游戲前中期打錢發(fā)育并在游戲后期帶領(lǐng)隊(duì)伍力挽狂瀾的角色。現(xiàn)在C位一詞逐漸擴(kuò)大到了娛樂圈乃至我們的生活中,在社交、表演、比賽以及各種日常活動(dòng)場(chǎng)景中,只要當(dāng)某一個(gè)人在人群中處于中心位置,即最重要的人,大家便稱呼他是C位(Center位)。
在包含眾多人像的照片中,由于每個(gè)人的穿著和動(dòng)作各異,同時(shí)人與人之間存在各種交互信息,以及所處的場(chǎng)景不同,我們通過肉眼來確定C位的時(shí)候可能會(huì)出現(xiàn)各種偏差。在人工智能快速發(fā)展的今天,我們能否可以通過AI來自動(dòng)找出C位呢?答案當(dāng)然是肯定的。在這篇文章中,我們將介紹如何利用計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù)構(gòu)建一個(gè)性能優(yōu)異的C位檢測(cè)器,從而快速準(zhǔn)確地在一群人中發(fā)現(xiàn)真正站C位的那個(gè)最重要的人。
C位檢測(cè)器前傳
C位檢測(cè)器的目標(biāo)是檢測(cè)出一群人中最重要的人。一般來說,C位檢測(cè)器主要由兩部分組成,第一部分是人臉/全身檢測(cè)模型,通過該模型首先檢測(cè)出照片中的所有人像;第二部分是人像重要性預(yù)測(cè)模型,通過該模型對(duì)檢測(cè)出的每個(gè)人像計(jì)算重要性得分,重要性得分最高的人即為C位。
當(dāng)前的人臉/全身檢測(cè)模型的性能已經(jīng)比較理想,而人像重要性預(yù)測(cè)模型還處在研究和探索階段,所以下面我們的內(nèi)容將主要圍繞如何量化一群人中每個(gè)人的重要性展開。
最直接的人像重要性計(jì)算可以基于照片中人像所處的位置和面積進(jìn)行設(shè)計(jì),例如,離照片中心點(diǎn)越近則重要性越高,人像的面積越大則重要性越高等等。然而我們判斷一個(gè)人是不是C位,除了利用照片中人像所處的位置和面積這類人像自身的幾何信息外,還會(huì)根據(jù)照片上的各種信息綜合判斷:人像自身的外表信息(上圖(a))、與其他人之間的關(guān)系信息(上圖(b))以及所處的全局場(chǎng)景信息(上圖(c))。
人與人之間的關(guān)系和人與場(chǎng)景之間的關(guān)系對(duì)C位的判斷起到關(guān)鍵性作用。如果我們只利用人像的自身特征進(jìn)行重要性計(jì)算,例如上圖(a)中的紅框女性,我們其實(shí)無法知道她是否是照片中最重要的人。但我們通過她與周圍人之間和與整體場(chǎng)景之間的關(guān)系信息分析便可以得出她是C位的結(jié)論。
一個(gè)理想的人像重要性預(yù)測(cè)模型應(yīng)根據(jù)上面提到的各方面信息進(jìn)行聯(lián)合計(jì)算。如何提取照片上豐富的多元化信息?如何對(duì)人與人之間和人與場(chǎng)景之間的關(guān)系建模,從而獲取高層次的語(yǔ)義信息?如何最終根據(jù)照片上人像的多元化信息和高層次語(yǔ)義信息的特征進(jìn)行重要性評(píng)估?這些都是擺在我們面前的問題,需要我們?nèi)ヒ灰唤鉀Q。
一個(gè)出色的C位檢測(cè)器
為了解決上節(jié)末提出的三個(gè)問題,我們實(shí)驗(yàn)室的小伙伴們攻堅(jiān)克難,提出了一種全新而高效的人像重要性預(yù)測(cè)模型,構(gòu)建了一個(gè)出色的C位檢測(cè)器,相關(guān)工作發(fā)表在CVPR 2019。下面我們對(duì)其中的模型框架和建模思路進(jìn)行一一介紹,希望給大家?guī)砀嗟膯l(fā)和思考。
整個(gè)人像重要性預(yù)測(cè)模型分為三個(gè)模塊,分別是特征表達(dá)模塊、關(guān)系計(jì)算模塊和重要性分類模塊。特征表達(dá)模塊能夠有效地提取照片中每個(gè)人的自身特征和整張照片的全局場(chǎng)景特征。關(guān)系計(jì)算模塊能夠?qū)θ伺c人之間和人與場(chǎng)景之間的關(guān)系進(jìn)行建模。重要性分類模塊能夠計(jì)算每個(gè)人像的重要性得分,從而最終識(shí)別出最重要的C位人選。完整的模型框架如下圖所示。
特征表達(dá)模塊針對(duì)上節(jié)末“如何提取照片上豐富的多元化信息?”這一問題進(jìn)行設(shè)計(jì)。為了充分地獲取人像自身豐富的特征表達(dá),人像的外表信息和幾何信息都會(huì)進(jìn)行特征提取。深度卷積神經(jīng)網(wǎng)絡(luò)被用來實(shí)現(xiàn)提取流程,如下圖所示。其中,外表信息被分為內(nèi)在(綠框)和外在(藍(lán)框)兩部分,內(nèi)在區(qū)域更多提取人像固有的外表信息,外在區(qū)域更多用于提取人像外表以及與周圍環(huán)境的上下文信息,從而保證了人像信息的多元化。此外整張照片的全局場(chǎng)景信息(黃框)也會(huì)通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征提取。
關(guān)系計(jì)算模塊針對(duì)上節(jié)末“如何對(duì)人與人之間和人與場(chǎng)景之間的關(guān)系建模,從而獲取高層次的語(yǔ)義信息?”這一問題進(jìn)行設(shè)計(jì),是整個(gè)模型中最關(guān)鍵的模塊。在該模塊中,關(guān)系網(wǎng)絡(luò)(Relation Networks)被用來對(duì)在特征表達(dá)模塊中提取的人像特征和場(chǎng)景特征進(jìn)行關(guān)系建模。關(guān)系網(wǎng)絡(luò)能夠在沒有額外監(jiān)督信息的前提下,自動(dòng)學(xué)習(xí)人與人之間和人與場(chǎng)景之間的關(guān)系,從而提取更高層次的語(yǔ)義信息以表征人在場(chǎng)景中的重要性。具體會(huì)分別建立人與人之間的關(guān)系圖和人與場(chǎng)景之間的關(guān)系圖,通過多個(gè)并行的關(guān)系網(wǎng)絡(luò)提取關(guān)系特征并連接,再與原有的人像特征相加,得到最終的特征表達(dá)。
重要性分類模塊針對(duì)上節(jié)末“如何最終根據(jù)照片上人像的多元化信息以及高層次語(yǔ)義信息的特征進(jìn)行重要性評(píng)估?”這一問題進(jìn)行設(shè)計(jì)。通過對(duì)在關(guān)系計(jì)算模型中提取的每個(gè)人像的最終特征表達(dá)進(jìn)行重要/不重要的二分類,將每個(gè)人像被分為重要這個(gè)類別的概率作為重要性得分,得分最高的人像就是模型認(rèn)定的C位。
以上三個(gè)模塊一起實(shí)現(xiàn)了端到端的人像重要性訓(xùn)練和預(yù)測(cè)。最后我們來看一看利用上述模型進(jìn)行C位檢測(cè)的可視化結(jié)果。紅框代表的是模型檢測(cè)出來的C位,綠框代表的是當(dāng)前其他最好方法的檢測(cè)結(jié)果,可以看出在充分考慮了照片中人與人之間和人與場(chǎng)景之間的關(guān)系信息后,在各種復(fù)雜場(chǎng)景下,AI均能夠準(zhǔn)確地檢測(cè)出真正的C位。
C位檢測(cè)可以自動(dòng)快速地在人群中找出最重要的那個(gè)人。通過這篇文章,我們介紹了利用AI進(jìn)行C位檢測(cè)的一般流程和遇到的挑戰(zhàn),也進(jìn)一步分享了一種優(yōu)秀的C位檢測(cè)器的構(gòu)建思路與過程。其中的更多細(xì)節(jié)大家可以在arXiv上搜索《Learning to Learn Relation for Important People Detection in Still Images》進(jìn)行查看。最后祝大家都能在各自的領(lǐng)域內(nèi)不斷進(jìn)步,實(shí)現(xiàn)自我價(jià)值,站上屬于自己的C位。
-
機(jī)器視覺
+關(guān)注
關(guān)注
165文章
4798瀏覽量
126070 -
人工智能
+關(guān)注
關(guān)注
1817文章
50098瀏覽量
265412 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5599瀏覽量
124398
原文標(biāo)題:誰(shuí)才是真正的C位,讓AI告訴你
文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
天數(shù)智算AI+HOME解決方案:重構(gòu)家庭智能生態(tài),讓家更懂你?
天數(shù)智算AI+HOME解決方案:重構(gòu)家庭智能生態(tài),讓家更懂你?
國(guó)內(nèi)哪些生成式 AI 工具最容易上手?企業(yè)真正看重的是“能馬上用起來”
讓家更懂你!天數(shù)智算「AI HOME智能體」開啟智慧家庭新體驗(yàn)
【選型建議】選Mesh還是LoRa?誰(shuí)才是你的理想無線方案?
華為云Flexus AI智能體,讓每家企業(yè)都擁有開箱即用的AI超能力
科技云報(bào)到:找到真場(chǎng)景,抓住真需求,這樣的具身智能才是好AI
KM告訴你 人工監(jiān)測(cè)VS在線監(jiān)測(cè) 誰(shuí)才是效率王者?#在線監(jiān)測(cè)
淘寶 vs 京東電商 API 接口,誰(shuí)才是數(shù)據(jù)王者?
聲紋解鎖個(gè)性化!啟明云端硅思物語(yǔ)AI平臺(tái)讓設(shè)備“認(rèn)準(zhǔn)你的聲音”
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
AnyDesk vs. Raspberry Pi Connect,誰(shuí)才是“遠(yuǎn)程霸主”?
誰(shuí)才是真正的C位 讓AI告訴你
評(píng)論