一個(gè)模型完成了CV,NLP方向的7個(gè)任務(wù),每個(gè)任務(wù)上表現(xiàn)都非常好。
Transformer架構(gòu)在自然語(yǔ)言處理和其他領(lǐng)域的機(jī)器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功,但大多僅限于單個(gè)領(lǐng)域或特定的多模態(tài)領(lǐng)域的任務(wù)。例如,ViT專門用于視覺(jué)相關(guān)的任務(wù),BERT專注于語(yǔ)言任務(wù),而VILBERT-MT只用于相關(guān)的視覺(jué)和語(yǔ)言任務(wù)。
一個(gè)自然產(chǎn)生的問(wèn)題是:我們能否建立一個(gè)單一的Transformer,能夠在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?最近,F(xiàn)acebook的一個(gè)人工智能研究團(tuán)隊(duì)進(jìn)行了一個(gè)新的統(tǒng)一Transformer(UniT) encoder-decoder模型的挑戰(zhàn),該模型在不同的模態(tài)下聯(lián)合訓(xùn)練多個(gè)任務(wù),并通過(guò)一組統(tǒng)一的模型參數(shù)在這些不同的任務(wù)上都實(shí)現(xiàn)了強(qiáng)大的性能。
Transformer首先應(yīng)用于sequence-to-sequence模型的語(yǔ)言領(lǐng)域。它們已經(jīng)擴(kuò)展到視覺(jué)領(lǐng)域,甚至被應(yīng)用于視覺(jué)和語(yǔ)言的聯(lián)合推理任務(wù)。盡管可以針對(duì)各種下游任務(wù)中的應(yīng)用對(duì)預(yù)先訓(xùn)練好的Transformer進(jìn)行微調(diào),并獲得良好的結(jié)果,但這種模型微調(diào)方法會(huì)導(dǎo)致為每個(gè)下游任務(wù)創(chuàng)建不同的參數(shù)集。
Facebook的人工智能研究人員提出,一個(gè)Transformer可能就是我們真正需要的。他們的UniT是建立在傳統(tǒng)的Transformer編碼器-解碼器架構(gòu)上,包括每個(gè)輸入模態(tài)類型的獨(dú)立編碼器,后面跟一個(gè)具有簡(jiǎn)單的每個(gè)任務(wù)特定的頭的解碼器。輸入有兩種形式:圖像和文本。首先,卷積神經(jīng)網(wǎng)絡(luò)骨干網(wǎng)提取視覺(jué)特征,然后BERT將語(yǔ)言輸入編碼成隱藏狀態(tài)序列。然后,Transformer解碼器應(yīng)用于編碼的單個(gè)模態(tài)或兩個(gè)編碼模態(tài)的連接序列(取決于任務(wù)是單模態(tài)還是多模態(tài))。最后,Transformer解碼器的表示將被傳遞到特定任務(wù)的頭,該頭將輸出最終的預(yù)測(cè)。
UniT模型概要
評(píng)估UniT的性能,研究人員進(jìn)行了實(shí)驗(yàn),需要共同學(xué)習(xí)來(lái)自不同領(lǐng)域的許多流行的任務(wù):COCO目標(biāo)檢測(cè)和 Visual Genome數(shù)據(jù)集,語(yǔ)言理解任務(wù)的GLUE基準(zhǔn)(QNLI, QQP、MNLI-mismatched SST-2),以及視覺(jué)推理任務(wù)VQAv2 SNLI-VE數(shù)據(jù)集。

多任務(wù)訓(xùn)練的UniT性能優(yōu)于單獨(dú)訓(xùn)練的目標(biāo)檢測(cè)和VQA

基于UniT模型的目標(biāo)檢測(cè)與VQA的分析

UniT模型在8個(gè)數(shù)據(jù)集的7個(gè)任務(wù)上的性能
具有共享解碼器的UniT模型的預(yù)測(cè)
結(jié)果表明,所提出的UniT 模型同時(shí)處理8個(gè)數(shù)據(jù)集上的7個(gè)任務(wù),在統(tǒng)一的模型參數(shù)集下,每個(gè)任務(wù)都有較強(qiáng)的性能。強(qiáng)大的性能表明UniT有潛力成為一種領(lǐng)域未知的transformer 架構(gòu),向更通用的智能的目標(biāo)邁進(jìn)了一步。
原文標(biāo)題:【多模態(tài)】來(lái)自Facebook AI的多任務(wù)多模態(tài)的統(tǒng)一Transformer:向更通用的智能邁出了一步
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301389 -
人工智能
+關(guān)注
關(guān)注
1817文章
50098瀏覽量
265355 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136943
原文標(biāo)題:【多模態(tài)】來(lái)自Facebook AI的多任務(wù)多模態(tài)的統(tǒng)一Transformer:向更通用的智能邁出了一步
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?
功率放大器在螺旋載荷下管中彎曲模態(tài)導(dǎo)波中的應(yīng)用
CST軟件的廣泛應(yīng)用
探索onsemi FGY100T120RWD IGBT:高效性能與廣泛應(yīng)用的完美結(jié)合
ELLON合金電阻特性及廣泛應(yīng)用
Lora技術(shù)應(yīng)用領(lǐng)域
Transformer如何讓自動(dòng)駕駛變得更聰明?
格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)
環(huán)氧樹(shù)脂在各領(lǐng)域的應(yīng)用
滾珠導(dǎo)軌在工業(yè)制造領(lǐng)域如何實(shí)現(xiàn)高效運(yùn)行?
自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?
Transformer架構(gòu)概述
VirtualLab 應(yīng)用:薄元近似(TEA)與傅里葉模態(tài)法(FMM)的光柵建模
LMS Test.Lab:振動(dòng)噪聲測(cè)試領(lǐng)域的全能王者
如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?
評(píng)論