91精品国产综合久久婷婷,国产精品久久精品,亚洲国产精品一区二区www在线

引用表達(dá)分割（Referring Expression Segmentation，簡稱引用分割或RES）是一個基礎(chǔ)的視覺語言多模態(tài)任務(wù)。給定一張圖像和一個描述該圖像中某個對象的自然語言表達(dá)式，RES旨在找到該目標(biāo)對象并將其分割。現(xiàn)有的引用分割數(shù)據(jù)集和方法通常僅支持單目標(biāo)表達(dá)式，即一個表達(dá)式指代一個目標(biāo)對象。而對于多目標(biāo)和無目標(biāo)表達(dá)式的情況，則沒有考慮在內(nèi)。嚴(yán)重限制了引用分割的實(shí)際應(yīng)用。基于這個問題，來自新加坡南洋理工大學(xué)的研究者們定義了一個名為廣義引用分割（Generalized Referring Expression Segmentation，GRES）的新任務(wù)，將經(jīng)典的引用分割擴(kuò)展到允許表達(dá)式指代任意數(shù)量的目標(biāo)對象。同時，文章還構(gòu)建了第一個大規(guī)模的GRES數(shù)據(jù)集gRefCOCO，其同時包含多目標(biāo)、無目標(biāo)和單目標(biāo)表達(dá)式。

論文地址：https://arxiv.org/abs/2306.00968

項(xiàng)目主頁：https://henghuiding.github.io/GRES/

RES在圖形編輯、視頻制作、人機(jī)交互和機(jī)器人等眾多應(yīng)用領(lǐng)域具有巨大潛力。目前，大多數(shù)現(xiàn)有方法都遵循在知名數(shù)據(jù)集ReferIt和RefCOCO中定義的RES規(guī)則，并在近年來取得了巨大進(jìn)展。然而，大多數(shù)經(jīng)典的引用分割方法對任務(wù)有預(yù)定義的強(qiáng)約束：

1.傳統(tǒng)的RES不考慮無目標(biāo)表達(dá)式，即在圖像中沒有匹配對象的自然表達(dá)語句。這意味著如果語句描述的目標(biāo)在輸入圖像中不存在，現(xiàn)有的RES方法的行為是未定義的。在這種假設(shè)下，輸入表達(dá)式必須與圖像中的某個對象匹配，否則會不可避免地出現(xiàn)錯誤。

2.大多數(shù)現(xiàn)有數(shù)據(jù)集，例如最流行的RefCOCO，幾乎不包含多目標(biāo)表達(dá)式，即在一句話中同時指向多個目標(biāo)物體的表達(dá)式。這意味著如果需要同時查找多個目標(biāo)，用戶需要分多次鍵入查詢指令且每次只能指向一個目標(biāo)物體。

圖1：引用分割的實(shí)例，使用“The kid in red”來指示并分割圖片中的紅衣服小男孩

新任務(wù)：廣義引用表達(dá)式分割

在文章中，為了解決傳統(tǒng)RES存在的問題，研究者們提出了一個名為廣義引用表達(dá)分割（Generalized Referring Expression Segmentation，簡稱GRES或廣義引用分割）的新任務(wù)，允許表達(dá)式指向任意數(shù)量的目標(biāo)對象。與經(jīng)典的RES類似，GRES接受一張圖像和一句自然語言表達(dá)式作為輸入。但與傳統(tǒng)RES不同，GRES進(jìn)一步支持了多目標(biāo)表達(dá)式，即在單個表達(dá)式中指定多個目標(biāo)對象，例如圖2中的“Everyone except the kid in white”，以及無目標(biāo)表達(dá)式，即表達(dá)式?jīng)]有指向圖像中的任何對象，例如圖2中的“the kid in blue”。GRES為輸入表達(dá)式提供了更大的靈活性，可以更好地支撐引用分割的實(shí)際應(yīng)用。

圖2：多目標(biāo)表達(dá)式和無目標(biāo)表達(dá)式示例

新數(shù)據(jù)集：gRefCOCO

然而，現(xiàn)有的幾個引用表達(dá)數(shù)據(jù)集，如RefCOCO系列，幾乎不包含多目標(biāo)表達(dá)式或無目標(biāo)表達(dá)式樣本，只有單目標(biāo)表達(dá)式樣本，如表1所示。

表1：gRefCOCO與其他引用表達(dá)式數(shù)據(jù)集的比較

為了促進(jìn)對GRES的研究工作，本文構(gòu)建了新的大規(guī)模引用分割數(shù)據(jù)集gRefCOCO。它進(jìn)一步包含多目標(biāo)表達(dá)式和無目標(biāo)表達(dá)式。該數(shù)據(jù)集共有278，232個表達(dá)式，其中包括80，022個多目標(biāo)表達(dá)式和32，202個無目標(biāo)表達(dá)式，涉及19，994張圖像中的60，287個不同物體。

gRefCOCO數(shù)據(jù)集的多目標(biāo)表達(dá)式主要有以下難點(diǎn)：

1.計數(shù)表達(dá)式：處理包含計數(shù)的表達(dá)式，需要區(qū)分基數(shù)詞和序數(shù)詞，如“two”和“second”，并具備對象計數(shù)能力。

2.復(fù)合句結(jié)構(gòu)：理解復(fù)合句結(jié)構(gòu)中的多個元素之間的關(guān)系，包括“A and B”、“A except B”和“A with B or C”。如圖3中的第一個表達(dá)式。

3.屬性的范圍：要處理多目標(biāo)表達(dá)式中的不同目標(biāo)之間的屬性共享或差異，需深入理解各個屬性以及它們與相應(yīng)對象之間的關(guān)系。

4.復(fù)雜關(guān)系：多目標(biāo)表達(dá)式中的關(guān)系描述更復(fù)雜，需要理解并推斷目標(biāo)之間的關(guān)系，例如通過關(guān)鍵詞“and”來指示目標(biāo)數(shù)量。模型需對圖像和表達(dá)式中的所有實(shí)例及其相互作用有深入理解。如圖3中的第二個表達(dá)式，使用了復(fù)雜的句子來表達(dá)目標(biāo)與非目標(biāo)之間的關(guān)系。

圖3：gRefCOCO樣本示例

無目標(biāo)表達(dá)式的構(gòu)建主要遵循兩個原則：

1.表達(dá)式不能與圖像完全無關(guān)。例如，給定圖1中的圖像，“the kid in blue”是可以接受的，因?yàn)閳D像中確實(shí)存在“kid”和“blue”，但沒有一個“kind in blue”。但是像“狗”、“汽車”、“河流”等與該圖像中的任何內(nèi)容都完全無關(guān)的表達(dá)式是不可接受的。

2.如果規(guī)則1中所要求的表達(dá)式很難想出，標(biāo)注員可以選擇從RefCOCO同一split中的其他圖像中選取具有迷惑性的表達(dá)式。

新模型：ReLA

GRES中多目標(biāo)表達(dá)式中的關(guān)系和屬性描述更加復(fù)雜。與經(jīng)典的引用分割（RES）相比，對于廣義引用表達(dá)分割（GRES）來說，更具挑戰(zhàn)性的是對圖像中區(qū)域之間的復(fù)雜交互關(guān)系進(jìn)行建模，并捕捉所有對象的細(xì)粒度屬性。本文提出了一個新的基準(zhǔn)模型ReLA，明確地對圖像的不同部分和表達(dá)式中的不同單詞進(jìn)行信息交換和相互作用，以分析它們之間的依賴關(guān)系。通過這種方式，我們能夠更好地理解圖像和表達(dá)式之間的復(fù)雜交互。

所提出的關(guān)系（ReLAtionship）建模方法具有兩個主要模塊，即區(qū)域-圖像交叉注意力（Region-Image Cross Attention，RIA）和區(qū)域-語言交叉注意力（Region-Language Cross Attention，RLA）。RIA模塊靈活地收集區(qū)域圖像特征，而RLA模塊則捕捉區(qū)域之間的關(guān)系以及區(qū)域與語言之間的依賴關(guān)系。通過這兩個模塊，我們能夠更好地建模圖像和表達(dá)式之間的復(fù)雜交互，并提高引用表達(dá)分割的性能。

實(shí)驗(yàn)

根據(jù)GRES任務(wù)的特性，文章提出了新的測評指標(biāo)：gIoU、N-acc、T-acc，分別用來衡量整體分割性能、正確識別無目標(biāo)表達(dá)式的性能、和無目標(biāo)表達(dá)式對引用分割的影響。

提出的基準(zhǔn)方法ReLA在GRES和傳統(tǒng)單目標(biāo)RES上均取得了最佳性能。這證明了顯式建模不同圖像區(qū)域和詞語之間的關(guān)系對引用分割的有效性。

對多目標(biāo)表達(dá)式的分割結(jié)果可視化如下：

對無目標(biāo)表達(dá)式的分割結(jié)果可視化如下：

總結(jié)

本文分析并解決了經(jīng)典引用分割（RES）任務(wù)的局限性，即無法處理多目標(biāo)和無目標(biāo)表達(dá)式。基于此，本文定義了一個名為廣義引用表達(dá)分割（GRES）的新任務(wù)，允許表達(dá)式中包含任意數(shù)量的目標(biāo)。為支持GRES的研究，本文構(gòu)建了一個大規(guī)模的數(shù)據(jù)集gRefCOCO、提出了基準(zhǔn)方法ReLA，用于顯式建模不同圖像區(qū)域和詞語之間的關(guān)系。該方法在經(jīng)典的RES任務(wù)和新提出的GRES任務(wù)上取得了最佳結(jié)果。GRES降低了對自然語言輸入的限制，擴(kuò)大了引用分割的應(yīng)用范圍，如多實(shí)例和無正確對象的情況，期待GRES能夠打開了新的應(yīng)用領(lǐng)域。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
31079

瀏覽量
222259
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42330
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26196

搜索歷史

多模態(tài)新任務(wù)和新數(shù)據(jù)集！NTU提出廣義引用分割問題GRES

評論