探究編輯多模態(tài)大語(yǔ)言模型的可行性

本文作者：程思源（浙江大學(xué)）、田博中（浙江大學(xué)）、劉慶斌（騰訊）、陳曦（騰訊）、王永恒（之江實(shí)驗(yàn)室）、陳華鈞（浙江大學(xué)）、張寧豫（浙江大學(xué)）

在博士畢業(yè)就有10篇ACL一作的師兄指導(dǎo)下是種什么體驗(yàn)

引言

世界不但是文字的世界，我們生活的世界本質(zhì)上是多模態(tài)的。我們需要不斷處理和整合來(lái)自不同模態(tài)的信息，如視覺(jué)信息、聽(tīng)覺(jué)信息等，利用這些信息我們可以更好地與周圍環(huán)境互動(dòng)，提升認(rèn)知世界的能力。隨著OpenAI開(kāi)放了ChatGPT的多模態(tài)功能，多模態(tài)大語(yǔ)言模型再一次成為了焦點(diǎn)。現(xiàn)有的主流多模態(tài)大語(yǔ)言模型框架是利用訓(xùn)練好的大語(yǔ)言模型和圖像編碼器，用一個(gè)圖文特征對(duì)齊模塊進(jìn)行連接，從而讓語(yǔ)言模型能夠理解圖像特征并進(jìn)行更深層的問(wèn)答推理。代表作有VisualGLM、BLIP 2和MiniGPT-4等。

但是目前復(fù)雜的多模態(tài)大語(yǔ)言模型都面臨一個(gè)重大的挑戰(zhàn)：對(duì)象幻覺(jué)（Object Hallucination）。就算是高質(zhì)量的多模態(tài)語(yǔ)言模型，比如InstructBLIP，也存在高幻覺(jué)的文本率。多模態(tài)模型幻覺(jué)的主要原因可能有兩點(diǎn)：1、多模態(tài)指令微調(diào)過(guò)程導(dǎo)致LVLMs 更容易在多模態(tài)指令數(shù)據(jù)集中頻繁出現(xiàn)/共現(xiàn)的物體上產(chǎn)生幻覺(jué)；2、一些幻覺(jué)繼承于原先的LLMs，由于使用的LLMs本來(lái)就存在一些錯(cuò)誤/謬誤知識(shí)，導(dǎo)致多模態(tài)語(yǔ)言模型也繼承了這些錯(cuò)誤知識(shí)，從而出現(xiàn)幻覺(jué)。

最近隨著一種可以精確修改模型中特定知識(shí)的范式出現(xiàn)，對(duì)解決模型幻覺(jué)問(wèn)題提供了一個(gè)新的可行性思路，這種方法被稱作模型編輯。模型編輯可以在不重新訓(xùn)練模型的基礎(chǔ)上，去修改模型的參數(shù)知識(shí)，這可以節(jié)約大量的資源。但是現(xiàn)有的模型編輯技術(shù)大部分都是針對(duì)單模態(tài)的，那多模態(tài)的模型是否是可編輯的呢？本文就是去探究編輯多模態(tài)大語(yǔ)言模型的可行性，作者構(gòu)建了多模態(tài)語(yǔ)言模型知識(shí)編輯場(chǎng)景的benckmark，即設(shè)計(jì)了多模態(tài)模型編輯的指標(biāo)和構(gòu)建了相關(guān)數(shù)據(jù)集。并類比人類視覺(jué)問(wèn)答場(chǎng)景，提出了編輯多模態(tài)語(yǔ)言模型的兩種方式。其中多模態(tài)模型編輯的展示如下圖所示：

MMEdit

指標(biāo)

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手，將單模態(tài)模型編輯拓展到多模態(tài)模型編輯，主要從以下三個(gè)方面：可靠性（Reliability），穩(wěn)定性（Locality）和泛化性（Generality）。

可靠性：模型編輯需要能夠保證正確修改模型的知識(shí)，可靠性就是衡量編輯后模型的準(zhǔn)確率。多模態(tài)模型編輯亦是如此，作者定義如下：

穩(wěn)定性：穩(wěn)定性是判別模型編輯影響模型其余知識(shí)的程度。模型編輯希望在編輯完相關(guān)知識(shí)過(guò)后，不影響模型中其余的一些知識(shí)。多模態(tài)模型編輯與單模態(tài)不同，由于我們需要編輯多個(gè)模型區(qū)域，所以我們需要判斷多模態(tài)模型進(jìn)行編輯之后到底是對(duì)哪部分產(chǎn)生的影響多，哪部分少。所以作者提出了兩種穩(wěn)定性測(cè)試：T-Locality和M-Locality，一個(gè)測(cè)試純語(yǔ)言模型的穩(wěn)定性，一個(gè)測(cè)試多模態(tài)整體模型的穩(wěn)定性，其定義如下：

泛化性：編輯需要對(duì)一定編輯范圍內(nèi)的數(shù)據(jù)都要具有編輯效應(yīng)，單模態(tài)模型編輯泛化性只考慮一種數(shù)據(jù)形式，即同義語(yǔ)義集合。多模態(tài)模型需要考慮更多模態(tài)數(shù)據(jù)，VLMs多增加了一個(gè)圖片模態(tài)數(shù)據(jù)，所以作者提出兩種泛化性指標(biāo)：

數(shù)據(jù)集

對(duì)于上述所有評(píng)估指標(biāo)，本文作者都構(gòu)造了對(duì)應(yīng)的數(shù)據(jù)集來(lái)進(jìn)行測(cè)試，其中針對(duì)可靠性數(shù)據(jù)集，作者收集了現(xiàn)有多模態(tài)大語(yǔ)言模型表現(xiàn)不佳的任務(wù)數(shù)據(jù)來(lái)作為編輯對(duì)象數(shù)據(jù)集，本文采用兩個(gè)不同的多模態(tài)任務(wù)分別是VQA和Image Caption。并設(shè)計(jì)兩種任務(wù)編輯數(shù)據(jù)集E-VQA和E-IC。

對(duì)于泛化性數(shù)據(jù)，多模態(tài)模型由于本身的數(shù)據(jù)也是多模態(tài)的，所以需要考慮更多模態(tài)的泛化數(shù)據(jù)情況。其中多模態(tài)泛化性數(shù)據(jù)例子如下：

對(duì)文本數(shù)據(jù)，本文作者利用不同的方法構(gòu)造相關(guān)泛化數(shù)據(jù)集。首先對(duì)于VQA數(shù)據(jù)，文章作者使用ChatGLM去生成文本類的泛化數(shù)據(jù)集，通過(guò)構(gòu)造相關(guān)的prompt，讓對(duì)話模型吐出相似句子。Image Caption任務(wù)由于其本身的數(shù)據(jù)比較簡(jiǎn)單，生成效果并不佳，所以作者人工構(gòu)建了幾十條相似文本數(shù)據(jù)，然后通過(guò)隨機(jī)替換的方式作為Image Caption任務(wù)的泛化數(shù)據(jù)集。

然后對(duì)于圖片數(shù)據(jù)，作者利用COCO數(shù)據(jù)集中提供的圖片描述。通過(guò)現(xiàn)有效果非常不錯(cuò)的圖片生成模型Stable Diffusion 2.1來(lái)生成與圖片描述相似的圖片。具體構(gòu)造流程如下圖所示：

對(duì)于穩(wěn)定性數(shù)據(jù)集，作者為了考量編輯不同區(qū)域?qū)δＰ偷挠绊懀詫⒎€(wěn)定性數(shù)據(jù)分為了Text Stability測(cè)試數(shù)據(jù)和Vision Stability測(cè)試數(shù)據(jù)。這部分?jǐn)?shù)據(jù)不用構(gòu)造，作者直接使用了之前的已有數(shù)據(jù)集。對(duì)于文本，沿用MEND中的NQ數(shù)據(jù)集，對(duì)于多模態(tài)數(shù)據(jù)，文章使用了多模態(tài)中比較簡(jiǎn)單的問(wèn)答數(shù)據(jù)集OK-VQA作為測(cè)試數(shù)據(jù)集。

最后數(shù)據(jù)集統(tǒng)計(jì)如下：

多模態(tài)模型編輯

對(duì)于如何去編輯多模態(tài)語(yǔ)言模型，文章類比人類視覺(jué)問(wèn)答場(chǎng)景出錯(cuò)場(chǎng)景，來(lái)設(shè)計(jì)多模態(tài)模型編輯實(shí)驗(yàn)。以VQA任務(wù)為例子，人類在做VQA題目時(shí)有兩種出錯(cuò)的可能：

視覺(jué)出錯(cuò)：人類可能在圖片識(shí)別這個(gè)階段就出錯(cuò)，可能是看錯(cuò)，也有可能是視覺(jué)細(xì)胞本身就存在問(wèn)題。例如人類色盲患者沒(méi)有辦法正確識(shí)別圖片的顏色特征，就會(huì)在顏色識(shí)別的任務(wù)上出錯(cuò)。針對(duì)這個(gè)，文章作者提出了Vision Edit，針對(duì)VLMs的視覺(jué)模塊進(jìn)行編輯。

知識(shí)出錯(cuò)：人類可能正確識(shí)別了圖片中的關(guān)鍵特征，但是本身的知識(shí)庫(kù)里卻沒(méi)有相關(guān)特征的知識(shí)，這就導(dǎo)致人犯“指鹿為馬”的失誤。針對(duì)這個(gè)問(wèn)題，作者提出了Language Edit，由于多模態(tài)語(yǔ)言模型的知識(shí)庫(kù)都來(lái)自于LLMs，所以這部分編輯也就是針對(duì)語(yǔ)言模型。

多模態(tài)模型編輯的主要流程圖作如下圖所示：

實(shí)驗(yàn)

文章實(shí)驗(yàn)展示了現(xiàn)有主流的編輯方法在多模態(tài)大語(yǔ)言模型上的編輯效果，并對(duì)比了一些傳統(tǒng)的基于微調(diào)的處理方法。結(jié)果展示如下：

可以看到微調(diào)的效果都比較一般，而且會(huì)對(duì)于模型中的其他知識(shí)造成災(zāi)難性遺忘。模型編輯在可靠性上表現(xiàn)的都還不錯(cuò)，并且對(duì)于模型的穩(wěn)定性也維持的比較好，不會(huì)造成模型的過(guò)擬合和災(zāi)難性遺忘。

此外作者還展示了編輯不同模塊區(qū)域的效果展示：

可以看到編輯編輯不同區(qū)域效果差異非常大，編輯視覺(jué)模塊是比較困難的事情。作者覺(jué)得這可能和模型的架構(gòu)有關(guān)，編輯語(yǔ)言模型部分可以直接影響模型的輸出，而編輯視覺(jué)部分只能影響模型輸入。而且大部分的知識(shí)都是保存在LLMs中的，所以編輯視覺(jué)模塊的效果不佳。最后展示幾組編輯case：

總結(jié)

多模態(tài)模型是非常重要的領(lǐng)域，如何解決目前面臨的幻覺(jué)問(wèn)題是非常關(guān)鍵的問(wèn)題。模型編輯技術(shù)為解決模型幻覺(jué)提供了一個(gè)不錯(cuò)的思路，但是在多模態(tài)模型上依然有許多不足的地方，比如如何能夠更有效地進(jìn)行不同模態(tài)之間的協(xié)同編輯？如何解決編輯OOD數(shù)據(jù)？如何做到多模態(tài)的連續(xù)編輯？這些都是未來(lái)值得探討的方向。

編輯：黃飛

閱讀全文

編碼器(141824) 編碼器(141824)
語(yǔ)言模型(11283) 語(yǔ)言模型(11283)
OpenAI(9872) OpenAI(9872)
ChatGPT(10159) ChatGPT(10159)

評(píng)論

搜索歷史

探究編輯多模態(tài)大語(yǔ)言模型的可行性

評(píng)論