久久久这里只有精品,亚洲综合一区二区国产精品,精品国产三级一区二区三区

使用視覺和語言指令訓練一個多模態聊天機器人！

基于開源多模態模型OpenFlamingo，作者使用公開數據集創建了各種視覺指令數據，包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外，還使用僅包含語言指令數據的語言模型組件進行了訓練。

視覺和語言指令的聯合訓練有效提高了模型的性能！

具體細節就跟隨小編繼續往下看看吧~

總結

本文提出一種多模態GPT（視覺、語言），與人類進行多輪對話，同時設計了統一化多模態的指令數據模板

能夠遵循的指令類型：生成詳細的標題、計算特定的對象、處理一般的詢問

基準模型：OpenFlamingo（用LoRA方式訓練）

聯合訓練的數據：1.純文本數據 2.圖像-文本數據

其他的一些多模態GPT模型：GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM：Vicuna[4]、LLaMA[5]

提到的其他數據集：VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人類交流/理解世界的方式：視覺、語言等

AI智能助手的作用：根據多種模態的指令，理解人類意圖，完成各種任務

之前的方法：將視覺表示與LLM的輸入空間對齊，隨后利用LLM中的原始自我注意來處理視覺信息

本文的方法：微調Flamingo（開源）

視覺編碼器

門限交叉注意力機制

預訓練使用“圖文對”數據

統一多模態的指令模板

語言數據、語言-視覺數據，進行聯合訓練

本文目標：在多模態對話任務上，接近人的性能表現

2.統一指令模板

主要是提出了一個統一的訓練數據模板，把以下兩種數據整合起來，提高模型理解能力

2.1 僅語言的指令模板

僅包含語言的指令提示模板

{instruction},{input}為輸入文本，{response}，用于計算損失

使用數據：

Dolly15k數據集

AlpacaGPT4數據集

2.2 視覺-語言的指令模板

包含視覺-語言的指令提示模板

其中，{question}是原始文本，是表示圖像存在的token，{response}、用于計算損失

使用數據集：

LLaVA

Mini-GPT4

A-OKVQA

COCOcaption（不直接作為訓練集，而是用GPT-4轉化，再加入訓練集）

OCRVQA

上述合成指令使得訓練集較為豐富，則模型能夠更健壯

圖像描述的指令，舉例如下：

本文方法

模型結構圖

基線模型：open-flamingo模型

組成：

視覺編碼器：CLIP

感知重采樣

語言解碼器：LLaMA （自注意力、交叉注意力、FFW中加入LoRA，便于微調）

訓練數據：用2.1和2.2兩種數據，進行聯合訓練

訓練過程：通過預測文本的下一個標記進行訓練，只有{responce}和標記參與損失計算

4.實驗

實驗設置：

實驗參數	取值
GPU	A100*8
epoch	1
batch_size	1
LoRA參數更新	每16輪
learningrate	1e-5

Demos展示：

給出一個烤千層面的食譜，并告訴用戶在哪里吃到它

能夠識別埃隆·馬斯克的形象，并回答關于埃隆·馬斯克的問題

我知道照片上有4個女人，也知道她們在做什么

認得出電影，也知道電影是由哪個電影公司制作的

能識別圖像中的人物，并認識該書的作者

可以回答關于用戶旅行的一般問題

可以為圖像生成詳細的描述，并有能力推理得到在圖像中的季節

在線網站

感興趣可以去官方網站[6]去嘗試下，真的很棒！點擊閱讀原文也可直達！

缺點是好像只支持英文~

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

開源

開源

+關注

關注
3

文章
4203

瀏覽量
46125
語言模型

語言模型

+關注

關注
0

文章
571

瀏覽量
11310
聊天機器人

聊天機器人

+關注

關注
0

文章
348

瀏覽量
13089

原文標題：多模態GPT：國內發布一款可以在線使用的多模態聊天機器人！快來把玩~

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

搜索歷史

多模態GPT：國內發布一款可以在線使用的多模態聊天機器人！

評論

搜索歷史

多模態GPT：國內發布一款可以在線使用的多模態聊天機器人！

評論

多模態GPT：國內發布一款可以在線使用的多模態聊天機器人！