視覺(jué)語(yǔ)言(Vision-Language,VL)系統(tǒng)允許為文本查詢(xún)搜索相關(guān)圖像(或反之),并使用自然語(yǔ)言描述圖像的內(nèi)容。一般來(lái)說(shuō),一個(gè)VL系統(tǒng)使用一個(gè)圖像編碼模塊和一個(gè)視覺(jué)語(yǔ)言融合模塊。微軟研究部門(mén)最近開(kāi)發(fā)了一種新的圖像編碼對(duì)象屬性檢測(cè)模型,稱(chēng)為VinVL(Visual features in Vision-Language),有著顯著超越人類(lèi)的表現(xiàn)。
當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后,微軟新的VL系統(tǒng)能夠在競(jìng)爭(zhēng)最激烈的VL排行榜上取得第一,包括視覺(jué)問(wèn)題回答(VQA)、微軟COCO圖像字幕和新穎對(duì)象字幕(nocaps)。微軟研究團(tuán)隊(duì)還強(qiáng)調(diào),在nocaps排行榜上,這種新的VL系統(tǒng)在CIDEr(92.5對(duì)85.3)方面的表現(xiàn)明顯超過(guò)了人類(lèi)的同形式表現(xiàn)。
微軟解釋道:
VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開(kāi)發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益,正如本文中的例子所說(shuō)明的那樣。盡管我們獲得了很有希望的結(jié)果,比如在圖像字幕基準(zhǔn)上超越了人類(lèi)的表現(xiàn),但我們的模型絕不是達(dá)到VL理解的人類(lèi)水平的智能。未來(lái)有趣的工作方向包括 (1)利用海量圖像分類(lèi)/標(biāo)記數(shù)據(jù),進(jìn)一步擴(kuò)大對(duì)象屬性檢測(cè)預(yù)訓(xùn)練的規(guī)模;(2)將跨模態(tài)VL表征學(xué)習(xí)的方法擴(kuò)展到構(gòu)建感知基礎(chǔ)的語(yǔ)言模型,可以像人類(lèi)一樣將視覺(jué)概念建立在自然語(yǔ)言中,反之亦然。
微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中,Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團(tuán)隊(duì)還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX
-
微軟
+關(guān)注
關(guān)注
4文章
6741瀏覽量
107847 -
圖像
+關(guān)注
關(guān)注
2文章
1096瀏覽量
42325 -
模型
+關(guān)注
關(guān)注
1文章
3751瀏覽量
52097
發(fā)布評(píng)論請(qǐng)先 登錄
什么是大模型,智能體...?大模型100問(wèn),快速全面了解!
VLA與世界模型有什么不同?
大模型中常提的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?
VLA和世界模型,誰(shuí)才是自動(dòng)駕駛的最優(yōu)解?
iTOF技術(shù),多樣化的3D視覺(jué)應(yīng)用
基于大規(guī)模人類(lèi)操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT
【HZ-T536開(kāi)發(fā)板免費(fèi)體驗(yàn)】3 - Cangjie Magic調(diào)用視覺(jué)語(yǔ)言大模型(VLM)真香,是不是可以沒(méi)有YOLO和OCR了?
【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開(kāi)源大語(yǔ)言模型部署
小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型
基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型
?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析
微軟視覺(jué)語(yǔ)言模型有顯著超越人類(lèi)的表現(xiàn)
評(píng)論