国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

低成本擴大輸入分辨率!華科大提出Monkey:新的多模態大模型

CVer ? 來源:CVer ? 2023-12-04 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

低成本擴大輸入分辨率:探秘98億參數多模態大模型--Monkey眼中的世界

【導讀】11月,華中科技大學團隊發布了新的多模態大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達1344×896的圖像,并加入了有著詳細描述的高質量圖文數據進行訓練,幫助Monkey煉就洞察圖像細節的火眼金睛,取得了與Caption和QA任務相關的16個數據集的SOTA,甚至與GPT4V相比,在密集文本問答任務上也有著亮眼的表現。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問答任務上取得了很不錯的效果,可以根據問題的要求進行推理,能夠適配中文問答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場景中Monkey也展現了不俗的問答能力,自身擁有豐富的知識庫,可以根據問題進行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務上同樣取得了出色的結果,不僅僅是對圖片進行準確詳細的描述,同時能夠合理發散,分析出圖片所傳達的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個不同的數據集上進行測試的結果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務,并在16個數據集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個圖片塊,再將這些圖片塊和原始輸入圖片統一到448*448的尺寸。每個圖片塊經過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓練時僅訓練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級特征融合的詳細描述生成方法生成高質量圖文數據

主要分為五個步驟:第一步,使用BLIP2對整張圖生成全局描述;第二步用 GRIT生成區域框,并提供區域中對象的名稱和詳細描述,同時使用PPOCR提取區域的文本框坐標和文本內容;第三步使用SAM進行分割,并送入BLIP2生成對各個物體及其組成部分的詳細描述;第四步使用BLIP-2 評估過濾掉低分匹配;最后使用ChatGPT 對上述得到的描述進行總結從而得到圖像的詳細描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比,不難看出,兩種標注之間存在著較大的差距,生成的詳細標注盡可能地包含了圖片中的各種細節,而不像是CC3M地原始標注那樣一句帶過。利用這樣高質量的圖文數據進行訓練,使得Monkey能夠更好地把握圖文之間的關系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對比結果與展示:

通過下圖展示的Monkey在QA任務上與多種大模型的對比結果,從中我們能夠更加直觀地感受到Monkey強大的問答能力,能夠準確地把握住問題并給出正確的回答,尤其是在密集文本問答任務上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結

Monkey提出了一種訓練高效的方法,無需預訓練即可有效地提高模型的輸入分辨率,最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距,Monkey提出了一種多級特征融合的詳細描述生成方法,它可以自動提供豐富的信息,以引導模型學習圖像中各個物體的屬性及其聯系。通過這兩種設計的協同作用,Monkey練就了一雙火眼金睛,在多個基準測試中取得了出色的結果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 高分辨率
    +關注

    關注

    0

    文章

    60

    瀏覽量

    15748
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42330
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5183

原文標題:低成本擴大輸入分辨率!華科大提出Monkey:新的多模態大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    淺談掃描電鏡的分辨率概念

    掃描電鏡(SEM)的分辨率是指其能夠分辨樣品表面兩點之間的最小距離,是衡量其成像能力的關鍵指標。
    的頭像 發表于 01-14 16:55 ?1280次閱讀
    淺談掃描電鏡的<b class='flag-5'>分辨率</b>概念

    紅外焦平面探測器的分辨率有哪些?高分辨率有哪些優勢?

    分辨率是我們選購紅外探測器時的一個關鍵參數,它代表了熱成像像素點的數量。分辨率越高,像素點就越多,圖像就越清晰,觀測的距離也越遠。紅外熱成像常見的分辨率有120x90、256x192、384x288
    的頭像 發表于 12-10 16:12 ?1191次閱讀
    紅外焦平面探測器的<b class='flag-5'>分辨率</b>有哪些?高<b class='flag-5'>分辨率</b>有哪些優勢?

    ADC分辨率與精度的區別是什么

    簡單點說,“精度”是用來描述物理量的準確程度的,而“分辨率”是 用來描述刻度劃分的。從定義上看,這兩個量應該是風馬牛不相及的。(是不是有朋友感到愕然^_^)。 很多賣傳感器的JS就是利用這一點
    發表于 12-05 06:24

    鏡頭分辨率如何匹配工業相機的分辨率

    能被分辨開來的兩個物點之間的最小距離,就是鏡頭的物方分辨率。單位為μm。這只是單純鏡頭本身的參數,只反映鏡頭的解析能力,而和工業相機多少像素無關!它直接反映了,一個理想物點經過鏡頭成像后,會模糊
    的頭像 發表于 11-21 15:43 ?378次閱讀
    鏡頭<b class='flag-5'>分辨率</b>如何匹配工業相機的<b class='flag-5'>分辨率</b>

    提高電能質量在線監測裝置的暫態記錄分辨率的方法有哪些?

    ? 提高電能質量在線監測裝置暫態記錄分辨率,核心是從 硬件升級、算法優化、數據處理、校準同步 四個維度突破,同時平衡 “分辨率提升” 與 “成本、功耗、穩定性”,具體方法可落地為以下 6 類關鍵措施
    的頭像 發表于 11-14 16:12 ?2096次閱讀

    電能質量在線監測裝置的暫態記錄分辨率如何影響故障類型識別?

    暫態記錄分辨率是故障類型識別的 “細節放大鏡”—— 核心通過 采樣、幅值分辨率、時間分辨率 決定故障波形 “特征細節的完整性”,高分辨率
    的頭像 發表于 11-14 16:10 ?1887次閱讀
    電能質量在線監測裝置的暫態記錄<b class='flag-5'>分辨率</b>如何影響故障類型識別?

    格靈深瞳模態模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的模態表征方法相繼提出,過去單一模態搜索(文搜文、圖搜圖)被突破,模型可以同時
    的頭像 發表于 11-02 15:56 ?1715次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova模態嵌入模型

    Embeddings模態嵌入模型現已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態
    的頭像 發表于 10-29 17:15 ?266次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態</b>嵌入<b class='flag-5'>模型</b>

    分辨率對于模擬到數字轉換器有什么重要性

    )。輸入帶寬:高分辨率ADC需配合寬輸入帶寬,以避免高頻信號在采樣前失真。例如,12位ADC若需處理100MHz信號,其輸入帶寬需遠高于100MHz。功耗與
    發表于 09-18 09:31

    米爾RK3576部署端側模態輪對話,6TOPS算力驅動30億參數LLM

    與特征提取讀取輸入圖片后,先將其擴展為正方形并填充背景色以統一尺寸,再調整至模型要求的 392x392 分辨率,最后送入視覺編碼模型進行處理,生成圖片的 embedding 向量,完成
    發表于 09-05 17:25

    迅為RK3588開發板Android系統修改屏幕分辨率和density

    先來了解下屏幕相關的基本概念 修改屏幕分辨率和 density 有倆種方法。 方法一: 輸入以下命令查看分辨率的大小,如下圖所示: wm size 輸入以下命令修改屏幕
    發表于 08-12 16:53

    精度,重復精度和分辨率有什么關聯

    精度,重復精度和分辨率,這三個令人疑惑的術語有很多種定義方法。
    的頭像 發表于 07-26 17:13 ?925次閱讀
    精度,重復精度和<b class='flag-5'>分辨率</b>有什么關聯

    分辨率 vs 噪聲 —— ADC的挑戰

    設計者常用高分辨率 ADC 以降低最低可量測單位(LSB),提高檢測精度。 比如一個 16 位 ADC 在 5V 范圍內, LSB ≈ 76 μV ;理想情況下可以檢測到微弱電信號。 問題是: 若
    的頭像 發表于 06-23 07:38 ?1915次閱讀
    <b class='flag-5'>分辨率</b> vs 噪聲 —— ADC的挑戰

    如何計算存儲示波器的垂直分辨率

    存儲示波器的垂直分辨率是指示波器能夠分辨的最小電壓變化量,它反映了示波器對信號幅度細節的測量能力,通常用位數(bit)來表示,也可通過相關公式換算為具體的電壓值。以下為你詳細介紹其計算方法:了解關鍵
    發表于 05-30 14:03

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態模型

    熟悉愛芯通元NPU的網友很清楚,從去年開始我們在端側模態模型適配上一直處于主動緊跟的節奏。先后適配了國內最早開源的模態大模MiniCP
    的頭像 發表于 04-21 10:56 ?3152次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>