国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

<tfoot id="vxplg"></tfoot>

<var id="vxplg"></var>

首頁
技術

可編程邏輯

MEMS/傳感技術

嵌入式技術

模擬技術

控制/MCU

處理器/DSP

存儲技術

EMC/EMI設計

電源/新能源

測量儀表

制造/封裝

RF/無線

接口/總線/驅動

EDA/IC設計

光電顯示

連接器

PCB設計

LEDs

汽車電子

醫療電子

人工智能

可穿戴設備

軍用/航空電子

工業控制

觸控感測

智能電網

音視頻及家電

通信網絡

機器人

vr|ar|虛擬現實

安全設備/系統

移動通信

便攜設備

物聯網

區塊鏈

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充電樁

氮化鎵

BLDC

逆變器

5G

電機控制
資源

技術文庫

新品速遞

電路圖

元器件知識

電子百科

最新技術文章

元器件搜索引擎
下載

在線工具

常用軟件

電子書

datasheet
專欄

電子說

專欄
社區

論壇

問答

小組

技術專欄

社區之星

試用中心

HarmonyOS技術社區

2023電子工程師大會
研究院
活動

設計大賽

硬創大賽

社區活動

線下會議

在線研討會

小測驗
學院

直播

課程
視頻
企業號
工具

datasheet查詢

免費評測試用

技術子站

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

理解指向，說出坐標，Shikra開啟多模態大模型參考對話新維度

在人類的日常交流中，經常會關注場景中不同的區域或物體，人們可以通過說話并指向這些區域來進行高效的信息交換。這種交互模式被稱為參考對話（Referential Dialogue）。

如果 MLLM 擅長這項技能，它將帶來許多令人興奮的應用。例如，將其應用到 Apple Vision Pro 等混合現實 (XR) 眼鏡中，用戶可以使用視線注視指示任何內容與 AI 對話。同時 AI 也可以通過高亮等形式來指向某些區域，實現與用戶的高效交流。

本文提出的Shikra 模型，就賦予了 MLLM 這樣的參考對話能力，既可以理解位置輸入，也可以產生位置輸出。

論文地址：http://arxiv.org/abs/2306.15195
代碼地址：https://github.com/shikras/shikra

核心亮點

Shikra 能夠理解用戶輸入的 point/bounding box，并支持 point/bounding box 的輸出，可以和人類無縫地進行參考對話。

Shikra 設計簡單直接，采用非拼接式設計，不需要額外的位置編碼器、前 / 后目標檢測器或外部插件模塊，甚至不需要額外的詞匯表。

如上圖所示，Shikra 能夠精確理解用戶輸入的定位區域，并能在輸出中引用與輸入時不同的區域進行交流，像人類一樣通過對話和定位進行高效交流。

如上圖所示，Shikra 不僅具備 LLM 所有的基本常識，還能夠基于位置信息做出推理。

如上圖所示，Shikra 可以對圖片中正在發生的事情產生詳細的描述，并為參考的物體生成準確的定位。

盡管Shikra沒有在 OCR 數據集上專門訓練，但也具有基本的 OCR 能力。

更多例子

其他傳統任務

方法

模型架構采用 CLIP ViT-L/14 作為視覺主干，Vicuna-7/13B 作為基語言模型，使用一層線性映射連接 CLIP 和 Vicuna 的特征空間。

Shikra 直接使用自然語言中的數字來表示物體位置，使用 [xmin, ymin, xmax, ymax] 表示邊界框，使用 [xcenter, ycenter] 表示區域中心點，區域的 xy 坐標根據圖像大小進行歸一化。每個數字默認保留 3 位小數。這些坐標可以出現在模型的輸入和輸出序列中的任何位置。記錄坐標的方括號也自然地出現在句子中。

實驗結果

Shikra 在傳統 REC、VQA、Caption 任務上都能取得優良表現。同時在 PointQA-Twice、Point-V7W 等需要理解位置輸入的 VQA 任務上取得了 SOTA 結果。

本文使用 POPE benchmark 評估了 Shikra 產生幻覺的程度。Shikra 得到了和 InstrcutBLIP 相當的結果，并遠超近期其他 MLLM。

思想鏈（CoT），旨在通過在最終答案前添加推理過程以幫助 LLM 回答復雜的 QA 問題。這一技術已被廣泛應用到自然語言處理的各種任務中。然而如何在多模態場景下應用 CoT 則尚待研究。尤其因為目前的 MLLM 還存在嚴重的幻視問題，CoT 經常會產生幻覺，影響最終答案的正確性。通過在合成數據集 CLEVR 上的實驗，研究發現，使用帶有位置信息的 CoT 時，可以有效減少模型幻覺提高模型性能。

結論

本文介紹了一種名為 Shikra 的簡單且統一的模型，以自然語言的方式理解并輸出空間坐標，為 MLLM 增加了類似于人類的參考對話能力，且無需引入額外的詞匯表、位置編碼器或外部插件。

THE END

原文標題：理解指向，說出坐標，Shikra開啟多模態大模型參考對話新維度

文章出處：【微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

物聯網

物聯網

+關注

關注
2945

文章
47820

瀏覽量
415101

原文標題：理解指向，說出坐標，Shikra開啟多模態大模型參考對話新維度

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

評論

智能感知與物聯網技術研究所
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 北斗導航真實的發展情況怎樣？還面臨哪些問題？
Hot 盤點北斗衛星導航系統在各行業的應用

New 一種基于正交與縮放變換的大模型量化方法
New 大模型的數學能力或許一直都在關鍵在于如何喚醒它

精選推薦
更多

文章

資料

帖子

技術資訊 I 剛柔結合印刷電路板設計

深圳(耀創)電子科技有限公司
2天前

2640 閱讀

閃迪開源SPRandom：160小時變6.2小時，企業SSD測試迎革命性提速

章鷹觀察
2天前

4912 閱讀

開關電源限流保護電路的原理分析

電源聯盟
2天前

1873 閱讀

炮火，AI，全球飄零：逆潮中的伊朗開發者

腦極體
2天前

4639 閱讀

高壓放大器ATA-7025在量子點薄膜的非接觸無損原位檢測中的應用

Aigtek安泰電子
3天前

2554 閱讀

鴻蒙第三方組件適配移植的滑動驗證碼教程

姚小熊27
7.33 MB

免費

1下載

Freeboard物聯網監控

王浩
1.39 MB

2積分

2下載

Magic-C++ C++模塊化敏捷開發框架

qjqb
2.64 MB

2積分

1下載

納米克隆開源資料分享

陳存樓
0.22 MB

免費

0下載

MELSEC iQ R CC link IE TSN用戶手冊(入門篇)

李名揚
33.53 MB

2積分

5下載

【飛凌嵌入式RV1126B開發板】+基本功能測試篇（1）

jennyzhaojie
3天前

1193 閱讀

【飛凌嵌入式RV1126B開發板】+初識篇

jennyzhaojie
4天前

1233 閱讀

樹莓派5還是香橙派5 Pro？兩款熱門開發板的詳細對比

行走的小派
4天前

1570 閱讀

OrangePi RV2 深度技術評測：RISC-V AI融合架構的先行者

行走的小派
5天前

1888 閱讀

lab view NI6003搭建電路

jf_73763743
5天前

1865 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

電子發燒友

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

電子發燒友

關于我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

張迎輝：mikezhang@elecfans.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

版權所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發燒友 （電路圖） 湘公網安備43011202000918 工商網監湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
伦伦影院久久影视