国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟亞研提出VL-BERT,現取得了當前單模型的最好效果

JqWP_youuav ? 來源:陳年麗 ? 2019-09-03 15:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器之心發布

來自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺-語言預訓練模型(Visual-Linguistic BERT,簡稱 VL-BERT),該模型采用簡單而強大的 Transformer 模型作為主干網絡,并將其輸入擴展為同時包含視覺與語言輸入的多模態形式,適用于絕大多數視覺-語言下游任務。

為了讓 VL-BERT 模型利用更為通用的特征表示,作者在大規模圖片描述生成數據集 ConceptualCaptions 中進行 VL-BERT 的預訓練,實驗證明此預訓練過程可以顯著提高下游的視覺-語言任務的效果,包含視覺常識推理、視覺問答與引用表達式理解等。值得一提的是,在視覺常識推理排行榜中,VL-BERT 取得了當前單模型的最好效果。

適用于下游任務的通用特征表示預訓練是深度網絡成功的標志之一。在計算機視覺領域,深度網絡在 ImageNet 數據集進行圖像分類的預訓練過程,被發現可廣泛提高多種圖像識別任務的效果。在自然語言處理領域中,Transformer 模型在大規模語料庫中使用語言模型進行預訓練的過程,也被證明可廣泛提高多種自然語言處理任務的效果。

但對于計算機視覺和自然語言處理領域交叉的任務,例如圖像標題生成、視覺問答、視覺常識推理等,缺少這種預訓練的通用多模態特征表示。

一般來說,之前的視覺-語言模型分別使用計算機視覺或自然語言處理領域中的預訓練模型進行初始化,但如果目標任務數據量不足,模型容易過擬合從而損失性能。并且對于不同的視覺-語言任務,其網絡架構一般是經過特殊設計的,由此很難通過視覺-語言聯合預訓練的過程幫助下游任務。

由此,在本文中,提出了一種可廣泛應用于視覺-語言任務的預訓練通用特征表示,稱為 Visual-LinguisitcBERT,簡稱 VL-BERT,其架構如下圖所示:

VL-BERT 的主干網絡使用 TransformerAttention 模塊,并將視覺與語言嵌入特征作為輸入,其中輸入的每個元素是來自句子中的單詞、或圖像中的感興趣區域(Region of Interests,簡稱 RoIs)。在模型訓練的過程中,每個元素均可以根據其內容、位置、類別等信息自適應地聚合來自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后,其特征表示即具有更為豐富的聚合與對齊視覺和語言線索的能力。

為了更好地建模通用的視覺-語言表示,在大規模視覺-語言語料庫中對 VL-BERT 進行了預訓練。采用的預訓練數據集為圖像標題生成數據集,Conceptual Captions,其中包含了大約 330 萬個圖像標題對。

VL-BERT 的預訓練主要采用三個任務:a) 屏蔽語言模型(Masked Language Modeling),即隨機屏蔽掉語句中的一些詞,并預測當前位置的詞是什么;b) 屏蔽 RoI 分類(MaskedRoIClassification),即隨機屏蔽掉視覺輸入中的一些 RoIs,并預測此空間位置對應 RoI 的所屬類別;c) 圖像標題關聯預測(Sentence-Image Relationship Prediction),即預測圖像與標題是否屬于同一對。

在預訓練結束后,使用微調來進行下游任務的訓練。本文中主要在三個視覺-語言下游任務中進行微調,即視覺常識推理(VisualCommonsenseReasoning)、視覺問答(VisualQuestionAnswering)與引用表達式理解(ReferringExpressionComprehension),下面將分別介紹。

視覺常識推理任務即給定圖片與相關問題,機器不僅需要回答問題,還需要提供理由來證明答案的正確性。此任務(Q-》AR)被分解為兩個子任務,即視覺問答(Q-》A,給定圖片與問題,輸出正確答案),以及視覺推理(QA-》R,給定圖片、問題與答案,輸出正確的理由)。

下面以視覺問答子任務為例,此任務的輸入為問題、答案與圖像的 RoIs,并預測此答案是否為正確答案。除此之外,作者發現微調時增加與預訓練類似的 RoI 分類損失也會進一步提升性能,如下:

視覺問答任務即給定圖片,回答與圖片輸入相關的問題。由此模型的輸入即為問題與圖像,基本元素為單詞或 RoI,最終對答案進行預測,如下:

引用表達式理解任務是使用給定的引用表達式來定位圖像中的相關對象,由此輸入為查詢(引用表達式)與圖片中的 RoIs,并預測哪個 RoI 為查詢輸入的引用,如下:

下面將介紹論文中的一些主要實驗結果:

a)在視覺常識推理(Visual Commonsense Reasoning)任務中,與當前最好方法的結果比較如下:

b)在視覺問答(Visual Question Answering)任務中,與當前最好方法的結果比較如下:

c)在引用表達式理解(Referring Expression Comprehension)任務中,與當前最好方法的結果比較如下:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6741

    瀏覽量

    107890
  • 機器
    +關注

    關注

    0

    文章

    798

    瀏覽量

    41880

原文標題:牛人發明無人機自動建房,空中噴“水泥”,網友:建筑工人要失業

文章出處:【微信號:youuav,微信公眾號:無人機網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【正點原子STM32N647開發板試用】--人體檢測模型體驗

    STM32N647芯片具有npu的,有0.6tops的算例,可以部署簡單模型, 本次實驗我們體驗的是人體識別模型,該模型來源于:STM32 Model Zoo 工程文件分三部分,我們在線debug其中的FSBL部分才行, 提
    發表于 02-21 19:44

    沐曦曦云C500/C550 GPU產品適配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,沐曦曦云C500/C550 Day 0 適配PaddleOCR-VL-1.5模型,助力Padd
    的頭像 發表于 01-30 10:19 ?831次閱讀
    沐曦曦云C500/C550 GPU產品適配PaddleOCR-<b class='flag-5'>VL</b>-1.5<b class='flag-5'>模型</b>

    百度正式發布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數的輕量架構,在全球權威文檔解析評測榜單 OmniDocBench V1.5 中
    的頭像 發表于 01-30 10:03 ?621次閱讀
    百度正式發布并開源新一代文檔解析<b class='flag-5'>模型</b>PaddleOCR-<b class='flag-5'>VL</b>-1.5

    微軟發布AI芯片Maia 200,性能超越谷歌TPU和亞馬遜Trainium

    電子發燒友網綜合報道 美東時間1月26日,微軟重磅發布第二代自人工智能芯片Maia 200,這一舉措成為微軟減少對英偉達芯片依賴、高效驅動自身服務的關鍵一步,也標志著其在自芯片領域
    的頭像 發表于 01-27 16:46 ?3162次閱讀
    <b class='flag-5'>微軟</b>發布AI芯片Maia 200,性能超越谷歌TPU和亞馬遜Trainium

    模型到產品:Qwen2.5-VL在BM1684X邊緣計算部署全攻略

    前言:部署意義與應用場景1.1Qwen-2-5-VL與BM1684X的組合行業意義:?邊緣AI革命:大模型從云端下沉到邊緣設備是當前AI發展的關鍵趨勢。根據ABIResearch數據,到2026年
    的頭像 發表于 01-13 14:17 ?4664次閱讀
    從<b class='flag-5'>模型</b>到產品:Qwen2.5-<b class='flag-5'>VL</b>在BM1684X邊緣計算部署全攻略

    使用 Docker 一鍵部署 PaddleOCR-VL: 新手保姆級教程

    ? PaddleOCR-VL 是基于輕量級視覺語言模型(VLM)的文檔解析解決方案,核心模型為 PaddleOCR-VL-0.9B,支持多語言文本、表格、公式、圖表等元素級識別,并能以
    的頭像 發表于 12-18 18:26 ?6459次閱讀
    使用 Docker 一鍵部署 PaddleOCR-<b class='flag-5'>VL</b>: 新手保姆級教程

    谷歌正式推出最新Gemini 3 AI模型

    今天我們正式推出 Gemini 3,這是我們迄今為止最智能的模型,能夠幫助用戶實現任何創意。Gemini 3 Pro 基于最先進的推理技術,與之前的版本相比,它在所有主要的 AI 基準測試中都取得了無與倫比的結果,尤其是在編程方面也超越了 2.5 Pro,能夠熟練地處理智
    的頭像 發表于 11-24 11:10 ?1230次閱讀
    谷歌正式推出最新Gemini 3 AI<b class='flag-5'>模型</b>

    基于米爾瑞芯微RK3576開發板的Qwen2-VL-3B模型NPU多模態部署評測

    案例:支持圖像和文本交互 步驟 1:環境準備 步驟 2:模型的獲取、驗證與格式轉換 步驟 3:修改代碼并交叉編譯可執行文件并上傳到板子上 步驟 4:上傳文件到開發板 性能測試 Tips 多模態效果
    發表于 08-29 18:08

    中軟國際在能源化工行業大模型項目取得重大突破

    近日,中軟國際簽約某大型石油企業大模型開發項目。作為中國能源化工行業首個備案的大模型,此次簽約標志著中軟國際在能源化工行業人工智能領域取得了重大突破。根據項目規劃,中軟國際將針對輸送管質量檢測、常減壓工藝運行優化、設備預測性維護
    的頭像 發表于 07-05 17:03 ?1440次閱讀

    利用NVIDIA 3D引導生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術突飛猛進,從早期模型會生成手指過多的人類圖像,到現在能創造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在一個挑戰:實現創意掌控。
    的頭像 發表于 06-05 09:24 ?902次閱讀

    CADENAS 在 2025 年金字塔公司聯系博覽會上取得圓滿成功

    表現出了極大的積極性和好奇心。這種直接的交流和相互了解讓我們覺得這次招聘會非常特別! 感謝奧格斯堡大學的活動團隊 展會出色的組織工作、友好的氛圍以及美味的食物再次給我們留下了深刻印象。每年的金字塔公司招聘會都為我們提供了一個接觸年輕人才的絕佳平臺,2025 年的招聘會對我們來說又一次取得了圓滿成功。
    發表于 06-04 14:32

    百度文心大模型X1 Turbo獲得信通院當前模型最高評級證書

    ,16項達5分,綜合評級獲當前最高級“4+級”, 成為國內首款通過該測評的大模型 。文心X1 Turbo邏輯推理、代碼推理、推理效果優化等技術能力及工具支持度、安全可靠度等應用能力均獲得滿分。 AI Day現場,百度吳甜系統性講
    的頭像 發表于 05-21 18:19 ?1286次閱讀
    百度文心大<b class='flag-5'>模型</b>X1 Turbo獲得信通院<b class='flag-5'>當前</b>大<b class='flag-5'>模型</b>最高評級證書

    安徽省水利科學研究院攜手中科曙光完成DeepSeek大模型部署

    近日,安徽省(水利部淮河水利委員會)水利科學研究院攜手中科曙光,成功完成國產大模型DeepSeek、BGE-M3嵌入模型及重排模型的本地化部署與測試,并順利接入梅山水庫運行管理矩陣平臺,進行水利業務應用場景初探,
    的頭像 發表于 03-25 11:36 ?1049次閱讀

    利用英特爾OpenVINO在本地運行Qwen2.5-VL系列模型

    近期阿里通義實驗室在 Hugging Face 和 ModelScope 上開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內的 3 個模型尺寸。
    的頭像 發表于 03-12 13:42 ?2620次閱讀
    利用英特爾OpenVINO在本地運行Qwen2.5-<b class='flag-5'>VL</b>系列<b class='flag-5'>模型</b>

    請問如何能讓模型效果更好?

    重現步驟 我用yolov8n訓練出的模型,跑出來的識別是沒有問題的,問題是在部署到開發板上,無論是穩定性還是框的大小以及識別的準確性都比較差,再試了幾次訓練后的效果還是不好,請問有什么更多的解決辦法
    發表于 03-11 07:21