国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Transformer架構的文檔圖像自監督預訓練技術

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 作者:CSIG文檔圖像分析與 ? 2022-11-15 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡要介紹ACM MM 2022錄用論文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。該論文是2022年微軟亞研院發表的LayoutLM V3[2]的前身工作,主要解決了文檔領域中標注數據稀少和以視覺為中心的文檔智能任務骨干網絡的預訓練問題。

一、研究背景

近年來自監督預訓練技術已在文檔智能領域進行了許多的實踐,大多數技術是將圖片、文本、布局結構信息一起輸入統一的Transformer架構中。在這些技術中,經典的流程是先經過一個視覺模型提取額外文檔圖片信息,例如OCR引擎或版面分析模型,這些模型通常依賴于有標注數據訓練的視覺骨干網絡。已有的工作已經證明一些視覺模型在實際應用中的性能經常受到域遷移、數據分布不一致等問題的影響。而且現有的文檔有標注數據集稀少、樣式單一,訓練出來的骨干網絡并非最適用于文檔任務。因此,有必要研究如何利用自監督預訓練技術訓練一個專用于文檔智能領域的骨干網絡。本文針對上述問題,利用離散變分編碼器和NLP領域的常用預訓練方式實現了文檔圖像的預訓練。

5053a420-62a5-11ed-8abf-dac502259ad0.png

圖1具有不同布局和格式的視覺豐富的業務文檔,用于預培訓DiT

二、DiT原理簡述

2.1總體結構

5088a166-62a5-11ed-8abf-dac502259ad0.png

圖2 DiT的總體架構

Fig 2是DiT的整體結構。DiT使用ViT[3]作為預訓練的骨干網絡,模型的輸入是圖像Patch化后的Embedding特征向量,Patch的數量和離散變分編碼器的下采樣比例有關。輸入經過ViT后輸出到線性層進行圖像分類,分類層的大小是8192。預訓練任務和NLP領域的完型填空任務一致,先對輸入的Patch隨機掩膜,在模型輸出處預測被遮蓋的Patch對應的Token,Token由Fig 2 中左側的離散變分編碼器生成,作為每個Patch的Label,預訓練過程使用CE Loss監督。

2.2 離散變分編碼器dVAE

離散變分編碼器作為Image Tokenizer,將輸入的Patch Token化,來源于論文DALL-E[4],在預訓練任務開始前需要額外訓練。本文使用數據集IIT-CDIP[5]重新訓練了DALL-E中的離散變分編碼器以適用于文檔任務。在預訓練任務中只使用到編碼器的部分,解碼器不參與預訓練,編碼器將輸入圖片下采樣到原來的1/8,例如輸入尺度為112*112,那編碼后的Token Map為14*14,此時的Map大小,應與ViT輸入Patch數保持一致。

2.3 模型微調

50e1f356-62a5-11ed-8abf-dac502259ad0.png

圖3在不同檢測框架中應用DiT作為骨干網絡的圖示

模型預訓練完成后,需針對下游任務進行微小的結構改動,針對分類任務,輸入經過平均池化和線性層進行分類。針對檢測任務,如Fig 3所示,在ViT的特定層進行下采樣或上采樣,然后輸入到FPN和后續的檢測框架中。

三、主要實驗結果及可視化效果

表1.RVL-CDIP上的文檔圖像分類精度(%),其中所有模型都使用224×224分辨率的純圖像信息(無文本信息)。

51049230-62a5-11ed-8abf-dac502259ad0.png

表2.PubLayNet驗證集上的文檔布局分析mAP@IOU[0.50:0.95]。ResNext-101-32×8d縮短為ResNext,級聯為C。

5123f530-62a5-11ed-8abf-dac502259ad0.png

表3.ICDAR 2019 cTDaR的表檢測精度(F1)

514b34ce-62a5-11ed-8abf-dac502259ad0.png

表4.文本檢測精度(IoU@0.5)在FUNSD任務#1中,掩碼R-CNN與不同的主干(ResNeXt、DeiT、BEiT、MAE和DiT)一起使用。“+syn”表示使用包含1M文檔圖像的合成數據集訓練DiT,然后使用FUNSD訓練數據進行微調。

51edced2-62a5-11ed-8abf-dac502259ad0.png

520d00f4-62a5-11ed-8abf-dac502259ad0.png

圖4使用不同標記器進行圖像重建

從左到右:原始文檔圖像,使用自訓練dVAE標記器進行圖像重建,使用DALL-E標記器進行的圖像重建從表1、表2、表3、表4

來看,文章所提方法在各種下游任務中取得了state-of-the-art的結果,驗證了該方法在文檔領域的有效性。Fig 4中展示了重新訓練的離散變分編碼器的可視化輸出,結果顯示本文中的離散變分編碼器效果更好。

四、總結及討論

本文設計了一個利用大量無標簽文檔圖像預訓練ViT的自監督方法,該方法的核心是利用離散變分編碼器對圖像Patch進行Token化,再使用NLP領域的掩碼重建任務進行預訓練。從實驗結果可以看出,該方法在多個下游任務的有效性,探索了自監督任務在文檔領域的可能性。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142617
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94757

原文標題:上交&微軟提出DiT:一種基于Transformer的文檔圖像自監督預訓練方法 | ACM MM 2022

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    :自動化任務(如數據預處理、模型訓練調度)。Git版本控制:團隊協作開發(如分支管理、代碼合并)。 機器學習監督學習:線性回歸、邏輯回歸、決策樹、SVM等。無監督學習:聚類(K-Means)、降維
    發表于 02-27 10:53

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer在自動駕駛行業一直被提及?
    的頭像 發表于 02-01 09:15 ?4156次閱讀

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    模型。 我們使用MNIST數據集,訓練一個卷積神經網絡(CNN)模型,用于手寫數字識別。一旦模型被訓練并保存,就可以用于對新圖像進行推理和預測。要使用生成的模型進行推理,可以按照以下步驟進行操作: 1.
    發表于 10-22 07:03

    FPGA+DSP/ARM架構開發與應用

    中高端FPGA技術成熟以來,FPGA+DSP/ARM架構的硬件設計在眾多工業領域得到廣泛應用。例如無線通信、圖像處理、工業控制、儀器測量等。
    的頭像 發表于 10-15 10:39 ?4275次閱讀
    FPGA+DSP/ARM<b class='flag-5'>架構</b>開發與應用

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    %,使用的參數減少了15%。 3.2 LighrSeq2 LighrSeq2 提出了三種加速Transformer模型訓練技術。 ①針對所有的Transformer模型,LightS
    發表于 09-12 17:30

    AI的核心操控:從算法到硬件的協同進化

    到頂層的應用算法,共同構成AI的“智能引擎”。 算法層:模型架構訓練控制 現代AI的核心是深度學習算法,其操控依賴于神經網絡的結構設計和訓練過程的精細化調控。例如,Transformer
    的頭像 發表于 09-08 17:51 ?984次閱讀

    基于大規模人類操作數據訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數據集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統一訓練困難;現有大規模機器人演示數據稀缺且質量參差不齊。得益于近年來VR
    的頭像 發表于 08-21 09:56 ?1096次閱讀
    基于大規模人類操作數據<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA模型H-RDT

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學習嗎?

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    一、模型架構 在閱讀第三章關于 DeepSeek 的模型架構部分時,我仿佛打開了一扇通往人工智能核心構造的大門。從架構圖中,能清晰看到 Transformer 塊、前饋神經網絡、注意力
    發表于 07-20 15:07

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發表于 06-10 14:27 ?1062次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b>中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1286次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b>概述

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    億個參數的混合專家模型(MoE) ,每個token(模型處理文本的基本單位)激活 370 億個參數。該模型在 14.8 萬億個高質量 token上進行訓練,采用 MLA 和 MoE 架構
    發表于 06-09 14:38

    HarmonyOS5云服務技術分享--應用加載提速指南

    手把手教你用加載優化應用啟動速度 Hi,開發者朋友們!今天我們來聊聊如何通過加載技術讓應用啟動快人一步。在用戶體驗至上的時代,首屏加載速度直接關系到用戶留存率,快來掌握這個提升性能的利器吧! 一
    發表于 05-22 20:39

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模
    的頭像 發表于 03-21 18:24 ?4300次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    《AI Agent 應用與項目實戰》閱讀心得3——RAG架構與部署本地知識庫

    應用。第六章深入探討了RAG架構的工作原理,該技術通過在推理過程中實時檢索和注入外部知識來增強模型的生成能力。RAG架構的核心是檢索器和生成器兩大模塊,檢索器負責從知識庫中找到與當前查詢相關的
    發表于 03-07 19:49