国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

StrucTexTv2:端到端文檔圖像理解預訓練框架

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 2023-04-10 11:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡要介紹ICLR 2023錄用論文“StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training”的主要工作。針對當前主流多模態(tài)文檔理解預訓練模型需要同時輸入文檔圖像和OCR結果,導致欠缺端到端的表達能力且推理效率偏低等問題,論文提出了一種全新的端到端文檔圖像多模態(tài)表征學習預訓練框架StrucTexTv2。該框架設計了一種基于詞粒度圖像區(qū)域掩碼、多模態(tài)自監(jiān)督預訓練任務(MIM+MLM),僅需要圖像單模態(tài)輸入,使得編碼器網(wǎng)絡能在大規(guī)模無標注文檔圖像上充分學習視覺和語言聯(lián)合特征表達,并在多個下游任務的公開基準上取得SOTA效果。

一、研究背景

視覺富文檔理解技術例如文檔分類、版式分析、表單理解、OCR以及信息提取,逐漸成為文檔智能領域一個熱門研究課題。為了有效處理這些任務,前沿的方法大多利用視覺和文本線索,將圖像、文本、布局等信息輸入到參數(shù)網(wǎng)絡,并基于大規(guī)模數(shù)據(jù)上的自監(jiān)督預訓練挖掘出文檔的多模態(tài)特征。由于視覺和語言之間的模態(tài)差異較大,如圖1所示,主流的文檔理解預訓練方法大致可分為兩類:a)掩碼語言建模(Masked Language Modeling)[9],對輸入的掩碼文本Token進行語言建模,運行時文本的獲取依賴于OCR引擎,整個系統(tǒng)的性能提升需要對OCR引擎和文檔理解模型兩個部件進行同步優(yōu)化;b)掩碼圖像建模(Masked Image Modeling)[10],對輸入的掩碼圖像塊區(qū)進行像素重建,此類方法傾向應用于圖像分類和版式分析等任務上,對文檔強語義理解能力欠佳。針對上述兩種預訓練方案呈現(xiàn)的瓶頸,本文提出了StrucTexTv2:c)統(tǒng)一圖像重建與語言建模方式,在大規(guī)模文檔圖像上學習視覺和語言聯(lián)合特征表達。

b763a806-d6f2-11ed-bfe3-dac502259ad0.png

圖1 主流文檔圖像理解預訓練框架比較

二、方法原理簡述

b78e650a-d6f2-11ed-bfe3-dac502259ad0.png

圖2 整體框架圖

圖2描繪了StrucTexTv2的整體框架,主要包含編碼器網(wǎng)絡和預訓練任務分支兩部分。編碼器網(wǎng)絡,主要通過FPN結構串聯(lián)CNN組件和Transformer組件構成;預訓練分支則包含了掩碼語言建模(MLM)和掩碼圖像建模(MIM)雙預訓練任務頭。

2.1 編碼器網(wǎng)絡

StrucTexTv2采用CNN和Transformer的串聯(lián)編碼器來提取文檔圖像的視覺和語義特征。文檔圖像首先經(jīng)過ResNet網(wǎng)絡以獲取1/4到1/32的四個不同尺度的特征圖。隨后采用一個標準的Transformer網(wǎng)絡接收最小尺度的特征圖并加上1D位置編碼向量,提取出包含全局上下文的語義特征。該特征被重新轉(zhuǎn)化為2D形態(tài)后,與CNN的其余三個尺度特征圖通過FPN[6]融合成4倍下采樣的特征圖,作為整圖的多模態(tài)特征表示。

2.2 預訓練策略

為了統(tǒng)一建模MLM和MIM兩種模態(tài)預訓練方式,論文提出了一種基于詞粒度圖像區(qū)域掩碼預測方式來學習視覺和語言聯(lián)合特征表達。首先,隨機篩選30%的詞粒度OCR預測結果(僅在預訓練階段使用),根據(jù)OCR的位置信息直接在原圖對應位置像素進行掩碼操作(比如填充0值)。接著,掩碼后的文檔圖像直接送入編碼器網(wǎng)絡去獲得整圖的多模態(tài)特征表示。最后,再次根據(jù)選中的OCR位置信息,采用ROIAlign[11]操作去獲得每個掩碼區(qū)域的多模態(tài)ROI特征。

掩碼語言建模:借鑒于BERT[9]構建的掩碼語言模型思路,語言建模分支使用一個2層的MLP將詞區(qū)域的ROI特征映射到預定義的詞表類別上,使用Cross Entropy Loss監(jiān)督。同時為了避免使用詞表對文本序列進行標記化時單個詞組被拆分成多個子詞導致的一對多匹配問題,論文使用分詞后每個單詞的首個子詞作為分類標簽。此設計帶來的優(yōu)勢是:StrucTexTv2的語言建模無需文本作為輸入。

掩碼圖像建模:考慮到基于圖像Patch的掩碼重建在文檔預訓練中展現(xiàn)出一定的潛力,但Patch粒度的特征表示難以恢復文本細節(jié)。因此,論文將詞粒度掩碼同時用作圖像重建,即預測被掩碼區(qū)域的原始像素值。詞區(qū)域的ROI特征首先通過一個全局池化操作被壓縮成特征向量。其次,為了提升圖像重建的視覺效果,論文將通過語言建模后的概率特征與池化特征進行拼接,為圖像建模引入“Content”信息,使得圖像預訓練專注于復原文本區(qū)域的“Style”部分。圖像建模分支由3個全卷積 Block構成。每個Block包含一個Kernel=2×2,Stride=4的反卷積層,一個Kernel=1×1,以及兩個Kernel=3×1卷積層。最后,每個單詞的池化向量被映射成一個大小為64×64×3的圖像,并逐像素與原本的圖像區(qū)域做MSE Loss。

論文提供了Small和Large兩種參數(shù)規(guī)格的模型,并在IIT-CDIP數(shù)據(jù)集上使用百度通用高精OCR的文字識別結果預訓練編碼網(wǎng)絡。

三、實驗結果

論文在四個基準數(shù)據(jù)集上測試模型對文檔理解的能力,在五個下游任務上使用不同的Head進行Fine-tune并給出實驗結論。表1給出模型在RVL-CDIP[13]驗證文檔圖像分類的效果。同比基于圖像單模態(tài)輸入的方法DiT[4],StrucTexTv2以更少的參數(shù)量取得了更優(yōu)的分類精度。

表1 RVL-CDIP數(shù)據(jù)集上文檔圖像分類的實驗結果

b7a649f4-d6f2-11ed-bfe3-dac502259ad0.png

如表2和表3所示,論文結合預訓練模型和Cascade R-CNN[1]框架fine-tune去檢測文檔中的版式元素以及表格結構,在PubLaynet[8]以及WWW[12]數(shù)據(jù)集上取得了當前的最好性能。

表2 PubLaynet數(shù)據(jù)集上版式分析的檢測結果

b7c91768-d6f2-11ed-bfe3-dac502259ad0.png

表3 WWW數(shù)據(jù)集上表格結構識別的性能對比

b7dc946e-d6f2-11ed-bfe3-dac502259ad0.png

在表4中,論文同時在FUNSD[3]數(shù)據(jù)集上進行了端到端OCR和信息提取兩項實驗,在基準測試中都取得了同期最優(yōu)的效果。對比如StrucTexTv1[5]和LayoutLMv3[2]等OCR+文檔理解的兩階段方法,證明了提出方法端到端優(yōu)化的優(yōu)越性。

表4 FUNSD數(shù)據(jù)集上端到端OCR以及信息抽取實驗

b7f781de-d6f2-11ed-bfe3-dac502259ad0.png

接下來,論文對比了SwinTransformer[7]、ViT[10]以及StrucTexTv2的編碼網(wǎng)絡。從表5對比結果來看,論文提出CNN+Transformer的串聯(lián)結構更有效地支持預訓練任務。同時,論文給出了不同預訓練配置的模型在文檔圖像分類和版式分析的性能增益,對兩種模態(tài)預訓練進行了有效性驗證。

表5 預訓練任務以及編碼器結構的消融實驗

b805550c-d6f2-11ed-bfe3-dac502259ad0.png

同時,論文中評估了模型在預測時的耗時和顯存開銷。表6中給出了兩種OCR引擎帶來的開銷以及并與現(xiàn)階段最優(yōu)的多模態(tài)方法LayoutLMv3進行了比較。

表6 與兩階段的方法LayoutLMv3的資源開銷對比

b822d208-d6f2-11ed-bfe3-dac502259ad0.png

最后,論文評估了表7所示在圖像重建預訓練中使用不同的掩碼方式對下游任務的影響。在RVL-CDIP和PubLaynet兩個數(shù)據(jù)集上,基于詞粒度掩碼的策略可以獲取到更有效的視覺語義特征,確保更好的性能。

表7 預訓練任務以及編碼器結構的消融實驗

b834a3e8-d6f2-11ed-bfe3-dac502259ad0.png

總結及討論

論文出的StructTexTv2模型用于端到端學習文檔圖像的視覺和語言聯(lián)合特征表達,圖像單模態(tài)輸入條件下即可實現(xiàn)高效的文檔理解。論文提出的預訓練方法基于詞粒度的圖像掩碼,能同時預測相應的視覺和文本內(nèi)容,此外,所提出的編碼器網(wǎng)絡能夠更有效地挖掘大規(guī)模文檔圖像信息。實驗表明,StructTexTv2在模型大小和推理效率方面對比之前的方法都有顯著提高。更多的方法原理介紹和實驗細節(jié)請參考論文原文。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42330
  • OCR
    OCR
    +關注

    關注

    0

    文章

    175

    瀏覽量

    17203

原文標題:ICLR 2023 | StrucTexTv2:端到端文檔圖像理解預訓練框架

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Nullmax感知規(guī)劃大模型進化提速

    近日,2025年度浦東新區(qū)科技發(fā)展基金社會領域數(shù)字化轉(zhuǎn)型專項擬支持項目名單公布。經(jīng)評審,Nullmax申報的《面向城市高級別輔助駕駛的感知規(guī)劃大模型》項目入選。
    的頭像 發(fā)表于 12-22 16:39 ?509次閱讀

    格靈深瞳靈感實驗室推出開發(fā)平臺AI Edge Studio

    在AI定制化開發(fā)過程中,開發(fā)者往往遇到模型訓練門檻高、邊緣部署難度大、項目難以實現(xiàn)閉環(huán)等共性問題,影響AI應用開發(fā)的效率提升。
    的頭像 發(fā)表于 12-17 15:28 ?634次閱讀

    如何訓練好自動駕駛模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:算法是怎樣訓練的?是模仿學習、強化學習和離線強化學習這三類嗎?其實
    的頭像 發(fā)表于 12-08 16:31 ?1432次閱讀
    如何<b class='flag-5'>訓練</b>好自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?

    隨著自動駕駛技術的快速發(fā)展,車企和科技公司對于模擬測試平臺的需求越來越強。從L2/ADASL4/L5等級的自動駕駛,虛擬模擬已經(jīng)成為其中的關鍵一環(huán)。特別是對于「」智駕(
    的頭像 發(fā)表于 11-18 11:35 ?819次閱讀

    Nullmax軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結果,Nullmax 研發(fā)團隊的軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗精的軌跡預測
    的頭像 發(fā)表于 11-12 10:53 ?864次閱讀

    自動駕駛中仿真與基于規(guī)則的仿真有什么區(qū)別?

    在自動駕駛領域,“仿真”指的是將感知控制的整個決策鏈條視為一個整體,從而進行訓練和驗證的思路。
    的頭像 發(fā)表于 11-02 11:33 ?1710次閱讀

    自動駕駛中“一段式”和“二段式”有什么區(qū)別?

    攝像頭、毫米波雷達、激光雷達等信號,便可以直接輸出轉(zhuǎn)向、油門、剎車或者軌跡指令。一段式就是用一個整體模型完成這個任務,從傳感器控制,中間不拆成多個模塊,
    的頭像 發(fā)表于 10-24 09:03 ?1171次閱讀
    自動駕駛中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    自動駕駛中常提的一段式(單段)是個啥?

    自動駕駛技術的發(fā)展,催生出技術的應用,一段式(end-to-end single-s
    的頭像 發(fā)表于 10-18 10:16 ?1693次閱讀

    黑芝麻智能全棧式輔助駕駛系統(tǒng)的應用場景

    黑芝麻智能推出的全新一代全棧輔助駕駛系統(tǒng),以武當C1200系列高算力芯片為基石,深度融合自研感知算法,實現(xiàn)從場景感知車輛控制的完全閉環(huán)優(yōu)化——讓輔助駕駛系統(tǒng)學會
    的頭像 發(fā)表于 09-09 17:19 ?2585次閱讀

    發(fā)展趨勢下,云算力如何賦能智能駕駛技術躍遷?

    [首發(fā)于智駕最前沿微信公眾號]隨著智能駕駛輔助系統(tǒng)的發(fā)展,汽車行業(yè)正在從傳統(tǒng)模塊化架構向(End-to-End,E2E)模型邁進。
    的頭像 發(fā)表于 09-08 09:16 ?917次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>發(fā)展趨勢下,云算力如何賦能智能駕駛技術躍遷?

    Nullmax自動駕駛最新研究成果入選ICCV 2025

    近日,國際計算機視覺大會 ICCV 2025 正式公布論文錄用結果,Nullmax 感知團隊在自動駕駛方向的最新研究成果《HiP-AD: Hierarchical
    的頭像 發(fā)表于 07-05 15:40 ?1810次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛最新研究成果入選ICCV 2025

    數(shù)據(jù)標注方案在自動駕駛領域的應用優(yōu)勢

    10-20TB,其中需要標注的數(shù)據(jù)占比超過60%。在這樣的背景下,數(shù)據(jù)標注方案應運而生,正在重塑自動駕駛的數(shù)據(jù)生產(chǎn)范式。
    的頭像 發(fā)表于 06-23 17:27 ?1015次閱讀

    一文帶你厘清自動駕駛架構差異

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術飛速發(fā)展,智能駕駛系統(tǒng)的設計思路也經(jīng)歷了從傳統(tǒng)模塊化架構大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構將感知、預測、規(guī)劃和控制等子任務拆分開,分別由不
    的頭像 發(fā)表于 05-08 09:07 ?1032次閱讀
    一文帶你厘清自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構差異

    小米汽車智駕技術介紹

    后起之秀,小米在宣布造車前被非常多的人質(zhì)疑,但在“真香”定律下,小米創(chuàng)下了很多友商所不能及的成就。作為科技企業(yè),小米也在智能駕駛領域也不斷研發(fā)及突破,并推送了自動駕駛系統(tǒng)。 小米
    的頭像 發(fā)表于 03-31 18:17 ?5275次閱讀
    小米汽車<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>智駕技術介紹

    動量感知規(guī)劃的自動駕駛框架MomAD解析

    自動駕駛框架實現(xiàn)了感知與規(guī)劃的無縫集成,但通常依賴于一次性軌跡預測,這可能導致控制不穩(wěn)定,并且對單頓感知中的遮擋問題較為敏感。為解決這一問題,我們提出了動量感知駕駛
    的頭像 發(fā)表于 03-18 09:31 ?1701次閱讀
    動量感知規(guī)劃的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛<b class='flag-5'>框架</b>MomAD解析