国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Transformer與覆蓋注意力機制建模的手寫數學公式識別

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 作者: Wenqi Zhao, Liangca ? 2022-11-01 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、研究背景

手寫數學公式識別是將包含數學表達式的圖像轉換為結構表達式,例如LaTeX數學表達式或符號布局樹的過程。手寫數學表達式的識別已經帶來了許多下游應用,如在線教育、自動評分和公式圖像搜索。在在線教育場景下,手寫數學表達式的識別率對提高學習效率和教學質量至關重要。 對比于傳統的文本符號識別(Optical Character Recognition, OCR),公式識別具有更大的挑戰性。公式識別不僅需要從圖像中識別不同書寫風格的符號,還需要建模符號和上下文之間的關系。例如,在LaTeX中,模型需要生成“^”、“_”、“{”和“}”來描述二維圖像中符號之間的位置和層次關系。編碼器-解碼器架構由于可以編碼器部分進行特征提取,在解碼器部分進行語言建模,而在手寫數學公式識別任務(Handwritten Mathematical Expression Recognition, HMER)中被廣泛使用。 雖然Transformer在自然語言處理領域已經成為了基礎模型,但其在HMER任務上的性能相較于循環神經網絡(Recurrent Neural Network, RNN)還不能令人滿意。作者觀察到現有的Transformer與RNN一樣會受到缺少覆蓋注意力機制的影響,即“過解析”——圖像的某些部分被不必要地多次解析,以及“欠解析”——有些區域未被解析。RNN解碼器使用覆蓋注意機制來緩解這一問題。然而,Transformer解碼器所采用的點積注意力沒有這樣的覆蓋機制,作者認為這是限制其性能的關鍵因素。 不同于RNN,Transformer中每一步的計算是相互獨立的。雖然這種特性提高了Transformer中的并行性,但也使得在Transformer解碼器中直接使用以前工作中的覆蓋機制變得困難。為了解決上述問題,作者提出了一種利用Transformer解碼器中覆蓋信息的新模型,稱為CoMER。受RNN中覆蓋機制的啟發,作者希望Transformer將更多的注意力分配到尚未解析的區域。具體地說,作者提出了一種新穎的注意精煉模塊(Attention Refinement Module, ARM),它可以在不影響并行性的前提下,根據過去的對齊信息對注意權重進行精煉。同時為了充分利用來自不同層的過去對齊信息,作者提出了自覆蓋和交叉覆蓋,分別利用來自當前層和前一層的過去對齊信息。作者進一步證明,在HMER任務中,CoMER的性能優于標準Transformer解碼器和RNN解碼器。

8250599c-5944-11ed-a3b6-dac502259ad0.png

圖1 本文提出的具有注意力精煉模塊的Transformer模型

二、方法原理簡述

CNN編碼器在編碼器部分,本文使用DenseNet作為編碼器。相較于ResNet,DenseNet在不同尺度特征圖上的密集連接能夠更好地反映出不同大小字符的尺度特征,有利于后續解碼不同位置大小字符的含義。為了使DenseNet輸出特征與解碼器模型尺寸對齊,作者在編碼器的末端增加了1 × 1的卷積層,得到輸出圖像特征

8272d60c-5944-11ed-a3b6-dac502259ad0.png

位置編碼與RNN解碼器不同,由于Transformer解碼器的Token之間不具有空間位置關系,額外的位置信息是必要的。在論文中,作者與BTTR[1]一致,同時使用圖像位置編碼和字符位置編碼。 對于字符位置編碼,作者使用Transformer[2]中引入的1D位置編碼。給定編碼維數d,位置p,特征維索引i,則字符位置編碼向量

8283cb38-5944-11ed-a3b6-dac502259ad0.png

可表示為:

8298865e-5944-11ed-a3b6-dac502259ad0.png

圖像位置編碼采用與[1,3]相同的二維歸一化位置編碼。由于模型需要關注的是相對位置,所以首先要將位置坐標歸一化。給定二維坐標元組82a77696-5944-11ed-a3b6-dac502259ad0.png,編碼維數為d,通過一維位置的拼接計算二維圖像位置編碼

82b3a6a0-5944-11ed-a3b6-dac502259ad0.png

82c3bb30-5944-11ed-a3b6-dac502259ad0.png

其中82d304dc-5944-11ed-a3b6-dac502259ad0.png82dd0806-5944-11ed-a3b6-dac502259ad0.png代表了輸入圖像特征的尺寸。注意力精煉模塊(ARM)如果在Transformer中直接采用RNN式的覆蓋注意力機制。那么將會產生一個具有82e85134-5944-11ed-a3b6-dac502259ad0.png空間復雜度的覆蓋矩陣82f64532-5944-11ed-a3b6-dac502259ad0.png,這樣的大小是難以接受的。問題的瓶頸在于覆蓋矩陣需要先與其他特征向量相加,再乘以向量8305bb20-5944-11ed-a3b6-dac502259ad0.png。如果我們可以先將覆蓋矩陣與831270b8-5944-11ed-a3b6-dac502259ad0.png相乘,再加上LuongAttention[4]的結果,空間復雜度將大大降低到82e85134-5944-11ed-a3b6-dac502259ad0.png。因此作者將注意力機制修改為:

832bf3c6-5944-11ed-a3b6-dac502259ad0.png

其中相似向量833be3ee-5944-11ed-a3b6-dac502259ad0.png可分為注意項和精煉項834f0078-5944-11ed-a3b6-dac502259ad0.png。需要注意的是,精煉項可以通過覆蓋函數直接由累積835a9da2-5944-11ed-a3b6-dac502259ad0.png向量生成,從而避免了具有為維數為8366b9de-5944-11ed-a3b6-dac502259ad0.png的中間項。作者將上式命名為注意力精煉框架。

8373561c-5944-11ed-a3b6-dac502259ad0.png

圖2 注意精煉模塊(ARM)的整體結構 為了在Transformer中使用這一框架,作者提出了如圖2所示的注意精煉模塊(ARM)。可以將Transformer中的點積矩陣8386e8a8-5944-11ed-a3b6-dac502259ad0.png作為注意項,精煉項矩陣R需要從經過Softmax后的注意權值A中計算出來。作者使用了注意權值A來提供歷史對齊信息,具體的選擇會在下一小節介紹。 作者定義了一個將注意力權重8391753e-5944-11ed-a3b6-dac502259ad0.png作為輸入,輸出為精煉矩陣839d53e0-5944-11ed-a3b6-dac502259ad0.png的函數83ad28f6-5944-11ed-a3b6-dac502259ad0.png

83b81784-5944-11ed-a3b6-dac502259ad0.png

其中83c67f90-5944-11ed-a3b6-dac502259ad0.png是在時間步83d531a2-5944-11ed-a3b6-dac502259ad0.png時的注意力權重。83e98c24-5944-11ed-a3b6-dac502259ad0.png代表一個卷積核,*代表卷積操作。83f51166-5944-11ed-a3b6-dac502259ad0.png是一個偏置項,8401eb34-5944-11ed-a3b6-dac502259ad0.png是一個線性投影矩陣。 作者認為函數840f6a84-5944-11ed-a3b6-dac502259ad0.png可以提取局部覆蓋特征來檢測已解析區域的邊緣,并識別傳入的未解析區域。最終,作者通過減去精煉項R來達到精煉注意力項E的目的。覆蓋注意力本節將介紹注意權重A的具體選擇。作者提出了自覆蓋、交叉覆蓋以及融合覆蓋三種模式,以利用不同階段的對齊信息。自覆蓋: 自覆蓋是指使用當前層生成的對齊信息作為注意精煉模塊的輸入。對于當前層j,首先計算注意權重8420b0d2-5944-11ed-a3b6-dac502259ad0.png,并對其進行精煉。

842c1814-5944-11ed-a3b6-dac502259ad0.png

其中843b1c42-5944-11ed-a3b6-dac502259ad0.png代表了精煉后的點積結果。8446a6de-5944-11ed-a3b6-dac502259ad0.png代表在j層精煉后的注意力權重。交叉覆蓋:作者利用Transformer中解碼層相互堆疊的特性,提出了一種新的交叉覆蓋方法。交叉覆蓋使用前一層的對齊信息作為當前層ARM的輸入。j為當前層,我們使用精煉后的注意力權重8452e93a-5944-11ed-a3b6-dac502259ad0.png之前8461ce82-5944-11ed-a3b6-dac502259ad0.png層來精煉當前層的注意力項。

846fa4d0-5944-11ed-a3b6-dac502259ad0.png

融合覆蓋:將自覆蓋和交叉覆蓋相結合,作者提出了一種新的融合覆蓋方法,充分利用從不同層生成的過去對齊信息。

848740c2-5944-11ed-a3b6-dac502259ad0.png

其中8495b63e-5944-11ed-a3b6-dac502259ad0.png表示來自當前層的注意權重與來自前一層的精煉注意權重進行拼接。

三、主要實驗結果及可視化結果

表1 與先前工作在CROHME數據集上的效果的比較

84a19f30-5944-11ed-a3b6-dac502259ad0.png

從表1中可以看出,與使用覆蓋注意力機制的RNN的模型相比,CoMER在每個CROHME測試集上的性能優于Ding等人[5]提出的先前最先進的模型。在完全正確率ExpRate中,與之前性能最好的基于RNN的模型相比,CoMER平均提高了1.43%。與基于Transformer的模型相比,作者提出的帶有ARM和融合覆蓋的CoMER顯著提高了性能。具體而言,CoMER在所有指標上都優于基準“BTTR”,在ExpRate中平均領先基準“BTTR”3.6%。

表2 各模塊消融實驗

84c74f0a-5944-11ed-a3b6-dac502259ad0.png

在表2中,“Scale -aug”表示是否采用尺度增廣[6]。“Self-cov”和“Cross-cov”分別表示是否使用自覆蓋和交叉覆蓋。與BTTR相比,采用ARM和覆蓋機制的CoMER的性能有了明顯的提高。

84e9ffe6-5944-11ed-a3b6-dac502259ad0.png

圖3 不同算法在CROHME 2014數據集上不同長度正確率的對比 從圖3中可以看到,相較于基準方法與本文提出的三種覆蓋方法,融合覆蓋可以大大增強模型對長公式的識別率。這也驗證了覆蓋機制能夠更好地引導注意力對齊歷史信息。

84feee74-5944-11ed-a3b6-dac502259ad0.png

圖4 公式圖像識別中的精煉項R可視化。

如圖4所示,作者將識別過程中的精煉項R可視化。可以看到,經過解析的區域顏色較深,這表明ARM將抑制這些解析區域的注意權重,鼓勵模型關注未解析區域。可視化實驗表明,作者提出的ARM可以有效地緩解覆蓋不足的問題。

四、總結及討論

作者受RNN中覆蓋注意力的啟發,提出將覆蓋機制引入到Transformer解碼器中。提出了一種新的注意精煉模塊(ARM),使得在Transformer中進行注意力精煉的同時不損害其并行計算特性成為可能。同時還提出了自覆蓋、交叉覆蓋和融合覆蓋的方法,利用來自當前層和前一層的過去對齊信息來優化注意權重。實驗證明了作者提出的CoMER緩解了覆蓋不足的問題,顯著提高了長表達式的識別精度。作者認為其提出的注意精煉框架不僅適用于手寫數學表達式識別。ARM可以幫助精煉注意權重,提高所有需要動態對齊的任務的對齊質量。為此,作者打算將解碼器中的ARM擴展為一個通用框架,用于解決未來工作中的各種視覺和語言任務(例如,機器翻譯、文本摘要、圖像字幕)。

原文作者: Wenqi Zhao, Liangcai Gao

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1219

    瀏覽量

    43415
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9553

    瀏覽量

    391888
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142644
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    ResNet、VGG)。RNN/LSTM:序列建模(如時間序列預測、NLP中的文本生成)。Transformer:自注意力機制(如BERT、GPT)。 模型調優正則化:L1/L2正則化
    發表于 02-27 10:53

    Transformer 入門:從零理解 AI 大模型的核心原理

    字 │└─────────────────────────────────┘│ │↓│ │┌─────────────────────────────────┐│ ││2?? Transformer Block(×12) ││← 理解語義關系 ││? 注意力
    發表于 02-10 16:33

    【正點原子STM32N647開發板試用】--手寫識別

    本篇講述觸摸屏手寫識別數字及大小寫字母。一.實現原理 觸摸顯示屏在有觸摸時顯示并記錄觸摸軌跡,觸摸松開后,進行手寫識別。 二.代碼準備 1.屏顯功能 RGB屏顯示功能資源文件在Driv
    發表于 02-01 18:26

    DeepSeek開源Engram:讓大模型擁有"過目不忘"的類腦記憶

    Transformer效率瓶頸的關鍵鑰匙。 傳統Transformer的"記憶困境" 當前大語言模型面臨三大結構性問題:注意力計算的O(n2)復雜度在長序列下成為瓶頸;所有知識隱式存儲在參數中,檢索常識需激活
    的頭像 發表于 01-14 16:07 ?289次閱讀
    DeepSeek開源Engram:讓大模型擁有"過目不忘"的類腦記憶

    自然場景下注意力如何耳周腦電可靠監測

    HUIYING自然聽覺注意力概述聽覺注意力是大腦在復雜聽覺場景中選擇相關信息、抑制無關信息的重要認知功能。傳統研究多在實驗室內使用笨重設備與人工刺激進行,限制了其生態效度。本研究采用語音包絡跟蹤、被
    的頭像 發表于 12-05 18:03 ?3953次閱讀
    自然場景下<b class='flag-5'>注意力</b>如何耳周腦電可靠監測

    【道生物聯TKB-623評估板試用】基于串口透傳的手寫數字識別

    【道生物聯TKB-623評估板試用】基于串口透傳的手寫數字識別 本文介紹了道生物聯TKB-623開發板結合 UART 串口透傳實現手寫數字識別與遠距離傳輸的項目設計。 項目介紹 硬件連
    發表于 11-08 11:44

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    基于注意力機制的神經網絡結構。該模型將計算資源集中在對任務真正具有價值的關注焦點,使用于大規模并行處理任務,專為在GPU上進行處理而設計。 Transformer 模型的核心思想是自注意
    發表于 09-12 17:30

    小白學大模型:大模型加速的秘密 FlashAttention 1/2/3

    Transformer架構中,注意力機制的計算復雜度與序列長度(即文本長度)呈平方關系()。這意味著,當模型需要處理更長的文本時(比如從幾千個詞到幾萬個詞),計算時間和所需的內存會急劇增加。最開始
    的頭像 發表于 09-10 09:28 ?4804次閱讀
    小白學大模型:大模型加速的秘密 FlashAttention 1/2/3

    【「DeepSeek 核心技術揭秘」閱讀體驗】+看視頻+看書籍+國產開源大模型DeepSeekV3技術詳解--1

    Cache 瓶頸問題。 我們將結合左側的架構圖和右側的數學公式,一步步進行推導和解釋。 1. 技術背景和核心思想 問題: 標準的 Transformer 在處理長文本時,需要緩存所有過去 token
    發表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上優化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創新架構包含多頭潛在注意力機制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語言模型 (LLM) 的推理效率。
    的頭像 發表于 08-12 15:19 ?4266次閱讀
    如何在NVIDIA Blackwell GPU上優化DeepSeek R1吞吐量

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    一、模型架構 在閱讀第三章關于 DeepSeek 的模型架構部分時,我仿佛打開了一扇通往人工智能核心構造的大門。從架構圖中,能清晰看到 Transformer 塊、前饋神經網絡、注意力機制等模塊
    發表于 07-20 15:07

    對話張麗萍 AI磁芯損耗建模應用還有多遠?

    AI技術的出現給磁芯損耗的建模提供了新的方向與機會。 過去磁芯損耗建模主要依賴于基于測試數據的數學擬合公式,這些公式在針對正弦波、PWM波激
    的頭像 發表于 07-10 15:22 ?762次閱讀
    對話張麗萍  AI磁芯損耗<b class='flag-5'>建模</b>應用還有多遠?

    基于LockAI視覺識別模塊:手寫數字識別

    手寫數字識別是一種經典的模式識別和圖像處理問題,旨在通過計算機自動識別用戶手寫的數字。 本文將教會你如何使用基于RV1106的 LockAI
    發表于 06-30 16:45

    基于LockAI視覺識別模塊:手寫數字識別

    手寫數字識別是一種經典的模式識別和圖像處理問題,旨在通過計算機自動識別用戶手寫的數字。本文將教會你如何使用基于RV1106的LockAI視覺
    的頭像 發表于 06-30 15:44 ?1115次閱讀
    基于LockAI視覺<b class='flag-5'>識別</b>模塊:<b class='flag-5'>手寫</b>數字<b class='flag-5'>識別</b>

    經顱電刺激適應癥之tDCS治療注意力缺陷ADHD

    ADHD是常見神經行為障礙,癥狀包括注意力不集中、多動和沖動,兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會持續,引發多種并發癥,給個人、家庭和社會帶來
    的頭像 發表于 04-22 19:49 ?143次閱讀
    經顱電刺激適應癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD