国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

首個基于深度學習的端到端在線手寫數學公式識別模型

倩倩 ? 來源:lq ? 作者:SandaG ? 2019-09-20 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡要介紹 2018 年 5 月被 TMM 錄用論文“ Track,Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作 。該論文是 2017 年發表在 ICDAR 上的文章 [1] 的升級版,主要解決了在線手寫數學公式的識別問題。

該論文中介紹的方法獲得了國際最大在線手寫數學公式比賽 CROHME2019 的冠軍,且是在未使用額外數據的情況下超過了有大量額外數據的國際企業參賽隊伍,如 MyScript , Wiris , MathType 等,突出了該算法較傳統數學公式識別算法的優勢。

一、研究背景

手寫數學公式識別較傳統 OCR 問題而言,是一個更復雜的二維手寫識別問題,其內部復雜的二維空間結構使得其很難被解析,傳統方法的識別效果不佳。隨著深度學習在各領域的成功應用,文章 [2] [3] 首次提出了基于深度學習的端到端離線數學公式算法,并在公開數據集上較傳統方法獲得了顯著提升,開辟了全新的數學公式識別框架。然而在線手寫數學公式識別框架還未被提出,論文 TAP 則是首個基于深度學習的端到端在線手寫數學公式識別模型,且針對數學公式識別的任務特性提出了多種優化。

二、TAP原理簡述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整體結構。 TAP 遵循文章 [2] [3] 中的做法,將數學公式的樹結構識別問題轉換成了數學公式 LaTeX 字符串識別問題。這一思路的轉換簡化了數學公式識別問題,使端到端的識別成為了可能。 TAP 的基本框架為基于注意力機制的編解碼模型,也稱 Encoder-Decoder 模型 [4] ,其將輸入的軌跡點序列通過 Encoder 編碼得到高維特征表達,依靠 Attention 機制找出高維特征中的關鍵部分以用于解碼出當前時刻的 LaTeX 字符,直至解碼結束。

TAP 延續了會議文章 [1] 中的 Encoder 框架,在 Attention 機制上針對在線手寫公式識別提出了 Spatial Attention, Temporal Attention, Attention Guider 用于改善 Attention 的對齊以及 Decoder 的解碼能力。文章中還利用了在線與離線兩個模態之間的互補性進一步提升了手寫識別性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 機制,除了常用的S patial Attention 外,還采用了T emporal Attention 機制。其中,S patial Attention 利用了A ttention 的歷史信息以解決數學公式中多個同樣數學字符出現時的對齊混淆問題。

而T emporal Attention 用于處理 LaTeX 中的結構字符的特殊對齊。因為在 LaTeX 的語法規則中,為了重現數學公式語言里的二維空間結構,需要額外有一些特殊的結構字符來形成語法,而這些特殊的結構字符在輸入的數學公式中不存在,因而S patial Attention 無法完成對齊,此時則需要T emporal Attention 來補足這個不存在的對齊空缺,既能不干擾S patial Attention 的學習,又能提高D ecoder 的解碼能力,進一步提升性能。

Fig.3. Illustration of the attention guider

此外, TAP 還采用了A ttention Guider 來強化S patial Attention 的學習,從 Fig 3 中可以看出,在使用了A ttention Guider 來引導S patial Attention 的學習后,S patial Attention 的對齊效果顯著提升,十分精確,并且效果也反映到了最終的識別性能上。

三、主要實驗結果及可視化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 來看,文章所提方案在 CROHME2014 和 CROHME2016 公開數據集上取得了 state-of-the-art 的結果,且較傳統方法有巨大的提升,驗證了該方法的有效性,且 TAP 展示的結果相對于會議版本也有了進一步的提升,體現了H ybrid Attention 在糾正對齊和提升性能處起到了關鍵作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是對于T emporal Attention 的可視化,可見T emporal Attention 能夠很正確的幫助 Spatial Attention 區分結構字符和實體字符。 Fig 5 是對 Hybrid Attention 整體在一個手寫數學公式實例上的可視化。 Fig 6 列出了一個手寫數學公式在線和離線模態互補性的實例,由于存在倒筆現象,單純的在線模型無法正確識別該例子,而通過離線模型的融合輔助最終使得這個公式例子被正確識別(由于符號定義過多,更詳細的內容請參考原文,鏈接附后)。

四、總結及討論

1. TAP-ICDAR 版首次提出了基于深度學習的端到端在線手寫數學公式識別模型,將樹形結構識別問題巧妙轉換成了 LaTe X 字符串識別問題,成功突破了傳統方法在該問題上的性能瓶頸, 開辟了全新的在線數學公式識別框架。

2. TAP-TMM 相比 TAP-ICDAR 而言, 進一步提出了 Hybrid Attention ,不僅提高了 Attention 的對齊準確度,也針對性地處理了 LaTeX 中結構字符的對齊和生成,且效果最終都很好地反映在了最終的識別性能上。此外,通過融合離線模態的全局特性,進一步提升了在線手寫數學公式的識別率。

3. TAP 中匯報出來的在 CROHME2014 及 CROHME2016 上的識別率,至今仍是最好的公開結果,相關算法也在 CROHME2019 競賽上獲得了第一名,并且在沒有使用額外數據的情況便超越了其他使用大量額外數據的企業隊伍 。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98055
  • 識別模型
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6866
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124398
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛為什么會出現黑盒現象?

    在自動駕駛領域,(End-to-End)是指從感知環境的原始數據車輛實際控制指令,全部交給一個統一的深度
    的頭像 發表于 02-20 09:25 ?9252次閱讀
    自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>為什么會出現黑盒現象?

    Nullmax感知規劃模型進化提速

    近日,2025年度浦東新區科技發展基金社會領域數字化轉型專項擬支持項目名單公布。經評審,Nullmax申報的《面向城市高級別輔助駕駛的感知規劃模型》項目入選。
    的頭像 發表于 12-22 16:39 ?507次閱讀

    如何訓練好自動駕駛模型

    [首發于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:算法是怎樣訓練的?是模仿學習、強化學習和離線強化
    的頭像 發表于 12-08 16:31 ?1427次閱讀
    如何訓練好自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>?

    福州移動與華為聯合推出國內首個智能化體驗經營系統

    近日,福州移動與華為聯合推出國內首個智能化體驗經營系統,通過多智能管理系統協同,實現場景化體驗套餐的可預估、可保障、可保護、可評估,分層分級保障用戶在熱門景區、大型演唱會和體育賽
    的頭像 發表于 10-24 09:46 ?486次閱讀

    自動駕駛中“一段式”和“二段式”有什么區別?

    [首發于智駕最前沿微信公眾號]最近有小伙伴提問,一段式和二段式有什么區別。其實說到自
    的頭像 發表于 10-24 09:03 ?1167次閱讀
    自動駕駛中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區別?

    自動駕駛中常提的一段式(單段)是個啥?

    自動駕駛技術的發展,催生出技術的應用,一段式(end-to-end single-s
    的頭像 發表于 10-18 10:16 ?1690次閱讀

    自動駕駛模型為什么會有不確定性?

    。為了能讓自動駕駛汽車做出正確、安全且符合邏輯的行駛動作,模型被提了出來。
    的頭像 發表于 09-28 09:20 ?870次閱讀
    自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>為什么會有不確定性?

    發展趨勢下,云算力如何賦能智能駕駛技術躍遷?

    [首發于智駕最前沿微信公眾號]隨著智能駕駛輔助系統的發展,汽車行業正在從傳統模塊化架構向(End-to-End,E2E)模型邁進。
    的頭像 發表于 09-08 09:16 ?915次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>發展趨勢下,云算力如何賦能智能駕駛技術躍遷?

    自主工具鏈助力組合輔助駕駛算法驗證

    徹底解決越來越多的長尾問題。圖1輔助駕駛算法(圖片來源網絡)輔助駕駛算法是一種深度學習算法,該算法將傳感器數據輸入后,基于大
    的頭像 發表于 08-26 17:41 ?3349次閱讀
    自主工具鏈助力<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>組合輔助駕駛算法驗證

    蔚來模型化架構如何大幅提升安全上限

    2024年7月,蔚來將行業首個基于模型化架構的「自動緊急制動 AEB」推送上車,蔚來也成為了行業首家使用
    的頭像 發表于 08-15 15:35 ?925次閱讀

    廣和通發布自研側語音識別模型FiboASR

    7月,全球領先的無線通信模組及AI解決方案提供商廣和通,發布其自主研發的語音識別模型FiboASR。該模型專為側設備上面臨的面對面實時對話及多人會議場景
    的頭像 發表于 08-04 11:43 ?1596次閱讀

    為什么自動駕駛模型有黑盒特性?

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術落地,(End-to-End)大模型也成為行業研究與應用的熱門方向。相較于傳統自動駕駛系統中的模塊化結構,
    的頭像 發表于 07-04 16:50 ?883次閱讀
    為什么自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有黑盒特性?

    基于LockAI視覺識別模塊:手寫數字識別

    1.1 手寫數字識別簡介 手寫數字識別是一種利用計算機視覺和機器學習技術自動識別
    發表于 06-30 16:45

    一文帶你厘清自動駕駛架構差異

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術飛速發展,智能駕駛系統的設計思路也經歷了從傳統模塊化架構模型轉變。傳統模塊化架構將感
    的頭像 發表于 05-08 09:07 ?1030次閱讀
    一文帶你厘清自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構差異

    自動駕駛中基于規則的決策和模型有何區別?

    在自動駕駛架構的選擇上,也經歷了從感知、決策控制、執行的三段式架構到現在火熱的模型,尤其是在2024年特斯拉推出FSD V12后,各車企更是陸續推出自家的
    的頭像 發表于 04-13 09:38 ?3735次閱讀
    自動駕駛中基于規則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何區別?