国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

小模型也能進行上下文學習!字節&華東師大聯合提出自進化文本識別器

CVer ? 來源:CVer ? 2023-11-27 16:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大語言模型(LLM)能夠以一種無需微調的方式從少量示例中學習,這種方式被稱為 "上下文學習"(In-context Learning)。目前只在大模型上觀察到上下文學習現象,那么,常規大小的模型是否具備類似的能力呢?GPT4、Llama等大模型在非常多的領域中都表現出了杰出的性能,但很多場景受限于資源或者實時性要求較高,無法使用大模型。為了探索小模型的上下文學習能力,字節和華東師大的研究團隊在場景文本識別任務上進行了研究。

場景文本識別(Scene Text Recognition)的目標是將圖像中的文本內容提取出來。實際應用場景中,場景文本識別面臨著多種挑戰:不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓練一個能應對所有場景的統一的文本識別模型。一個直接的解決辦法是收集相應的數據,然后在特定場景下對模型進行微調。但是這一過程需要重新訓練模型,當場景變多、領域任務變得復雜時,實際的訓練、存儲、維護資源則呈幾何倍增長。如果文本識別模型也能具備上下文學習能力,面對新的場景,只需少量標注數據作為提示,就能提升在新場景上的性能,那么上面的問題就迎刃而解。然而,場景文本識別是一個資源敏感型任務,將大模型當作文本識別器非常耗費資源,并且通過初步的實驗,研究人員發現傳統的訓練大模型的方法在場景文本識別任務上并不適用。

為了解決這個問題,來自字節和華東師大的研究團隊提出了自進化文本識別器,ESTR(Ego-Evolving Scene Text Recognizer),一個融合了上下文學習能力的常規大小文本識別器,無需微調即可快速適應不同的文本識別場景。ESTR配備了一種上下文訓練和上下文推理模式,不僅在常規數據集上達到了SOTA的水平,而且可以使用單一模型提升在各個場景中的識別性能,實現對新場景的快速適應,甚至超過了經過微調后專用模型的識別性能。ESTR證明,常規大小的模型足以在文本識別任務中實現有效的上下文學習能力。ESTR在各種場景中無需微調即可表現出卓越的適應性,甚至超過了經過微調后的識別性能。

8e61a640-8c75-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/pdf/2311.13120

方法

圖1介紹了ESTR的訓練和推理流程。

8e777d4e-8c75-11ee-939d-92fbcf53809c.png

1.基礎文本識別訓練

基礎文本識別訓練階段采用自回歸框架訓練視覺編碼器和語言解碼器:

8e992818-8c75-11ee-939d-92fbcf53809c.png

2.上下文訓練

上下文訓練階段ESTR 將根據文中提出的上下文訓練范式進行進一步訓練。在這一階段,ESTR 會學習理解不同樣本之間的聯系,從而從上下文提示中獲益。

8ea68454-8c75-11ee-939d-92fbcf53809c.png

如圖2所示,這篇文章提出 ST 策略,在場景文本數據中進行隨機的分割和轉換,從而生成一組 "子樣本"。子樣本在視覺和語言方面都是內在聯系的。這些內在聯系的樣本被拼接成一個序列,模型從這些語義豐富的序列中學習上下文知識,從而獲取上下文學習的能力。這一階段同樣采用自回歸框架進行訓練:

8eb82718-8c75-11ee-939d-92fbcf53809c.png

3.上下文推理

針對一個測試樣本,該框架會從上下文提示池中選擇 個樣本,這些樣本在視覺隱空間與測試樣本具有最高的相似度。具體來說,這篇文章通過對視覺token序列做平均池化,計算出圖像embedding 。然后,從上下文池中選擇圖像嵌入與 的余弦相似度最高的前 N 個樣本,從而形成上下文提示。

8ec51a9a-8c75-11ee-939d-92fbcf53809c.png

上下文提示和測試樣本拼接在一起送入模型,ESTR便會以一種無訓練的方式從上下文提示中學得新知識,提升測試樣本的識別準確率。值得注意的是,上下文提示池只保留了視覺編碼器輸出的token,使得上下文提示的選擇過程非常高效。此外,由于上下文提示池很小,而且ESTR不需要訓練就能直接進行推理,因此額外的消耗也降到了最低限度。

實驗

實驗從三個角度進行:

1.傳統數據集

從訓練集中隨機抽取很少的樣本(1000個,訓練集 0.025% 的樣本數量)組成上下文提示池,在12個常見的場景文本識別測試集中進行的測試,結果如下:

8eef0760-8c75-11ee-939d-92fbcf53809c.png

2.跨域場景

跨域場景下每個測試集僅提供100個域內訓練樣本,無訓練和微調對比結果如下。ESTR甚至超過了SOTA方法的微調結果。

8f0ad454-8c75-11ee-939d-92fbcf53809c.png

3.困難樣本修正

研究人員收集了一批困難樣本,對這些樣本提供了10%~20%的標注,對比ESTR的無訓練學習方法和SOTA方法的微調學習方法,結果如下:

8f2a9f82-8c75-11ee-939d-92fbcf53809c.png

可以發現,ESTR-ICL大大降低了困難樣本的錯誤率。

未來展望

ESTR證明了使用合適的訓練和推理策略,小模型也可以擁有和LLM類似的In-context Learning的能力。在一些實時性要求比較強的任務中,使用小模型也可以對新場景進行快速的適應。更重要的是,這種使用單一模型來實現對新場景快速適應的方法使得構建統一高效的小模型更近了一步。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52111
  • 識別器
    +關注

    關注

    0

    文章

    27

    瀏覽量

    7850
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5183

原文標題:小模型也能進行上下文學習!字節&華東師大聯合提出自進化文本識別器

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數據(如書籍、網頁、文章等)進行預訓練,學會語言的模式、知識和
    的頭像 發表于 02-02 16:36 ?892次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    NVIDIA BlueField-4為推理上下文記憶存儲平臺提供強大支持

    隨著代理式 AI 工作流將上下文窗口擴展到數百萬個 token,并將模型規模擴展到數百萬億個參數,AI 原生企業正面臨著越來越多的擴展挑戰。這些系統目前依賴于智能體長期記憶來存儲跨多輪、工具和會話持續保存的上下文,以便智能體能夠
    的頭像 發表于 02-02 10:29 ?1017次閱讀
    NVIDIA BlueField-4為推理<b class='flag-5'>上下文</b>記憶存儲平臺提供強大支持

    深入解析NVIDIA Nemotron 3系列開放模型

    這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構,使多智能體系統能夠進行快速長上下文推理。
    的頭像 發表于 12-24 10:34 ?4046次閱讀
    深入解析NVIDIA Nemotron 3系列開放<b class='flag-5'>模型</b>

    大語言模型如何處理上下文窗口中的輸入

    本博客介紹了五個基本概念,闡述了大語言模型如何處理上下文窗口中的輸入。通過明確的例子和實踐中獲得的見解,本文介紹了多個與上下文窗口有關的基本概念,如詞元化、序列長度和注意力等。
    的頭像 發表于 12-03 13:48 ?594次閱讀
    大語言<b class='flag-5'>模型</b>如何處理<b class='flag-5'>上下文</b>窗口中的輸入

    請問riscv中斷還需要軟件保存上下文和恢復嗎?

    的處理在進入和退出中斷處理模式時沒有硬件自動保存和恢復上下文(通用寄存)的操作,因此需要軟件明確地使用(匯編語言編寫的)指令進行上下文
    發表于 10-20 09:56

    軟通動力攜手華為云加速行業應用智能進化

    華為全聯接大會2025期間,華為云聯合應用現代化產業聯盟舉辦“應用現代化,加速行業應用智能進化”論壇,并攜手中國軟件行業協會、中國信息通信研究院、馬來西亞國家信息與通信協會(PIKOM)、軟通動力等單位,共同發布應用現代化產業聯盟全球啟航。
    的頭像 發表于 09-28 17:46 ?1165次閱讀

    米爾RK3576部署端側多模態多輪對話,6TOPS算力驅動30億參數LLM

    配置模型路徑、max_new_tokens(生成內容最大 token 數)、max_context_len(最大上下文長度)、top_k、特殊 token 等關鍵參數;隨后加載視覺編碼模型
    發表于 09-05 17:25

    HarmonyOSAI編程編輯區代碼續寫

    場景),便于模型能理解代碼上下文。 代碼生成設置 進入File &amp;gt; Settings &amp;gt; CodeGenie &amp
    發表于 08-21 15:43

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續寫

    注釋行場景),便于模型能理解代碼上下文。 二、代碼生成設置 進入File &amp;gt; Settings &amp;gt; CodeGenie &
    發表于 07-15 16:15

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無法在EntryAbility中無法使用最新版

    摘要:隨著鴻蒙系統API升級至16版本(modelVersion5.1.1),多項API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發表于 07-01 10:57 ?783次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無法在EntryAbility中無法使用最新版

    新知|Verizon與AT&amp;amp;amp;T可以手機直接連接衛星了

    近日,Verizon與AT&amp;T宣布,手機直連衛星方面取得重要進展,使用普通手機實現了通過衛星的視頻通話。很顯然,Verizon與AT&amp;T的這一舉措是針對此前T-Mobile
    的頭像 發表于 06-19 07:07 ?1140次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T<b class='flag-5'>也</b>可以手機直接連接衛星了

    Transformer架構中編碼的工作流程

    編碼是Transformer體系結構的基本組件。編碼的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼
    的頭像 發表于 06-10 14:27 ?1066次閱讀
    Transformer架構中編碼<b class='flag-5'>器</b>的工作流程

    UIAbility組件基本用法說明

    UIAbility組件基本用法 UIAbility組件的基本用法包括:指定UIAbility的啟動頁面以及獲取UIAbility的上下文UIAbilityContext。 指定UIAbility
    發表于 05-16 06:32

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執行上下文切換?

    如果我們在 AUTOSAR 中使用 CAT1 ISR,是否需要執行上下文切換?另外,是否需要返回指令才能跳回到作系統?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制的示例?
    發表于 03-27 07:34

    把樹莓派打造成識別文本的“神器”!

    。RaspberryPi能實現這種文本識別,而且并不困難。我們可以從靜態圖像或攝像頭的實時流中讀取文本。在本教程中,我們將探討如何使用RaspberryPi實現
    的頭像 發表于 03-25 09:30 ?981次閱讀
    把樹莓派打造成<b class='flag-5'>識別</b><b class='flag-5'>文本</b>的“神器”!