国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OCR終結了?曠視提出可以文檔級OCR的多模態大模型框架Vary,支持中英文,已開源!

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-12-24 21:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

想將一份文檔圖片轉換成 Markdown 格式?以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——

這一次,只需一句話命令,多模態大模型 Vary 直接端到端輸出結果:

無論是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

還是包含了公式的文檔圖片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手機頁面截圖:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以將圖片中的表格轉換成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

當然,作為多模大模型,通用能力的保持也是必須的:

Vary 表現出了很大的潛力和極高的上限,OCR 可以不再需要冗長的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強的語言先驗,這種架構還可以避免 OCR 中的易錯字,比如“杠桿”和“杜桿”等, 對于模糊文檔,也有望在語言先驗的幫助下實現更強的 OCR 效果。

項目一出,引發了不少網友的關注,有網友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么這樣的效果,是如何做到的呢?

背后原理

目前的多模態大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實,在 400M 圖像文本對訓練的 CLIP 有很強的視覺文本對齊能力,可以覆蓋多數日常任務下的圖像編碼。但是對于密集和細粒度感知任務,比如文檔級別的 OCR、Chart 理解,特別是在非英文場景,CLIP 表現出了明顯的編碼低效和 out-of-vocabulary問題。

受語言的 LLMs 啟發,純 NLP 大模型(如 LLaMA)從英文到中文(外語)時因為原始詞表編碼中文效率低,必須要擴大 text 詞表。那么對于現在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴充視覺詞表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于現有方法直接用現成的 CLIP 詞表,Vary 分兩個階段:第一階段先用一個很小的 Decoder-only 網絡用自回歸方式幫助產生一個強大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓練多模大模型擁有新 feature。Vary 的訓練方法和模型結構如下圖:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通過在公開數據集以及渲染生成的文檔圖表等數據上訓練,Vary 極大增強了細粒度的視覺感知能力。在保持 Vanilla 多模態能力的同時,激發出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,原本可能需要幾千 tokens 的頁面內容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個圖像 tokens 中。這也為進一步的頁面分析和總結提供了更多的想象空間。

目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網頁 demo。感興趣的小伙伴可以去試試了~

項目主頁:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

參考鏈接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg ?

https://zhuanlan.zhihu.com/p/671420712

· ·


原文標題:OCR終結了?曠視提出可以文檔級OCR的多模態大模型框架Vary,支持中英文,已開源!

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2945

    文章

    47820

    瀏覽量

    414920

原文標題:OCR終結了?曠視提出可以文檔級OCR的多模態大模型框架Vary,支持中英文,已開源!

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    云知聲正式推出Unisound U1-OCR文檔智能基礎大模型

    就在剛剛,云知聲正式推出 Unisound U1-OCR 文檔智能基礎大模型。作為首個工業級文檔智能基座,該模型憑借 “性能 SOTA、可信
    的頭像 發表于 02-26 17:28 ?732次閱讀
    云知聲正式推出Unisound U1-<b class='flag-5'>OCR</b><b class='flag-5'>文檔</b>智能基礎大<b class='flag-5'>模型</b>

    智能顯示模塊可以實現中英文界面顯示嗎?

    智能顯示模塊可以實現中英文界面顯示嗎?
    發表于 02-26 10:22

    工業級OCR手持終端怎么選?國產OCR智能識別pda實測

    工業環境專用OCR智能PDA怎么選?鳥鳥科技N70Socr具備IP67防塵防水+1.5米抗跌落,5000mAh可拆卸電池支持24小時輪班作業。專業OCR掃描頭+斑馬/霍尼二維碼引擎雙模組,285g人體工學設計,讓高強度數據采集更
    的頭像 發表于 02-07 17:45 ?215次閱讀
    工業級<b class='flag-5'>OCR</b>手持終端怎么選?國產<b class='flag-5'>OCR</b>智能識別pda實測

    系統寄存器的應用?如何實現中英文模式下的不同屏保頁功能?定時功能?背光等級查看?

    系統寄存器的應用?如何實現中英文模式下的不同屏保頁功能?定時功能?背光等級查看?
    發表于 02-03 14:20

    沐曦曦云C500/C550 GPU產品適配智譜GLM-OCR模型

    今天,智譜AI正式發布并開源GLM-OCR,以 “小尺寸、高精度” 實現文檔解析能力新標桿。沐曦股份曦云C500/C550 GPU充分發揮高生態兼容性、軟硬協同能力優勢,高效完成與智譜GLM-
    的頭像 發表于 02-03 11:36 ?660次閱讀
    沐曦曦云C500/C550 GPU產品適配智譜GLM-<b class='flag-5'>OCR</b><b class='flag-5'>模型</b>

    百度正式發布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數的輕量架構,在全球權威文檔
    的頭像 發表于 01-30 10:03 ?593次閱讀
    百度正式發布并<b class='flag-5'>開源</b>新一代<b class='flag-5'>文檔</b>解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規模化的高性能 OCR 能力

    一、行業背景與核心挑戰:OCR 規?;瘧玫年P鍵瓶頸 **隨著文檔識別技術的不斷成熟,OCR 技術已從實驗性階段逐步走向實際業務場景,在政務、金融、制造、物流等多個行業中得到廣泛應用。然而,在規?;?/div>
    的頭像 發表于 01-22 21:02 ?151次閱讀
    DeepX <b class='flag-5'>OCR</b>:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規模化的高性能 <b class='flag-5'>OCR</b> 能力

    商湯科技正式發布并開源全新模態模型架構NEO

    商湯科技正式發布并開源了與南洋理工大學S-Lab合作研發的全新模態模型架構 —— NEO,為日日新SenseNova
    的頭像 發表于 12-08 11:19 ?1015次閱讀
    商湯科技正式發布并<b class='flag-5'>開源</b>全新<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>模型</b>架構NEO

    亞馬遜云科技上線Amazon Nova模態嵌入模型

    Embeddings模態嵌入模型現已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態
    的頭像 發表于 10-29 17:15 ?264次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態</b>嵌入<b class='flag-5'>模型</b>

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰解析

    與一致性校驗,實現高精度、低成本的小語種OCR訓練數據生成。該方案將數據準備周期 從數周縮短至數小時 ,為小語種模型的快速迭代與冷啟動提供了全新范式 一、引言:小語種OCR的“數據之困” 在跨境支付、多語言
    的頭像 發表于 08-29 11:26 ?3638次閱讀
    小語種<b class='flag-5'>OCR</b>標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰解析

    【嘉楠堪智K230開發板試用體驗】+OCR實現

    匹配等步驟,將掃描文檔、照片或截圖中的文字準確識別并數字化。OCR廣泛應用于文檔電子化、車牌識別、票據處理、歷史檔案保存等領域,極大地提升了信息處理的效率與準確性。隨著深度學習的發展,現代OC
    發表于 08-23 18:53

    端側OCR文字識別實現 -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用場景中就包括了“通用文字識別”,即我們前文中所說的ocr功能。 其整體流程概括為: 首先通過各種方法得到一張圖片,例如拍照、從相冊中選擇、甚至你也可以通過canvas畫布生成的圖片或者通過組件
    發表于 06-30 18:07

    OCR識別訓練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標注好了,點擊開始訓練,顯示訓練成功了,也將壓縮包發到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您添加點,參考我們的ocr
    發表于 05-28 06:46

    ??低?b class='flag-5'>視發布模態模型AI融合巡檢超腦

    基于??涤^瀾大模型技術體系,海康威推出新一代模態模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業帶來全新的
    的頭像 發表于 04-17 17:12 ?1617次閱讀