国产女主播一区二区精品,亚洲精品a∨一区二区,国产成人一区二区青青草原

一、導讀

OCR方向的工程師，一定需要知道這個OCR開源項目：PaddleOCR

短短半年時間，累計Star數量已超過11.5K，

頻頻登上Github Trending和Paperswithcode 日榜月榜第一，

在《Github 2020數字洞察報告》中被評為中國Github Top20活躍項目。

稱它為 OCR方向目前最火的repo絕對不為過。

最近，它又帶來兩項全新發布：

AAAI 2021 頂會論文開源：PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network 提出了一種簡單且有效的任意方向端到端文本識別模型，在精度可比的基礎上，與之前大火的ABCNet相比，預測速度快了三倍，達到SOTA效果。

多語言支持種類提升至80+種：基本覆蓋國際主流語言種類，在開源測試集MLT2017評估，中文、韓文、日文、拉丁語系、阿拉伯語系，識別效果均顯著優于EasyOCR，開源SOTA效果。

二、PaddleOCR歷史表現回顧

先看下PaddleOCR自去年6月開源以來，短短幾個月在GitHub上的表現：

2020年6月，8.6M超輕量模型發布，GitHub Trending 全球趨勢榜日榜第一。

2020年8月，開源CVPR2020頂會算法，再上GitHub趨勢榜單！

2020年10月，發布PP-OCR算法，開源3.5M超超輕量模型，再下Paperswithcode 趨勢榜第一

2021年1月，發布Style-Text文本合成算法，PPOCRLabel數據標注工具，star數量突破10000+，截至目前已經達到11.5k，在《Github 2020數字洞察報告》中被評為中國Github Top20活躍項目。

這個含金量，廣大的GitHub開發者們自然懂

超輕量模型的效果：火車票、表格、金屬銘牌、翻轉圖片、外語都是妥妥的，

動靜統一的開發體驗

動態圖和靜態圖是深度學習框架常用的兩種模式。在動態圖模式下，代碼編寫運行方式符合Python 程序員的習慣，易于調試，但在性能方面， Python執行開銷較大，與C++有一定差距。

相比動態圖，靜態圖在部署方面更具有性能的優勢。靜態圖程序在編譯執行時，預先搭建好的神經網絡可以脫離Python依賴，在C++端被重新解析執行，而且擁有整體網絡結構也能進行一些網絡結構的優化。

飛槳動態圖中新增了動態圖轉靜態圖的功能，支持用戶使用動態圖編寫組網代碼。預測部署時，飛槳會對用戶代碼進行分析，自動轉換為靜態圖網絡結構，兼顧了動態圖易用性和靜態圖部署性能兩方面優勢。

文本合成工具Style-Text效果：相比于傳統的數據合成算法，Style-Text可以實現特殊背景下的圖片風格遷移，只需要少許目標場景圖像，就可以合成大量數據，效果展示如下：

半自動標注工具PPOCRLabel：通過內置高質量的PPOCR中英文超輕量預訓練模型，可以實現OCR數據的高效標注。CPU機器運行也是完全沒問題的。效果演示如下：

用法也是非常的簡單，標注效率提升60%-80%是妥妥的。

傳送門：

Github：https://github.com/PaddlePaddle/PaddleOCR

那么最近的2021年4月份更新，又給大家帶來哪些驚喜呢？

三、AAAI 2021 頂會論文：端到端SOTA算法PGNet開源：

直接先看指標評測表現：PGNet算法在ICDAR2015數據集上的檢測及端到端性能表現，在精度接近的條件下，速度上與之前大火的ABCNet相比翻了三倍，達到了SOTA的效果。

圖1：PGNet模型的速度與精度性能對比

詳細數據指標：

表1：ICDAR2015數據集上的檢測及端到端性能

PGNet提出的方法框架如下圖所示，輸入的圖象經過Backbone網絡得到1/4下采樣特征圖，通過多任務學習，同時回歸四個任務的內容，包括文本邊緣偏移量預測（TBO），文本中心線預測（TCL），文本方向偏移量預測（TDO）以及文本字符分類圖預測（TCC）。其中文本行的檢測結果由TBO以及TCL經過后處理得到，文本行的識別結果由TCL，TDO以及TCC的輸出得到。

圖2 網絡流程框架

在ICDAR2015以及Total-Text數據集上可以看一下模型效果：

圖3Total-Text及ICDAR2015數據集可視化效果圖

PGNet論文地址:https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf

【基于頂尖算法，開放拿來即用的成熟印章識別能力】同時，基于PGNet研發的印章識別能力已經在百度AI開放平臺開放，可以有效檢測并識別合同文件或常用票據中的印章，輸出文字內容、印章位置信息以及相關置信度，已支持圓形章、橢圓形章、方形章等常見印章。提供標準化API 接口，快速集成，同時支持私有化部署至本地，保障業務數據私密性。

開放能力地址：https://ai.baidu.com/tech/ocr/seal

注：此處非模型直接開源，但可以申請免費試用。

四、豐富的多語言種類支持，目前已經支持全球80+ 語言模型

簡單對比一下目前主流OCR方向開源repo的核心能力：

中英文模型性能及功能對比

其中，部分多語言模型性能及功能（F1-Score）對比（僅EasyOCR提供）

模型效果

值得一提的是，目前已經有全球開發者通過PR或者issue的方式為PaddleOCR提供多語言的字典和語料，在PaddleOCR上已經完成了全球80+ 主流語言的廣泛覆蓋：包括中文簡體、中文繁體、英文、法文、德文、韓文、日文、意大利文、西班牙文、葡萄牙文、俄羅斯文、阿拉伯文、印地文、維吾爾文、波斯文、烏爾都文、塞爾維亞文（latin）、歐西坦文、馬拉地文、尼泊爾文、塞爾維亞文、保加利亞文、烏克蘭文、白俄羅斯文、泰盧固文、卡納達文、泰米爾文，也歡迎更多開發者可以參與共建。

五、良心出品的中英文文檔教程