最新国产成人精品一区二区,久久肏逼,伦伦影院久久影视

1 月 29 日，百度正式發布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數的輕量架構，在全球權威文檔解析評測榜單 OmniDocBench V1.5 中取得全球綜合性能第一成績，整體精度達到 94.5%，超過 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 等模型。

值得關注的是，PaddleOCR-VL-1.5 全球首次實現 OCR 模型的“異形框定位”能力，使機器能夠精準識別傾斜、彎折、拍照畸變等非規則文檔形態，首次讓“歪文檔”實現穩定、可規模化解析。該技術解決了傳統 OCR 模型在移動拍照、掃描件變形、復雜光照等真實場景中因文檔形變導致的識別失敗問題，可廣泛應用于金融票據處理、檔案數字化、政務文檔流轉等場景。

PaddleOCR-VL-1.5 基于文心大模型進行開發，在 OmniDocBench V1.5 多個關鍵指標上取得領先表現。其中，表格結構理解(92.8 分)和閱讀順序預測(95.8 分)兩項核心指標上均位列第一，分別領先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文檔閱讀順序預測任務中，其版面邏輯解析錯誤率僅為同類其他模型約一半。這表明，PaddleOCR-VL-1.5 在復雜文檔結構還原與版面邏輯理解方面具備更高穩定性，在合同、財報等高復雜度業務場景中擁有更高可用性。

2025 年 10 月 16 日，百度首次發布并開源 PaddleOCR-VL 模型，在 OmniDocBench V1.5 榜單中取得全球 SOTA 成績，并連續五天登頂 HuggingFace 全球模型總趨勢榜與 ModelScope 全球模型總趨勢榜雙榜第一。

相比于上代，在功能層面，PaddleOCR-VL-1.5 進一步集成印章識別、文本檢測與識別等任務能力，關鍵指標持續領跑;同時針對特殊場景與多語種識別進行系統優化，在生僻字、古籍文獻、多語種表格、下劃線與復選框等復雜結構識別方面顯著提升，并新增對藏語、孟加拉語等語種的支持。模型還支持跨頁表格自動合并與跨頁段落標題識別，有效解決長文檔解析中的結構斷裂問題。

近半年來，全球主流模型廠商密集布局 OCR 領域。1 月 27 日，深度求索發布新一代 OCR 模型 DeepSeek-OCR-2，引入“因果流查詢”機制，并將語言模型融入視覺編碼，在 OmniDocBench V1.5 中實現 91.09% 精度。與此同時，Mistral AI、字節跳動、騰訊等企業也相繼推出新一代 OCR 模型，行業競爭持續加劇。

業內分析認為，隨著大模型加速進入金融、政務、制造等高復雜度業務流程，文檔解析能力正從“能用”走向“穩定可規模化落地”。PaddleOCR-VL-1.5 在精度、復雜場景適應性與工程化能力上的系統突破，有望進一步降低產業應用門檻，推動 OCR 技術在真實生產環境中的深度落地。

目前，PaddleOCR-VL-1.5 已全面開源，開發者可通過 GitHub、Hugging Face 獲取，并在 PaddleOCR 官網進行在線體驗或通過百度智能云千帆平臺調用 API 接口。

在線使用/API：

https://www.paddleocr.com

開源項目地址

https://github.com/PaddlePaddle/PaddleOCR

模型下載地址：

https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴