PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,沐曦曦云C500/C550 Day 0 適配PaddleOCR-VL-1.5模型,助力PaddleOCR-VL-1.5第一時間面向企業與開發者提供模型服務。
PaddleOCR-VL-1.5創新性地支持了文檔元素的異形框定位,使得PaddleOCR-VL-1.5 在掃描、傾斜、彎折、屏幕拍攝及復雜光照等真實落地場景中均表現卓越,實現了全面的 SOTA。此外,模型進一步集成了印章識別與文本檢測識別任務,關鍵指標持續領跑主流模型。
曦云C系列基于沐曦自主研發的高性能核心GPU IP,具備高能效和高通用性的天然優勢。曦云C系列支持大模型訓練及推理,可廣泛應用于推薦系統、自動語音識別、語音合成、圖像分割檢測、數據庫加速、大語言模型、文生圖、文生視頻等多種場景。作為沐曦主力訓推一體GPU產品,曦云C500/C550具備強勁的算力支撐與靈活的部署優勢,支持多種混合精度計算,可充分釋放PaddleOCR-VL-1.5的模型潛力,實現推理效率與部署體驗的雙重提升,降低企業與開發者的模型應用門檻。
目前,沐曦已構建了從硬件架構到軟件棧的完整自研技術體系。為了讓長周期迭代的硬件適配短周期更新的應用與算法,沐曦打造了全棧自主可控的MXMACA軟件棧原生兼容主流生態,這意味著AI應用可以幾乎零成本地遷移到沐曦的平臺上,基本做到“即插即用”。MXMACA軟件棧于2025年2月份開源,現已擁有超過15萬用戶。
1PaddleOCR-VL-1.5關鍵能力
在 OmniDocBench v1.5 上以 0.9B 的參數量實現 94.5% 的精度,超越了上一代 SOTA 模型 PaddleOCR-VL,表格、公式及文本識別能力大幅提升。
全球首個支持異形框定位的文檔解析模型,可精準返回傾斜、彎折場景下的多邊形檢測框。在掃描、彎折、傾斜、屏幕拍照、光線變化 5 個場景下,精度均優于目前主流的開源與閉源模型。
新增文本行定位/識別與印章識別能力,各項技術指標均刷新領域 SOTA。
精進特殊場景及多語種識別能力。優化了生僻字、古籍、多語種表格、下劃線及復選框的識別效果,并擴展了藏語和孟加拉語的識別支持。
支持跨頁表格自動合并與跨頁段落標題識別,解決了長文檔解析中的斷層問題。
推理速度進一步提升。
2模型架構

3如何使用
在線使用:https://www.paddleocr.com
開源項目地址:https://github.com/PaddlePaddle/PaddleOCR
模型下載地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
PaddleOCR-VL-1.5使用步驟(詳情可點擊下方閱讀全文):
啟動容器(使用官方鏡像)
dockerrun -it --user root --privileged --device /dev/dri:/dev/dri --device /dev/dri --device /dev/mxcd:/dev/mxcd --security-opt seccomp=unconfined --security-opt apparmor=unconfined --shm-size64g --network host ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-fastdeploy-server:latest-metax-gpu bash
安裝PaddleOCR-VL-1.5
python-m pip install -U"paddleocr[doc-parser]" pip install openai
(可選): 快速測試PaddleOCR-VL-1.5原生推理(基于paddlex)
paddleocr doc_parser-i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png # 可選參數: --layout_detection_model_name(版面區域檢測排序模型的名稱,不設置將會使用默認模型) --layout_detection_model_dir(版面區域檢測排序模型的路徑,不設置將會使用默認模型) --vl_rec_model_name(多模態識別模型目錄名稱,不設置將會下載官方模型) --vl_rec_model_dir(多模態識別模型目錄路徑,不設置將會下載官方模型) --device(用于推理的設備,不設置默認使用cpu, 如要使用gpu,請設--device metax_gpu, 如要指定某張卡,請先設置環境變量 MACA_VISIBLE_DEVICES={gpu_id})
啟動fastdeploy服務
paddleocrgenai_server --model_name PaddleOCR-VL-1.5-0.9B --host0.0.0.0--port8118--backend fastdeploy --model_dir {model_dir}
注:model_dir為下載的PaddeOCR-VL-1.5模型的路徑
啟動客戶端程序
方式一:通過CLI調用
paddleocr doc_parser--inputpaddleocr_vl_demo.png--vl_rec_backendfastdeploy-server--vl_rec_server_urlhttp://127.0.0.1:8118/v1 --device metax_gpu
注:model_dir為下載的PaddeOCR-VL-1.5模型的路徑
方式二:通過Python API調用
frompaddleocrimportPaddleOCRVL #基于paddlex推理 # pipeline = PaddleOCRVL() #基于fd server推理 pipeline = PaddleOCRVL(vl_rec_backend="fastdeploy-server", vl_rec_server_url="http://127.0.0.1:8118/v1", device="metax_gpu", layout_detection_model_name="PP-DocLayoutV2", vl_rec_model_name="PaddleOCR-VL-0.9B") # pipeline = PaddleOCRVL(use_doc_orientation_classify=True) # 通過 use_doc_orientation_classify 指定是否使用文檔方向分類模型 # pipeline = PaddleOCRVL(use_doc_unwarping=True) # 通過 use_doc_unwarping 指定是否使用文本圖像矯正模塊 # pipeline = PaddleOCRVL(use_layout_detection=False) # 通過 use_layout_detection 指定是否使用版面區域檢測排序模塊 output = pipeline.predict("./paddleocr_vl_demo.png") forresinoutput: res.print()## 打印預測的結構化輸出 res.save_to_json(save_path="output")## 保存當前圖像的結構化json結果 res.save_to_markdown(save_path="output")## 保存當前圖像的markdown格式的結果
關于沐曦股份
沐曦股份致力于自主研發全棧高性能GPU芯片及計算平臺,為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐,助力數字經濟發展。
-
gpu
+關注
關注
28文章
5194瀏覽量
135422 -
模型
+關注
關注
1文章
3751瀏覽量
52097 -
沐曦
+關注
關注
1文章
80瀏覽量
1810
原文標題:曦云C500/C550 Day 0 適配PaddleOCR-VL-1.5
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
沐曦股份曦云C系列GPU全面適配通義千問Qwen3.5三款新模型
沐曦股份曦云C系列GPU深度適配通義千問Qwen3.5模型
沐曦曦云C500/C550 GPU產品深度適配MiniMax M2.5模型
沐曦曦云C500/C550 GPU產品適配騰訊混元圖像3.0圖生圖模型
沐曦曦云C500/C550 GPU產品適配騰訊混元開源翻譯模型1.5版本
沐曦曦云C500/C550 GPU產品適配PaddleOCR-VL-1.5模型
評論