国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

破解“豎排文本”魔咒:在 RTX 3060 上微調(diào) PaddleOCR-VL 以識(shí)別日本漫畫

jf_23871869 ? 來(lái)源:劉力 ? 作者:劉力 ? 2025-12-11 17:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:飛槳開發(fā)者技術(shù)專家 劉力

| 僅需一張消費(fèi)級(jí)顯卡,教你利用多模態(tài)大模型打造專屬的日本漫畫翻譯神器。

一,引言:當(dāng)AI遇上二次元

如果你曾嘗試使用傳統(tǒng)的 OCR 工具直接翻譯一本未漢化的日本漫畫(Manga),你可能會(huì)遇到令人抓狂的體驗(yàn):文字識(shí)別亂碼、氣泡順序錯(cuò)亂,尤其是那些 豎排(Vertical) 且字體夸張的擬聲詞,AI 往往視而不見。

wKgZO2k6lO6ARgqFAAB71gCbpBY220.jpg

通用的 OCR 模型大多是針對(duì)文檔、路牌或水平文本訓(xùn)練的。面對(duì)漫畫中復(fù)雜的背景、垂直的閱讀順序以及手寫體,標(biāo)準(zhǔn)模型往往顯得力不從心。今天,我們將解決這個(gè)問(wèn)題。我們不再使用傳統(tǒng)的檢測(cè)+識(shí)別架構(gòu),而是使用更前沿的 Vision-Language (VL) 模型——PaddleOCR-VL。我們將展示如何在僅有 12GB 顯存的 NVIDIA RTX 3060 上,利用 BF16 精度和梯度累積技術(shù),對(duì)這個(gè)強(qiáng)大的多模態(tài)模型進(jìn)行監(jiān)督微調(diào)(SFT)。

項(xiàng)目源碼參考:https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060

二,為什么選擇 PaddleOCR-VL?

1,多模態(tài)理解能力:傳統(tǒng)的 OCR 將圖片切分為小塊進(jìn)行識(shí)別,容易丟失上下文。PaddleOCR-VL 是一種視覺(jué)-語(yǔ)言模型,它能“看”懂整張圖的語(yǔ)義,這對(duì)于理解漫畫中氣泡的閱讀順序(從右向左、從上向下)至關(guān)重要。

2,驚人的效果提升:根據(jù)我們的實(shí)測(cè),在 RTX 3060 上微調(diào)后,精確匹配率 (Exact Match) 從基礎(chǔ)模型的 9.0% 飆升至 64.4%,字符錯(cuò)誤率 (CER) 降低了 80%。

指標(biāo) 原始模型 微調(diào)后 變化
完全匹配率 9.0% 64.4% +55.4%??
字符錯(cuò)誤率(CER) 55.41% 10.88% -80%??

三,核心挑戰(zhàn):如何在 12GB 顯存上訓(xùn)練大模型?

微調(diào) VL 模型通常需要昂貴的 A100 顯卡,但本教程的目標(biāo)是讓每個(gè)擁有 RTX 3060 (12GB) 的開發(fā)者都能跑通。

我們采用了一下技術(shù)組合來(lái)降低顯存占用:

BF16 混合精度:使用 BF16Trainer 配合 torch.amp.autocast,在保持精度的同時(shí)大幅減少顯存占用。

梯度累積 (Gradient Accumulation):將 Batch Size 設(shè)為 1,但設(shè)置梯度累積步數(shù)為 16,從而模擬 Batch Size = 16 的訓(xùn)練效果。

梯度檢查點(diǎn) (Gradient Checkpointing):以計(jì)算換顯存,進(jìn)一步壓縮內(nèi)存需求。

四,實(shí)戰(zhàn)指南:從零開始微調(diào)

第一步:環(huán)境搭建

1,克隆項(xiàng)目

git clone https://github.com/openvino-book/PaddleOCR-VL-SFT-for-Japanese-Manga-on-RTX-3060.git

2,創(chuàng)建 conda 環(huán)境 (Python 3.11)

conda create -n manga-ocr python=3.11 -y
conda activate manga-ocr

3,安裝項(xiàng)目依賴

# 注意:我們需要安裝支持 CUDA 的 PyTorch 版本

pip install torch torchvision --index-url [https://download.pytorch.org/whl/cu118](https://download.pytorch.org/whl/cu118)
pip install -r requirements.txt

第二步:數(shù)據(jù)準(zhǔn)備 (Manga109s)

我們需要高質(zhì)量的漫畫數(shù)據(jù)集。Manga109s 是學(xué)術(shù)界公認(rèn)的日本漫畫數(shù)據(jù)集,包含精確的文本框標(biāo)注。

1,下載數(shù)據(jù)集:訪問(wèn)https://huggingface.co/datasets/hal-utokyo/Manga109-s 申請(qǐng)并下載 Manga109s_released_2023_12_07.zip。

2,解壓與配置:

# 解壓到項(xiàng)目根目錄
unzip Manga109s_released_2023_12_07.zip -d .
# 配置環(huán)境變量
cp .env.example .env
# 確保 .env 文件中的 MANGA109_ROOT 指向解壓后的文件夾

3,運(yùn)行數(shù)據(jù)處理腳本: 該腳本會(huì)自動(dòng)解析 XML 標(biāo)注,裁剪出文本區(qū)域,生成適合 VL 模型訓(xùn)練的格式。

python prepare_manga109_data.py

第三步:開啟訓(xùn)練 (SFT)

一切準(zhǔn)備就緒。我們提供了一個(gè)一鍵啟動(dòng)腳本 train.sh,其中已經(jīng)預(yù)設(shè)了適合 RTX 3060 的參數(shù)。

bash train.sh
wKgZO2k6lO6AIgKNAABtZC7Ese012.webp

第四步:模型評(píng)估

訓(xùn)練完成后,我們需要驗(yàn)證模型是否真的學(xué)會(huì)了讀漫畫。

# 評(píng)估微調(diào)后的模型 (SFT Output)
python evaluate_model.py --model_path ./sft_output --num_samples 500
# (可選) 對(duì)比原始模型
python evaluate_model.py --model_path PaddlePaddle/PaddleOCR-VL --num_samples 500

你將看到類似這樣的巨大提升:

Base Model:經(jīng)常輸出亂碼,無(wú)法理解豎排。

Fine-tuned Model:準(zhǔn)確識(shí)別 "あとは『メルニィ宇宙鉄道』とか..." 等復(fù)雜句式。

視頻鏈接:https://live.csdn.net/v/505182

五,結(jié)語(yǔ)

通過(guò)這個(gè)項(xiàng)目,我們證明了即使是在消費(fèi)級(jí)顯卡 RTX 3060 上,通過(guò)合理的技術(shù)優(yōu)化(BF16、梯度累積),我們也完全有能力微調(diào)先進(jìn)的 Vision-Language 模型。

PaddleOCR-VL 的微調(diào)版本不僅解決了豎排文本識(shí)別的難題,更為構(gòu)建自動(dòng)化的漫畫翻譯/漢化工具鋪平了道路。

如果你對(duì)這個(gè)項(xiàng)目感興趣,或者想獲取詳細(xì)的代碼,請(qǐng)?jiān)L問(wèn)我們的 GitHub 倉(cāng)庫(kù):

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301395
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    175

    瀏覽量

    17201
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上線,沐曦曦云C500/C550 Day 0 適配PaddleOCR-VL-1.5模型,助力PaddleOC
    的頭像 發(fā)表于 01-30 10:19 ?748次閱讀
    沐曦曦云C500/C550 GPU產(chǎn)品適配<b class='flag-5'>PaddleOCR-VL</b>-1.5模型

    百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型僅 0.9B 參數(shù)的輕量架構(gòu),全球權(quán)威文檔解析評(píng)測(cè)榜單 OmniDocBench V1.5 中取得
    的頭像 發(fā)表于 01-30 10:03 ?593次閱讀
    百度正式發(fā)布并開源新一代文檔解析模型<b class='flag-5'>PaddleOCR-VL</b>-1.5

    使用 Docker 一鍵部署 PaddleOCR-VL: 新手保姆級(jí)教程

    PaddleOCR-VL 是基于輕量級(jí)視覺(jué)語(yǔ)言模型(VLM)的文檔解析解決方案,核心模型為 PaddleOCR-VL-0.9B,支持多語(yǔ)言文本、表格、公式、圖表等元素級(jí)識(shí)別,并能以
    的頭像 發(fā)表于 12-18 18:26 ?6431次閱讀
    使用 Docker 一鍵部署 <b class='flag-5'>PaddleOCR-VL</b>: 新手保姆級(jí)教程

    解密 IXE 離子捕捉劑:日本東亞合成如何破解電子行業(yè)的 “離子魔咒”?

    電子技術(shù)向高密度、高可靠性升級(jí)的過(guò)程中,“離子魔咒” 始終如影隨形 —— 銀離子遷移導(dǎo)致 PCB 短路、氯離子腐蝕芯片布線、鈉離子影響材料穩(wěn)定性,這些隱形故障讓無(wú)數(shù)電子工程師頭疼不已。而日本東亞
    的頭像 發(fā)表于 11-12 16:12 ?565次閱讀
    解密 IXE 離子捕捉劑:<b class='flag-5'>日本</b>東亞合成如何<b class='flag-5'>破解</b>電子行業(yè)的 “離子<b class='flag-5'>魔咒</b>”?

    PP-OCRv5 MCP服務(wù)器海光主板的部署與實(shí)戰(zhàn)

    在當(dāng)今數(shù)字化快速發(fā)展的時(shí)代,OCR(光學(xué)字符識(shí)別)技術(shù)已經(jīng)成為從圖像中提取文本信息的重要工具。無(wú)論是自動(dòng)化辦公、智能文檔處理還是在內(nèi)容創(chuàng)作領(lǐng)域,OCR 技術(shù)的應(yīng)用都極大地提高了工作效率和準(zhǔn)確性
    的頭像 發(fā)表于 10-15 17:04 ?825次閱讀
    PP-OCRv5 MCP服務(wù)器<b class='flag-5'>在</b>海光主板的部署與實(shí)戰(zhàn)

    ?VL53L7系列ToF傳感器分線板技術(shù)解析與應(yīng)用指南

    STMicroelectronics SATEL-VL53L7分線板板載了VL53L7系列飛行時(shí)間傳感器模塊。該套裝包含兩塊分線板,每塊分線板均配備了帶有穿孔設(shè)計(jì)的
    的頭像 發(fā)表于 10-15 11:55 ?672次閱讀
    ?<b class='flag-5'>VL</b>53L7系列ToF傳感器分線板技術(shù)解析與應(yīng)用指南

    精準(zhǔn)定位性能瓶頸:深入解析 PaddleOCR v3.2 全新 Benchmark 功能

    飛槳技術(shù)生態(tài)伙伴 算力魔方 | 摘要:實(shí)際落地OCR和文檔解析項(xiàng)目時(shí),大家常常會(huì)遇到一個(gè)棘手問(wèn)題:模型跑得不夠快,但到底是檢測(cè)太慢、識(shí)別耗時(shí),還是模塊之間的數(shù)據(jù)流轉(zhuǎn)不高效?PaddleOCR
    的頭像 發(fā)表于 09-05 16:02 ?1178次閱讀
    精準(zhǔn)定位性能瓶頸:深入解析 <b class='flag-5'>PaddleOCR</b> v3.2 全新 Benchmark 功能

    小語(yǔ)種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    摘要 :小語(yǔ)種OCR研發(fā)的核心瓶頸在于高質(zhì)量標(biāo)注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動(dòng)化標(biāo)注方案,利用 PaddleOCR 進(jìn)行文本檢測(cè)與裁剪,并調(diào)用 ERNIE 4.5 大模型進(jìn)行雙重預(yù)測(cè)
    的頭像 發(fā)表于 08-29 11:26 ?3638次閱讀
    小語(yǔ)種OCR標(biāo)注效率提升10+倍:<b class='flag-5'>PaddleOCR</b>+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    【EASY EAI Orin Nano開發(fā)板試用體驗(yàn)】PP-OCRV5文字識(shí)別實(shí)例搭建與移植

    文字類型方面,PP-OCRv5支持簡(jiǎn)體中文、中文拼音、繁體中文、英文、日文5大主流文字類型,在場(chǎng)景方面, PP-OCRv5升級(jí)了中英復(fù)雜手寫體、豎排文本、生僻字等多種挑戰(zhàn)性場(chǎng)景的識(shí)別能力。 在內(nèi)部多場(chǎng)景
    發(fā)表于 08-18 16:57

    無(wú)法使用OpenVINO? GPU 設(shè)備運(yùn)行穩(wěn)定擴(kuò)散文本到圖像的原因?

    OpenVINO? GPU 設(shè)備使用圖像大小 (1024X576) 運(yùn)行穩(wěn)定擴(kuò)散文本到圖像,并收到錯(cuò)誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    阿里云PAI快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)大語(yǔ)言模型 (MLLM),它們經(jīng)過(guò)了“物理 AI 監(jiān)督微調(diào)”和“物理 AI 強(qiáng)化學(xué)習(xí)”兩個(gè)階段的訓(xùn)練。其中
    的頭像 發(fā)表于 06-04 13:43 ?966次閱讀

    PADS 9.5【附破解文件+安裝教程】中文激活版下載

    第1步 將軟件安裝包下載到電腦本地,使用解壓工具進(jìn)行解壓打開(全程關(guān)閉殺毒軟件以及防火墻,避免破解文件被刪除) 第2步 鼠標(biāo)右鍵管理員身份運(yùn)行“PADS9.5_mib.exe” 第3步 加載
    發(fā)表于 04-03 17:38

    把樹莓派打造成識(shí)別文本的“神器”!

    。RaspberryPi也能實(shí)現(xiàn)這種文本識(shí)別,而且并不困難。我們可以從靜態(tài)圖像或攝像頭的實(shí)時(shí)流中讀取文本本教程中,我們將探討如何使用RaspberryPi實(shí)現(xiàn)
    的頭像 發(fā)表于 03-25 09:30 ?979次閱讀
    把樹莓派打造成<b class='flag-5'>識(shí)別</b><b class='flag-5'>文本</b>的“神器”!

    利用英特爾OpenVINO本地運(yùn)行Qwen2.5-VL系列模型

    近期阿里通義實(shí)驗(yàn)室 Hugging Face 和 ModelScope 開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的 3 個(gè)模型尺寸。
    的頭像 發(fā)表于 03-12 13:42 ?2608次閱讀
    利用英特爾OpenVINO<b class='flag-5'>在</b>本地運(yùn)行Qwen2.5-<b class='flag-5'>VL</b>系列模型

    使用VL53L1X-SATEL待機(jī)功耗遠(yuǎn)超手冊(cè)值是怎么回事?

    如文章標(biāo)題我使用ST原廠VL53L1X-SATEL時(shí)發(fā)現(xiàn)待機(jī)功耗遠(yuǎn)超手冊(cè)值,下圖一是板的硬件原理圖,下圖二是功耗數(shù)據(jù),下圖三是數(shù)據(jù)手冊(cè)關(guān)于這個(gè)器件的功耗說(shuō)明。我的嘗試中沒(méi)有
    發(fā)表于 03-10 06:45