国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何讓文本識別更加智能,數據堂獲取這些OCR轉寫數據

火花 ? 來源:大眾新聞 ? 作者:火花 ? 2020-09-17 11:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近年來,學生黨們擁有了一款新的學習神器——拍照搜題。當遇到不會做的題目時,只需要對著題目拍照,手機中就會出現這道題目的詳細解答思路和答案。“拍照搜題”背后的黑科技就是光學字符識別技術,即OCR。OCR是指電子設備,例如掃描儀或相機檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別的方法將形狀翻譯成計算機文字的過程。

OCR的應用領域十分廣泛。最早為我們熟知的“哪里不會點哪里”的點讀機就應用了OCR。點讀機的點讀筆中裝有一個掃描文字的攝像頭,當點讀筆接觸到書本后,便可將文字內容識別和提取。作為常用的一款辦公軟件,掃描全能王可以實現“圖片轉文字”的功能。軟件可以識別各種文件類型中的文字信息,這是非常典型的OCR技術的應用。

目前,文本識別分為以下幾類:

· 通用文字識別:一般是指如PDF等不規則文檔類的識別。

·卡證識別:包括身份證、銀行卡、營業執照、名片、護照、港澳通行證、戶口本、駕駛證、行駛證等等。

· 票據識別:包括增值稅發票、定額發票、火車票、出租車票、行程單、保單、銀行單據等等。

· 其他:如車牌、車輛合格證、印章檢測等等。

隨著分類的不斷拓展,OCR技術的應用場景也越來越廣泛,以下是幾個應用較為成熟的領域:

· 遠程身份認證:結合OCR和人臉識別技術,實現用戶證件信息的自動錄入,并完成用戶身份驗證。應用于金融保險、社保、O2O等行業,有效控制業務風險。

· 內容審核與監管:自動識別圖片、視頻中的文字內容,及時發現涉黃、涉暴、政治敏感、惡意廣告等不合規內容,規避業務風險,大幅節約人工審核成本。

· 紙質文檔票據電子化:通過OCR實現紙質文檔資料、票據、表格的自動識別和錄入,減少人工錄入成本,提高輸入效率。

針對上述的場景,基于深度學習的技術而言,訓練數據的數量很大程度上影響了技術效果。數據堂作為深耕于AI數據領域近10年的人工智能數據服務提供商,一直致力于為全球人工智能企業提供專業的數據服務。依托自身的數據優勢以及豐富的數據處理經驗,數據堂推出了系列OCR標注及轉寫數據,為相關技術應更廣泛的落地提供助力。

數據涵蓋8種語言、多種場景、不同拍攝角度、不同拍攝距離、不同光照條件。在標注方面,標注行級文本的四邊形框,行級文本轉寫。四邊形框頂點偏差不超過五個像素為正確檢測,檢測框精度不低于95%,文本轉寫精度不低于95%,該數據可用于多國語言OCR任務。

數據涵蓋12種語言(6種亞洲語、6種歐洲語),包括商店牌匾、站牌、海報、車票、路標、漫畫、井蓋畫、提示語、警示語、包裝說明、菜單、建筑物標志等多種自然場景。在標注方面,標注行級文本的四邊形框,行級文本轉寫,四邊形框頂點偏差不超過五個像素為正確檢測,檢測框精度不低于97%,文本轉寫精度不低于97%。

數據包括自然場景圖片2,056張,互聯網圖像1,103張,文本圖像347張。在標注方面,行級內容用行級四邊形框標注、行級內容轉寫;豎列內容用豎列四邊形框標注、豎列內容轉寫。數據可用于多場景下的印地語識別、印地語拍照翻譯等任務。

數據包括自然場景圖片258張,互聯網圖像2,553張,文本圖像2,184張。在標注方面,行級內容用行級四邊形框標注、行級內容轉寫;豎列內容用豎列四邊形框標注、豎列內容轉寫。數據可用于多種場景下的越南語識別、越南語拍照翻譯等任務。

相比物體檢測識別,OCR由于包含傾斜文本框、低分辨率文字和文本版面多樣化的情況,因此OCR數據標注具有特殊性,標注成本更高。數據堂的數加加Pro標注平臺支持私有化部署,能夠幫助企業快速、安全的對人工智能數據進行標注,為企業提供更專業、更安全的數據基礎設施。

fqj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能識別
    +關注

    關注

    0

    文章

    215

    瀏覽量

    19069
  • OCR
    OCR
    +關注

    關注

    0

    文章

    175

    瀏覽量

    17201
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    工業級OCR手持終端怎么選?國產OCR智能識別pda實測

    工業環境專用OCR智能PDA怎么選?鳥鳥科技N70Socr具備IP67防塵防水+1.5米抗跌落,5000mAh可拆卸電池支持24小時輪班作業。專業OCR掃描頭+斑馬/霍尼二維碼引擎雙模組,285g人體工學設計,
    的頭像 發表于 02-07 17:45 ?217次閱讀
    工業級<b class='flag-5'>OCR</b>手持終端怎么選?國產<b class='flag-5'>OCR</b><b class='flag-5'>智能</b><b class='flag-5'>識別</b>pda實測

    識別身份證和護照OCR識別的手持終端設備

    鳥鳥科技N70S身份證護照識別手持終端設備,集成身份證、護照OCR識別及生物核驗功能,工業級IP67三防設計+高性能配置,支持多場景移動辦公,續航持久、掃碼精準,是執法、海關、醫療等行業提升身份核驗效率的優選神器。
    的頭像 發表于 01-06 11:57 ?241次閱讀
    能<b class='flag-5'>識別</b>身份證和護照<b class='flag-5'>OCR</b><b class='flag-5'>識別</b>的手持終端設備

    labview怎么讀取UTF-16 LE 文本數據

    各位大佬 請問labview怎么讀取UTF-16 LE 文本數據 直接讀數據出來會有空格 但是空格無法刪除,請問怎么獲取UTF-16 LE格式數據
    發表于 10-10 11:23

    訊飛實時語音轉寫大模型上線

    從全球協作,到國際交流,再到知識普惠,實時語音轉寫已經成為信息傳遞的重要工具。它跨越時空的交流更順暢,內容的獲取更高效。
    的頭像 發表于 09-26 16:08 ?978次閱讀

    端到端語音交互數據 精準賦能語音大模型進階

    在語音大模型從“能識別”向“懂語境”跨越的關鍵階段,高質量場景化語音數據已成為制約技術突破的核心瓶頸。傳統語音識別數據集采用孤立標注,在語音-文本
    的頭像 發表于 09-11 17:17 ?740次閱讀

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰解析

    摘要 :小語種OCR研發的核心瓶頸在于高質量標注數據的稀缺與高昂成本。本文介紹一種創新的自動化標注方案,利用 PaddleOCR 進行文本檢測與裁剪,并調用 ERNIE 4.5 大模型進行雙重預測
    的頭像 發表于 08-29 11:26 ?3639次閱讀
    小語種<b class='flag-5'>OCR</b>標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰解析

    如何利用OCR技術實現高效集裝箱箱號識別

    在現代物流和海關監管領域,快速準確地識別集裝箱箱號是提升通關效率、降低運營成本的關鍵。OCR(光學字符識別)技術的應用,為這一需求提供了智能化解決方案。通過結合高清成像設備和先進的算法
    的頭像 發表于 08-12 10:48 ?864次閱讀
    如何利用<b class='flag-5'>OCR</b>技術實現高效集裝箱箱號<b class='flag-5'>識別</b>?

    ocr識別數據集上傳壓縮包,上傳成功,但不顯示圖片,圖片數量仍顯示0,為什么?

    ocr識別數據集上傳壓縮包,上傳成功,但不顯示圖片,圖片數量仍顯示0
    發表于 07-23 08:11

    端側OCR文字識別實現 -- Core Vision Kit ##HarmonyOS SDK AI##

    獲取圖片url,把這個url和token再發給百度的ocr接口獲取識別數據……或者圖片轉base64以后把這個base64發給接口,然而鴻蒙這里,目前我也不知道啥原因(可能是發送請求的
    發表于 06-30 18:07

    明治案例 | 150個/分鐘!電阻【OCR識別】+【尺寸測量】一步到位

    真實案例——看明治傳感如何用一個視覺傳感器,同時搞定電阻的尺寸測量和OCR識別質檢效率翻倍,成本直降!場景需求希望在同一工位完成尺寸測量與OCR
    的頭像 發表于 06-10 07:33 ?794次閱讀
    明治案例 | 150個/分鐘!電阻【<b class='flag-5'>OCR</b><b class='flag-5'>識別</b>】+【尺寸測量】一步到位

    OCR識別訓練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標注好了,點擊開始訓練,顯示訓練成功了,也將壓縮包發到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點,參考我們的ocr
    發表于 05-28 06:46

    大模型預標注和自動化標注在OCR標注場景的應用

    OCR,即光學字符識別,簡單來說就是利用光學設備去捕獲圖像并識別文字,最終將圖片中的文字轉換為可編輯和可搜索的文本。在數字化時代,OCR(光
    的頭像 發表于 04-15 15:18 ?942次閱讀

    把樹莓派打造成識別文本的“神器”!

    在許多項目中,RaspberryPi被用作監控攝像頭或執行機器學習任務。在這些場景中,圖像中經常包含應用程序感興趣的文本信息。我們希望提取這些信息并將其轉換,以便通過程序分析文本
    的頭像 發表于 03-25 09:30 ?981次閱讀
    把樹莓派打造成<b class='flag-5'>識別</b><b class='flag-5'>文本</b>的“神器”!

    爬蟲數據獲取實戰指南:從入門到高效采集

    高效又合規地獲取數據?本文將為你拆解完整流程,并推薦一款助力數據采集的“黃金搭檔”——IPIDEA全球代理,你的數據
    的頭像 發表于 03-24 14:08 ?1560次閱讀