国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

云知聲正式推出Unisound U1-OCR文檔智能基礎大模型

云知聲 ? 來源:云知聲 ? 2026-02-26 17:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

就在剛剛,云知聲正式推出Unisound U1-OCR 文檔智能基礎大模型。作為首個工業級文檔智能基座,該模型憑借 “性能 SOTA、可信可驗、開箱即用、高效部署、強適配” 五大核心優勢,打破傳統文檔處理邊界,樹立起行業新標桿。

PART 1

技術跨越:從 OCR 2.0 邁向 3.0

文檔智能(Document Intelligence)是指利用人工智能技術自動閱讀和理解文檔影像,并進行內容的讀取、理解、分類及關鍵信息提取。傳統視覺方案(OCR 1.0,以CRNN 為代表)僅能識別文字,新一代多模態方案(OCR 2.0,以VLM為代表)具備端到端版面理解能力和文字識別能力。而Unisound U1-OCR 則正式開啟 OCR 3.0 時代——在理解版面的基礎上,進一步洞察文檔深層語義,實現自動分類與業務級信息抽取,完成了從“字符感知”到“文檔認知”的質的飛躍。

PART 2

實力領跑:多項權威評測穩居全球第一梯隊

Unisound U1-OCR是一款達到國際頂尖水平(SOTA)的文檔智能理解模型,其核心優勢在于突破了傳統模型“只讀文字、不懂排版”的瓶頸,能夠像人類專家一樣“看懂”復雜文檔。為適應OCR 3.0 時代對于文檔業務級結構化抽取的新要求,Unisound U1-OCR 采用 ViT + LLM 架構,其中視覺編碼器部分采用 NaViT 架構,實現文檔分辨率動態處理,模型參數規模 3B 量級,兼顧模型計算效率與文檔深層語義信息理解的能力要求。除此之外,模型還提出了多項創新舉措:

首先,它擁有“先懂結構,再讀內容”的智慧。傳統模型往往按順序死板閱讀,而Unisound U1-OCR首創了“語義驅動+動態聚焦”策略。如同人類閱讀習慣,先梳理文檔目錄、標題的層級關系,再按需提取內容。模型能自動構建文檔的“語義地圖”,精準識別標題、圖表與正文的從屬關系,即使面對排版混亂的極端場景,也能條理清晰地提取信息。

其次,它具備敏銳的“空間感知力”。通過強化空間對齊模塊,模型能充分利用文字在頁面上的位置信息,主動理解元素間的空間布局。結合動態分辨率技術,無論是密集表格還是圖文混排,它都能精準還原文檔結構,徹底解決了以往模型“張冠李戴”的空間盲區。

此外,模型采用Multi-Token Prediction(MTP)技術——在預測當前 Token時,同步考慮未來多個Token的概率分布,大幅提升長文檔邏輯連貫性。配合全任務強化學習策略,增強模型對版式結構的全局預見性并在推理階段將模型生成效率提升了80%以上。在訓練階段,采用多任務協同強化訓練方案,實現文檔結構還原、文檔分類與信息抽取的深度對齊。強化訓練策略圍繞“語義+坐標”雙目標優化,針對坐標回溯的 IoU 精度進行專項強化,有效遏制定位幻覺,確保輸出結果的物理可信度。通過多檔位分辨率擾動與Mask采樣策略,顯著提升了模型多場景文檔圖像的理解能力。

憑借這些創新,Unisound U1-OCR在多項權威測試中均獲業界SOTA表現,真正實現了從“識別文字”到“理解文檔”的跨越。

1.OmniDocBench V1.5評測SOTA

在OmniDocBench V1.5評測中,Unisound U1-OCR以95.1分取得SOTA表現(如圖1),領先GLM-OCR,Deepseek-OCR2,Gemini-3-Pro,GPT-5.2等主流模型,實現了精度與泛化能力的雙重突破。 e549dbce-12e4-11f1-90a1-92fbcf53809c.png

圖1Unisound U1-OCR在OmniDocBench V1.5的評測得分對比

2.D4LA評測SOTA

在D4LA評測中,F1 分數達 90.8(如圖 2),大幅領先 DocLayout-YOLO(87.3)PP-StructureV3(86.0)。無需微調即可高精度解析學術論文、財務報表等 11 類高復雜度文檔。 e5ab06ce-12e4-11f1-90a1-92fbcf53809c.png

圖2 基于D4LA評測的文檔版面解析橫向對比結果

3.DocLayNet評測SOTA

在DocLayNet評測中,F1 分數 95.9(如圖 3),超越 MinerU 2.5、PP-StructureV3 等模型。在表格識別、跨頁關聯、微小文本檢測等高難任務上優勢顯著,魯棒性極強。

e6047c7c-12e4-11f1-90a1-92fbcf53809c.png

圖3 基于DocLayNet評測的文檔版面解析橫向對比結果

4.業務相關評測SOTA

在內部業務測試中(如圖4),其信息抽取與文書分類能力超越 Gemini-2.5-Flash、Qwen-235B-VL 等主流通用商業和開源模型。特別是在醫療入院記錄、出院小結等強業務場景中,領先優勢尤為明顯,Unisound U1-OCR 以 3B 規模的參數獲得比更大規模通用 VLM 更好的評測性能。與較小尺寸的文檔解析任務模型相比,得益于模型多項創新舉措,在業務級信息抽取等深層語義信息理解的能力表現更好。 e65cf578-12e4-11f1-90a1-92fbcf53809c.png 圖4 基于業務數據集的文書分類和信息抽取能力橫向對比評測結果

PART 3

面向真實場景:4大核心能力助推U1-OCR從“讀懂”邁向“執行”

作為開啟OCR 3.0時代的文檔智能基礎大模型,除了在通用評測中斬獲多項SOTA,Unisound U1-OCR更立足工業級場景需求,打造了四大核心能力,實現從‘讀懂’到‘執行’的業務落地。

1.可信可查:精準溯源,結果可驗

模型獨創“坐標-文本-語義”融合架構,實現像素級精準定位與完整證據鏈構建。在完成信息抽取的同時,系統精準標示信息在文檔中的來源位置,使結果審核過程全透明、可追溯,從技術層面保障文檔處理結果的可信度,徹底解決傳統文檔處理“結果不可驗”的行業難題。

例如,在企業審核場景中,審核人員無需大海撈針般翻閱原文,點擊抽取結果即可實時高亮定位原始位置。這種“人機協同”的閉環將審核耗時縮短至秒級,讓人工漏檢率降至最低,真正實現了“可信任的AI”。

2. 業務融合:開箱即用,Agent Ready

通用OCR工具在專業領域存在局限——例如醫保結算單中“自付一”“自付二”與“個人自費”的邏輯關系,或合同中金額大小寫的校驗規則,都需要領域知識支撐。

Unisound U1-OCR在基礎模型之上,融入了云知聲在醫療、金融等領域的行業知識積累,模型可基于業務邏輯進行多字段關聯校驗。在內部業務測試中,面向50余種常見業務文書的分類準確率超過99%。

3. 高效部署,安全可控

模型深度支持私有化與離線部署,可在無外網環境下穩定運行,完美匹配政務、醫療、金融等高安全等級行業的數據隱私保護需求。同時,通過版面級并行解碼與多Token預測架構等優化措施,一份十多頁的文檔,整理處理可在數秒內完成,高效的文檔處理能力,讓工業級文檔智能能力觸手可及。

4. 超強適配,攻克復雜場景

針對企業實際業務中遇到的非標準拍照、文檔彎折模糊、復雜花式排版、多語言混排等各類極端復雜文檔場景,Unisound U1-OCR仍能保持穩定、高精度的處理表現,徹底擺脫傳統技術對標準化文檔的依賴,真正適配企業真實業務的全場景需求。

PART 4

真實場景驗證,實力可鑒

1. 可信信息抽取案例

案例1:模型能夠深度理解業務需求,實現數據的“即抽即用”。醫療費用清單抽取中,模型能自動理解語義,兼容不同醫院的寫法差異(如將原圖中的“總計”“合計金額”等描述統一對齊映射至數據庫的“總費用”字段),并根據業務字段抽取規則精準剔除無關的大類干擾項,實現結果直接入庫。同時,模型支持像素級的坐標回溯,通過不同顏色將抽取結果與原圖位置一一對應(如圖所示),這種透明的可信體系讓傳統的“全文重讀”進化為“秒級定點確認”,在保障數據入庫準度的同時,實現了業務效率的質變。

e6b48eb4-12e4-11f1-90a1-92fbcf53809c.png

2. 業務知識融合案例

案例2:模型支持單圖內多文檔自動識別與分割,精準區分病歷、處方等混疊文件。無需人工預分類,即可一鍵完成混合單據的自動化歸檔與提取,讓海量雜亂文檔處理簡單高效。

e715aeba-12e4-11f1-90a1-92fbcf53809c.png

案例3:即使面對拍照遮擋、內容缺失的非理想文檔,模型仍能憑借深層語義洞察準確判定類別。這種對復雜長尾場景的高兼容性,確保系統在實戰中無死角,大幅提升自動化處理成功率。

e773ce3c-12e4-11f1-90a1-92fbcf53809c.png

3. 復雜版式識別案例

案例4:傳統方案在解析報紙、期刊等多欄穿插、圖文交織的復雜版面時,易陷入“下一段該讀哪里”的閱讀迷航。而Unisound U1-OCR模型的突破在于,它不再機械地按固定順序掃描頁面,而是像人一樣,結合上下文語義與版面邏輯,自動判斷段落的承接關系,精準梳理出符合人類閱讀習慣的內容流。

案例5:針對滿屏水印與傾斜排版,模型可自動執行“圖像凈化”——智能消除水印干擾,精準校正扭曲版面。無論原圖多雜亂,都能輸出布局規整、內容清晰的標準化文檔,為后續識別奠定干凈基礎,徹底消除干擾隱患。

e834928e-12e4-11f1-90a1-92fbcf53809c.png

案例6:面對跨行、跨列及嵌套的復雜表格,模型不僅能精準解析內容,更能完整保留原始行列結構與邏輯關系。輸出結果直接可用、無需二次調整,無論是統計報表還是工程圖紙都能輕松解析。

e88c9632-12e4-11f1-90a1-92fbcf53809c.png

Unisound U1-OCR開啟OCR 3.0時代,標志著AI從單純“識字”躍遷至“理解業務邏輯”。這不僅是文檔智能的革新,更是云知聲邁向AGI的關鍵一步。我們將以多模態文檔為知識入口,賦予機器自主推理與證據溯源能力,推動AI從感知走向認知。未來,云知聲期待構建能像人類一樣閱讀、思考并解決復雜問題的通用智能體,讓每一份文檔都成為通往AGI的智慧階梯。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 云知聲
    +關注

    關注

    0

    文章

    315

    瀏覽量

    9361

原文標題:云知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    與嘉會醫療達成戰略合作

    2月5日下午,國內人工智能技術與服務領軍企業智能科技股份有限公司(以下簡稱“
    的頭像 發表于 02-06 09:05 ?1014次閱讀

    山海知音大模型2.0重磅發布

    隨著智能體時代到來,在“山海·Atlas”通用智算基座持續演進基礎上,年前實現了“山海·醫”5.0醫療大
    的頭像 發表于 01-27 14:08 ?201次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>山海知音大<b class='flag-5'>模型</b>2.0重磅發布

    榮登MedAIBench優秀國產醫療大模型榜單

    12月20日,國家人工智能應用中試基地(醫療)·浙江正式發布《MedAIBench測評榜(優秀國產醫療大模型)》。在這一具備行業權威性與臨床導向性的嚴格測評中,
    的頭像 發表于 12-29 14:36 ?820次閱讀

    山海醫療大模型問鼎MedBench4.0三項榜首

    12月16日,中文醫療大模型權威評測平臺MedBench4.0發布最新評測結果。自主研發的“山海醫療大模型(UniGPT?Med)”展
    的頭像 發表于 12-29 14:35 ?3184次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>山海醫療大<b class='flag-5'>模型</b>問鼎MedBench4.0三項榜首

    推出醫療領域專家大模型“山海·醫大模型5.0”

    剛剛,正式推出醫療領域專家級大模型全新力作——“山海?醫大
    的頭像 發表于 12-24 18:12 ?4262次閱讀

    獲批建設河南信陽人工智能模型工程技術研究中心

    近日,河南省信陽市公示了《2025年度信陽市級科技研發平臺擬新建名單》,由(信陽)數字科技有限公司申報的“信陽市人工智能模型服務平臺
    的頭像 發表于 11-03 17:16 ?1310次閱讀

    聯合行業伙伴推出多款智能硬件解決方案

    近日,智慧生活產品線迎來一系列新產品和解決方案升級,大模型全面進入產品線,讓AGI從“技術概念”切實走進“日常好用”的智慧化生活。
    的頭像 發表于 10-29 13:47 ?954次閱讀

    與申能達簽署戰略合作協議

    日前,智能科技股份有限公司(以下簡稱“
    的頭像 發表于 10-11 09:12 ?686次閱讀

    攜手TCL空調煥新智能家電體驗

    “空調開24度,新風打開”——剛打完籃球的小濤對著客廳遠處的TCL空調發出指令,而空調無需聯網仍精準執行操作。這一離線狀態下的智能響應場景,正是TCL空調與聯手研發的“基于端
    的頭像 發表于 08-25 13:53 ?1195次閱讀

    獸牙智能體平臺通過華為昇騰技術認證

    近日,(09678.HK)自主研發的獸牙智能體平臺v1.0成功通過華為昇騰應用開發技術認證,獲得Ascend Native認證證書及認證徽標的使用權。這一認證標志著
    的頭像 發表于 07-11 18:20 ?1459次閱讀

    在港交所成功上市

    近日,智能科技股份有限公司(以下簡稱“
    的頭像 發表于 07-03 17:41 ?1051次閱讀

    AGI龍頭企業港股上市,市值達147億港元

    為147.44億港元。 ? 圖:創始人董事長CEO黃偉博士在現場致辭表示:從今天起,我們將以香港為支點,將中國AGI產品帶向全世界——用更敏捷的創新、更好的商業化和更開放的心胸,讓人類智慧與機器
    的頭像 發表于 06-30 11:44 ?3379次閱讀
    AGI龍頭企業<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>港股上市,市值達147億港元

    與商湯科技達成戰略合作

    近日,智能科技股份有限公司(以下簡稱“
    的頭像 發表于 06-20 14:52 ?980次閱讀

    再度登頂MedBench榜單

    近日,中文醫療大模型權威評測平臺MedBench公布最新自測榜單結果,基于山海大模型打造的醫療行業專用大
    的頭像 發表于 05-20 10:12 ?795次閱讀

    深度參與三項大模型國家標準編寫

    在人工智能技術加速落地的當下,標準化建設已成為推動行業高質量發展的關鍵因素。近日,參與編寫的3項人工智能
    的頭像 發表于 03-18 18:19 ?921次閱讀