国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

面向中文搜索的開放域文檔視覺問答任務解決方案

深度學習自然語言處理 ? 來源:哈工大SCIR ? 作者:齊樂 ? 2022-07-08 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

開放域問答在現實生活中有著廣泛的應用,例如搜索引擎、企業問答、醫療問答等等。然而,現有開放域問答系統通常需要消耗大量成本針對不同格式的異構文檔(如PDF、網頁、掃描文檔等)設計特定的內容抽取算法,預先從文檔中抽取文本內容作為系統的信息來源。這不僅限制了現有系統的可擴展能力,還損失了文檔中的布局和視覺信息。為此,本文提出了一個全新的開放域文檔視覺問答任務,直接以異構文檔圖像集合為信息來源回答用戶提問,并提出了中文開放域文檔視覺問答數據集DuReadervis。DuReadervis共包含158K文檔圖像和15K對問答對,主要挑戰包括:1)長文檔理解;2)噪聲干擾;和3)多片段答案抽取。

1. 背景

現有開放域問答系統主要以文本集合作為信息來源回答用戶提問,如圖1所示,現有系統通常需要花費大量成本根據不同的文檔格式設計特定的內容抽取算法,預先從異構文檔中抽取文本內容。這無疑限制了開放域問答系統的可擴展(scalable)能力。一個可擴展的問答系統應能同時處理各種格式文檔,還可以輕松地遷移到尚未見過的文檔格式中。此外,現有系統由于只抽取了文本內容,因此會損失原始文檔中極有價值的布局特征(如字體大小、列表格式或表格格式等)和視覺特征(如文本顏色、圖像等)。

圖1 開放域問答系統通用流程,需要根據文檔格式和來源設計不同的內容抽取器抽取文本內容

2. 開放域文檔視覺問答

為了提升開放域問答系統的可擴展能力,同時充分利用異構文檔中的布局和視覺信息,本文提出了一個全新的問答任務,即開放域文檔視覺問答(Open-domain Document Visual Question Answering,Open-domain DocVQA)。該任務從視覺角度描述異構文檔,直接以從異構文檔轉換得到的文檔圖像集合為信息來源來回答用戶提問。如圖2所示,該任務通過通用抽取器(如OCR)抽取文檔圖像中的文本內容和布局結構,然后將這些信息連同文檔圖像的視覺特征應用于后續流程中。

圖2 開放域文檔視覺問答通用流程,將不同格式文檔視為文檔圖像,只需類似于OCR的通用抽取器抽取其中的文本內容和布局特征

與開放域問答類似,該任務也包含兩個階段:

文檔視覺檢索(Document Visual Retrieval,DocVRE):從原始的文檔圖像集合中檢索和問題相關的小規模候選文檔圖像集合

文檔視覺問答(Document Visual Question Answering,DocVQA):根據檢索結果抽取單個或多個文本片段作為問題答案

3. DuReadervis

為了推動開放域文檔視覺問答的發展,本文從百度搜索日志中收集用戶向搜索引擎提出的真實問題和相關網頁并進行了問答對的標注,提出中文開放域文檔視覺問答數據集DuReadervis。相比于現有的文檔視覺問答數據集,DuReadervis的問題面向真實用戶提問,可以滿足開放域的信息搜索需求。此外,DuReadervis中的文檔圖像均來自于互聯網網頁,包含豐富的文本內容和視覺特征以及復雜多樣的布局結構,而且DuReadervis需要抽取格式復雜的長答案,如多片段文本型答案、列表型答案和表格型答案。表1對比了DuReadervis和現有文檔視覺問答數據集。

表1 DuReadervis與其他文檔視覺問答數據集的對比

3.1 數據集統計分析

DuReadervis共包含158K文檔圖像和15K問答對,其中訓練集包括11K問答對;開發集包括1.5K問答對;測試集包括2.5K問答對。

文檔圖像

DuReadervis中的文本內容的平均長度和文檔圖像的平均大小要遠超于其他數據集,表明DuReadervis中的文檔圖像包含更豐富的文本內容和視覺特征。此外,DuReadervis中的文檔圖像來自于17000多個隨機網站,文檔主題和布局結構多樣性高。另一方面,通常情況下網頁中會包含大量的噪聲信息,會對模型理解文檔產生干擾。

問題和答案

現有文檔視覺問答數據集中的問題主要為事實類問題。而在DuReadervis中,問題類型同時包含事實類和非事實類問題。本文隨機篩選了200條問題人工進行分類,發現43%的問題是非事實類問題。DuReadervis中的答案平均長度也要遠長于其他數據集中的答案平均長度。此外,DuReadervis的答案格式復雜,包含約40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中,很多答案都是不連續的,需要抽取多片段答案。

表2 數據集統計特征

3.2 數據集挑戰

總體而言,DuReadervis的主要挑戰包括以下三點:

長文檔理解:DuReadervis中的文檔圖像均轉換自互聯網頁面,包含更長的文本內容、更豐富的視覺特征和復雜的布局結構;

噪聲干擾:來自于網頁的文檔圖像中會包含大量噪聲信息,例如廣告、相關推薦等,增大了文檔圖像的理解難度;

多片段答案抽取:DuReadervis中的答案格式更加復雜,包含文本、列表和表格型答案,需要模型抽取多片段長答案。

3.3 數據集樣例

傳統的開放域問答系統可以通過設計特殊的內容抽取算法可以很好地去除表格外的噪聲干擾,但提取的文本內容很難保留表格的布局結構,系統很難得知不同單元格文本內容間的語義關聯。相比之下,開放域文檔視覺問答系統則可以通過表格的布局特征更輕松地建模單元格文本內容間的語義關聯,通過“站點”這一列標題找到問題的答案。

4. 基線方法

本文為DuReadervis提出了一個基線方法。該方法包括三部分:

基于PaddleOCR的通用內容抽取:利用PaddleOCR技術從文檔圖像中抽取文本內容和布局結構作為系統輸入;

基于BM25的文檔視覺檢索:根據抽取出的文本內容構建檢索庫,再利用BM25算法檢索相關文檔圖像;

基于層次化LayoutXLM的文檔視覺問答:為了從候選文檔圖像中抽取問題答案,本文提出了層次化LayoutXLM模型。如圖4所示,該模型利用層次化建模的方式建模DuReadervis中的長文本內容,并通過基于CRF的序列標注算法抽取多片段答案。其中,LayoutXLM[4]是以文本、布局和視覺特征為輸入的面向多語言跨模態文檔的預訓練模型。

圖4 層次化LayoutXLM模型架構

5. 實驗

5.1 實驗設置

為了驗證所提方法的有效性,本文在文檔視覺問答和開放域文檔視覺問答任務上進行了實驗,將層次化LayoutXLM與基于純文本預訓練模型的層次化RobertaXLM[5]以及層次化BERT[6]進行對比。其中,在開放域文檔視覺問答實驗中,本文使用BM25算法檢索回與問題最相關的文檔圖像進行答案抽取。兩個任務的評價指標均為F1和Rouge-L。

5.2 實驗結果

如表3和表4所示,相比于基于純文本預訓練模型的方法,層次化LayoutXLM的性能有明顯提高,然而其整體性能仍與人類表現有一定差距。這表明,一方面布局結構和視覺特征有助于模型理解文檔圖像,另一方面無論是文檔視覺問答亦或是開放域文檔視覺問答均有著較大的提升空間。

6. 結論

本文為了提高開放域問答系統的可擴展能力,使其可以用較低的成本以不同格式的異構文檔作為其信息來源,提出了一個全新的開放域文檔視覺問答任務,直接以從異構文檔轉換得到的文檔圖像集合來回答用戶提問。為了推動該任務的發展,本文提出了中文開放域文檔視覺問答數據集DuReadervis,包含158K文檔圖像和15K問答對。DuReadervis包含三個挑戰:1)長文檔理解;2)噪聲干擾;3)多片段答案抽取。同時,本文提出了一個基線系統并進行了實驗,實驗結果表明現有基線系統和人類表現仍有一定差距,開放域文檔視覺問答任務仍有較大的提升空間。除研究目的外,開放域文檔視覺問答的相關技術已初步應用于諸如汽車、電子、銀行等行業的問答系統中,并在飛槳AI Studio上開放。

審核編輯:郭婷


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 汽車電子
    +關注

    關注

    3045

    文章

    8958

    瀏覽量

    172838
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26201

原文標題:ACL2022 | 面向中文真實搜索場景的開放域文檔視覺問答數據集

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為面向全球正式發布Agentic Core解決方案

    在MWC26 巴塞羅那期間舉辦的產品與解決方案發布會上,針對智能體互聯網時代的AI-Centric網絡,華為云核心網產品線總裁高治國面向全球正式發布 AgenticCore解決方案,助力運營商重塑話音、上網和家庭寬帶主營業務,加
    的頭像 發表于 03-05 10:16 ?258次閱讀

    京東方發布顯示行業首款全員開放AI問答系統

    2026年2月24日,BOE(京東方)正式發布基于京東方藍鯨顯示大模型的BOE AI 問答系統,顯示行業內率先面向企業全員開放應用,以多項技術領先優勢,樹立企業級AI創新應用新標桿,標志著京東方以AI賦能開啟了智能驅動運營的新范
    的頭像 發表于 03-02 09:42 ?285次閱讀

    小藝開放平臺平臺功能

    選擇插件、工作流,響應用戶需求。LLM模式適用于簡單對話、知識問答、基礎內容生成等場景。 工作流模式 工作流模式是一種基于規則化流程的智能體編排方式。開發者將復雜任務拆解為有序的規則化步驟(如數據獲取
    發表于 01-30 15:24

    視覺榮獲DEKRA德凱ISO 26262 ASIL-B功能安全認證

    近日,華視覺科技(上海)有限公司(以下簡稱“華視覺”)的Camera Monitor System(CMS)項目順利通過DEKRA德凱ISO 26262 ASIL-B功能安全認證,
    的頭像 發表于 01-28 15:39 ?299次閱讀

    功率放大器測試解決方案分享——開放結構磁性納米粒子血管精細成像

    功率放大器測試解決方案分享——開放結構磁性納米粒子血管精細成像
    的頭像 發表于 12-18 18:32 ?264次閱讀
    功率放大器測試<b class='flag-5'>解決方案</b>分享——<b class='flag-5'>開放</b>結構磁性納米粒子血管精細成像

    Nullmax一體機和小方案的量產加速器

    那么,面向行業對智能前視一體機及小方案的迫切普及需求,Nullmax如何將這套領先的感知技術能力,高效轉化為可大規模落地的量產“普適”優勢?
    的頭像 發表于 12-02 15:49 ?485次閱讀
    Nullmax一體機和小<b class='flag-5'>域</b>控<b class='flag-5'>方案</b>的量產加速器

    廣和通創新發布AI Dongle解決方案

    11月20日,廣和通創新發布AI Dongle解決方案,為個人PC、NAS等設備提供移動AI算力支持。該方案內置高性能、低功耗NPU,使得終端在邊緣側即可進行LLM大模型實時推理任務,為問答
    的頭像 發表于 11-26 15:47 ?733次閱讀

    HarmonyOSAI編程智能問答

    CodeGenie基于生成式搜索能力,通過查詢生成、內容優選服務高效理解用戶意圖,問答交互式地獲取編碼相關知識。 對話示例 在對話區域輸入需要查詢的問題,開始問答。示例如下: ArkTS如何實現
    發表于 09-03 16:17

    HarmonyOS AI輔助編程工具(CodeGenie)智能問答

    CodeGenie基于生成式搜索能力,在對話區域下拉框中選擇所需要的智能體,通過查詢生成、內容優選服務高效理解用戶意圖,問答交互式地獲取編碼相關知識。 CodeGenie現接入小藝
    發表于 08-15 11:07

    NVIDIA助力圖靈新訊美推出企業級多模態視覺大模型融合解決方案

    中國推出企業級多模態視覺大模型融合解決方案,推動先進 AI 模型在交通治理、工業質檢、金融風控等領域實現高效識別、精準預警和穩定交付。
    的頭像 發表于 06-26 09:17 ?1339次閱讀

    Vector為華視覺頒發ISO/SAE 21434汽車CSMS流程證書

    日前,華視覺科技(上海)有限公司(以下簡稱為“華視覺”)獲得由Vector頒發的ISO/SAE 21434:2021汽車CSMS(Cyber Security Management
    的頭像 發表于 06-25 09:56 ?972次閱讀

    CADENAS 解決方案的標準化名稱:3Dfindit

    通過以 3Dfindit 為中心的新品牌結構,CADENAS正在將軟件解決方案提升到一個新的水平。 將 CADENAS 產品戰略性地更名為 3Dfindit 品牌系列,體現了我們整合功能、創造
    發表于 06-23 15:23

    Claroty BMS 網絡安全解決方案中文資料

    電子發燒友網站提供《Claroty BMS 網絡安全解決方案中文資料.pdf》資料免費下載
    發表于 06-17 17:03 ?1次下載

    SOLIDWORKS科研版?面向學術界的解決方案

    學術界提供了一套全方面、有效、靈活的計算機輔助設計(CAD)解決方案,助力科研人員突破設計瓶頸,加速科研成果的轉化。 SOLIDWORKS科研版?面向學術界的解決方案 一、SOLIDWORKS科研版的核心優勢 1.強大的三維設計
    的頭像 發表于 04-16 16:12 ?963次閱讀
    SOLIDWORKS科研版?<b class='flag-5'>面向</b>學術界的<b class='flag-5'>解決方案</b>

    中科曙光助力中航結算公司構建私文檔智能問答系統

    近日,中航結算公司(中國航空結算有限責任公司)依托曙光AI解決方案提供的強勁算力,協同DeepAI深算智能引擎快速適配、調優、上線DeepSeek大模型業務平臺。基于DeepSeek底座,中航結算公司構建了以RAG增強檢索為核心的私
    的頭像 發表于 03-19 15:40 ?1161次閱讀