知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結了復雜知識庫問答任務的典型挑戰(zhàn)和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務并介紹了該任務下相關的數(shù)據(jù)集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰(zhàn)的解決方案。最后,我們總結并討論了一些仍具有挑戰(zhàn)的未來研究方向。
知識庫(KB)是一個結構化的數(shù)據(jù)庫,它以(主題、關系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經(jīng)構建服務于許多下游任務。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。
最近,研究人員開始更多地關注于回答復雜問題,即復雜的KBQA任務[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關系,并包含數(shù)值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關聯(lián)。最后的答案應該通過選擇有最早結婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關系、數(shù)值運算或上述幾種組合的問題。
回到簡單KBQA的解決方案,已經(jīng)提出了兩種主流方法的一些研究。這兩種方法首先識別問題中的主題,并將其鏈接到知識庫中的實體(稱為主題實體)。然后,通過執(zhí)行已解析的邏輯形式或在從知識庫中提取的特定于問題的圖中進行推理,在主題實體的鄰近區(qū)域內獲得答案。這兩類方法在以往的工作中通常被稱為基于語義解析的方法(基于SP的方法)和基于信息檢索的方法(基于IR的方法)[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Gu et al., 2020]。它們包括解決KBQA任務的不同工作機制。前一種方法用符號邏輯形式表示問題,然后對知識庫執(zhí)行它,獲得最終答案。后一種方法構造一個特定于問題的圖,給出與問題相關的全面信息,并根據(jù)其與問題的相關性對抽取的圖中的所有實體進行排序。
然而,當將這兩種主流方法應用于復雜的KBQA任務時,復雜的問題會給這兩種方法的不同部分帶來挑戰(zhàn)。我們認為主要挑戰(zhàn)如下:
現(xiàn)有基于SP的方法中使用的解析器難以覆蓋各種復雜的查詢(例如,多跳推理、約束關系和數(shù)值運算)。類似地,以前的基于ir的方法可能無法回答復雜的查詢,因為它們的排序是在沒有可追溯推理的情況下對小范圍實體執(zhí)行的。
在復雜問題中,更多的關系和主題意味著更大的潛在邏輯形式的搜索空間,這將顯著增加計算成本。同時,更多的關系和被試會阻礙基于IR的方法檢索所有相關實體進行排序。
兩種方法都把理解問題作為首要步驟。當問題在語義和句法方面都變得復雜時,就要求模型具有較強的自然語言理解和泛化能力。
對于復雜問題,為答案標記ground truth路徑是非常昂貴的。通常,只提供問答對。這表明基于SP的方法和基于IR的方法需要分別在沒有正確邏輯形式和推理路徑標注的情況下進行訓練。這種微弱的監(jiān)管信號給兩種方式都帶來了困難。
關于相關綜述,我們觀察到Wu等人[2019]和Chakraborty等人[2019]回顧了關于簡單KBQA的現(xiàn)有工作。此外,F(xiàn)u等人[2020]研究了復雜KBQA的當前進展。他們只從技術的角度提供了高級方法的一般觀點,而更多地關注于電子商務領域的應用場景。與這些綜述不同的是,我們的工作試圖識別在以往的研究中遇到的挑戰(zhàn),并以全面和有序的方式廣泛討論現(xiàn)有的解決方案。具體來說,我們將復雜KBQA的方法根據(jù)其工作機制分為兩種主流方法。我們將這兩種方法的整個過程分解為一系列模塊,并分析每個模塊中的挑戰(zhàn)。我們相信這種方式特別有助于讀者理解挑戰(zhàn),以及如何在現(xiàn)有的復雜KBQA解決方案中解決這些挑戰(zhàn)。此外,我們還對復雜KBQA的幾個有前途的研究方向進行了展望。
原文標題:IJCAI2021最新「復雜知識庫問答研究」綜述論文,闡述KBQA方法、挑戰(zhàn)與對策
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
數(shù)據(jù)庫
+關注
關注
7文章
4019瀏覽量
68337 -
自然語言
+關注
關注
1文章
292瀏覽量
13986
原文標題:IJCAI2021最新「復雜知識庫問答研究」綜述論文,闡述KBQA方法、挑戰(zhàn)與對策
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
模力方舟與TorchV達成戰(zhàn)略合作
設備維修總踩坑?故障知識庫 + AI 診斷,新手也能修復雜機
openDACS 2025 開源EDA與芯片賽項 賽題七:基于大模型的生成式原理圖設計
零基礎在智能硬件上克隆原神可莉實現(xiàn)桌面陪伴(提供人設提示詞、知識庫、固件下載)
軟通動力攜手華為云推出AI知識引擎與數(shù)據(jù)工程融合創(chuàng)新解決方案
微小泄漏零容忍:結束線連接器氣密性檢測的挑戰(zhàn)與對策
快速入門——LuatOS:sys庫多任務管理實戰(zhàn)攻略!
【「零基礎開發(fā)AI Agent」閱讀體驗】+Agent開發(fā)平臺
晶振不起振的常見原因和解決方案
基于智能穿戴的智慧校園運動健康解決方案NRF52832
2025設備管理新范式:生成式AI在故障知識庫中的創(chuàng)新應用
AI知識庫的搭建與應用:企業(yè)數(shù)字化轉型的關鍵步驟
聊聊 全面的蜂窩物聯(lián)網(wǎng)解決方案
《AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構與部署本地知識庫
AI時代的無源元件挑戰(zhàn)和解決方案
復雜知識庫問答任務的典型挑戰(zhàn)和解決方案
評論