国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

怎樣去增強PLM對于實體和實體間關系的理解?

深度學習自然語言處理 ? 來源:TsinghuaNLP ? 作者:秦禹嘉 ? 2021-06-23 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近年來,預訓練語言模型(PLM)在各種下游自然語言處理任務中表現出卓越的性能,受益于預訓練階段的自監督學習目標,PLM 可以有效地捕獲文本中的語法和語義,并為下游 NLP 任務提供蘊含豐富信息的語言表示。然而,傳統的預訓練目標并沒有對文本中的關系事實進行建模,而這些關系事實對于文本理解至關重要。

在這篇被ACL 2021主會錄用的文章中,清華大學聯合騰訊微信模式識別中心與伊利諾伊大學厄巴納香檳分校(UIUC),提出了一種新穎的對比學習框架ERICA,幫助PLM深入了解文本中的實體及實體間關系。具體來說,作者提出了兩個輔助性預訓練任務來幫助PLM更好地理解實體和實體間關系:(1)實體區分任務,給定頭實體和關系,推斷出文本中正確的尾實體;(2)關系判別任務,區分兩個關系在語義上是否接近,這在長文本情景下涉及復雜的關系推理。實驗結果表明,ERICA在不引入額外神經網絡參數的前提下,僅僅對PLM進行少量的額外訓練,就可以提升典型PLM(例如BERT 和 RoBERTa)在多種自然語言理解任務上(包括關系抽取、實體類別區分、問題回答等)的性能。尤其是在低資源(low-resource)的設定下,性能的提升更加明顯。

一、問題背景

傳統的預訓練目標沒有對文本中的關系事實進行顯式建模,而這些關系事實對于理解文本至關重要。為了解決這個問題,一些研究人員試圖改進 PLM 的架構、預訓練任務等,以更好地理解實體之間的關系。但是它們通常只對文本中的句子級別的單個關系進行建模,不僅忽略了長文本場景下多個實體之間的復雜關系,也忽略了對實體本身的理解,例如圖1中所展現的,對于長文本來說,為了讓PLM更加充分理解地單個實體,我們需要考慮該實體和其他實體之間的復雜關系;而這些復雜的關系的理解通常涉及復雜的推理鏈,往往需要綜合多個句子的信息得出結論。針對這兩個痛點,本文提出了實體區分任務和關系區分任務來增強PLM對于實體和實體間關系的理解。

二 、文檔級預訓練數據收集

ERICA的訓練依賴于大規模文檔級遠程監督數據,該數據的構造有三個階段:首先從wikipedia中爬取文本段落,然后用命名實體識別工具(例如spacy)進行實體標注,將所有獲得的實體和wikidata中標注的實體對應上,并利用遠程監督(distant supervision)信號獲得實體之間可能存在的關系,最終保留長度在128到512之間,含有多于4個實體,實體間多于4個遠程監督關系的段落。注意這些遠程監督的關系中存在大量的噪聲,而大規模的預訓練可以一定程度上實現降噪。作者也開源了由100萬個文檔組成的大規模遠程監督預訓練數據。

三 、實體與實體間關系的表示

鑒于每個實體可能在段落中出現多次,并且每次出現時對應的描述(mention)可能也不一樣,作者在使用PLM對tokenize后的段落進行編碼后,取每個描述的所有token均勻池化后的結果作為該描述的表示,接著對于全文中該實體所有的描述進行第二次均勻池化,得到該實體在該文檔中的表示;對于兩個實體,它們之間的關系表示為兩個實體表示的簡單拼接。以上是最簡單的實體/實體間關系的表示方法,不需要引入額外的神經網絡參數。作者在文中還探索了其它的表示方法,并驗證了所有方法相比baseline都有一致的提升。

四 、實體區分任務

實體區分任務旨在給定頭實體和關系,從當前文檔中尋找正確的尾實體。例如在上圖中,Sinaloa和Mexico具有country的遠程關系,于是作者將關系country和頭實體Sinaloa拼接在原文檔的前面作為提示(prompt),在此條件下區分正確的尾實體的任務可以在對比學習的框架下轉換成拉近頭實體和正確尾實體的實體表示的距離,推遠頭實體和文檔中其它實體(負樣本)的實體表示的距離,具體的公式如下所示:

aa6771d0-d061-11eb-9e57-12bb97331649.png

五、關系區分任務

關系區分任務旨在區分兩個關系的表示在語義空間上的相近程度。由于作者采用文檔級而非句子級的遠程監督,文檔中的關系區分涉及復雜的推理鏈。具體而言,作者隨機采樣多個文檔,并從每個文檔中得到多個關系表示,這些關系可能只涉及句子級別的推理,也可能涉及跨句子的復雜推理。之后基于對比學習框架,根據遠程監督的標簽在關系空間中對不同的關系表示進行訓練,如前文所述,每個關系表示均由文檔中的兩個實體表示構成。正樣本即具有相同遠程監督標簽的關系表示,負樣本與此相反。作者在實驗中還發現進一步引入不具有遠程監督關系的實體對作為負樣本可以進一步提升模型效果。由于進行對比訓練的兩個關系表示可能來自于多個文檔,也可能來自于單個文檔,因此文檔間/跨文檔的關系表示交互都得到了實現。巧妙的是,對于涉及復雜推理的關系,該方法不需要顯示地構建推理鏈,而是“強迫”模型理解這些關系并在頂層的關系語義空間中區分這些關系。具體的公式如下所示:

aaa2d9dc-d061-11eb-9e57-12bb97331649.png

為了避免災難性遺忘,作者將上述兩個任務同masked language modeling (MLM)任務一起訓練,總的訓練目標如下所示:

aaaeafe6-d061-11eb-9e57-12bb97331649.png

六、實驗結果

ERICA的訓練不需要引入除了PLM之外的任何參數,并且對于任意模型均能夠適配,具體的,作者采用了兩個經典的PLM:BERT和RoBERTa,并對其進行一定時間的post-training,最后在文檔級關系抽取、實體類別區分、問題回答等任務上進行了測試,并對比了例如CorefBERT, SpanBERT, ERNIE, MTB,CP等基線模型,驗證了ERICA框架的有效性。具體結果如下:

a) 文檔級關系抽取,模型需要區分文檔中的多個實體之間的關系,這需要PLM對實體間關系有較好的理解。

b) 實體類別區分,模型需要區分文本中的實體的具體類別,這需要PLM對實體本身有較好的理解。

c) 問題回答,作者測試了兩種常見的問題回答任務:多選問答(multi-choice QA)和抽取式問答(extractive QA)。這需要PLM對實體和實體間關系有較好的理解。

七、分析

a) 消融分析(ablation study)。作者對ERICA框架中的所有組成成分進行了細致的分析,并證明了這些組成成分對于模型整體效果的提升是缺一不可的。

b) 可視化分析。作者對經過ERICA訓練前后的PLM對實體和實體間關系的表示進行了可視化,結果如下圖所示。通過ERICA的對比學習訓練,PLM對于同類別的實體/實體關系的表示有明顯的聚類現象,這充分驗證了ERICA能夠顯著增強PLM對實體和實體間關系的理解。

c) 此外,作者分析了遠程監督關系的多樣性/預訓練文檔數量對于模型效果的提升。實驗結果發現,更加多樣的遠程監督關系與更大的預訓練數據集對于性能的提升有積極的作用。

d) 除了使用均勻池化的方式來獲得實體/關系表示,作者也嘗試使用entity marker的表示方法來測試模型的性能。實驗結果證明,ERICA對各種實體/關系表示方法均適用,進一步驗證了該架構的通用性。

八、總結

在本文中,作者提出了ERICA框架,通過對比學習幫助PLM提高實體和實體間關系的理解。作者在多個自然語言理解任務上驗證了該框架的有效性,包括關系提取、實體類別區分和問題問答。實驗結果表明ERICA顯著優于所有基線模型,尤其是在低資源的設定下,這意味著 ERICA 可以更好地幫助 PLM捕獲文本中的相關事實并綜合有關實體及其關系的信息。

責任編輯:lq6

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PLM
    PLM
    +關注

    關注

    2

    文章

    148

    瀏覽量

    22090
  • 實體
    +關注

    關注

    0

    文章

    8

    瀏覽量

    7424

原文標題:ERICA: 提升預訓練語言模型實體與關系理解的統一框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    被美國列入實體清單!復旦微強勢回應的底氣是什么?

    運行平穩,客戶服務與交付保障有力。 ? 而這次回應,正是針對前不久美國商務部工業與安全局(BIS)發布公告,將復旦微等23家中國實體列入實體清單。而從此次的回應可以看到,中國企業已經越來越能挺直自己的腰桿,而這背后,是中
    的頭像 發表于 09-16 08:51 ?7931次閱讀

    安寶特產品丨3DE-實體模型簡化-快捷簡化和表面收縮

    CAD 實體模型如何輕量化?快捷簡化與表面收縮助力版權保護和營銷素材制作成本優化。
    的頭像 發表于 12-01 13:28 ?276次閱讀
    安寶特產品丨3DE-<b class='flag-5'>實體</b>模型簡化-快捷簡化和表面收縮

    今日看點丨美國將16家中企列入實體清單;英偉達黃仁勛證實投資xAI

    ? 美國將16家中企列入實體清單,含多家電子元器件分銷商 10月8日,美國商務部工業與安全局(BIS)發布公告,將26家實體與3個地址加入實體清單(Entity List)。其中包括16家中
    發表于 10-09 10:22 ?1379次閱讀
    今日看點丨美國將16家中企列入<b class='flag-5'>實體</b>清單;英偉達黃仁勛證實投資xAI

    復旦微電子被列入實體清單(Footnote 4)后發布公開信 已構建可持續發展格局

    在美國時間的9月12日,美國商務部工業與安全局(BIS)再次無理制裁,將我國23 家實體列入實體清單。此次的23家中國實體包括有13家半導體企業、3家生物技術公司及多家科研院所;包括有復旦微電子等
    的頭像 發表于 09-15 11:28 ?3086次閱讀

    千億圖書市場下的實體書店自救:UHF RFID 技術的關鍵作用

    在數字化浪潮的席卷下,傳統實體書店的生存境遇愈發艱難。據相關數據顯示,2024 年中國圖書零售市場碼洋規模雖高達 1129 億元,但實體書店的份額卻已萎縮至 14.0%。平臺電商以 40.9% 的占
    的頭像 發表于 08-19 09:19 ?711次閱讀

    AIoT智能體崛起:物聯網正塑造AI在實體世界的運行框架

    目前一個值得關注的趨勢在悄然發生:AI不再只是一個云端工具,開始成為一個“在場”的智能體,而物聯網正塑造AI在實體世界的運行框架。本文將通過以下5個部分闡述:1.范式轉變:從通用智能到場景智能2.
    的頭像 發表于 07-31 16:54 ?1086次閱讀
    AIoT智能體崛起:物聯網正塑造AI在<b class='flag-5'>實體</b>世界的運行框架

    PLM - 基礎知識、優勢和差異化

    工業4.0、制造業數字化和工業流程網絡化為PLM的運行提供了框架。它結合了不同的系統和技術,共同優化了產品整個生命周期的信息流。 什么是PLM? 產品生命周期管理(Product
    發表于 07-30 14:26

    AI重構實體生意:智能體如何重塑家居行業增長邏輯?

    重構實體生意·2025AI智能營銷大會”現場,鴻雁電器總裁王米成、螢石網絡智能算法部總經理程戰戰、百度家居行業高級客戶經理韓仲秋、騰訊云行業解決方案專家張金繁、群
    的頭像 發表于 07-16 20:46 ?838次閱讀
    AI重構<b class='flag-5'>實體</b>生意:智能體如何重塑家居行業增長邏輯?

    PDM是什么?2025制造PDM/PLM系統盤點

    合適PDM/PLM(How)五個方面,用最簡練的語言幫助讀者理解PDM。 文末附有10款主流PDM產品、
    的頭像 發表于 06-19 17:46 ?2073次閱讀
    PDM是什么?2025制造PDM/<b class='flag-5'>PLM</b>系統盤點

    PLM系統是什么?PLM系統的功能、制造業案例,2025國產PLM發展

    本文全面深入地探討了產品生命周期管理(PLM)系統,涵蓋其概念、發展歷程、核心功能、優勢、應用范圍、實施策略以及未來趨勢,并結合實際案例進行分析。 PLM系統作為現代制造業的關鍵信息化工具,貫穿產品全生命周期,實現數據集成與協同工作,可顯著提升產品開發效率與質量,加
    的頭像 發表于 05-29 17:33 ?3387次閱讀

    如何在MQTT中發布和訂閱實體

    在MQTT中發布和訂閱實體(主題)是MQTT通信的核心操作,下面將詳細介紹其原理、步驟以及示例代碼,幫助你全面理解這一過程。 一、MQTT發布與訂閱的基本概念 發布(Publish):客戶端將
    的頭像 發表于 05-20 17:21 ?1427次閱讀

    今日看點丨美國將浪潮等54家中國科技企業加入實體清單;中國科學院成功研發全固態 DUV 光源技術

    1. 美國將浪潮等 54 家中國科技企業加入實體清單 ? 當地時間周二(3月25日),美國商務部工業與安全局(BIS)在聯邦公報上發布兩份文件,將54個中國科技企業和機構納入所謂的“實體清單”,預期
    發表于 03-26 11:15 ?1342次閱讀

    泰凌微電子見證藍牙技術聯盟中國實體成立

    藍牙技術聯盟近日在北京舉行董事會并正式成立中國實體,這一舉措在行業內引起了廣泛關注。這標志著藍牙技術聯盟對于中國成員和市場的戰略意義的重視,將為中國藍牙生態系統的蓬勃發展注入強大動力。中國作為藍牙
    的頭像 發表于 03-18 17:18 ?1229次閱讀

    藍牙技術聯盟正式成立中國實體,擴展全球市場布局

    中國北京, 2025 年 3 月 13 日 ——負責發展藍牙技術的行業協會藍牙技術聯盟(Bluetooth SIG)今日宣布正式成立藍牙技術(北京)有限公司。中國實體的總部設在北京,并在上海和深圳
    發表于 03-13 10:53 ?491次閱讀
    藍牙技術聯盟正式成立中國<b class='flag-5'>實體</b>,擴展全球市場布局

    一文讀懂產品生命周期管理系統(PLM)?

    在當今快速迭代的制造業和科技領域,企業能否高效管理產品從概念到退市的全生命周期,已成為其核心競爭力的重要體現。產品生命周期管理系統(Product Lifecycle Management, PLM
    的頭像 發表于 03-10 17:09 ?2815次閱讀
    一文讀懂產品生命周期管理系統(<b class='flag-5'>PLM</b>)?