国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜與BERT相結合助力語言模型

深度學習自然語言處理 ? 來源:樸素人工智能 ? 作者:樸素人工智能 ? 2021-05-19 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

感謝清華大學自然語言處理實驗室對預訓練語言模型架構的梳理,我們將沿此脈絡前行,探索預訓練語言模型的前沿技術,紅框中為已介紹的文章,綠框中為本期介紹的模型,歡迎大家留言討論交流。

在之前的一期推送中,我們給大家介紹過百度的ERNIE。其實清華大學NLP實驗室,比百度更早一點,也發(fā)表了名為ERNIE的模型,即Enhanced Language Representation with Informative Entities。

他們認為現存的預訓練語言模型很少會考慮與知識圖譜(Knowledge Graph: KG)相結合,但其實知識圖譜可以提供非常豐富的結構化知識和常識以供更好的語言理解。他們覺得這其實是很有意義的,可以通過外部的知識來強化語言模型的表示能力。在這篇文章中,他們使用大規(guī)模語料的語言模型預訓練與知識圖譜相結合,更好地利用語義,句法,知識等各方面的信息,推出了Enhanced language representation model(ERNIE),在許多知識驅動的任務上獲得了巨大提升,而且更適用于廣泛通用的NLP任務。

作者提出,要將知識嵌入到自然語言模型表達中去,有兩個關鍵的挑戰(zhàn):

知識的結構化編碼

對于一個給定的文本,如何從知識圖譜中,高效地將和文本相關的常識或知識抽取出來并編碼是一個重要問題。

異構信息融合

語言模型表示的形式和知識圖譜的表達形式是大不相同的,是兩個獨立的向量空間。怎么樣去設計一個獨特的訓練任務來將,語義,句法,知識等信息融合起來是另一個挑戰(zhàn)。

針對這些挑戰(zhàn), 清華NLP實驗室提出方案是 Enhanced Language RepresentatioN with Informative Entities (ERNIE)

首先,通過識別文本中的命名實體,然后將其鏈指到知識圖譜中的相應實體上,進行知識的抽取和編碼。相比于直接使用知識圖譜中基于圖結構的信息,作者通過TranE這樣的知識嵌入算法,對知識圖譜的圖結構實體進行編碼,然后將這富有信息的實體表示作為ERNIE的輸入,這樣就可以把知識模塊中的實體的信息表示,引入到模型下層的語義表示中去。

其次,和BERT類似,采用了MLM和NSP的預訓練目標。除此以外,為了更好地融合文本信息和知識信息,設計了一個新的預訓練目標,通過隨機地mask一些命名實體,同時要求模型去知識圖譜中尋找合適的實體,來填充被mask掉的部分。這個訓練目標這樣做就可以要求語言模型,同時利用文本信息和知識圖譜來對token-entity進行預測,從而成為一個富有知識的語言表達模型。

本文在兩個知識驅動的NLP任務entity typing 和 relation classification進行了實驗,ENRIE在這兩個任務上的效果大幅超越BERT,因為其充分利用了語義,句法和知識信息。在其他的NLP任務上,ENRIE的效果也很不錯。

定義

首先,定義我們的文本token序列為{w1, 。 . 。 , wn},n為token序列的長度。同時,輸入的token可以在KG中對應entity。所對應entity的序列為{e1, 。 . 。 , em}, m是序列中entity的數量。因為不一定每一個token都對應得到KG中的一個entity,所以在大多數情況下m不等于n。所有token的集合也就是字典為V,在KG中所有entity的列表為E。如果,某個在V中的token w ∈ V 在KG中有對應的entity e ∈ E。那么這個對應關系定義為f(w) = e

我們可以看下方的模型結構圖,大概包括兩個模塊。

b13d376e-b4a6-11eb-bf61-12bb97331649.png

下層的文本編碼器(T-Encoder),負責捕捉基本的詞法和句法的信息,其與BERT的encoder實現是相同的,都是多層的Transformer,層數為N。

上方的知識編碼器(K-Encoder),負責將跟entity相關的知識信息融入到下方層傳來的文本編碼信息中,兩者可以在統(tǒng)一的特征空間中去表示。T-Encoder的輸出是{w1, 。 . 。 , wn},實體輸入通過TranE得到的知識嵌入為{e1, 。 . 。 , em}。兩者通過K-Encoder計算出對應的特征以實現特定任務。

b1c9e830-b4a6-11eb-bf61-12bb97331649.png

K-Encoder的結構和BERT略微不同,包含M個stacked aggregators。首先對token的輸出和entity的embedding通過兩個多頭自注意力進行self attention。

b1f1848a-b4a6-11eb-bf61-12bb97331649.png

接著,通過以下的式子進行兩者的結合。Wt和We分別是token和Embedding的attention權重矩陣。

b220d94c-b4a6-11eb-bf61-12bb97331649.png

Pre-training for Injecting Knowledge

除了結構的改變以外,文章提出了特殊的預訓練語言模型訓練目標。通過隨機地mask一些entity然后要求模型通過知識圖譜中實體來進行選擇預測,起名為denoising entity auto-encoder(dEA)。由于知識圖譜中entity的數量規(guī)模相對softmax層太大了,會首先在KG中進行篩選找到相關的entity。有時候token和entity可能沒有正確的對應,就需要采取一些措施。

5%的情況下,會將token對應的entity替換成一個隨機的entity,這是讓模型能夠在align錯的時候,能夠糾正過來。

15%的情況下,會將entity mask掉,糾正沒有把所有存在的entity抽取出來和entity進行對應的問題。

其余的情況下,保持token-entity alignments 不變,來將entity的表示融合進token的表示,以獲得更好的語言理解能力。

Fine-tuning for Specific Tasks

b264de94-b4a6-11eb-bf61-12bb97331649.png

對于大量普通的NLP任務來說,ERNIE可以采取和BERT相似的finetune策略,將[CLS]的輸出作為輸入文本序列的表示。對于一些知識驅動的任務,我們設計了特殊的finetune流程。

對于關系分類任務,任務要求模型根據上下文,對給定的entity對的關系進行分類。本文設計了特殊的方法,通過加入兩種mark token來高亮實體。[HD] 表示head entity, [TL]表示tail entity。

對于實體類別分類任務,finetune的方式是關系分類的簡化版,通過[ENT]標示出entity的位置,指引模型同時結合上下文和實體的信息來進行判斷。

模型細節(jié)

從頭開始訓ENRIE的代價太大了,所以模型用了BERT的參數初始化。利用英文WIKI作為語料,和WiKidata進行對應,語料中包含大約4500M個subwords,和140M個entities,將句中小于三個實體的樣本丟棄。通過TranE算法在WiKidata上訓練entity的embedding。使用了部分WiKidata,其中包含5040986個實體和24267796個三元組。

模型尺度上來說,T-encoder的層數N為6,K-encoder層數M為6。隱藏層維度兩個網絡分別Hw = 768, He = 100。Attention的頭數分別 Aw = 12, Ae = 4。總參數量大約114M。

ERNIE僅在語料上訓練了一輪,最大文本長度由于速度原因設為256,batch-size為512。除了學習率為5e-5,其他參數和BERT幾乎一樣。

實驗效果

直接放圖吧,比當時的state-of-the-art :BERT在很多任務上都提升了不少。

b2cdb2de-b4a6-11eb-bf61-12bb97331649.png

b2fc8046-b4a6-11eb-bf61-12bb97331649.png

這里作者認識到,有了知識圖譜的介入,可以用更少的數據達到更好的效果。

b396f4e6-b4a6-11eb-bf61-12bb97331649.png

結論

在文中提出了一種方法名為ERNIE,來將知識的信息融入到語言表達的模型中。具體地,提出了knowledgeable aggregator 和預訓練任務dEA來更好地結合文本和知識圖譜兩個異構的信息源。實驗表明,ENRIE能更好地在有限的數據上進行訓練和泛化。

未來還有幾個重要的方向值得研究

將知識嵌入到基于特征的預訓練語言模型如ELMo。

引入更多不同的結構化知識進入到語言表達模型中去,比如ConceptNet,這和WiKidata是完全不同的方式。

進行真實世界更廣泛的語料收集,可以進行更通用和有效的預訓練

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142632
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13987
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    8315

原文標題:ENRIE:知識圖譜與BERT相結合,為語言模型賦能助力

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    實力認證!行云創(chuàng)新入圍《AI 中國生態(tài)圖譜 2025》大模型開放平臺板塊

    了中國 AI 產業(yè)全鏈路生態(tài)布局,是洞察國內 AI 技術發(fā)展與產業(yè)落地的核心行業(yè)風向標。行云創(chuàng)新憑借在 AI 領域深厚的技術積淀、全棧產品能力及豐富的行業(yè)落地經驗,成功 入圍圖譜第三層模型層?大模型開放平臺板塊 。 成立于 20
    的頭像 發(fā)表于 03-04 14:25 ?80次閱讀
    實力認證!行云創(chuàng)新入圍《AI 中國生態(tài)<b class='flag-5'>圖譜</b> 2025》大<b class='flag-5'>模型</b>開放平臺板塊

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數據(如書籍、網頁、文章等)進行預訓練,學會語言
    的頭像 發(fā)表于 02-02 16:36 ?891次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    潤和軟件入選大模型一體機產業(yè)圖譜

    近日,由中國人工智能產業(yè)發(fā)展聯盟與中國信息通信研究院聯合編制的《大模型一體機產業(yè)圖譜》正式發(fā)布。該圖譜系統(tǒng)梳理并收錄了國內大模型一體機產業(yè)鏈上下游70余家代表性企業(yè),全面呈現我國大
    的頭像 發(fā)表于 12-10 17:56 ?1488次閱讀
    潤和軟件入選大<b class='flag-5'>模型</b>一體機產業(yè)<b class='flag-5'>圖譜</b>

    智能裝配如何與AR技術相結合

    的興起,為裝配流程帶來了新的解決思路和應用場景。將AR與智能裝配相結合,正逐步成為制造業(yè)數字化轉型的重要方向。 ?一、AR技術賦能裝配的價值 ?AR技術通過虛擬信息與真實環(huán)境的疊加,將復雜的裝配指令、零部件數據和工藝要求
    的頭像 發(fā)表于 12-03 16:15 ?701次閱讀

    一文了解Mojo編程語言

    Mojo 是一種由 Modular AI 公司開發(fā)的編程語言,旨在將 Python 的易用性與 C 語言的高性能相結合,特別適合人工智能(AI)、高性能計算(HPC)和系統(tǒng)級編程場景。以下是關于
    發(fā)表于 11-07 05:59

    NVIDIA ACE現已支持開源Qwen3-8B小語言模型

    助力打造實時、動態(tài)的 NPC 游戲角色,NVIDIA ACE 現已支持開源 Qwen3-8B 小語言模型(SLM),可實現 PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1223次閱讀

    知識分享 | 使用MXAM進行AUTOSAR模型的靜態(tài)分析:Embedded Coder與TargetLink模型

    知識分享在知識分享欄目中,我們會定期與讀者分享來自MES模賽思的基于模型的軟件開發(fā)相關Know-How干貨,關注公眾號,隨時掌握基于模型的軟件設計的技術
    的頭像 發(fā)表于 08-27 10:04 ?720次閱讀
    <b class='flag-5'>知識</b>分享 | 使用MXAM進行AUTOSAR<b class='flag-5'>模型</b>的靜態(tài)分析:Embedded Coder與TargetLink<b class='flag-5'>模型</b>

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    署的DeepSeek-R1-Distill-Qwen-7B。 DeepSeek能力圖譜 DeepSeek從多維度展現其能力: IT 技術及編程能力 :覆蓋技術知識問答、代碼理解、補全、注釋、糾錯,助力編程場景*
    發(fā)表于 07-17 11:59

    曙光AI解決方案助力光大銀行數字化基礎設施升級

    “人工智能+”的國家戰(zhàn)略,希望率先在業(yè)內打破“技術懸浮”,計劃將人臉識別、OCR識別、智能客服、大模型、機器學習、RPA、知識圖譜、智能營銷等全業(yè)態(tài)從國外算力切換到國產異構算力。 面對場景繁雜、國產生態(tài)成熟度低、切換風險高等
    的頭像 發(fā)表于 05-12 10:46 ?893次閱讀

    小白學大模型:從零實現 LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發(fā)已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任務,如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1305次閱讀
    小白學大<b class='flag-5'>模型</b>:從零實現 LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    輕輕松松學電工(識圖篇)

    內容介紹 結合廣大電工人員的實際需要,主要介紹了常用電工電路識圖的基礎知識、方法及技巧,內容包括常用電氣符號、電工識圖基本方法,以及識讀供配電系統(tǒng)圖、建筑電氣圖、電力拖動系統(tǒng)電氣圖、P
    發(fā)表于 04-30 17:18

    易華錄智慧交管大模型助力數據治理智能化

    易華錄數據治理團隊積極引入DeepSeek深度優(yōu)化大模型助力數據治理智能化,極大地提升了數據治理效率;通過接入業(yè)務數據,注入行業(yè)知識,加速數據價值釋放。
    的頭像 發(fā)表于 04-21 15:19 ?1179次閱讀

    典型電路原理、電路識圖從入門到精通等資料

    1、電路識圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進、由淺入深地介紹了電路圖的基礎知識、典型單元電路的
    的頭像 發(fā)表于 04-15 15:53 ?2.4w次閱讀
    典型電路原理、電路<b class='flag-5'>識圖</b>從入門到精通等資料

    電路識圖從入門到精通高清電子資料

    由淺入深地介紹了電路圖的基礎知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進、由淺入深地介紹了電路圖的基礎知識、典型單元電路的識圖方法,以及典型小家電、電動車、洗衣機、
    發(fā)表于 04-10 16:22

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?8832次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析