国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種將信息直接編碼到預訓練的語言模型中的結構

深度學習自然語言處理 ? 來源:船長尼莫 ? 作者:船長尼莫 ? 2022-12-05 10:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

邊界信息的挖掘,對于NER的任務是非常重要的,這種類似于分詞的功能,能夠很好的挖掘到詞語,并且把一個句子拆分成多個詞語的構成。

以目前世界杯火的例子來說:“葡萄牙有望得到冠軍”,可以按照邊界信息,分割成為以下的組成,接著有了這種邊界信息,我們可以用來做很多的上游任務。

在之前的工業技術分享中,NER的上一步就是由分割任務來做的。

NLP基礎任務的極限在哪里?一文告訴你工業界是如何做NER的

下面我們進行本次論文的分享:

Unsupervised Boundary-Aware Language Model Pretraining for ChineseSequence Labeling | EMNLP2022

在這項工作中,提出了無監督的計算邊界,并提出了一種將信息直接編碼到預訓練的語言模型中的結構,從而產生了邊界感知BERT(BABERT)。船長在此處辯證的分析一下,無監督有什么好處,有什么壞處?

好處:

可以節省大量的人力,本模型可以直接用于中文的邊界信息計算任務中。

壞處:

有監督的結果一般都比無監督的結果要好,從結果的角度來看,肯定是受限的。

實際上這里最好是利用半監督學習,使用到之前標注的詞庫信息,在進而進行無監督的訓練,這點才是值得肯定的地方。

模型結構

0f5fb8a8-73b4-11ed-8abf-dac502259ad0.png

圖1:邊界感知預訓練語言模型的總體架構。總共由三部分組成:(a) 邊界信息提取器;(b)邊界感知表示;(c) 邊界感知BERT學習。

邊界信息提取器

其實為什么第一個部分是邊界信息提取器呢?因為我們的模型需要先猜一個結果,然后再判斷他是否“正確”,再進行迭代來不斷地進行學習。那么具體如何提取邊界信息,本文分成了兩個步驟。

從原始語料庫中收集所有N-grams,以建立一個詞典,在其中我們統計每個詞的頻率,并過濾掉低頻項,去除掉噪聲詞語。

考慮到詞頻不足以表示漢語上下文中的靈活邊界關系,本文進一步計算了兩個無監督指標,這兩個指標可以捕獲語料庫中的大部分邊界信息。在下文中,我們將詳細描述這兩個指標。

公式預警,讀者覺得復雜可以直接調到邊界信息感知的BERT學習

點交互信息 PMI

給定一個N-gram,將其分成兩個子字符串,并計算它們之間的互信息(MI)作為候選。然后,我們枚舉所有子字符串對,并選擇最小MI作為總PMI,以估計緊密性。設g={c1…cm}是由m個字符組成的N-gram,使用以下公式計算PMI:

0f83bbf4-73b4-11ed-8abf-dac502259ad0.png

p()代表了文章中出現的概率。當m等于1的時候PMI這時也是最大的,即為1。除去這種情況后,如果PMI指數很高,也就意味著總字符串和子字符串有著同時出現的概率,例如總字符串“貝克漢姆”和子字符串“貝克”+“漢姆”,這時就讓N-Gram “貝克”和“漢姆”更像是兩個實體。

左右交叉熵

給定一個N-gram g,我們首先收集到左邊的鄰接字符集合Sl,之后我們用g和Sl的條件概率來計算左交叉熵:

0fb0015a-73b4-11ed-8abf-dac502259ad0.png

右交叉熵是同理的:

0fc5f398-73b4-11ed-8abf-dac502259ad0.png

直觀地說,左右交叉熵(LRE)代表了N-gram中相鄰字符的數量。對于較低的LRE“漢姆”,表示它更可能是短語或實體的一部分。相反,具有更高LRE(例如,“貝克漢姆”),說明和上下文的交互很多,那么它很可能是單獨的一個實體,這點是毋庸置疑的,越高說明當前的詞語是單個實體的概率更大。作者使用的指標能夠感知到什么是上下文,什么是實體,從而更好的做好邊界計算的邏輯。

最后,我們利用PMI和LRE來測量中文上下文中的靈活邊界關系,然后用上面的無監督統計指標更新每個N-gram。

邊界信息表示

邊界信息計算的核心就是上下文和實體之間的差別,針對于字符Ci,我們抽取出和Ci相關的N-Gram來代表Ci的上下文。設計一種組合方法,通過使用特定的條件和規則來集成S中N個詞的統計特征,旨在避免統計信息的稀疏性和上下文獨立性限制。

具體地,我們將信息合成方法分為PMI和熵表示。首先,我們連接了所有和字符Ci相關的N-Gram,去形成PMI的表達:

0fd7a502-73b4-11ed-8abf-dac502259ad0.png

a=1+2+··+N是包含ci的N-Gram的數量。注意,在PMI表示中,每個N的位置是固定的。我們嚴格遵循N-gram長度的順序和ci在N-gram中的位置來連接它們對應的PMI,確保位置和上下文信息可以被編碼到交叉熵信息中:

0fed50dc-73b4-11ed-8abf-dac502259ad0.png

從而也就有了公式5,就是左右交叉熵。那么最終,我們就有了邊界信息的表示,通過PMI和左右交叉熵的整合可以得到:

101e516e-73b4-11ed-8abf-dac502259ad0.png

公式6很有意思,作者在文中提到,三個表達方式的順序是很特殊的,左邊的交叉熵放在了最左面,而右邊的交叉熵放在了最右邊,中間的是用來計算當前是否是實體的概率。那么我們可以這么理解這個公式,ei代表了 前文+實體+后文,也就是一種清晰的解決方案。

這個地方關于公式的地方讀者可以自行跳過,下面我們來舉一個具體的例子幫助理解,詳見圖2:

10389830-73b4-11ed-8abf-dac502259ad0.png

圖2:字符邊界感知表示的“”在文本中“南京市江大橋”

圖2顯示了邊界感知表示的示例。首先整句話呢,會按照N-Gram (N=3)來進行拆分,所以我們有了下面的字符串序列,接著,我們三個公式開始計算各自的數值,LE包含了三個詞,而PMI包含了所有詞,RE包含了三個詞,最終會把三個計算的數值并在一起作為邊界信息感知的表達方式。

邊界信息感知的BERT學習

邊界信息感知的BERT是BERT預訓練模型中的一種,在這節中,我們主要描述了如何把邊界信息引入到BERT的訓練中。

邊界信息感知的目標訓練

那么如何讓BERT擁有這種信息的感知呢?實際上用MSE來規范BERT的hidden states,讓這個和公式6中的ei來不斷地接近。詳細公式如公式7所示,其中h代表了BERT中某一層的隱狀態,W是可學習參數矩陣。

1079e57e-73b4-11ed-8abf-dac502259ad0.png

不過話說回來,船長平日做實驗的時候,很少有發現MSE loss針對這種回歸有效的,因為兩個向量本身就在不同的向量空間,如何讓他們兩個接近呢?其實很難。

最終BERT的預訓練損失函數,由兩部分組成,也即公式7+完形填空任務。完形填空任務類似于把某一個單詞挖空,然后讓BERT去預測這個單詞,這種方式能夠加強BERT對于上下文的感知能力。

序列標注任務的微調

微調的方法是很簡單粗暴的,對于序列標注的任務,只需要序列標注的信號,輸入文本,模型的輸出層加上CRF進行預測。因為本模型和BERT的結構幾乎一樣,所以在使用起來可以完全按照BERT+CRF的框架來走。

如何引入詞語?

回到了我們做NER的初心,如何利用好詞語的信息,是增強NER的關鍵之一,那么本文的方式就是利用Adapter的方式來引入詞語的信息,他的方法和我之前分析過的論文是類似的,感興趣的讀者可以看看我之前發的文章。

如何把單詞插入到預訓練模型?達摩院研究告訴你答案


數據集

1088b68a-73b4-11ed-8abf-dac502259ad0.png

圖3:基準數據集的句子數統計。對于沒有測試部分的數據集,我們從相應的訓練集中隨機選擇10%的句子作為測試集。

本文的數據集有三種類型,分別是NER (Named Entity Recognition), POS (Part-Of-Speech Tagging),CWS (Chinese Word Segmentation)。

結果

109e538c-73b4-11ed-8abf-dac502259ad0.png

從結果的角度來講,提升是比較明顯的,相對于原始的BERT,很多數值都已經刷到了SOTA,確實是一篇很容易借鑒的工作。

寫在最后

在本文,提出了BABERT,一種用于中文序列標記的新的無監督邊界感知預訓練模型。在BABERT中,給定一個中文句子,使用無監督統計信息計算邊界感知表示以捕獲邊界信息,并在預訓練期間將這些信息直接注入BERT的參數學習。與之前的工作不同,BABERT開發了一種以無監督方式利用邊界信息的有效方法,從而減輕了基于監督詞典的方法的局限性。在三個不同任務的十個基準數據集上的實驗結果表明,方法非常有效,并且優于其他中文的預訓練模型。此外,與監督詞典擴展相結合可以在大多數任務上實現進一步的改進和最先進的結果。

接下來船長提幾個問題,讀者可以思考一下:

我想用這個模型,如何使用呢?

首先,先拿論文的框架訓練出BABERT,然后在自己的語料上訓練/微調,最終可以當做一個普通BERT來使用,我們可以做NER任務,也可以去做CWS任務。

這個模型好用嗎?

客觀的來說,這個模型有一些地方很難調參,比如說MSE Loss,還有MSE Loss中的隱狀態的層數,我們并不知道哪一層的結果最好。總不能每次實驗都去確定層數吧?這點很困難。除了上述的,其他的都比較好復現。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SCWS技術
    +關注

    關注

    0

    文章

    2

    瀏覽量

    5962
  • PMI
    PMI
    +關注

    關注

    0

    文章

    17

    瀏覽量

    9863
  • NER
    NER
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6460

原文標題:如何將邊界信息融入到預訓練模型中?最新頂會告訴你答案

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數據(如書籍、網頁、文章等)進行
    的頭像 發表于 02-02 16:36 ?899次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    文了解Mojo編程語言

    Mojo 是一種由 Modular AI 公司開發的編程語言,旨在 Python 的易用性與 C 語言的高性能相結合,特別適合人工智能(AI)、高性能計算(HPC)和系統級編程場景。
    發表于 11-07 05:59

    RAG實踐:文掌握大模型RAG過程

    RAG(Retrieval-Augmented Generation,檢索增強生成), 一種AI框架,傳統的信息檢索系統(例如數據庫)的優勢與生成式大語言
    的頭像 發表于 10-27 18:23 ?1562次閱讀
    RAG實踐:<b class='flag-5'>一</b>文掌握大<b class='flag-5'>模型</b>RAG過程

    指令集測試的一種糾錯方法

    包含的信息具體含義,學習過匯編語言的也可以直接跳過該節。 由上圖可以看到dump文件含有指令的信息分為三部分,第
    發表于 10-24 14:04

    如何訓練好的神經網絡模型部署蜂鳥e203開發板上

    本帖欲分享如何訓練好的神經網絡模型部署蜂鳥e203開發板上。 1. 加載TFLite模型 std::unique_ptr interp
    發表于 10-22 08:04

    在Ubuntu20.04系統訓練神經網絡模型些經驗

    , batch_size=512, epochs=20)總結 這個核心算法的卷積神經網絡結構訓練過程,是用來對MNIST手寫數字圖像進行分類的。模型
    發表于 10-22 07:03

    量子機器學習入門:三種數據編碼方法對比與應用

    在傳統機器學習數據編碼確實相對直觀:獨熱編碼處理類別變量,標準化調整數值范圍,然后直接輸入模型訓練
    的頭像 發表于 09-15 10:27 ?775次閱讀
    量子機器學習入門:三<b class='flag-5'>種數據編碼</b>方法對比與應用

    基于大規模人類操作數據訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數據集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統訓練困難;現
    的頭像 發表于 08-21 09:56 ?1102次閱讀
    基于大規模人類操作數據<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    利用自壓縮實現大型語言模型高效縮減

    隨著語言模型規模日益龐大,設備端推理變得越來越緩慢且耗能巨大。直接且效果出人意料的解決方案是剪除那些對任務貢獻甚微的完整通道(channel)。我們早期的研究提出了
    的頭像 發表于 07-28 09:36 ?561次閱讀
    利用自壓縮實現大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    龍芯中科與文心系列模型開展深度技術合作

    ”解決方案。 強強聯合!自主架構賦能大模型訓練 文心大模型 文心4.5系列模型均使用飛槳深度學習框架進行高效訓練、推理和部署。在大
    的頭像 發表于 07-02 16:53 ?1352次閱讀

    NVIDIA GTC巴黎亮點:全新Cosmos Predict-2世界基礎模型與CARLA集成加速智能汽車訓練

    全新的 Cosmos Predict-2 世界基礎模型與 CARLA 的集成加速了智能汽車訓練。 輔助駕駛堆棧正在從許多不同的模型演變為統的端
    的頭像 發表于 06-12 10:00 ?1098次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    ,使用PaddleNLPFineWeb數據集中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型直接使用的二進制數據,以便提升訓練
    的頭像 發表于 03-21 18:24 ?4315次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    數據標注服務—奠定大模型訓練的數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練
    的頭像 發表于 03-21 10:30 ?3297次閱讀

    標貝數據標注服務:奠定大模型訓練的數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練
    的頭像 發表于 03-21 10:27 ?1112次閱讀
    標貝數據標注服務:奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>的數據基石

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型
    的頭像 發表于 03-17 15:32 ?8849次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析