国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從BERT得到最強句子Embedding的打開方式

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:夕小瑤的賣萌屋 ? 2020-12-31 10:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你有嘗試從 BERT 提取編碼后的 sentence embedding 嗎?很多小伙伴的第一反應是:不就是直接取頂層的[CLS] token的embedding作為句子表示嘛,難道還有其他套路不成?

nono,你知道這樣得到的句子表示捕捉到的語義信息其實很弱嗎?今天向大家介紹一篇來自于 CMU 和字節跳動合作,發表在 EMNLP2020 的 paper, 詳盡地分析了從預訓練模型得到 sentence embedding 的常規方式的缺陷和最佳打開方式,是一篇非常實用、輕松幫助大家用BERT刷分的文章。論文質量蠻高,分析和發現很有趣,通讀之后感覺收獲多多。

自2018年BERT驚艷眾人之后,基于預訓練模型對下游任務進行微調已成為煉丹的標配。然而近兩年的研究卻發現,沒有經過微調,直接由BERT得到的句子表示在語義文本相似性方面明顯薄弱,甚至會弱于GloVe得到的表示。此篇論文中首先從理論上探索了masked language model 跟語義相似性任務上的聯系,并通過實驗分析了BERT的句子表示,最后提出了BERT-Flow來解決上述問題。

為什么BERT的句子Embeddings表現弱?

由于Reimers等人之前已實驗證明 context embeddings 取平均要優于[CLS] token的embedding。因而在文章中,作者都以最后幾層文本嵌入向量的平均值來作為BERT句子的表示向量。

語義相似性與BERT預訓練的聯系

為了探究上述問題,作者首先將語言模型(LM)與掩蓋語言模型(MLM) 統一為: 給定context(c)預測得到 token(x) 的概率分布,即

這里 是context的embedding, 表示 的word embedding。進一步,由于將 embedding 正則化到單位超球面時,兩個向量的點積等價于它們的cosine 相似度,我們便可以將BERT句子表示的相似度簡化為文本表示的相似度,即 。

另外,考慮到在訓練中,當 c 與 w 同時出現時,它們對應的向量表示也會更接近。換句話說,context-context 的相似度可以通過 context-words 之間的相似度推出或加強。

各向異性嵌入空間

Jun Gao, Lingxiao Wang 等人在近幾年的ICLR paper中有提到語言模型中最大似然目標的訓練會產生各向異性的詞向量空間,即向量各個方向分布并不均勻,并且在向量空間中占據了一個狹窄的圓錐體,如下圖所示~

這種情況同樣也存在于預訓練好的基于Transformer的模型中,比如BERT,GPT-2。而在這篇paper中,作者通過實驗得到以下兩個發現:

詞頻率影響詞向量空間的分布:文中通過度量BERT詞向量表示與原點 l_2 距離的均值得到以下的圖表。我們可以看到高頻的詞更接近原點。由于word embedding在訓練過程中起到連接文本embedding的作用,我們所需的句子表示向量可能會相應地被單詞頻率信息誤導,且其保留的語義信息可能會被破壞。

2c10abf8-4a92-11eb-8b86-12bb97331649.png

低頻詞分布偏向稀疏:文中度量了詞向量空間中與K近鄰單詞的 l_2 距離的均值。我們可以看到高頻詞分布更集中,而低頻詞分布則偏向稀疏。然而稀疏性的分布會導致表示空間中存在很多“洞”,這些洞會破壞向量空間的“凸性”。考慮到BERT句子向量的產生保留了凸性,因而直接使用其句子embeddings會存在問題。

Flow-based 生成模型

那么,如何無監督情況下充分利用BERT表示中的語義信息?為了解決上述存在的問題,作者提出了一種將BERT embedding空間映射到一個標準高斯隱空間的方法(如下圖所示),并稱之為“BERT-flow”。而選擇 Gaussian 空間的動機也是因為其自身的特點:

標準高斯分布滿足各向同性

高斯分布區域沒有“洞”,即不存在破壞“凸性”的情況

上圖中 表示隱空間, 表示觀測到的空間,f: 是可逆的變換。根據概率密度函數中變量替換的定理,我們可以得到觀測變量的概率密度函數如下:

進一步,作者通過最大化BERT句子表示的邊緣似然函數來學習基于流的生成模型,即通過如下的公式來訓練flow的參數:

其中 表示數據集分布, 為神經網絡。需要注意的是,在訓練中,不需要任何人工標注!另外,BERT的參數保持不變,僅有流的參數進行優化更新。其次,在實驗中,作者基于Glow (Dinh et al., 2015)的設計(多個可逆變換組合)進行改動,比如將仿射耦合(affine coupling)替換為了加法耦合(additive coupling)。

實驗及結果

論文的實驗部分在7個數據集上進行衡量語義文本相似性任務的效果。

實驗步驟:

通過句子encoder得到每個句子的向量表示。

計算句子之間的cosine similarity 作為模型預測的相似度。

計算Spearman系數。

實驗結果:

2f9febe4-4a92-11eb-8b86-12bb97331649.png

上圖匯報了sentence embeddings的余弦相似度同多個數據集上真實標簽之間的Spearman等級相關性得分(),其中flow-target 表示在完整的目標數據集(train+validation+test)上進行學習,flow-NLI 表示模型在NLI(natual language inference)任務的測試,綠色箭頭表示相對于BERT的baseline,模型的效果有提升,紅色反之。

我們可以注意到模型的改進對于效果的提升還是很顯著滴!文章同樣還在無監督問答任務證明模型的有效性,并將BERT-flow得到的語義相似度同詞法相似度(通過編輯距離來衡量)進行對比,結果同樣證明模型在引入流的可逆映射后減弱了語義相似性與詞法相似性之間的聯系!具體信息大家可查閱paper~

小結

總之,這篇paper探究了BERT句子表示對于語義相似性上潛在的問題,并提出了基于流的可逆映射來改進在對應任務上的表現。想多了解的童鞋可以看看原文,相信你們也會喜歡上這篇paper!

原文標題:還在用[CLS]?從BERT得到最強句子Embedding的打開方式!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7806

    瀏覽量

    93188
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52097

原文標題:還在用[CLS]?從BERT得到最強句子Embedding的打開方式!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    首選項的讀寫

    一、導入 直接拖入DevEco Studio中(提前解壓好)(第一種打開方式) 在DevEco Studio打開代碼包(第二種打開方式) 第一次打開代碼包時會有提示,選擇第一個就行
    發表于 03-03 19:37

    keil5使用中文路徑安裝.pack后綴報錯的解決辦法

    安裝完成 此時首先需要在keil5文件安裝路徑上改正文件名 此時再次安裝.pack后綴文件時可能會發現兩個問題:一個是默認打開方式改變了: 解決辦法是在keil5安裝路徑下找到
    發表于 01-22 06:50

    keil (MDK)的IDE支持包*.pack文件如何打開

    :...Keil_v5UV4PackUnzip.exe。 再次右鍵*.pack文件,在屬性中更改打開方式,選擇剛才找到的PackUnzip.exe程序即可。
    發表于 01-20 08:24

    千問APP與通義系列大模型,才是智能汽車的“黃金組合”

    座艙的正確打開方式;單點智能撬動的價值有限,完整的場景化體驗是用戶的最終選擇。 在這種市場趨勢下,阿里巴巴千問APP與通義系列大模型,具備成為智能汽車“黃金組合”的潛質。 模型層面看,通義系列大模型能力處于世界
    的頭像 發表于 12-30 17:25 ?623次閱讀

    系統視角選時鐘:一張“應用分層地圖”講清 TCXO / OCXO / SAW 的正確打開方式

    ,強調相位噪聲、抖動、老化與 Holdover 的關鍵性,并提出“天線到主時鐘”的預算聯動方法,適用于 GNSS 授時、衛星通信、電信同步及相干系統的架構規劃與器件
    的頭像 發表于 12-08 15:03 ?4429次閱讀
    <b class='flag-5'>從</b>系統視角選時鐘:一張“應用分層地圖”講清 TCXO / OCXO / SAW 的正確<b class='flag-5'>打開方式</b>

    Node-RED太燒錢?你可能需要換個打開方式

    Node-RED作為開源可視化編程工具,確實能快速搭建物聯網應用。但當你準備把它用到生產環境時,就會發現這些隱形開銷:硬件成本首當其沖。工業現場需要能扛得住高溫高濕、電壓波動、電磁干擾的設備。普通工控機在車間里經常"鬧脾氣",而專業的工業服務器價格讓人肉疼。
    的頭像 發表于 09-05 16:12 ?914次閱讀
    Node-RED太燒錢?你可能需要換個<b class='flag-5'>打開方式</b>

    選型避坑!電流互感器的正確打開方式,看完這篇不踩雷

    ? 考慮精度等級:對于測量和計量應用,精度非常重要。不同精度等級的電流互感器適用于不同的場合,如 0.5 級精度適用于一般測量,0.2 級適用于精密測量。應根據具體的測量精度要求來選擇合適的精度等級。 程瑜 ?187 0211 2087? 確定額定負載 :確保二次回路的總負荷不應超過互感器的額定負荷。如果二次回路所接的儀表、繼電器等設備較多,或者線路較長,就需要考慮互感器的額定負載是否能夠滿足要求,否則會影響測量精度。 考慮絕緣等級和電壓
    發表于 08-19 10:49 ?638次閱讀
    選型避坑!電流互感器的正確<b class='flag-5'>打開方式</b>,看完這篇不踩雷

    短距離不用加?加了總沒錯?終端電阻的正確“打開方式

    前言 RS-485作為一種廣泛應用于工業場景的差分信號通信標準,其通信效果的升級始終是工控領域人士不斷探索的重要課題。 在RS-485通信系統的實際應用中,一個備受關注且極具探討價值的問題是:是否需要使用終端電阻?今天,我們就圍繞這一話題展開交流。 想象一下,你在一條長長的走廊里大聲喊話,如果沒有任何緩沖,聲音會在兩端來回反射,變成一片嘈雜的回音。這就是沒有終端電阻的總線通信環境——信號反射嚴重,數據傳輸失真。這種反射
    的頭像 發表于 06-09 16:35 ?1487次閱讀
    短距離不用加?加了總沒錯?終端電阻的正確“<b class='flag-5'>打開方式</b>”

    CSG船用隔離變壓器真是船舶電氣系統的“隱形守護者”?這些真相你必須知道! 開頭

    。今天,我們就用三個真實場景,揭秘CSG船用隔離變壓器的正確打開方式。核心分析場景一:抗干擾≠堆砌濾波器,接地設計才是根本某近海支援船在安裝CSG船用隔離變壓器后,
    的頭像 發表于 06-09 09:29 ?768次閱讀
    CSG船用隔離變壓器真是船舶電氣系統的“隱形守護者”?這些真相你必須知道! 開頭

    岳信儀器告訴你榨汁機氣密性檢測儀的正確打開方式

    在榨汁機生產過程中,氣密性是一項關鍵指標。而榨汁機氣密性檢測儀則是確保產品氣密性達標的重要工具。那么,該如何正確使用它呢?下面就為大家詳細介紹榨汁機氣密性檢測儀的正確打開方式。(1)檢測前的準備工作
    的頭像 發表于 05-29 15:52 ?495次閱讀
    岳信儀器告訴你榨汁機氣密性檢測儀的正確<b class='flag-5'>打開方式</b>

    選型不迷茫!PCB分板機主軸的正確打開方式

    在電子制造領域,PCB(印刷電路板)分板機是實現高效、精準切割的關鍵設備。作為分板機的"心臟",主軸系統的性能直接影響加工效率、切割精度及設備壽命。德國Sycotec,作為高速電主軸的老品牌企業,憑借其百年技術積淀與持續創新,已成為全球高端分板機主軸的首選品牌。多年來持續生產研發出多款高速、高精度、高效的PCB分板機主軸,一起了解看看。Sycotec用于PC
    的頭像 發表于 05-12 13:31 ?671次閱讀
    選型不迷茫!PCB分板機主軸的正確<b class='flag-5'>打開方式</b>

    3分鐘看懂錫膏在回流焊的正確打開方式

    本文揭秘錫膏在回流焊核心工藝:預熱區“熱身”(150-180℃)到回流區“巔峰熔融”(230-250℃),錫膏經歷四段精密溫控旅程,助焊劑活化、冶金反應、晶格定型的每一步都暗藏工藝玄機。文章以
    的頭像 發表于 04-07 18:03 ?1292次閱讀
    3分鐘看懂錫膏在回流焊的正確<b class='flag-5'>打開方式</b>

    一種很新的“工廠”打開方式---智慧工廠

    ? ? ? ?隨著信息技術的不斷進步,特別是數字化、網絡化、智能化技術的快速發展,傳統的工廠管理模式已經難以滿足現代企業對于生產效率、安全管理以及決策支持等方面的需求,智能制造已成為全球制造業發展的主流趨勢。 ? ? ? ?由于工廠實時數據的多樣性、復雜性,包括數字化的傳感器讀數、機器和設備的操作狀態、溫度、濕度、壓力等環境指標,以及生產計劃、工作流程和相關人員信息等,因此需要深度結合客戶場景,對工廠各個環節的數
    的頭像 發表于 03-20 08:45 ?591次閱讀