国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三種pooling策略的對(duì)比

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2020-09-25 16:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

?一、背景介紹

BERT和RoBERTa在文本語(yǔ)義相似度等句子對(duì)的回歸任務(wù)上,已經(jīng)達(dá)到了SOTA的結(jié)果。但是,它們都需要把兩個(gè)句子同時(shí)喂到網(wǎng)絡(luò)中,這樣會(huì)導(dǎo)致巨大的計(jì)算開(kāi)銷(xiāo):從10000個(gè)句子中找出最相似的句子對(duì),大概需要5000萬(wàn)(C100002=49,995,000)個(gè)推理計(jì)算,在V100GPU上耗時(shí)約65個(gè)小時(shí)。這種結(jié)構(gòu)使得BERT不適合語(yǔ)義相似度搜索,同樣也不適合無(wú)監(jiān)督任務(wù)(例如:聚類(lèi))。

本文基于BERT網(wǎng)絡(luò)做了修改,提出了Sentence-BERT(SBERT)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)利用孿生網(wǎng)絡(luò)和三胞胎網(wǎng)絡(luò)結(jié)構(gòu)生成具有語(yǔ)義意義的句子embedding向量,語(yǔ)義相近的句子其embedding向量距離就比較近,從而可以用來(lái)進(jìn)行相似度計(jì)算(余弦相似度、曼哈頓距離、歐式距離)。該網(wǎng)絡(luò)結(jié)構(gòu)在查找最相似的句子對(duì),從上述的65小時(shí)大幅降低到5秒(計(jì)算余弦相似度大概0.01s),精度能夠依然保持不變。這樣SBERT可以完成某些新的特定任務(wù),例如相似度對(duì)比、聚類(lèi)、基于語(yǔ)義的信息檢索。

二、模型介紹

1)pooling策略

SBERT在BERT/RoBERTa的輸出結(jié)果上增加了一個(gè)pooling操作,從而生成一個(gè)固定大小的句子embedding向量。實(shí)驗(yàn)中采取了三種pooling策略做對(duì)比:

直接采用CLS位置的輸出向量代表整個(gè)句子的向量表示

MEAN策略,計(jì)算各個(gè)token輸出向量的平均值代表句子向量

MAX策略,取所有輸出向量各個(gè)維度的最大值代表句子向量

三個(gè)策略的實(shí)驗(yàn)對(duì)比效果如下:

可見(jiàn)三個(gè)策略中,MEAN策略是效果最好的,所以后面實(shí)驗(yàn)?zāi)J(rèn)采用的是MEAN策略。

2)模型結(jié)構(gòu)

為了能夠fine-tune BERT/RoBERTa,文章采用了孿生網(wǎng)絡(luò)和三胞胎網(wǎng)絡(luò)來(lái)更新權(quán)重參數(shù),以達(dá)到生成的句子向量具有語(yǔ)義意義。該網(wǎng)絡(luò)結(jié)構(gòu)依賴(lài)于具體的訓(xùn)練數(shù)據(jù),文中實(shí)驗(yàn)了下面幾種結(jié)構(gòu)和目標(biāo)函數(shù):

Classification Objective Function:

這里將embedding向量u和v以及它們之間的差向量拼接在一起,組成一個(gè)新的向量,乘以權(quán)重參數(shù)Wt∈R3n*k,n表示向量的維度,k是分類(lèi)標(biāo)簽數(shù)量。

優(yōu)化的時(shí)候采用交叉熵?fù)p失函數(shù)。

Regression Objective Function:

兩個(gè)句子嵌入向量u和v的相似度計(jì)算結(jié)構(gòu)如下:

采取MAE(mean squared error)損失作為優(yōu)化的目標(biāo)函數(shù)。

Triplet Objective Function:

給定一個(gè)主句a、一個(gè)正面句子p和一個(gè)負(fù)面句子n,三元組損失調(diào)整網(wǎng)絡(luò),使得a和p之間的距離小于a和n之間的距離。數(shù)學(xué)上,我們最小化以下?lián)p失函數(shù):

s表示a、p、n的句子嵌入向量,||·||表示距離,邊緣參數(shù)ε表示sp與sa的距離至少比sn近ε。

3)模型訓(xùn)練

文中訓(xùn)練結(jié)合了SNLI(Stanford Natural Language Inference)和Multi-Genre NLI兩種數(shù)據(jù)集。SNLI有570,000個(gè)人工標(biāo)注的句子對(duì),標(biāo)簽分為矛盾、蘊(yùn)含、中立三種;MultiNLI是SNLI的升級(jí)版,格式和標(biāo)簽都一樣,有430,000個(gè)句子對(duì),主要是一系列口語(yǔ)和書(shū)面語(yǔ)文本。文本蘊(yùn)含關(guān)系描述的是兩個(gè)文本之間的推理關(guān)系,其中一個(gè)文本作為前提(premise),另一個(gè)文本作為假設(shè)(hypothesis),如果根據(jù)前提P能夠推理得出假設(shè)H,那么就說(shuō)P蘊(yùn)含H,記做P->H。參考樣例如下:

實(shí)驗(yàn)時(shí),每個(gè)epoch作者用3-way softmax分類(lèi)目標(biāo)函數(shù)對(duì)SBERT進(jìn)行fine-tune,batch_size=16,采用Adam優(yōu)化器,learning rate=2e-5,pooling策略是MEAN。

三、評(píng)測(cè)-語(yǔ)義文本相似度(Semantic Textual Similarity-STS)

在評(píng)測(cè)的時(shí)候,這里采用余弦相似度來(lái)比較兩個(gè)句子向量的相似度。

1)無(wú)監(jiān)督STS

本次評(píng)測(cè)采用的是STS 2012-2016 五年的任務(wù)數(shù)據(jù)、STS benchmark數(shù)據(jù)(2017年構(gòu)建)、SICK-Relatedness數(shù)據(jù),這些數(shù)據(jù)集都是標(biāo)好label的句子對(duì),label表示句子之間的相互關(guān)系,范圍為0~5,樣例如下:

無(wú)監(jiān)督評(píng)測(cè)不采用這些數(shù)據(jù)集的任何訓(xùn)練數(shù)據(jù),直接用上述訓(xùn)練好的模型來(lái)計(jì)算句子間的相似度,然后通過(guò)斯皮爾曼等級(jí)相關(guān)系數(shù)來(lái)衡量模型的優(yōu)劣。結(jié)果如下:

結(jié)果顯示直接采用BERT的輸出結(jié)果,效果挺差的,甚至不如直接計(jì)算GloVe嵌入向量的平均值效果好;采用本文的孿生網(wǎng)絡(luò)在NLI數(shù)據(jù)集上fine-tuning后的模型效果明顯要好很多,SBERT和SRoBERTa差異不大。

2)有監(jiān)督STS

有監(jiān)督STS數(shù)據(jù)集采用的是STS benchmark(簡(jiǎn)稱(chēng)STSb)數(shù)據(jù)集,就是上面提到的2017年抽取構(gòu)建的,是當(dāng)前比較流行的有監(jiān)督STS數(shù)據(jù)集。它主要來(lái)自三個(gè)方面:字幕、新聞、論壇,包含8,628個(gè)句子對(duì),訓(xùn)練集5,749,驗(yàn)證集1,500,測(cè)試集1,379。BERT將句子對(duì)同時(shí)輸入網(wǎng)絡(luò),最后再接一個(gè)簡(jiǎn)單的回歸模型作為輸出,目前在此數(shù)據(jù)集上取得了SOTA的效果。

上述實(shí)驗(yàn)結(jié)果分為三塊:

not trained for STS:表示直接采用的是跟上面無(wú)監(jiān)督評(píng)測(cè)一樣的模型,結(jié)果也一樣;

Trained on STS benchmark:表示沒(méi)有使用NLI數(shù)據(jù)集,直接在STSb訓(xùn)練數(shù)據(jù)集上利用孿生網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建回歸模型fine-tuning;

Trained on NLI data+STS benchmark:表示利用孿生網(wǎng)絡(luò)先在NLI數(shù)據(jù)集上訓(xùn)練分類(lèi)模型學(xué)習(xí)句子向量表示,然后在STSb訓(xùn)練集上再利用回歸模型再次學(xué)習(xí)句子embedding,相當(dāng)于利用兩種數(shù)據(jù)集進(jìn)行了兩次fine-tuning。

評(píng)測(cè)的時(shí)候都是采用的STSb的測(cè)試集進(jìn)行評(píng)測(cè)??梢钥吹剑詈笠环N訓(xùn)練方式表現(xiàn)最好,尤其單純的BERT架構(gòu)有較大的提升幅度。

四、評(píng)測(cè)-SentEval

SentEval是一個(gè)當(dāng)前流行的用來(lái)評(píng)測(cè)句子embedding質(zhì)量的工具,這里句子embedding可以作為邏輯回歸模型的特征,從而構(gòu)建一個(gè)分類(lèi)器,并在test集上計(jì)算其精度。這里利用SentEval工具在下面幾個(gè)遷移任務(wù)上對(duì)比SBERT與其它生成句子embedding的方法:

MR(movie review):電影評(píng)論片段的情感預(yù)測(cè),二分類(lèi)

CR(product review):顧客產(chǎn)品評(píng)論的情感預(yù)測(cè),二分類(lèi)

SUBJ(subjectivity status):電影評(píng)論和情節(jié)摘要中句子的主觀性預(yù)測(cè),二分類(lèi)

MPQA(opinion-polarity):來(lái)自新聞網(wǎng)的短語(yǔ)級(jí)意見(jiàn)極性分類(lèi),二分類(lèi)

SST(Stanford sentiment analysis):斯坦福情感樹(shù)庫(kù),二分類(lèi)

TREC(question-type classification):來(lái)自TREC的細(xì)粒度問(wèn)題類(lèi)型分類(lèi),多分類(lèi)

MRPC:Microsoft Research Paraphrase Corpus from parallel news sources,釋義檢測(cè)。

實(shí)驗(yàn)結(jié)果顯示,SBERT生成的句子向量似乎能夠很好捕獲情感信息,在MR、CR、SST上都有較大的提升;BERT在之前的STS數(shù)據(jù)集上表現(xiàn)比較差,但是在SentEval上卻有了不錯(cuò)的效果表現(xiàn),這是因?yàn)镾TS數(shù)據(jù)集上利用余弦相似度衡量句子向量,余弦相似度對(duì)于向量的每一個(gè)維度都是同等的,然而SentEval是利用邏輯回歸分類(lèi)器來(lái)評(píng)測(cè),這樣某些維度會(huì)對(duì)最終的分類(lèi)結(jié)果產(chǎn)生影響。

所以,BERT的直接輸出結(jié)果無(wú)論是CLS位置的還是平均embedding都不適合用來(lái)計(jì)算余弦相似度、曼哈頓距離和歐式距離。雖然BERT在SentEval上面表現(xiàn)稍微好一些,但是基于NLI數(shù)據(jù)集的SBERT還是達(dá)到了SOTA的效果。

五、消融研究

為了對(duì)SBERT的不同方面進(jìn)行消融研究,以便更好地了解它們的相對(duì)重要性,我們?cè)赟NLI和Multi-NLI數(shù)據(jù)集上構(gòu)建了分類(lèi)模型,在STSb數(shù)據(jù)集上構(gòu)建了回歸模型。在pooling策略上,對(duì)比了MEAN、MAX、CLS三種策略;在分類(lèi)目標(biāo)函數(shù)中,對(duì)比了不同的向量組合方式。結(jié)果如下:

在pooling策略上,MEAN效果最好;在向量組合模式上,只有在分類(lèi)訓(xùn)練的時(shí)候才使用,結(jié)果顯示element-wise的|u-v|影響最大。

責(zé)任編輯:xj

原文標(biāo)題:Sentence-BERT: 一種能快速計(jì)算句子相似度的孿生網(wǎng)絡(luò)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124398
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13989

原文標(biāo)題:Sentence-BERT: 一種能快速計(jì)算句子相似度的孿生網(wǎng)絡(luò)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    C語(yǔ)言中實(shí)現(xiàn)函數(shù)宏的三種方式

    在宏的第一個(gè)分號(hào)后便結(jié)束。即 a = b 和 b = tmp 均不受控制語(yǔ)句所作用。 因此,在工程中,一般使用三種方式來(lái)對(duì)函數(shù)宏進(jìn)行封裝,分別為 {}、do{...}while(0
    發(fā)表于 12-29 07:34

    請(qǐng)問(wèn)CW32芯片的三種工作模式是什么?

    CW32芯片的三種工作模式是什么?
    發(fā)表于 12-26 06:48

    星海FR系列三種封裝快恢復(fù)二極管DO-15、DO-201AD、R-6的全面對(duì)比與應(yīng)用解析

    星海FR系列快恢復(fù)二極管憑借其卓越的性能和多樣化的封裝形式,深受工程師和電子愛(ài)好者的青睞。這里,星海授權(quán)代理商南山電子將對(duì)對(duì)星海FR系列三種封裝快恢復(fù)二極管:DO-15、DO-201AD、R-6
    的頭像 發(fā)表于 12-18 16:25 ?520次閱讀
    星海FR系列<b class='flag-5'>三種</b>封裝快恢復(fù)二極管DO-15、DO-201AD、R-6的全面<b class='flag-5'>對(duì)比</b>與應(yīng)用解析

    TC377配置SMU FSP時(shí),如何配置頻率參數(shù);三種模式有何區(qū)別,配置上有何區(qū)別?

    TC377配置SMU FSP時(shí),如何配置頻率參數(shù);三種模式有何區(qū)別,配置上有何區(qū)別?
    發(fā)表于 08-08 07:48

    MEMS中的三種測(cè)溫方式

    在集成MEMS芯片的環(huán)境溫度測(cè)量領(lǐng)域,熱阻、熱電堆和PN結(jié)原理是三種主流技術(shù)。熱阻是利用熱敏電阻,如金屬鉑或注入硅的溫度電阻系數(shù)恒定,即電阻隨溫度線(xiàn)性變化的特性測(cè)溫,電阻變化直接對(duì)應(yīng)絕對(duì)溫度,需恒流源供電。
    的頭像 發(fā)表于 07-16 13:58 ?1671次閱讀
    MEMS中的<b class='flag-5'>三種</b>測(cè)溫方式

    1553B總線(xiàn)常見(jiàn)三種組網(wǎng)方式

    1553B總線(xiàn)作為航空電子系統(tǒng)中的關(guān)鍵通信協(xié)議,其組網(wǎng)方式直接影響系統(tǒng)的可靠性和實(shí)時(shí)性。本文將深入解析1553B總線(xiàn)的三種典型組網(wǎng)結(jié)構(gòu):?jiǎn)慰偩€(xiàn)結(jié)構(gòu)、雙冗余總線(xiàn)和多總線(xiàn)分層架構(gòu),并結(jié)合實(shí)際應(yīng)用場(chǎng)景分析
    的頭像 發(fā)表于 06-21 17:39 ?1963次閱讀
    1553B總線(xiàn)常見(jiàn)<b class='flag-5'>三種</b>組網(wǎng)方式

    開(kāi)關(guān)電源三種控制模式:PWM/PFM/PSM

    摘要 本文詳細(xì)介紹了開(kāi)關(guān)電源的三種主要調(diào)制方式:PWM(脈沖寬度調(diào)制)、PFM(脈沖頻率調(diào)制)和PSM(脈沖跨周期調(diào)制)。PWM通過(guò)調(diào)整脈沖寬度保持恒定頻率,適用于重負(fù)載,但輕負(fù)載效率低。PFM則在
    發(fā)表于 06-09 16:11

    介紹三種常見(jiàn)的MySQL高可用方案

    方案——MHA(MySQL High Availability Manager)、PXC(Percona XtraDB Cluster) 和 Galera Cluster。我們將從原理、架構(gòu)、優(yōu)勢(shì)和局限性等角度對(duì)比三種方案,并探討它們?cè)趯?shí)際應(yīng)用中的部署場(chǎng)景和最佳實(shí)踐。
    的頭像 發(fā)表于 05-28 17:16 ?1246次閱讀

    信號(hào)隔離器三種供電方式的區(qū)別

    信號(hào)隔離器是一重要的信號(hào)隔離裝置,其供電方式主要有獨(dú)立供電、回路供電和輸出回路供電三種。以下是這三種供電方式的詳細(xì)區(qū)別: 一、獨(dú)立供電 1. 定義:獨(dú)立供電是指信號(hào)隔離器需要單獨(dú)配備DC24V或
    的頭像 發(fā)表于 04-17 16:23 ?1544次閱讀
    信號(hào)隔離器<b class='flag-5'>三種</b>供電方式的區(qū)別

    雙極型極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載

      本文檔的主要內(nèi)容詳細(xì)介紹的是雙極型極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載包括了:共集電極放大電路,共基極放大電路,三種基本組態(tài)的比較   輸入信號(hào)ui 和輸出信號(hào)uo 的公共端是集電極。
    發(fā)表于 04-11 16:39 ?37次下載

    redis三種集群方案詳解

    在Redis中提供的集群方案總共有三種(一般一個(gè)redis節(jié)點(diǎn)不超過(guò)10G內(nèi)存)。
    的頭像 發(fā)表于 03-31 10:46 ?1535次閱讀
    redis<b class='flag-5'>三種</b>集群方案詳解

    CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?

    在我用photodiode工具選型I/V放大電路的時(shí)候,系統(tǒng)給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請(qǐng)教下用于光電信號(hào)放大轉(zhuǎn)換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,F(xiàn)ET這三種工藝的優(yōu)缺點(diǎn)是什么?
    發(fā)表于 03-25 06:23

    介紹三種數(shù)據(jù)保護(hù)策略的特點(diǎn)與適用場(chǎng)景

    在企業(yè)IT環(huán)境中,數(shù)據(jù)保護(hù)是不可忽視的重要環(huán)節(jié),而復(fù)制(Replication)、快照(Snapshot)和備份(Backup)是三種常見(jiàn)的策略。它們?cè)跀?shù)據(jù)恢復(fù)、業(yè)務(wù)連續(xù)性以及災(zāi)難恢復(fù)中扮演著不同的角色,但很多企業(yè)在選擇數(shù)據(jù)保護(hù)方案時(shí),往往不清楚
    的頭像 發(fā)表于 03-21 11:46 ?1526次閱讀

    GaN、超級(jí)SI、SiC這三種MOS器件的用途區(qū)別

    如果想要說(shuō)明白GaN、超級(jí)SI、SiC這三種MOS器件的用途區(qū)別,首先要做的是搞清楚這三種功率器件的特性,然后再根據(jù)材料特性分析具體應(yīng)用。
    的頭像 發(fā)表于 03-14 18:05 ?2723次閱讀

    PCB Layout中的三種走線(xiàn)策略

    是至關(guān)重要的。下面將針對(duì)實(shí)際布線(xiàn)中可能遇到的一些情況,分析其合理性,并給出一些比較優(yōu)化的走線(xiàn)策略。主要從直角走線(xiàn),差分走線(xiàn),蛇形線(xiàn)等個(gè)方面來(lái)闡述。1. 直角走線(xiàn)直角走線(xiàn)一般是PCB布線(xiàn)中要求盡量避免的情況
    發(fā)表于 03-13 11:35