国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是XLNet,它為什么比BERT效果好

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-10 19:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

介紹最基本的XLNet的原理,理解XLNet和BERT的直覺上的不同點。
作者:Xu LIANG
編譯:ronghuaiyang
首發(fā):AI公園公眾號


在發(fā)布后不到一周,我周圍的NLP領(lǐng)域的每個人似乎都在談?wù)?strong>XLNet。

是的,“在20個任務(wù)上比BERT做得更好”確實吸引了我們的眼球。但更重要的是理解它是如何工作的,以及為什么它比BERT表現(xiàn)得更好。所以我寫了這個博客來分享我讀了這篇文章后的想法。

內(nèi)容結(jié)構(gòu)如下。

  • 什么是XLNet?
  • XLNet和BERT有什么不同?
  • XLNet是如何工作的?

什么是XLNet?

首先,XLNet是一個類似于bert的模型,而不是一個完全不同的模型。但它是一個非常有前途和潛力的。總之,XLNet是一種廣義的自回歸預(yù)訓(xùn)練方法。

那么,什么是自回歸(AR)語言模型

AR語言模型是利用上下文單詞預(yù)測下一個單詞的一種模型。但是在這里,上下文單詞被限制在兩個方向,要么向前,要么向后。

GPT和GPT-2都是AR語言模型

AR語言模型的優(yōu)點是擅長NLP生成任務(wù)。因為在生成上下文時,通常是正向的。AR語言模型在這類NLP任務(wù)中很自然地工作得很好。

但是AR語言模型有一些缺點,它只能使用前向上下文或后向上下文,這意味著它不能同時使用前向上下文和后向上下文

XLNet和BERT的區(qū)別是什么?

與AR語言模型不同,BERT被歸類為自動編碼器(AE)語言模型

AE語言模型的目的是從損壞的輸入中重建原始數(shù)據(jù)

損壞的輸入意味著我們使用在訓(xùn)練前階段將原始tokeninto替換為 [MASK] 。我們的目標是預(yù)測into來得到原來的句子。

AE語言模型的優(yōu)點是它可以在向前和向后兩個方向上看到上下文。

但是AE語言模型也有其不足之處。它在預(yù)訓(xùn)練中使用了[MASK],但是這種人為的符號在finetune的時候在實際數(shù)據(jù)中時沒有的,導(dǎo)致了預(yù)訓(xùn)練 — finetune的不一致。[MASK]的另一個缺點是它假設(shè)所預(yù)測的(mask掉的)token是相互獨立的,給出的是未掩碼的tokens。例如,我們有一句話“It shows that the housing crisis was turned into a banking crisis”。我們蓋住了“banking”和“crisis”。注意這里,我們知道,蓋住的“banking”與“crisis”之間隱含著相互關(guān)聯(lián)。但AE模型是利用那些沒有蓋住的tokens試圖預(yù)測“banking”,并獨立利用那些沒有蓋住的tokens預(yù)測“crisis”。它忽視了“banking”與“crisis”之間的關(guān)系。換句話說,它假設(shè)預(yù)測的(屏蔽的)tokens是相互獨立的。但是我們知道模型應(yīng)該學(xué)習(xí)(屏蔽的)tokens之間的這種相關(guān)性來預(yù)測其中的一個token。

作者想要強調(diào)的是,XLNet提出了一種新的方法,讓AR語言模型從雙向的上下文中學(xué)習(xí),避免了AE語言模型中mask方法帶來的弊端。

XLNet如何工作?

AR語言模型只能使用前向或后向的上下文,如何讓它學(xué)習(xí)雙向上下文呢?語言模型由預(yù)訓(xùn)練階段和調(diào)優(yōu)階段兩個階段組成。XLNet專注于預(yù)訓(xùn)練階段。在預(yù)訓(xùn)練階段,它提出了一個新的目標,稱為重排列語言建模。 我們可以從這個名字知道基本的思想,它使用重排列。

這里我們用一個例子來解釋。序列順序是[x1, x2, x3, x4]。該序列的所有排列如下。

對于這4個tokens (N)的句子,有24個(N!)個排列。假設(shè)我們想要預(yù)測x3。24個排列中有4種模式,x3在第1位,第2位,第3位,第4位。

[x3, xx, xx, xx]
[xx, x3, xx, xx]
[xx, xx, x3, xx]
[xx, xx, xx, x3]


4種模式

在這里,我們將x3的位置設(shè)為第t位,它前面的t-1個tokens用來預(yù)測x3。

x3之前的單詞包含序列中所有可能的單詞和長度。直觀地,模型將學(xué)習(xí)從兩邊的所有位置收集信息。

具體實現(xiàn)要比上面的解釋復(fù)雜得多,這里就不討論了。但是你應(yīng)該對XLNet有最基本和最重要的了解。

來自XLNet的靈感

與BERT將mask方法公布于眾一樣,XLNet表明重排列法是一種很好的語言模型目標選擇。可以預(yù)見,未來在語言模型目標方面的探索工作將會越來越多。

—END—

關(guān)注圖像處理,自然語言處理,機器學(xué)習(xí)人工智能領(lǐng)域。
歡迎關(guān)注微信公眾號

審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50094

    瀏覽量

    265300
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11310
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    郎特科技 LED 燈管定制:管徑規(guī)格如何影響照明效果

    郎特科技LED燈管定制:管徑規(guī)格如何影響照明效果?在照明領(lǐng)域,LED燈管的管徑規(guī)格是影響照明效果的關(guān)鍵因素之一。郎特科技提供多種管徑規(guī)格的LED燈管定制服務(wù),每種管徑都因其獨特的物理特性,在光通量
    的頭像 發(fā)表于 02-12 13:08 ?442次閱讀
    郎特科技 LED 燈管定制:管徑規(guī)格如何影響照明<b class='flag-5'>效果</b>?

    功率因數(shù)與無功占的內(nèi)在聯(lián)系及如何選擇目標功率因數(shù)

    功率因數(shù)提升對無功占的影響,提升初期效果顯著,接近1時需更多補償,提升至0.99可減少無功占至14%,選擇合適的功率因數(shù)提高電能利用效率。
    的頭像 發(fā)表于 01-29 21:34 ?1444次閱讀
    功率因數(shù)與無功占<b class='flag-5'>比</b>的內(nèi)在聯(lián)系及如何選擇目標功率因數(shù)

    三防漆哪種?別再問了!記住這個選型邏輯,品牌更重要

    “三防漆哪種?”——這是電子工程師、采購和制造從業(yè)者最高頻的問題之一。但坦白說,這是一個“偽命題”。就像問“車哪種?”一樣,沒有前提條件,答案毫無意義。沒有最好的三防漆,只有最適合您產(chǎn)品應(yīng)用
    的頭像 發(fā)表于 12-23 17:41 ?591次閱讀
    三防漆哪種<b class='flag-5'>好</b>?別再問了!記住這個選型邏輯,<b class='flag-5'>比</b>品牌更重要

    變頻器U/f的測量

    變頻器U/f的測量是電力電子技術(shù)領(lǐng)域中的重要環(huán)節(jié),尤其在電機控制系統(tǒng)中,其準確性直接影響電機的運行效率和穩(wěn)定性。U/f控制(電壓頻率控制)是變頻器常用的控制方式之一,通過調(diào)整輸出電壓與頻率
    的頭像 發(fā)表于 11-22 07:31 ?459次閱讀
    變頻器U/f<b class='flag-5'>比</b>的測量

    如何評估電能質(zhì)量在線監(jiān)測裝置的定制化和聯(lián)動應(yīng)用效果

    評估電能質(zhì)量在線監(jiān)測裝置的定制化和聯(lián)動應(yīng)用效果,需圍繞 “是否滿足場景核心需求” 展開,通過 “量化指標 + 實際場景驗證” 結(jié)合的方式,分別針對定制化(硬件、軟件、數(shù)據(jù)、報告)和聯(lián)動應(yīng)用(系統(tǒng)
    的頭像 發(fā)表于 10-23 09:28 ?501次閱讀

    如何評估諧波治理措施的效果

    對新能源設(shè)備的損耗與危害。具體評估體系可拆解為 核心評估指標、關(guān)鍵評估方法、標準化評估流程 三部分,同時需結(jié)合新能源場景(光伏、風電、儲能)的特性調(diào)整側(cè)重點。 一、核心評估指標:明確 “效果” 的量化標準 評估的前提是確
    的頭像 發(fā)表于 10-14 17:04 ?809次閱讀

    峰均:你了解多少?

    峰均,或稱峰值因數(shù)(crestfactor),簡稱PAR(peak-to-averageratio),或叫峰均功率(簡稱PARR,peak-to-averagepowerratio)。先說
    的頭像 發(fā)表于 07-02 17:32 ?3061次閱讀
    峰均<b class='flag-5'>比</b>:你了解多少?

    什么是共模抑制

    共模抑制詳解在探頭的數(shù)據(jù)手冊上,共模抑制性能參數(shù)是核心指標之一。共模抑制又名CMRR,通常用分貝(dB)來表示,其計算公式為:其中其中本司光隔離產(chǎn)品CMRR在直流或低頻下能達到120dB以上
    的頭像 發(fā)表于 06-23 09:45 ?1353次閱讀
    什么是共模抑制<b class='flag-5'>比</b>?

    探索吉他音色與效果器的奇妙世界(3)- 時延和哇音效果

    本文是第二屆電力電子科普征文大賽的獲獎作品,來自上海科技大學(xué)李晨曦的投稿。時延類效果器如果失真類效果器是拿信號的幅值開刀,那么時延類效果器則是在信號的時域特性上做文章。根據(jù)原理的不同,可以將時延類
    的頭像 發(fā)表于 06-14 10:00 ?1519次閱讀
    探索吉他音色與<b class='flag-5'>效果</b>器的奇妙世界(3)- 時延和哇音<b class='flag-5'>效果</b>器

    伺服剛性和慣量調(diào)試

    的穩(wěn)定性和響應(yīng)速度。本文將深入探討伺服剛性和慣量的概念、調(diào)試方法以及實際應(yīng)用中的注意事項。 一、伺服剛性的概念與調(diào)試 伺服剛性反映了系統(tǒng)抵抗外力干擾的能力,通常表現(xiàn)為位置環(huán)增益(PG)和速度環(huán)增益(VG)的綜合效果。高剛性系統(tǒng)能夠快速響應(yīng)指令并
    的頭像 發(fā)表于 06-07 17:52 ?4283次閱讀

    電源抑制

    電源抑制(PSRR),電源抑制(PSRR)是什么意思關(guān)鍵字:電源抑制(PSRR),電源抑制(PSRR)是什么意思電源抑制電源抑制
    發(fā)表于 04-08 13:30

    效果器的基礎(chǔ)知識

    電子發(fā)燒友網(wǎng)站提供《效果器的基礎(chǔ)知識.doc》資料免費下載
    發(fā)表于 03-26 14:30 ?7次下載

    異形拼接處理器可以實現(xiàn)的效果

    異形拼接處理器可以實現(xiàn)的效果非常多樣化和創(chuàng)新,以下是對其可實現(xiàn)效果的進一步補充: 一、創(chuàng)意拼接顯示 1、任意角度拼接:異形拼接處理器支持0~360度任意角度的拼接顯示,使得顯示屏可以以各種角度進行
    的頭像 發(fā)表于 03-21 12:39 ?669次閱讀
    異形拼接處理器可以實現(xiàn)的<b class='flag-5'>效果</b>

    智慧路燈的照明效果如何?

    引言 在智慧城市建設(shè)的進程中,叁仟智慧路燈已逐漸成為城市道路照明的主力軍。其照明效果不僅關(guān)系到市民夜間出行的安全與便捷,更對城市的整體形象和生活品質(zhì)有著深遠影響。相較于傳統(tǒng)路燈,叁仟智慧路燈借助
    的頭像 發(fā)表于 03-16 16:10 ?840次閱讀