国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡化版的XLNet在PyTorch Wrapper實現(xiàn)

DPVg_AI_era ? 來源:lq ? 2019-07-07 09:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XLNet雖然好用,但實在太費錢了!近日,一位韓國小哥成功將簡化版的XLNet在PyTorch Wrapper實現(xiàn),批規(guī)模僅為1,不再依賴谷歌爸爸的巨額算力,讓“窮人”也能用得起。

不久前,谷歌大腦和CMU聯(lián)合團(tuán)隊提出面向NLP預(yù)訓(xùn)練新方法XLNet,性能全面超越此前NLP領(lǐng)域的黃金標(biāo)桿BERT,在20個任務(wù)上實現(xiàn)了性能的大幅提升,刷新了18個任務(wù)上的SOTA結(jié)果,可謂全面屠榜。

論文地址:

https://arxiv.org/pdf/1906.08237.pdf

XLNet性能確實強(qiáng)大,不過還是要背靠谷歌TPU平臺的巨額算力資源。有網(wǎng)友做了一下簡單統(tǒng)計,按照論文中的實驗設(shè)計,XL-Large用512 TPU chips訓(xùn)練了4天,也就是說,訓(xùn)練時的總計算量是BERT的5倍。語料規(guī)模是BERT-large的10倍。

要知道BERT作為谷歌的親兒子,其訓(xùn)練量和對計算資源的需求已經(jīng)讓很多人望塵莫及。現(xiàn)在XLNet又來了個5倍,讓人直呼用不起。

這么強(qiáng)勁的XLNet,只能看著流口水卻用不起,豈不是太遺憾了?

土豪有土豪的用法,窮人有窮人的訣竅。最近有個韓國小哥就成功將XLNet挪到了Pytorch框架上,可以在僅使用小規(guī)模訓(xùn)練數(shù)據(jù)(批規(guī)模=1)的情況下,實現(xiàn)一個簡單的XLNet實例,并弄清XLNet架構(gòu)的預(yù)訓(xùn)練機(jī)制。他將實現(xiàn)方案放在了GitHub上。

要使用這個實現(xiàn)很簡單,只需導(dǎo)入如下代碼:

$ git clone https://github.com/graykode/xlnet-Pytorch && cd xlnet-Pytorch# To use Sentence Piece Tokenizer(pretrained-BERT Tokenizer)$ pip install pytorch_pretrained_bert$ python main.py --data ./data.txt --tokenizer bert-base-uncased --seq_len 512 --reuse_len 256 --perm_size 256 --bi_data True --mask_alpha 6 --mask_beta 1 --num_predict 85 --mem_len 384 --num_step 100

接下來對實現(xiàn)方法和超參數(shù)設(shè)置的簡單介紹,首先貼出XLNet論文中給出的預(yù)訓(xùn)練超參數(shù):

然后,作者給出了PyTorch框架下XLNet實現(xiàn)的超參數(shù)調(diào)節(jié)選項如下:

—data(String): 使用文本文件訓(xùn)練,多行文本也可以。另外,將一個文件視為一個批張量。默認(rèn)值: data.txt

—tokenizer(String):目前僅使用【這里】的Tokenizer作為子詞的Tokenizer(即將編入句子部分),這里可以選擇bert-base-uncased/bert-large-uncased/bert-base-cased/bert-large-cased四種Tokenizer。

默認(rèn)值:bert-base-uncased

—seq_len(Integer): 序列長度。

默認(rèn)值 :512

—reuse_len(Interger): 可作為記憶重復(fù)使用的token數(shù)量。可能是序列長度的一半。

默認(rèn)值 :256

—perm_size(Interger): 最長排列長度。

默認(rèn)值:256

--bi_data(Boolean): 是否設(shè)立雙向數(shù)據(jù),如設(shè)置為“是”,biz(batch size) 參數(shù)值應(yīng)為偶數(shù)。

默認(rèn)值:否

—mask_alpha(Interger): 多少個token構(gòu)成一個group。

默認(rèn)值:6

—mask_beta(Integer):在每個group中需要mask的token數(shù)量。

默認(rèn)值:1

—num_predict(Interger) :

要預(yù)測的token數(shù)量。在XLNet論文中, 這表示部分預(yù)測。

默認(rèn)值:85

—mem_len(Interger): 在Transformer-XL架構(gòu)中緩存的步驟數(shù)量。

默認(rèn)值:384

—number_step(Interger):步驟(即Epoch)數(shù)量.。

默認(rèn)值:100

XLNet:克服BERT固有局限,20項任務(wù)性能強(qiáng)于BERT

XLNet是一種基于新型廣義置換語言建模目標(biāo)的新型無監(jiān)督語言表示學(xué)習(xí)方法。此外,XLNet采用Transformer-XL作為骨架模型,在長時間環(huán)境下的語言任務(wù)中表現(xiàn)出非常出色的性能,在多項NLP任務(wù)性能上超越了BERT,成為NLP領(lǐng)域的新標(biāo)桿。

關(guān)于XLNet中的一些關(guān)鍵詞

1、自回歸模型與自動編碼模型

自回歸(AR)模型

自動編碼(AE)模型

2、部分預(yù)測的排列語言建模

排列語言建模

部分預(yù)測

3、具有目標(biāo)感知表示的雙向自注意力模型

雙向自注意力模型

目標(biāo)感知表示

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111391
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23280
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    813

    瀏覽量

    14852

原文標(biāo)題:XLNet太貴?這位小哥在PyTorch Wrapper上做了個微縮版的

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    PyTorch 中RuntimeError分析

    ? 錯誤原因 這個 RuntimeError 是因為 PyTorch 中,upsample_nearest2d_out_frame(最近鄰2D上采樣)操作尚未對 BFloat16 數(shù)據(jù)類型提供
    發(fā)表于 03-06 06:02

    AI波束管理測試系統(tǒng)和信道模型簡化實現(xiàn)方案

    波束管理是毫米波無線通信的一項關(guān)鍵技術(shù)。想象一下,毫米波基站的信號就像手電筒的光束,而波束管理就是讓這束光精準(zhǔn)追隨你的設(shè)備,避免信號浪費空曠處。5G向5G-A/6G演進(jìn)的過程中,傳統(tǒng)波束管理
    的頭像 發(fā)表于 02-10 14:05 ?248次閱讀
    AI波束管理測試系統(tǒng)和信道模型<b class='flag-5'>簡化</b><b class='flag-5'>實現(xiàn)</b>方案

    Pytorch 與 Visionfive2 兼容嗎?

    Pytorch 與 Visionfive2 兼容嗎? $ pip3 install torch torchvision torchaudio --index-url https
    發(fā)表于 02-06 08:28

    Python中借助NVIDIA CUDA Tile簡化GPU編程

    模型更高的層級來實現(xiàn)算法。至于如何將計算任務(wù)拆分到各個線程,完全由編譯器和運行時底層自動處理。不僅如此,tile kernels 還能夠屏蔽 Tensor Core 等專用硬件的細(xì)節(jié),寫出的代碼還能
    的頭像 發(fā)表于 12-13 10:12 ?1195次閱讀
    <b class='flag-5'>在</b>Python中借助NVIDIA CUDA Tile<b class='flag-5'>簡化</b>GPU編程

    疊層電容是如何實現(xiàn)高頻噪聲抑制的?

    主題:求解疊層電容的高頻秘訣:其疊層工藝是如何實現(xiàn)極低ESL和高自諧振頻率的? 我們了解到超低ESR疊層固態(tài)電容能有效抑制MHz噪聲。其宣傳的疊層工藝是核心。 請問,這種疊層并聯(lián)結(jié)構(gòu),物理上是如何具體地實現(xiàn)“回路面積最小化”,
    發(fā)表于 12-04 09:19

    安寶特產(chǎn)品丨3DE-實體模型簡化-快捷簡化和表面收縮

    CAD 實體模型如何輕量化?快捷簡化與表面收縮助力版權(quán)保護(hù)和營銷素材制作成本優(yōu)化。
    的頭像 發(fā)表于 12-01 13:28 ?276次閱讀
    安寶特產(chǎn)品丨3DE-實體模型<b class='flag-5'>簡化</b>-快捷<b class='flag-5'>簡化</b>和表面收縮

    以太網(wǎng)通訊FPGA上的實現(xiàn)

    、雙工模式、是否采用流控等。FPGA和PHY之間有一個RGMII接口。RGMII是GMII的簡化版,數(shù)據(jù)位寬為2位,1000Mbps傳輸速率下,時鐘頻率為125Mhz。 PHY芯片KSZ9031RNX
    發(fā)表于 10-30 07:45

    EMC電路怎么整改:如何通過簡化設(shè)計提升兼容性

    EMC電路怎么整改:如何通過簡化設(shè)計提升兼容性|南柯電子
    的頭像 發(fā)表于 10-29 10:09 ?495次閱讀

    京東:對接訂單結(jié)算API,實現(xiàn)企業(yè)采購批量開票,簡化財務(wù)流程

    。通過對接該API,企業(yè)可以實現(xiàn)批量開票,顯著簡化財務(wù)流程。本文將逐步介紹API的功能、對接方法、實現(xiàn)步驟以及帶來的好處,助您高效優(yōu)化采購管理。 什么是京東訂單結(jié)算API? 京東訂單結(jié)算API是一套標(biāo)準(zhǔn)化接口,允許企業(yè)系統(tǒng)直接訪
    的頭像 發(fā)表于 09-11 15:27 ?797次閱讀
    京東:對接訂單結(jié)算API,<b class='flag-5'>實現(xiàn)</b>企業(yè)采購批量開票,<b class='flag-5'>簡化</b>財務(wù)流程

    ADI安全產(chǎn)品如何簡化不同機(jī)器人控制系統(tǒng)中安全機(jī)制的實現(xiàn)

    我們將探討各種機(jī)器人安全用例,展示ADI的安全產(chǎn)品如何簡化不同機(jī)器人控制系統(tǒng)中安全機(jī)制的實現(xiàn)
    的頭像 發(fā)表于 08-12 10:43 ?1.2w次閱讀
    ADI安全產(chǎn)品如何<b class='flag-5'>簡化</b>不同機(jī)器人控制系統(tǒng)中安全機(jī)制的<b class='flag-5'>實現(xiàn)</b>

    Arm方案 基于Arm架構(gòu)的邊緣側(cè)設(shè)備(樹莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹莓派或 NVIDIA Jetson Nano 等基于 Arm 架構(gòu)的邊緣側(cè)設(shè)備上部署 PyTorch 模型。
    的頭像 發(fā)表于 07-28 11:50 ?2874次閱讀

    DigiKey 和 Würth Elektronik – 簡化 IIoT

    Elektronik]攜手提供旨在簡化 IIoT 實施的廣泛產(chǎn)品和工具。通過關(guān)注連接、開發(fā)資源和效率,企業(yè)將會找到實現(xiàn)運營輕松轉(zhuǎn)型所需的支持。 本文將探討一些關(guān)于物聯(lián)網(wǎng)連接和傳感器的解決方案、開發(fā)和部署工具
    的頭像 發(fā)表于 05-25 11:53 ?1151次閱讀
    DigiKey 和 Würth Elektronik – <b class='flag-5'>簡化</b> IIoT

    摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    本次升級的核心亮點, Torch-MUSA v2.0.0率先在國產(chǎn)GPU上實現(xiàn)了對FP8數(shù)據(jù)類型的完整支持 。FP8是當(dāng)前AI計算的一種前沿低精度格式,支持原生
    的頭像 發(fā)表于 05-11 16:41 ?1632次閱讀

    AG32軟件包SDK更新:加入新例程(可實現(xiàn)至少15個UART串口)

    中,使用內(nèi)置CPLD資源設(shè)計提供額外的串口。每個串口為內(nèi)置串口的簡化版,串口個數(shù)可以自定義。例程中使用了10個串口,占用大約1.8K 的邏輯。加上AG32自帶的5個UART,可以實現(xiàn)15+的UART
    發(fā)表于 03-28 10:53

    簡化5G基本收發(fā)器電臺發(fā)射機(jī)陣容的設(shè)計和評估

    簡化5G基本收發(fā)器電臺發(fā)射機(jī)陣容的設(shè)計和評估
    的頭像 發(fā)表于 03-19 18:15 ?5224次閱讀
    <b class='flag-5'>簡化</b>5G基本收發(fā)器電臺發(fā)射機(jī)陣容的設(shè)計和評估