国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

簡化版的XLNet在PyTorch Wrapper實現

DPVg_AI_era ? 來源:lq ? 2019-07-07 09:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XLNet雖然好用,但實在太費錢了!近日,一位韓國小哥成功將簡化版的XLNet在PyTorch Wrapper實現,批規模僅為1,不再依賴谷歌爸爸的巨額算力,讓“窮人”也能用得起。

不久前,谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet,性能全面超越此前NLP領域的黃金標桿BERT,在20個任務上實現了性能的大幅提升,刷新了18個任務上的SOTA結果,可謂全面屠榜。

論文地址:

https://arxiv.org/pdf/1906.08237.pdf

XLNet性能確實強大,不過還是要背靠谷歌TPU平臺的巨額算力資源。有網友做了一下簡單統計,按照論文中的實驗設計,XL-Large用512 TPU chips訓練了4天,也就是說,訓練時的總計算量是BERT的5倍。語料規模是BERT-large的10倍。

要知道BERT作為谷歌的親兒子,其訓練量和對計算資源的需求已經讓很多人望塵莫及?,F在XLNet又來了個5倍,讓人直呼用不起。

這么強勁的XLNet,只能看著流口水卻用不起,豈不是太遺憾了?

土豪有土豪的用法,窮人有窮人的訣竅。最近有個韓國小哥就成功將XLNet挪到了Pytorch框架上,可以在僅使用小規模訓練數據(批規模=1)的情況下,實現一個簡單的XLNet實例,并弄清XLNet架構的預訓練機制。他將實現方案放在了GitHub上。

要使用這個實現很簡單,只需導入如下代碼:

$ git clone https://github.com/graykode/xlnet-Pytorch && cd xlnet-Pytorch# To use Sentence Piece Tokenizer(pretrained-BERT Tokenizer)$ pip install pytorch_pretrained_bert$ python main.py --data ./data.txt --tokenizer bert-base-uncased --seq_len 512 --reuse_len 256 --perm_size 256 --bi_data True --mask_alpha 6 --mask_beta 1 --num_predict 85 --mem_len 384 --num_step 100

接下來對實現方法和超參數設置的簡單介紹,首先貼出XLNet論文中給出的預訓練超參數:

然后,作者給出了PyTorch框架下XLNet實現的超參數調節選項如下:

—data(String): 使用文本文件訓練,多行文本也可以。另外,將一個文件視為一個批張量。默認值: data.txt

—tokenizer(String):目前僅使用【這里】的Tokenizer作為子詞的Tokenizer(即將編入句子部分),這里可以選擇bert-base-uncased/bert-large-uncased/bert-base-cased/bert-large-cased四種Tokenizer。

默認值:bert-base-uncased

—seq_len(Integer): 序列長度。

默認值 :512

—reuse_len(Interger): 可作為記憶重復使用的token數量??赡苁切蛄虚L度的一半。

默認值 :256

—perm_size(Interger): 最長排列長度。

默認值:256

--bi_data(Boolean): 是否設立雙向數據,如設置為“是”,biz(batch size) 參數值應為偶數。

默認值:否

—mask_alpha(Interger): 多少個token構成一個group。

默認值:6

—mask_beta(Integer):在每個group中需要mask的token數量。

默認值:1

—num_predict(Interger) :

要預測的token數量。在XLNet論文中, 這表示部分預測。

默認值:85

—mem_len(Interger): 在Transformer-XL架構中緩存的步驟數量。

默認值:384

—number_step(Interger):步驟(即Epoch)數量.。

默認值:100

XLNet:克服BERT固有局限,20項任務性能強于BERT

XLNet是一種基于新型廣義置換語言建模目標的新型無監督語言表示學習方法。此外,XLNet采用Transformer-XL作為骨架模型,在長時間環境下的語言任務中表現出非常出色的性能,在多項NLP任務性能上超越了BERT,成為NLP領域的新標桿。

關于XLNet中的一些關鍵詞

1、自回歸模型與自動編碼模型

自回歸(AR)模型

自動編碼(AE)模型

2、部分預測的排列語言建模

排列語言建模

部分預測

3、具有目標感知表示的雙向自注意力模型

雙向自注意力模型

目標感知表示

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111394
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280
  • pytorch
    +關注

    關注

    2

    文章

    813

    瀏覽量

    14853

原文標題:XLNet太貴?這位小哥在PyTorch Wrapper上做了個微縮版的

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    PyTorch 中RuntimeError分析

    ? 錯誤原因 這個 RuntimeError 是因為 PyTorch 中,upsample_nearest2d_out_frame(最近鄰2D上采樣)操作尚未對 BFloat16 數據類型提供
    發表于 03-06 06:02

    AI波束管理測試系統和信道模型簡化實現方案

    波束管理是毫米波無線通信的一項關鍵技術。想象一下,毫米波基站的信號就像手電筒的光束,而波束管理就是讓這束光精準追隨你的設備,避免信號浪費空曠處。5G向5G-A/6G演進的過程中,傳統波束管理
    的頭像 發表于 02-10 14:05 ?248次閱讀
    AI波束管理測試系統和信道模型<b class='flag-5'>簡化</b><b class='flag-5'>實現</b>方案

    Pytorch 與 Visionfive2 兼容嗎?

    Pytorch 與 Visionfive2 兼容嗎? $ pip3 install torch torchvision torchaudio --index-url https
    發表于 02-06 08:28

    Python中借助NVIDIA CUDA Tile簡化GPU編程

    模型更高的層級來實現算法。至于如何將計算任務拆分到各個線程,完全由編譯器和運行時底層自動處理。不僅如此,tile kernels 還能夠屏蔽 Tensor Core 等專用硬件的細節,寫出的代碼還能
    的頭像 發表于 12-13 10:12 ?1197次閱讀
    <b class='flag-5'>在</b>Python中借助NVIDIA CUDA Tile<b class='flag-5'>簡化</b>GPU編程

    疊層電容是如何實現高頻噪聲抑制的?

    主題:求解疊層電容的高頻秘訣:其疊層工藝是如何實現極低ESL和高自諧振頻率的? 我們了解到超低ESR疊層固態電容能有效抑制MHz噪聲。其宣傳的疊層工藝是核心。 請問,這種疊層并聯結構,物理上是如何具體地實現“回路面積最小化”,
    發表于 12-04 09:19

    安寶特產品丨3DE-實體模型簡化-快捷簡化和表面收縮

    CAD 實體模型如何輕量化?快捷簡化與表面收縮助力版權保護和營銷素材制作成本優化。
    的頭像 發表于 12-01 13:28 ?276次閱讀
    安寶特產品丨3DE-實體模型<b class='flag-5'>簡化</b>-快捷<b class='flag-5'>簡化</b>和表面收縮

    以太網通訊FPGA上的實現

    、雙工模式、是否采用流控等。FPGA和PHY之間有一個RGMII接口。RGMII是GMII的簡化版,數據位寬為2位,1000Mbps傳輸速率下,時鐘頻率為125Mhz。 PHY芯片KSZ9031RNX
    發表于 10-30 07:45

    EMC電路怎么整改:如何通過簡化設計提升兼容性

    EMC電路怎么整改:如何通過簡化設計提升兼容性|南柯電子
    的頭像 發表于 10-29 10:09 ?495次閱讀

    京東:對接訂單結算API,實現企業采購批量開票,簡化財務流程

    。通過對接該API,企業可以實現批量開票,顯著簡化財務流程。本文將逐步介紹API的功能、對接方法、實現步驟以及帶來的好處,助您高效優化采購管理。 什么是京東訂單結算API? 京東訂單結算API是一套標準化接口,允許企業系統直接訪
    的頭像 發表于 09-11 15:27 ?798次閱讀
    京東:對接訂單結算API,<b class='flag-5'>實現</b>企業采購批量開票,<b class='flag-5'>簡化</b>財務流程

    ADI安全產品如何簡化不同機器人控制系統中安全機制的實現

    我們將探討各種機器人安全用例,展示ADI的安全產品如何簡化不同機器人控制系統中安全機制的實現。
    的頭像 發表于 08-12 10:43 ?1.2w次閱讀
    ADI安全產品如何<b class='flag-5'>簡化</b>不同機器人控制系統中安全機制的<b class='flag-5'>實現</b>

    Arm方案 基于Arm架構的邊緣側設備(樹莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹莓派或 NVIDIA Jetson Nano 等基于 Arm 架構的邊緣側設備上部署 PyTorch 模型。
    的頭像 發表于 07-28 11:50 ?2876次閱讀

    DigiKey 和 Würth Elektronik – 簡化 IIoT

    Elektronik]攜手提供旨在簡化 IIoT 實施的廣泛產品和工具。通過關注連接、開發資源和效率,企業將會找到實現運營輕松轉型所需的支持。 本文將探討一些關于物聯網連接和傳感器的解決方案、開發和部署工具
    的頭像 發表于 05-25 11:53 ?1151次閱讀
    DigiKey 和 Würth Elektronik – <b class='flag-5'>簡化</b> IIoT

    摩爾線程發布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    本次升級的核心亮點, Torch-MUSA v2.0.0率先在國產GPU上實現了對FP8數據類型的完整支持 。FP8是當前AI計算的一種前沿低精度格式,支持原生
    的頭像 發表于 05-11 16:41 ?1641次閱讀

    AG32軟件包SDK更新:加入新例程(可實現至少15個UART串口)

    中,使用內置CPLD資源設計提供額外的串口。每個串口為內置串口的簡化版,串口個數可以自定義。例程中使用了10個串口,占用大約1.8K 的邏輯。加上AG32自帶的5個UART,可以實現15+的UART
    發表于 03-28 10:53

    簡化5G基本收發器電臺發射機陣容的設計和評估

    簡化5G基本收發器電臺發射機陣容的設計和評估
    的頭像 發表于 03-19 18:15 ?5224次閱讀
    <b class='flag-5'>簡化</b>5G基本收發器電臺發射機陣容的設計和評估