国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI新NLP模型,刷新了7大數(shù)據(jù)集的SOTA

DPVg_AI_era ? 來(lái)源:lq ? 2019-02-16 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

史上最強(qiáng)“通用”NLP模型來(lái)襲:今天OpenAI在官博介紹了他們訓(xùn)練的一個(gè)大規(guī)模無(wú)監(jiān)督NLP模型,可以生成連貫的文本段落,刷新了7大數(shù)據(jù)集基準(zhǔn),并且能在未經(jīng)預(yù)訓(xùn)練的情況下,完成閱讀理解、問(wèn)答、機(jī)器翻譯等多項(xiàng)不同的語(yǔ)言建模任務(wù)。

OpenAI今天在官博上介紹了他們的新NLP模型,刷新了7大數(shù)據(jù)集的SOTA(當(dāng)前最佳結(jié)果),并且能夠在不進(jìn)行任何與領(lǐng)域知識(shí)相關(guān)數(shù)據(jù)訓(xùn)練的情況下,直接跨任務(wù)執(zhí)行最基礎(chǔ)的閱讀理解、機(jī)器翻譯、問(wèn)答和文本總結(jié)等不同NLP任務(wù)。

無(wú)需預(yù)訓(xùn)練就能完成多種不同任務(wù)且取得良好結(jié)果,相當(dāng)于克服了“災(zāi)難性遺忘”,簡(jiǎn)直可謂深度學(xué)習(xí)研究者夢(mèng)寐以求的“通用”模型!

如果說(shuō)谷歌的BERT代表NLP邁入了一個(gè)預(yù)訓(xùn)練模型的新時(shí)代,OpenAI便用這一成果證明,只要擁有超凡的數(shù)據(jù)量和計(jì)算力,就能實(shí)現(xiàn)以往無(wú)法想象的事情。

例如計(jì)算力,根據(jù)參與OpenAI強(qiáng)化學(xué)習(xí)研究的Smertiy透露,新模型使用了256塊谷歌TPU v3(沒(méi)有公布具體的訓(xùn)練時(shí)間),訓(xùn)練價(jià)格每小時(shí)2048美元。

史上最強(qiáng)“通用”NLP模型:15億參數(shù)馳騁40GB網(wǎng)絡(luò)數(shù)據(jù)

OpenAI的這個(gè)NLP模型基于Transformer,擁有15億參數(shù),使用含有800萬(wàn)網(wǎng)頁(yè)內(nèi)容的數(shù)據(jù)集訓(xùn)練,只為一個(gè)目的:

根據(jù)當(dāng)前已有的信息,預(yù)測(cè)下一個(gè)單詞是什么。

新模型的名字叫GPT-2,是OpenAI去年發(fā)布的無(wú)監(jiān)督NLP模型GPT的直接拓展,新模型用到的參數(shù)和訓(xùn)練數(shù)據(jù),都增長(zhǎng)了超過(guò)10個(gè)數(shù)量級(jí)。

由于模型容量足夠大,并且訓(xùn)練數(shù)據(jù)足夠多,GPT-2在擁有40GB網(wǎng)絡(luò)數(shù)據(jù)的測(cè)試集上,僅是簡(jiǎn)單“預(yù)測(cè)下一個(gè)單詞是什么”,就足以完成各種不同的NLP任務(wù),展示出了強(qiáng)大的泛化能力。

當(dāng)前,構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)的主流方法是監(jiān)督學(xué)習(xí)——收集數(shù)據(jù),也即喂給模型一套“理想的”輸入和輸出組合,讓模型模仿“套路”,在新的測(cè)試數(shù)據(jù)集上也給出類(lèi)似的結(jié)果。這種方法在特定領(lǐng)域任務(wù)上表現(xiàn)很好,但缺點(diǎn)是一旦改為其他任務(wù),比如將在問(wèn)答數(shù)據(jù)集上表現(xiàn)很好的模型用到閱讀理解上,模型就無(wú)法適應(yīng),也即泛化能力很差。

對(duì)此,OpenAI的研究人員大膽推測(cè):當(dāng)前機(jī)器學(xué)習(xí)系統(tǒng)泛化能力差的原因,恰恰是因?yàn)樽屇P途窒拊谔囟I(lǐng)域的數(shù)據(jù)集上做特定任務(wù)的訓(xùn)練。

同時(shí),現(xiàn)有的多任務(wù)模型研究證明,單純依靠訓(xùn)練樣本的增加,難以實(shí)現(xiàn)有效的任務(wù)擴(kuò)展;NLP研究人員正越來(lái)越多地使用自注意力模塊遷移學(xué)習(xí)來(lái)構(gòu)建多任務(wù)學(xué)習(xí)模型。

于是,OpenAI的研究人員結(jié)合上述兩種思路,在更通用的數(shù)據(jù)集基礎(chǔ)上,使用自注意力模塊遷移學(xué)習(xí),然后得到了一個(gè)無(wú)需調(diào)整任何參與或模型結(jié)構(gòu),在 zero-shot 情況下能夠執(zhí)行多項(xiàng)不同NLP任務(wù)的模型,也即上文所說(shuō)的GPT-2。

有鑒于其強(qiáng)大的能力和可能被濫用的危險(xiǎn),OpenAI并沒(méi)有公布GPT-2模型及代碼,只公布了一個(gè)僅含117M參數(shù)的樣本模型及代碼,供有興趣的研究人員學(xué)習(xí)和參考:https://github.com/openai/gpt-2

當(dāng)然,GPT-2的具體模型結(jié)構(gòu)OpenAI這次也沒(méi)有詳述,他們預(yù)留了半年的時(shí)間向?qū)W界征集意見(jiàn)。在公布的論文“Language Models are Unsupervised Multitask Learners”中,OpenAI的研究人員介紹了模型構(gòu)建的思路和方法。

至于具體的計(jì)算力,論文中沒(méi)有提及,根據(jù)上文Twitter上的數(shù)據(jù),他們的模型使用了256個(gè)谷歌云TPU v3,盡管沒(méi)有公布訓(xùn)練時(shí)間。TPU v3在Google之外只提供單獨(dú)使用版本(盡管OpenAI可能得到了特別的許可),這意味著他們要支付8 * 256 = 2048美元/小時(shí)。

下面,就是OpenAI展示其成果的時(shí)間——你也可以直接拉到文末,點(diǎn)擊“閱讀原文”查看論文。

無(wú)需預(yù)訓(xùn)練,8個(gè)數(shù)據(jù)集7個(gè)刷新當(dāng)前最佳紀(jì)錄

我們對(duì)四個(gè)語(yǔ)言模型進(jìn)行了訓(xùn)練和基準(zhǔn)測(cè)試,它們的大小如下表所示:

4個(gè)模型大小的架構(gòu)和超參數(shù)

其中,最小的模型等價(jià)于原始的GPT,次小的等價(jià)于最大的BERT模型。我們的最大模型是GPT-2,它的參數(shù)比GPT多一個(gè)數(shù)量級(jí)。

GPT-2在各種領(lǐng)域特定的語(yǔ)言建模任務(wù)上取得了state-of-the-art 的成績(jī)。我們的模型沒(méi)有針對(duì)任何特定于這些任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,只是作為最終測(cè)試對(duì)它們進(jìn)行了評(píng)估;這就是被稱(chēng)為“zero-shot”的設(shè)置。

當(dāng)在相同的數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),GPT-2比在特定領(lǐng)域數(shù)據(jù)集(如Wikipedia、新聞、書(shū)籍)上訓(xùn)練的模型表現(xiàn)更好。

下表顯示了我們所有最先進(jìn)的zero-shot結(jié)果。

(+)表示該項(xiàng)分?jǐn)?shù)越高越好。(-)表示分?jǐn)?shù)越低越好。

GPT-2在這些數(shù)據(jù)集中均獲得SOTA結(jié)果

GPT-2在Winograd Schema、LAMBADA以及其他語(yǔ)言建模任務(wù)上實(shí)現(xiàn)了state-of-the-art 的結(jié)果。

在各數(shù)據(jù)集上,四種不同參數(shù)大小模型的Zero-shot結(jié)果。

可以看到,WebText LMs可以很好地跨域和數(shù)據(jù)集傳輸,在zero-shot設(shè)置下將8個(gè)數(shù)據(jù)集中的7個(gè)的state of the art結(jié)果進(jìn)一步提升了。

在Penn Treebank和WikiText-2等只有100萬(wàn)到200萬(wàn)個(gè)訓(xùn)練token的小型數(shù)據(jù)集上,可以看到改進(jìn)很大。在用于測(cè)量長(zhǎng)期依賴(lài)關(guān)系的數(shù)據(jù)集上,如LAMBADA和the Children’s Book Test,也有很大的改進(jìn)。

我們的模型在One Billion Word Benchmark上仍然明顯比之前的工作要差。這可能是由于它既是最大的數(shù)據(jù)集,又有一些最具破壞性的預(yù)處理——1BW的句子級(jí)變換消除了所有的遠(yuǎn)程結(jié)構(gòu)。

其他任務(wù):?jiǎn)柎稹㈤喿x理解、摘要總結(jié)和翻譯

在其他語(yǔ)言任務(wù),如問(wèn)題回答、閱讀理解、摘要總結(jié)和翻譯,我們?cè)跊](méi)有對(duì)模型進(jìn)行任何微調(diào)的情況下獲得了極好的結(jié)果,只需要以正確的方式提示訓(xùn)練模型(下面的例子展示了具體做法和結(jié)果),但在這些任務(wù)還達(dá)不到專(zhuān)業(yè)系統(tǒng)的SOTA水平。

1、閱讀理解:回答關(guān)于給定段落的問(wèn)題

數(shù)據(jù)集:CoQA

示例

The 2008 Summer Olympics torch relay was run from March 24 until August 8, 2008, prior to the 2008 Summer Olympics, with the theme of “one world, one dream”. Plans for the relay were announced on April 26, 2007, in Beijing, China. The relay, also called by the organizers as the “Journey of Harmony”, lasted 129 days and carried the torch 137,000 km (85,000 mi) – the longest distance of any Olympic torch relay since the tradition was started ahead of the 1936 Summer Olympics.

After being lit at the birthplace of the Olympic Games in Olympia, Greece on March 24, the torch traveled to the Panathinaiko Stadium in Athens, and then to Beijing, arriving on March 31. From Beijing, the torch was following a route passing through six continents. The torch has visited cities along the Silk Road, symbolizing ancient links between China and the rest of the world. The relay also included an ascent with the flame to the top of *** on the border of Nepal and Tibet, China from the Chinese side, which was closed specially for the event.

Q: What was the theme?A: “one world, one dream”.

Q: What was the length of the race?A: 137,000 km

Q: Was it larger than previous ones?A: No

Q: Where did the race begin?A: Olympia, Greece

Q: Is there anything notable about that place?A: birthplace of Olympic Games

Q: Where did they go after?A: Athens

Q: How many days was the race?A: seven

Q: Did they visit any notable landmarks?A: Panathinaiko Stadium

Q: And did they climb any mountains?

A:

Target answers:unknownoryesModel answer:Everest

性能表現(xiàn):

在閱讀理解任務(wù)中,GPT-2比DrQA+PGNet要差,也遠(yuǎn)低于人類(lèi)水平

2、常識(shí)推理:解決含義模糊的代詞

數(shù)據(jù)集:Winograd Schema Challenge

示例

The trophy doesn’t fit into the brown suitcase because it is too large.

Correct answer:it = trophyModel answer:it = trophy

The trophy doesn’t fit into the brown suitcase because it is too small.

Correct answer:it = suitcaseModel answer:it = suitcase

性能表現(xiàn)

在常識(shí)推理任務(wù)中,GPT-2優(yōu)于SOTA

3、問(wèn)題回答

數(shù)據(jù)集:Natural Questions

示例

Who wrote the book the origin of species?

Correct answer:Charles DarwinModel answer:Charles Darwin

What is the largest state in the U.S. by land mass?

Correct answer:AlaskaModel answer:California

性能表現(xiàn):

在問(wèn)答任務(wù)中,GPT-2的表現(xiàn)遠(yuǎn)低于BERT

4、廣義語(yǔ)境的語(yǔ)言建模:預(yù)測(cè)一段文字的最后一個(gè)詞

數(shù)據(jù)集:LAMBADA

示例

Both its sun-speckled shade and the cool grass beneath were a welcome respite after the stifling kitchen, and I was glad to relax against the tree’s rough, brittle bark and begin my breakfast of buttery, toasted bread and fresh fruit. Even the water was tasty, it was so clean and cold. It almost made up for the lack of…

Correct answer:coffeeModel answer:food

性能表現(xiàn)

在廣義語(yǔ)境的語(yǔ)言建模任務(wù)中,GPT-2比SOTA的模型表現(xiàn)更好

5、寫(xiě)摘要:對(duì)新聞文章進(jìn)行總結(jié)

數(shù)據(jù)集:CNN和每日郵報(bào)數(shù)據(jù)集

示例文本:

Prehistoric man sketched an incredible array of prehistoric beasts on the rough limestone walls of a cave in modern day France 36,000 years ago.

Now, with the help of cutting-edge technology, those works of art in the Chauvet-Pont-d’Arc Cave have been reproduced to create the biggest replica cave in the world.

參考摘要:

Cave mimics famous Caverne du Pont-d’Arc in France, the oldest cave decorated by man and the best preserved. The replica contains all 1,000 paintings which include 425 such as a woolly rhinoceros and mammoths. Minute details were copied using 3D modelling and anamorphic techniques, often used to shoot widescreen images. The modern cave also includes replica paw prints of bears, bones and details preserved in the original cave.

機(jī)器編寫(xiě)的摘要:

The original site in Vallon-Pont-D’arc in Southern France is a Unesco World Heritage site and is the oldest known and the best preserved cave decorated by man. The replica cave was built a few miles from the original site in Vallon-Pont-D’Arc in Southern France. The cave contains images of 14 different species of animals including woolly rhinoceros, mammoths, and big cats.

性能表現(xiàn)

在摘要任務(wù)中,GPT-2的表現(xiàn)不如專(zhuān)門(mén)的系統(tǒng)

6、機(jī)器翻譯:把法語(yǔ)句子翻譯成英語(yǔ)

數(shù)據(jù)集:WMT-14 Fr-En

示例

法語(yǔ)句子:

Un homme a expliqué que l’opération gratuite qu’il avait subie pour soigner une hernie lui permettrait de travailler à nouveau.

參考翻譯:

One man explained that the free hernia surgery he’d received will allow him to work again.

模型的翻譯

A man told me that the operation gratuity he had been promised would not allow him to travel.

性能表現(xiàn)

在法語(yǔ)-英語(yǔ)機(jī)器翻譯任務(wù)中,GPT-2的表現(xiàn)不如專(zhuān)門(mén)的系統(tǒng)

我們認(rèn)為,由于這些任務(wù)是通用語(yǔ)言建模的子集,我們可以預(yù)期隨著計(jì)算力和數(shù)據(jù)量的增加,性能會(huì)進(jìn)一步提高。其他研究人員也發(fā)表了類(lèi)似的假設(shè)。我們還期望通過(guò)微調(diào)來(lái)提高下游任務(wù)的性能,盡管這需要進(jìn)行徹底的實(shí)驗(yàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15530
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26208
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23282

原文標(biāo)題:15億參數(shù)!史上最強(qiáng)通用NLP模型誕生:狂攬7大數(shù)據(jù)集最佳紀(jì)錄

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)的基礎(chǔ)是什么

    ,值得每一位企業(yè)運(yùn)營(yíng)者思考。 本文提供大數(shù)據(jù)平臺(tái)運(yùn)營(yíng)的三元素模型,旨在幫助企業(yè)管理層以全面的視角審視企業(yè)當(dāng)前正在建設(shè)的大數(shù)據(jù)體系,真正地實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)。 1. ? ?
    的頭像 發(fā)表于 12-23 16:07 ?245次閱讀

    GPT-5.1發(fā)布 OpenAI開(kāi)始拼情商

    OpenAI正式上線(xiàn) GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實(shí)測(cè)發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大
    的頭像 發(fā)表于 11-13 15:49 ?711次閱讀

    SimData:基于aiSim的高保真虛擬數(shù)據(jù)生成方案

    01前言在自動(dòng)駕駛感知系統(tǒng)的研發(fā)過(guò)程中,模型的性能高度依賴(lài)于大規(guī)模、高質(zhì)量的感知數(shù)據(jù)。目前業(yè)界常用的數(shù)據(jù)包括KITTI、nuScenes
    的頭像 發(fā)表于 11-07 17:35 ?5377次閱讀
    SimData:基于aiSim的高保真虛擬<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>生成方案

    NVIDIA推出多語(yǔ)種語(yǔ)音AI開(kāi)放數(shù)據(jù)模型

    新發(fā)布的 Granary 數(shù)據(jù)包含約 100 萬(wàn)小時(shí)音頻,可用于訓(xùn)練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型
    的頭像 發(fā)表于 09-23 15:34 ?975次閱讀

    小白學(xué)大模型:國(guó)外主流大模型匯總

    數(shù)據(jù)科學(xué)AttentionIsAllYouNeed(2017)https://arxiv.org/abs/1706.03762由GoogleBrain的團(tuán)隊(duì)撰寫(xiě),它徹底改變了自然語(yǔ)言處理(NLP
    的頭像 發(fā)表于 08-27 14:06 ?987次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:國(guó)外主流大<b class='flag-5'>模型</b>匯總

    OpenAI開(kāi)源模型登陸IBM watsonx.ai開(kāi)發(fā)平臺(tái)

    OpenAI 已向公眾發(fā)布兩款 AI 模型,允許開(kāi)發(fā)者和企業(yè)可自由下載、運(yùn)行并進(jìn)行定制。其中一款模型現(xiàn)已部署在 IBM watsonx.ai 開(kāi)發(fā)平臺(tái)上。
    的頭像 發(fā)表于 08-26 15:36 ?1026次閱讀

    模型時(shí)代,如何推進(jìn)高質(zhì)量數(shù)據(jù)建設(shè)?

    高質(zhì)量數(shù)據(jù),即具備高價(jià)值、高密度、標(biāo)準(zhǔn)化特征的數(shù)據(jù)集合。 在AI領(lǐng)域,高質(zhì)量數(shù)據(jù)地位舉足輕重,如同原油經(jīng)煉化成為汽油驅(qū)動(dòng)汽車(chē),海量原始
    的頭像 發(fā)表于 08-21 13:58 ?852次閱讀

    澎峰科技完成OpenAI最新開(kāi)源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開(kāi)源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶(hù)可一鍵啟用這顆“小而強(qiáng)悍”的新引擎,在本地享受企業(yè)級(jí) AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1417次閱讀

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)后一直顯示數(shù)據(jù)正在解析,為什么?

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)后一直顯示數(shù)據(jù)正在解析 數(shù)據(jù)有問(wèn)題,把數(shù)據(jù)
    發(fā)表于 08-13 07:16

    亞馬遜云科技現(xiàn)已上線(xiàn)OpenAI開(kāi)放權(quán)重模型

    客戶(hù)現(xiàn)可通過(guò)Amazon Bedrock和Amazon SageMaker AI使用OpenAI開(kāi)放權(quán)重模型,實(shí)現(xiàn)將先進(jìn)的開(kāi)放權(quán)重模型與全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上線(xiàn)Ope
    的頭像 發(fā)表于 08-06 19:29 ?857次閱讀

    OpenAI發(fā)布2款開(kāi)源模型

    OpenAI開(kāi)源兩款高性能權(quán)重語(yǔ)言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 發(fā)布
    的頭像 發(fā)表于 08-06 14:25 ?1035次閱讀

    將Whisper大型v3 fp32模型轉(zhuǎn)換為較低精度后,推理時(shí)間增加,怎么解決?

    openai/whisper-large-v3 FP32 模型轉(zhuǎn)換為 FP16、INT8 和 INT4。 推理所花費(fèi)的時(shí)間比在 FP32 上花費(fèi)的時(shí)間要多
    發(fā)表于 06-24 06:23

    瑞芯微模型量化文件構(gòu)建

    模型是一張圖片輸入時(shí),量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個(gè)輸入。該模型訓(xùn)練時(shí)數(shù)據(jù)只標(biāo)注
    發(fā)表于 06-13 09:07

    如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

    OpenAI API Key 獲取與使用詳解:從入門(mén)到精通 OpenAI 正以其 GPT 和 DALL-E 等先進(jìn)模型引領(lǐng)全球人工智能創(chuàng)新。其 API 為開(kāi)發(fā)者和企業(yè)提供強(qiáng)大的 AI
    的頭像 發(fā)表于 05-04 11:42 ?1.6w次閱讀
    如何獲取 <b class='flag-5'>OpenAI</b> API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過(guò)分詞化(Tokenize),轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù),以便提升訓(xùn)練效果。 ChatGPT發(fā)布后,當(dāng)代大
    的頭像 發(fā)表于 03-21 18:24 ?4334次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制預(yù)訓(xùn)練<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>