伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

jf_23871869 ? 來源:jf_23871869 ? 作者:jf_23871869 ? 2025-03-21 18:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:算力魔方創始人/英特爾創新大使劉力

《用PaddleNLP在4060單卡上實踐大模型預訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型的預訓練流程,使用PaddleNLP將FineWeb數據集中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制數據,以便提升訓練效果。

ChatGPT發布后,當代大語言模型(LLM)的訓練流程基本遵循OpenAI提出的”預訓練+后訓練”的訓練范式。

預訓練:將海量知識通過無監督學習的方式壓縮到大語言模型的權重中,使其具備基本的通用能力,能預測下一個分詞。預訓練得到的模型叫基礎大模型。

后訓練:通過監督微調(SFT)和強化學習(RL)等方式,讓大模型按人類專家的方式輸出知識,使其具備專業能力。

一,PaddleNLP簡介


PaddleNLP是一款基于飛槳深度學習框架的大語言模型(LLM)開發套件,支持在多種硬件上進行高效的大模型訓練、無損壓縮以及高性能推理。PaddleNLP 具備簡單易用和性能極致的特點,致力于助力開發者實現高效的大模型產業級應用。

wKgZPGfcAnGAZJZbAAB0V6tIGJQ893.png

Github: https://github.com/PaddlePaddle/PaddleNLP


使用PaddleNLP實現訓練文本分詞化僅需三行代碼,如下所示:

# 導入PaddleNLP庫中的GPTTokenizer類
from paddlenlp.transformers import GPTTokenizer
# 使用預訓練的"gpt2-en"模型初始化GPTTokenizer,并設置bos_token為空字符串
tokenizer = GPTTokenizer.from_pretrained("gpt2-en", bos_token="")
# 打印使用tokenizer對字符串"Hello, world!"進行編碼后的結果
print(tokenizer.encode("Hello, world!"))

進入:

https://tiktokenizer.vercel.app/?model=gpt2


可以對比PaddleNLP的GPTTokenzier對“Hello,World!”的分詞結果。

二,FineWeb簡介


FineWeb是由Hugging Face團隊于2024年推出的超大規模語言模型預訓練數據集。作為目前最大的開源預訓練數據集之一,FineWeb數據集包含來自 CommonCrawl 的超過 15T 經過清理和重復數據刪除的英文網絡數據。其高質量的數據,有助于大語言模型穩定平穩的完成預訓練,而不會發生由重復低質數據引發的Loss Spike。

Link: https://huggingface.co/datasets/HuggingFaceFW/fineweb

本文使用FineWeb數據集的sample-10BT子集作為GPT-2的預訓練數據集。

三,開發環境準備


本文的開發環境依賴PaddlePaddle、PaddleNLP、datasets和tqdm。

首先,請安裝PaddlePaddle框架:

pip install paddlepaddle


然后,安裝其它依賴項:

pip install paddlenlp datasets tqdm


四,代碼實現


用PaddleNLP將FineWeb數據集進行分詞化處理,然后轉換為大語言模型能直接使用的二進制數據的關鍵步驟有:

1.從HuggingFace Hub加載fineweb數據集的10B樣本子集;

2.使用train_test_split按比例分割訓練集和驗證集;

3.對每個文本進行編碼,添加結束符eot_token,返回ids和len;

4.為訓練集和驗證集分別創建.bin文件,使用np.memmap高效寫入。

關鍵代碼如下所示:

wKgZPGfcAsWAHLv_AACNkvpFFuo041.png

完整范例代碼請參見:

https://aistudio.baidu.com/projectdetail/8798975


運行成功后,可以得到如下兩個文件:

wKgZPGfcAtCALsZgAAA-5MiqMvw838.png

五,總結


PaddleNLP好學易用,借助PaddleNLP的GPTTokenizer很容易實現FineWeb數據集的分詞化,并轉換為方便大模型預訓練的二進制數據!

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內容請關注“算力魔方?”!

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 二進制
    +關注

    關注

    2

    文章

    809

    瀏覽量

    43126
  • 數據集
    +關注

    關注

    4

    文章

    1238

    瀏覽量

    26245
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    16945
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    MAXIM DS1672 I2C 32位二進制計數器RTC:特性與設計詳解

    的是MAXIM公司的DS1672 I2C 32位二進制計數器RTC,它具有諸多出色特性,能滿足多種應用場景的需求。 文件下載: DS1672.pdf 1. 概述 DS1672成了32位計數器和電源監控功能
    的頭像 發表于 03-24 15:25 ?127次閱讀

    深入解析DS1371:一款功能強大的I2C 32位二進制計數器看門狗時鐘

    MAXIM)推出的DS1371 I2C 32位二進制計數器看門狗時鐘,了解它的特點、應用以及詳細的技術參數。 文件下載: DS1371.pdf 一、產品概述 DS1371是一款專門設計用于連續以秒單位計時的32位
    的頭像 發表于 03-24 10:10 ?139次閱讀

    CDx4HC283與CDx4HCT283:4位二進制全加器的技術解析與應用指南

    CDx4HC283與CDx4HCT283:4位二進制全加器的技術解析與應用指南 在數字電路設計領域,加法器是實現數值運算的基礎元件之一。今天我們要深入探討的CDx4HC283和CDx4HCT283
    的頭像 發表于 01-30 17:20 ?734次閱讀

    探索CD54/74AC283與CD54/74ACT283:高效4位二進制加法器的奧秘

    探索CD54/74AC283與CD54/74ACT283:高效4位二進制加法器的奧秘 在電子設計領域,加法器是實現數字運算的基礎元件之一。今天,我們將深入研究德州儀器(Texas
    的頭像 發表于 01-28 16:50 ?539次閱讀

    CDx4HC283和CDx4HCT283:高速CMOS邏輯4位二進制全加器的詳細解析

    CDx4HC283和CDx4HCT283:高速CMOS邏輯4位二進制全加器的詳細解析 在電子設計領域,加法器是數字電路中最基本的運算單元之一,用于實現二進制數的加法運算。今天要給大家介紹
    的頭像 發表于 01-19 14:50 ?410次閱讀

    解析CD54/74AC283與CD54/74ACT283:4位二進制加法器的卓越之選

    解析CD54/74AC283與CD54/74ACT283:4位二進制加法器的卓越之選 在電子設計領域,加法器是實現數字運算的基礎組件。今天我們要深入探討的是德州儀器(Texas
    的頭像 發表于 01-08 16:55 ?678次閱讀

    深入剖析CD54/74AC283與CD54/74ACT283:高性能4位二進制加法器

    /74ACT283這兩款4位二進制加法器,它們來自Harris Semiconductor,電子工程師們提供了高性能、低功耗的解決方案。 文件下載: CD74AC283M.pdf 器件概述 CD54
    的頭像 發表于 01-04 17:25 ?844次閱讀

    CD54/74AC283與CD54/74ACT283:高性能4位二進制加法器的全面解析

    CD54/74AC283與CD54/74ACT283:高性能4位二進制加法器的全面解析 在電子設計領域,加法器是一種基礎且關鍵的數字電路,廣泛應用于各種計算和數據處理系統中。今天,我們要深入探討
    的頭像 發表于 12-31 17:10 ?1465次閱讀

    SN54F283與SN74F283:4位二進制全加器的技術剖析

    SN54F283與SN74F283:4位二進制全加器的技術剖析 在數字電路設計中,加法器是最基礎且關鍵的組件之一。今天我們要深入探討的是德州儀器(TI)的SN54F283和SN74F283這兩款4位
    的頭像 發表于 12-29 16:20 ?812次閱讀

    德州儀器4位二進制全加器:SN54/74283系列深度解析

    德州儀器4位二進制全加器:SN54/74283系列深度解析 在數字電路設計領域,加法器是構建復雜算術邏輯單元的基礎組件。德州儀器(TI)的SN54/74283系列4位二進制全加器憑借其快速進位
    的頭像 發表于 12-23 15:45 ?756次閱讀

    二進制查找(Binary Search)介紹

    二進制查找(Binary Search)用于在已排序的數組中執行二進制查找的函數。 int binary_search(int arr[], int size, int target
    發表于 12-12 06:54

    如何在vivado上基于二進制碼對指令運行狀態進行判斷

    a0 -8 例 獲取相應的二進制碼將其轉換為16進制導入vivado,方法就是將代碼文件修改為.verilog文件并存入蜂鳥的tb文件夾,在vivado的tb中修改測試用例路徑即可進行仿真。 得到
    發表于 10-24 06:46

    在vivado上基于二進制碼對指令運行狀態進行判斷

    a0 -8 例 獲取相應的二進制碼將其轉換為16進制導入vivado,方法就是將代碼文件修改為.verilog文件并存入蜂鳥的tb文件夾,在vivado的tb中修改測試用例路徑即可進行仿真。 得到結果
    發表于 10-24 06:31

    如何將圖像文件轉換為二進制文件?

    如何將圖像文件轉換為二進制文件
    發表于 09-05 08:28

    二進制數據處理方法分享

    時,我們如何去解析數據并且應用它們。本次的技術分享文章,我們就從如何傳輸數據和解析二進制數據來一步一步剝絲抽繭,搞清楚他的運作原理和二進制
    的頭像 發表于 07-30 15:41 ?2522次閱讀
    <b class='flag-5'>二進制</b><b class='flag-5'>數據</b>處理方法分享