国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

深度學習自然語言處理 ? 來源:YeungNLP ? 2023-04-14 10:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在文章Firefly(流螢): 中文對話式大語言模型中,我們介紹了關于Firefly(流螢)項目的工作,并且分享了我們訓練的firefly-1b4模型。這是Firefly項目開源的第一個模型,雖然取得了還不錯的效果,但無論是訓練數據還是模型參數量,都還有很大的優化空間。

所以,在firefly-1b4實驗的基礎上,我們對訓練數據進行清洗,并且增加了數據量,得到210萬數據,并用它訓練得到了firefly-2b6模型。

在本文中,我們將對該模型進行分享和介紹。與firefly-1b4相比,firefly-2b6的代碼生成能力取得了較大的進步,并且在古詩詞生成、對聯、作文、開放域生成等方面也有不錯的提升。

firefly-1b4和firefly-2b6的訓練配置如下表所示。無論是訓練數據量,還是訓練步數,firefly-2b6都更加充分。

參數 firefly-1b4 firefly-2b6
batch size 16 8
learning rate 3e-5 3e-5
warmup step 3000 3000
lr schedule cosine cosine
max length 512 512
training step 90k 260k
訓練集規模 160萬 210萬

項目地址:

https://github.com/yangjianxin1/Firefly

模型權重鏈接見文末。

模型使用

使用如下代碼即可使用模型:

from transformers import BloomTokenizerFast, BloomForCausalLM
device = 'cuda'
path = 'YeungNLP/firefly-2b6'


tokenizer = BloomTokenizerFast.from_pretrained(path)
model = BloomForCausalLM.from_pretrained(path)
model.eval()
model = model.to(device)
text = input('User:')
while True:
    text = '{}'.format(text)
    input_ids = tokenizer(text, return_tensors="pt").input_ids
    input_ids = input_ids.to(device)
outputs=model.generate(input_ids,max_new_tokens=250,do_sample=True,top_p=0.7,temperature=0.35,
                             repetition_penalty=1.2, eos_token_id=tokenizer.eos_token_id)
    rets = tokenizer.batch_decode(outputs)
    output = rets[0].strip().replace(text, "").replace('', "")
    print("Firefly:{}".format(output))
    text = input('User:')

代碼生成

盡管在訓練集中,代碼的數據量不多,但令人驚喜的是,firefly-2b6已經具備一定的代碼生成能力。

在筆者的實測中,對于一些編程題,firefly-2b6生成的代碼可以做到無需修改,直接運行成功,并且得到正確的答案。下面將展示一些編程題的生成例子。

示例1:幫我用python寫一個冒泡排序算法

dee31870-d9b9-11ed-bfe3-dac502259ad0.png

示例2:用python實現一個快速排序算法,輸入為一個數組,返回排序好之后的數組。

deec2f32-d9b9-11ed-bfe3-dac502259ad0.png

示例3:用python寫一個二分查找算法。

defb67b8-d9b9-11ed-bfe3-dac502259ad0.png

示例4:寫一個函數,計算數組中偶數的個數,輸入為數組,輸出為偶數的個數。

df04d12c-d9b9-11ed-bfe3-dac502259ad0.png

示例5:用html生成一個教務管理系統的登錄界面,要求包含用戶名、密碼輸入框和登錄按鈕。

df0d21ce-d9b9-11ed-bfe3-dac502259ad0.png

該html代碼在瀏覽器中的效果如下圖:

df142ce4-d9b9-11ed-bfe3-dac502259ad0.png

其他樣例

同樣,我們也對文言文、古詩詞、文章生成等數據進行了清洗,提高數據的質量。實測下來,我們發現firefly-2b6的生成效果,確實提升了不少。

數據質量的優化,對文言文翻譯任務的提升,尤為明顯。在訓練firefly-1b4時,文言文數據為較短的句子對。但在訓練firefly-2b6時,我們使用了較長篇幅的文本對。

下面為一些實測的例子。

df1b8c28-d9b9-11ed-bfe3-dac502259ad0.png

df286d30-d9b9-11ed-bfe3-dac502259ad0.png

df352c5a-d9b9-11ed-bfe3-dac502259ad0.png

df3dc2e8-d9b9-11ed-bfe3-dac502259ad0.png

df457308-d9b9-11ed-bfe3-dac502259ad0.png

df4cf9ac-d9b9-11ed-bfe3-dac502259ad0.png

df5354dc-d9b9-11ed-bfe3-dac502259ad0.png

df59bf2a-d9b9-11ed-bfe3-dac502259ad0.png

df615a96-d9b9-11ed-bfe3-dac502259ad0.png

df6d2b96-d9b9-11ed-bfe3-dac502259ad0.png

文章小結

雖然firefly-2b6已經初步具備代碼生成能力,但由于訓練集中的代碼數據的數量不多,對于一些編程題,效果不如人意。我們覺得仍有非常大的優化空間,后續我們也將收集更多代碼數據,提升模型的代碼能力。

經過firefly-1b4和firefly-2b6兩個模型的迭代,能明顯感受到增加數據量、提升數據質量、增大模型參數量,對模型的提升非常大。

在前文中,我們提到,firefly-1b4在訓練數據量、訓練步數上都略有不足。為了探索"小"模型的效果上限,我們也將使用更多數量、更高質量的數據對firefly-1b4進行迭代。該項工作正在進行。

后續,我們也將在多輪對話、增大模型參數量、模型量化等方向上進行迭代,我們也將陸續開源訓練代碼以及更多的訓練數據。期待大家的意見和建議。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099
  • 代碼
    +關注

    關注

    30

    文章

    4967

    瀏覽量

    73960
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11310

原文標題:中文對話式大語言模型Firefly-2b6開源,使用210萬訓練數據

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數規模巨大(通常達到數十億甚至萬億級別)、使用海量數據訓練而成的人工智能模型
    的頭像 發表于 02-02 16:36 ?890次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    openDACS 2025 開源EDA與芯片賽項 賽題七:基于大模型的生成原理圖設計

    大賽分為初賽和決賽,均設獎項,總獎金40元。 (1)初賽:參賽隊伍按賽題報名,在規定的時間內提交參賽開源代碼、可執行代碼、測試數據和相關文檔材料,由賽題評審組評分。每個賽題評選出:優勝獎1-
    發表于 11-13 11:49

    NVIDIA ACE現已支持開源Qwen3-8B語言模型

    為助力打造實時、動態的 NPC 游戲角色,NVIDIA ACE 現已支持開源 Qwen3-8B語言模型(SLM),可實現 PC 游戲中的本地部署。
    的頭像 發表于 10-29 16:59 ?1223次閱讀

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型的一些經驗。我們采用jupyter notebook作為開發IDE,以TensorFlow2訓練框架,目標是
    發表于 10-22 07:03

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應用開發者都可以構建并部署帶有先進動畫的高精度角色。NVIDIA 開源 Audio
    的頭像 發表于 10-21 11:11 ?817次閱讀
    NVIDIA<b class='flag-5'>開源</b>Audio<b class='flag-5'>2</b>Face<b class='flag-5'>模型</b>及SDK

    米爾RK3576部署端側多模態多輪對話,6TOPS算力驅動30億參數LLM

    qwen2_5_vl_3b_vision_rk3576.rknn 模型(本文)。 核心作用:將輸入圖像壓縮為視覺 token 如 256 個視覺 token,直接輸入至大語言模型中,
    發表于 09-05 17:25

    OpenAI發布2開源模型

    OpenAI開源了兩款高性能權重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「
    的頭像 發表于 08-06 14:25 ?1028次閱讀

    ai_cube訓練模型最后部署失敗是什么原因?

    ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發表于 07-30 08:15

    【VisionFive 2單板計算機試用體驗】3、開源語言模型部署

    的系統和芯片架構。 3、拉取/運行大語言模型 ollama的使用方法和docker很像。 返回到ollama的編譯路徑,找到ollama可執行文件 執行 ./ollama run qwen3:0.6b
    發表于 07-19 15:45

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型和基于昇騰的模型
    的頭像 發表于 06-30 11:19 ?1331次閱讀

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態大語言模型 (MLLM),它們經過了“物理 AI 監督微調”和“物理 AI 強化學習”兩個階段
    的頭像 發表于 06-04 13:43 ?958次閱讀

    海思SD3403邊緣計算AI數據訓練概述

    模型,將模型轉化為嵌入AI模型模型升級AI攝像機,進行AI識別應用。 AI訓練
    發表于 04-28 11:11

    用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據

    ,使用PaddleNLP將FineWeb數據中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制
    的頭像 發表于 03-21 18:24 ?4299次閱讀
    用PaddleNLP為GPT-<b class='flag-5'>2</b><b class='flag-5'>模型</b>制作FineWeb二進制預<b class='flag-5'>訓練</b><b class='flag-5'>數據</b>集

    數據標注服務—奠定大模型訓練數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,
    的頭像 發表于 03-21 10:30 ?3285次閱讀

    摩爾線程支持阿里云通義千問QwQ-32B開源模型

    近日,阿里云團隊正式開源全新推理模型——通義千問QwQ-32B。摩爾線程在該模型發布后2小時內,迅速且高效完成了對千問QwQ-32
    的頭像 發表于 03-07 17:48 ?1353次閱讀
    摩爾線程支持阿里云通義千問QwQ-32<b class='flag-5'>B</b><b class='flag-5'>開源</b><b class='flag-5'>模型</b>