国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NanoGPT,最簡單最快的庫來了!

CVer ? 來源:量子位 ? 2023-01-30 11:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

訓練/微調中型GPT,最簡單最快的庫來了!

其名為:NanoGPT。

從名字就能看出是個“納米武器”,據作者介紹,該庫代碼簡單易讀,2個僅300行代碼的文件。

現已基于OpenWebText重現 GPT-2 (124M),在單個8XA100 40GB節點上,訓練時間為38小時。

值得一提的是,該庫發布者是前特斯拉AI總監,李飛飛高徒,Andrej Karpathy。此次發布的NanoGPT,正是他2年前MinGPT的升級版。

2596639a-a03e-11ed-bfe3-dac502259ad0.png

目前,此項目在GitHub所獲star已超6k,HackerNews上points也破千。

25a7757c-a03e-11ed-bfe3-dac502259ad0.png

毫無意外地,評論區一片“喜大普奔”。

有網友表示,這才是咱獨立開發者喜聞樂見的AI工具。

25b4b0ca-a03e-11ed-bfe3-dac502259ad0.png

還有人對其一直開放傳授分享知識的做法,表示感謝。

25bee7ac-a03e-11ed-bfe3-dac502259ad0.png

那么,這個最簡單最快的NanoGPT怎么用?

下面展開講講。

NanoGPT的打開方式

發布文件里面包含一個約300行的GPT模型定義(文件名:model.py),可以選擇從OpenAI加載GPT-2權重。

還有一個訓練模型PyTorch樣板(文件名:train.py),同樣也是300多行。

作者補充道,代碼并不難,很容易就能滿足大家需求——無論是從頭開始訓練新模型,還是基于預訓練進行微調(目前可用的最大模型為1.3B參數的GPT-2)。

25c96394-a03e-11ed-bfe3-dac502259ad0.png

一個訓練實例展示

上手前,需要提前準備好依賴項:

  • pytorch <3

  • numpy <3

  • pip install datasets for huggingface datasets <3 (如果你需要下載和預處理OpenWebText)

  • pip install tiktoken for OpenAI’s fast BPE code <3

  • pip install wandb for optional logging <3

  • pip install tqdm

先下載并標記OpenWebText數據集。

$cddata/openwebtext
$pythonprepare.py

這將創建一個train.bin和val.bin文件,將 GPT2 BPE token id放入一個序列中。

然后準備訓練,目前腳本默認是嘗試重現GPT-2,124M參數版本,但作者更鼓勵大家閱讀代碼查看文件頂部的設置及路徑

$pythontrain.py

如需使用 PyTorch 分布式數據并行 (DDP) 進行訓練,請使用 torchrun 運行腳本。

比如,要在4個GPU節點上運行,代碼如下:

$torchrun--standalone--nproc_per_node=4train.py

要從模型節點中采樣,就需將一些檢查點寫入輸入目錄中。

$pythonsample.py

據作者目前自己的測試,他在1 個 A100 40GB GPU 上訓練一晚,損失約為 3.74。如果是在4個GPU上訓練損失約為3.60。

如果在8個A100 40GB節點上進行約50萬次迭代,時長約為1天,atim的訓練降至約3.1,init隨機概率是10.82,已將結果帶到了baseline范圍。

觀察不同參數下訓練/驗證loss值如下:

25d5f28a-a03e-11ed-bfe3-dac502259ad0.png

至于如何基于新文本微調GPT,作者也簡介了方法。

先訪問data/shakespeare,查看prepare.py。

下載小型shakespeare數據集并將其呈現為train.bin和val.bin文件(方法前文已介紹),幾秒即可搞定。

運行一個微調示例,如下:

$pythontrain.pyconfig/finetune_shakespeare.py

該操作將加載配置參數,覆蓋config/finetune_shakespeare.py文件。

作者指出,一般情況下,基本操作就是從GPT-2檢查點初始化init_from,再正常訓練。

此外,如果手里只有macbook或一些“力量”不足的小破本,作者建議使用shakespeare數據集,然后在一個很小的網絡上運行。

先渲染數據;

$cddata/shakespeare
$pythonprepare.py

再用一個較小的網絡來運行訓練腳本。

比如下面就創建了一個小得多的Transformer(4層,4個head,64嵌入大小),只在CPU運行,在作者自己的蘋果AIR M1本上,每次迭代大約需要400毫秒。

$cd../..
$pythontrain.py--dataset=shakespeare--n_layer=4--n_head=4--n_embd=64--device=cpu--compile=False--eval_iters=1--block_size=64--batch_size=8

關于NanoGPT的后續計劃,Andrej Karpathy也在網上有所分享。

他將試圖讓NanoGPT更快復現其他GPT-2模型,然后將預訓練擴展至更大規模的模型/數據集中,此外,他還計劃改進下微調部分的文檔。

轉戰教育和開源的特斯拉前AI總監

熟悉Karpathy的圈內人肯定知道,他此前是李飛飛高徒,也長期致力于讓更多人接觸了解神經網絡和相關數據集。

2020年8月,他就曾發布NanoGPT前一代,MinGPT,同樣旨在讓GPT做到小巧、簡潔、可解釋,同樣主打300行代碼搞定。

Karpathy另一大身份是前特斯拉AI核心人物。

在馬斯克麾下,他歷任特斯拉高級AI主管、特斯拉自動駕駛AutoPilot負責人、特斯拉超算Dojo負責人、特斯拉擎天柱人形機器人負責人…

2022年7月,Karpathy Andrej離職,在業內引發不小討論。他表示,未來將花更多時間在AI、開源技術教育上,比如他做了一檔AI課程,現還在更新中。

此番發布NanoGPT同時,Karpathy還下場安撫了下催更黨——新視頻正從0開始構建,計劃2周內發布

25e5cb92-a03e-11ed-bfe3-dac502259ad0.png

最后附上:

NanoGPT項目:https://github.com/karpathy/nanoGPT

Andrej Karpathy課程:https://karpathy.ai/zero-to-hero.html


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52111
  • 代碼
    +關注

    關注

    30

    文章

    4968

    瀏覽量

    73977
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    16873

原文標題:300行代碼搞定!特斯拉前AI總監發布:NanoGPT,最簡單最快的庫來了!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Oracle數據ASM實例無法掛載的數據恢復案例

    一個Oracle數據故障表現為ASM磁盤組掉線,ASM實例無法掛載(mount)。數據管理員自行進行簡單修復,未能成功,隨后聯系北亞數據恢復中心恢復數據。
    的頭像 發表于 02-24 15:19 ?76次閱讀
    Oracle數據<b class='flag-5'>庫</b>ASM實例無法掛載的數據恢復案例

    艾體寶干貨 | 多模型數據解決的到底是什么問題?

    在數據選型的專業討論中,“多模型數據”已逐步成為熱點概念,但行業對其認知仍存在偏差——要么被曲解為“無所不能的萬能數據”,要么被簡化為“圖數據與文檔數據
    的頭像 發表于 02-03 16:08 ?317次閱讀

    基于NVIDIA Isaac開發的機器人調酒師ADAM亮相國際賽場

    基于 NVIDIA Isaac 開發的機器人調酒師 ADAM,為維加斯黃金騎士隊的冰球粉絲帶來了身臨其境的未來式服務體驗。
    的頭像 發表于 12-24 10:05 ?442次閱讀

    【乾芯QXS320F開發板試用】IQMath使用

    進路徑 這里定義的#define GLOBAL_IQ 24所以使用24位IQ 先來了解下最簡單的把浮點數轉換成IQ格式的函數_IQ 其實就是把浮點數乘上2^23 先來簡單寫個弧度轉正弦值功能驗證,最后
    發表于 12-09 17:36

    物聯網短信實戰:SMS收發功能速成來啦!

    在物聯網開發中,短信收發是常見需求。本文帶來一場技術實戰,借助SMS,10分鐘內即可實現物聯網短信的收發。通過簡單易懂的教程,讓你快速掌握這項功能,為物聯網項目賦能。 ? SMS核心主要支持如下
    的頭像 發表于 10-21 17:09 ?842次閱讀
    物聯網短信實戰:SMS<b class='flag-5'>庫</b>收發功能速成來啦!

    告別代碼迷宮!exgnss擴展讓GNSS定位開發秒變簡單

    還在為GNSS定位的復雜代碼頭疼?exgnss擴展為你掃清障礙!它提供簡潔的接口和高效的工具鏈,從信號捕獲到坐標解析一氣呵成,開發效率直線飆升。 一、exgnss的三種應用模式 exgnss
    的頭像 發表于 09-10 17:23 ?806次閱讀
    告別代碼迷宮!exgnss擴展<b class='flag-5'>庫</b>讓GNSS定位開發秒變<b class='flag-5'>簡單</b>

    求助,關于NanoEdge AI Studio生成的交叉編譯器版本疑問求解

    20231009\", 那么問題來了,怎么在NanoEdge AI Studio設定交叉編譯器呢,比如設置為armcc、armclang、iccram,因為我需要將加到keil或者iar工程里面。 看樣子這個軟件生成的是a
    發表于 08-08 07:25

    數據數據恢復—服務器異常斷電導致Oracle數據故障的數據恢復案例

    Oracle數據故障: 某公司一臺服務器上部署Oracle數據。服務器意外斷電導致數據報錯,報錯內容為“system01.dbf需要更多的恢復來保持一致性”。該Oracle數據
    的頭像 發表于 07-24 11:12 ?643次閱讀
    數據<b class='flag-5'>庫</b>數據恢復—服務器異常斷電導致Oracle數據<b class='flag-5'>庫</b>故障的數據恢復案例

    遠程訪問內網MySQL數據?這個方案更簡單

    各位開發者朋友們,是否還在為無法隨時隨地訪問內網MySQL數據而煩惱?今天分享一個超實用的方法,通過容器部署 MySQL 結合 ZeroNews 內網穿透,讓你在任何地方都能安全訪問和管理數據
    的頭像 發表于 07-04 18:06 ?871次閱讀
    遠程訪問內網MySQL數據<b class='flag-5'>庫</b>?這個方案更<b class='flag-5'>簡單</b>

    數據數據恢復—SQL Server數據被加密如何恢復數據?

    SQL Server數據故障: SQL Server數據被加密,無法使用。 數據MDF、LDF、log日志文件名字被篡改。
    的頭像 發表于 06-25 13:54 ?675次閱讀
    數據<b class='flag-5'>庫</b>數據恢復—SQL Server數據<b class='flag-5'>庫</b>被加密如何恢復數據?

    AD封裝安裝教程

    電子發燒友網站提供《AD封裝安裝教程.pdf》資料免費下載
    發表于 06-19 15:35 ?3次下載

    自己寫:構建庫函數雛形

    實際上,構建固件是一件費時費力的事情,并且它對開發者對芯片的熟悉程度有一定的要求。甚至,當一個固件的封裝程度很高時,想要閱讀并理解該固件的底層代碼也會變成一件有較高難度的事情。瑞薩RA系列
    的頭像 發表于 06-19 11:19 ?1157次閱讀
    自己寫<b class='flag-5'>庫</b>:構建庫函數雛形

    所以你做出來了

    所以你做出來了嗎,求
    發表于 06-16 01:43

    PCB標準封裝文件

    PCB標準封裝文件
    發表于 05-22 17:43 ?10次下載

    【Java開發必備】IntelliJ IDEA數據功能進階指南:9個JetBrains工程師私藏技巧

    想提升涉及數據的Java開發效率?IntelliJ IDEA為您帶來了9大進階招式!無論您是剛剛啟動新項目,還是正在深入優化現有系統,這些實用技巧都將助您事半功倍。
    的頭像 發表于 05-21 17:04 ?759次閱讀
    【Java開發必備】IntelliJ IDEA數據<b class='flag-5'>庫</b>功能進階指南:9個JetBrains工程師私藏技巧