国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

聊聊小公司如何做大模型

深度學習自然語言處理 ? 來源:李文舉說@知乎 ? 2024-02-21 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在小公司做大模型,這個事情是可以的。

筆者在小公司,做了一年多的大模型。先列一下成績單:

開源了目前業界可能是分類較完整(50類)、數量較大(1100+萬)的SFT數據集:匠數科技大模型sft數據集[1]

通過SFT、DPO、RLHF等技術訓練了領域寫作模型。實測下來,在該領域寫作上,強于國內大多數的閉源模型。

如何在小公司做大模型,筆者總結,有如下幾點:

1、至少要有基礎的硬件條件。

如果雙卡3090都沒有,那是比較難的。實在沒有,可以說服老板,租機器訓練。

2、要有選擇跟進模型訓練、部署的最新進展,選主流、走大道。

技術迭代太快,人力有限的情況下,不可能什么都跟進的。比如部署,市面上的部署方案很多了,但是主流的就是vllm,所以,集中精力將vllm搞懂用好,就夠了,其他的可以了解,但不用重點關注。

再比如各種訓練技術,經過驗證好用的也就是那么幾個。看起來過于旁門左道的論文,可以先放放,讓子彈飛一會兒再說。提一點,DPO確實是小公司對齊訓練的福音。

3、要堅持開放交流,多加群。

圍繞llm,有很多社群,也有很多活動,可以選擇性參加,但是切記切記,不要過分沉溺其中,以為這樣就能緊跟時代前沿,掌握最新趨勢了。假裝學到很多,是很有害滴。記得前段時間不是有個什么架構,號稱取代transformer嗎?鋪天蓋地的宣傳,筆者當時也聽了作者的線上分享。現在呢?自己連個像樣的模型都沒搞出來。純純浪費太多精力。相信時間會證明一切。

4、要針對業務場景解決問題,不要陷入llm崇拜。

這種現象典型的就是不是llm的工作就提不起神,不想做。實話實說,這是病,得治。筆者根據業務問題需求,開源的cutword[2],就是為了替代jieba的新一代分詞工具,同時,ner類型和效果都是目前開源中一流的,也收獲了大家的認可。

解決問題才是關鍵。不能有了llm這個錘子,看什么都是釘子。具體問題具體分析的能力很重要。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5179

原文標題:如何在小公司做大模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    項目數據稀缺,算法開發怎么辦?

    拒之門外。但是對于小公司來說,一個項目,無論常不常見都是來自不易的機會,都需要好好把握。但不常見的項目,缺乏算法開發所需的大量數據,開發難度大大增加。針對這樣的項目
    的頭像 發表于 02-03 17:51 ?102次閱讀
    項目數據稀缺,算法開發怎么辦?

    什么?200+核心板能跑大模型?RV1126B大模型deepseek 1.5B已經能夠跑通啦!#大模型

    模型
    廣州靈眸科技有限公司
    發布于 :2025年12月02日 15:53:21

    小白必看:模型靜態測試效率翻倍——MXAM詳解#simulink #Siumlink模型測試

    模型
    北匯信息POLELINK
    發布于 :2025年10月24日 18:03:11

    聊聊FPGA中的TDC原理

    今天我們不談高大上的物理學,只聊聊如何在 FPGA 中,用一串加法器和 D 觸發器,“數清楚時間”——這就是時間數字轉換器(TDC)的魅力。
    的頭像 發表于 09-02 15:15 ?2103次閱讀
    <b class='flag-5'>聊聊</b>FPGA中的TDC原理

    詳解SPICE器件模型的分類

    今天我們來聊聊工程師在仿真時比較關注的問題。眾多的器件模型,我在仿真的時候到底應該怎么選擇一個器件的模型?我使用的這個器件模型的精確度夠嗎?我自己能否做一個器件
    的頭像 發表于 08-28 13:42 ?1462次閱讀
    詳解SPICE器件<b class='flag-5'>模型</b>的分類

    Gagne公司免費3D CAD工程波紋管模型下載

    新的在線工具使工程師能夠以原始CAD格式配置、下載和定制波紋管,從而節省時間并提高設計精度。 精密波紋管制造領域的領先企業Gagne公司推出了新的在線配置器,幫助工程師設計、定制和下載
    發表于 08-13 14:44

    機場設備智能運維管理大模型

    模型
    中設智控
    發布于 :2025年08月13日 11:27:24

    請問IR900路由器如何做端口映射?

    IR900 路由器如何做端口映射?
    發表于 08-06 08:29

    尋開發伙伴 一起搞細胞電阻儀,有興趣的朋友來聊聊

    尋開發伙伴 一起搞細胞電阻儀,有興趣的朋友來聊聊
    發表于 07-10 15:51

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發可以直接復用。 卡片配置文件:FA模型的卡片配置在config.json中
    發表于 06-06 08:10

    FA模型和Stage模型API切換概述

    API切換概述 FA模型和Stage模型由于線程模型和進程模型的差異,部分接口僅在FA模型下才能使用,針對這部分接口在SDK的接口中有FA
    發表于 06-06 06:29

    從FA模型切換到Stage模型時:module的切換說明

    module的切換 從FA模型切換到Stage模型時,開發者需要將config.json文件module標簽下的配置遷移到module.json5配置文件module標簽下,具體差異
    發表于 06-05 08:16

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數據讀寫功能都包含客戶端和服務端兩部分。 FA
    發表于 06-04 07:53

    KaihongOS操作系統FA模型與Stage模型介紹

    FA模型與Stage模型介紹 KaihongOS操作系統中,FA模型(Feature Ability)和Stage模型是兩種不同的應用模型
    發表于 04-24 07:27

    Vgg16模型無法使用模型優化器重塑怎么解決?

    Vgg16 模型無法使用模型優化器重塑。
    發表于 03-06 06:29