国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

揭秘ChatGPT的優秀性能:新訓練范式下的啟示與發展預測

SDNLAB ? 來源:SDNLAB ? 2023-03-28 10:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ChatGPT應該是近期當之無愧的“炸子雞”,不論是因它掀起的微軟、谷歌、百度等在AI領域血雨腥風、或明或暗的“狂飆”,抑或是微軟將GPT 4植入Office引起的打工人們的恐慌或狂歡,有關ChatGPT的新聞不絕于耳。那么,為什么在一眾AI技術和產品中,ChatGPT能殺出重圍引發海量關注呢?“不是我優秀,全靠同行襯托”,其優秀的性能表現將AI的發展帶入了一個新階段。那么,它是如何實現的呢?

本文作者對ChatGPT的版本發展和特點進行了梳理,發現明明更擅長RL(強化學習)的ChatGPT技術團隊,在GPT 3中融入了情景學習,并在后續的InstructGPT/ChatGPT中利用人類反饋優化模型,在參數數量減少的情況下,通過語言模型的預訓練、獎勵模型訓練、利用RL方式微調LM等新訓練范式,使得ChatGPT模型的性能和質量得到了極大提升,并由此對機器學習的研究方法有了新的啟示:機器學習技術的交叉和融合、數據的價值、ChatGPT的影響與挑戰等。

在ChatGPT處在風口浪尖的當下,希望讀者朋友們不論是進行技術研究還是投資布局,在閱讀本文后都會有所收獲。

前 言

經過了近十年的高速發展和擴張,數據驅動的人工智能模型已經廣泛應用于計算機視覺(Computer Vision , CV)、自然語言處理(Natural Language Processing, NLP)、智能控制等諸多領域。為了獲得更強的模型性能,工程師們不斷增加模型的參數、壓榨訓練設備的性能極限,模型結構也經歷著不斷迭代和更新。隨著對算法模型性能的提升逐漸趨于穩定,業界對人工智能(Artificial Intelligence, AI)快速發展和擴張的熱情也逐漸冷卻,L4級別的自動駕駛和NLP問答機器人等領域發展均遇到瓶頸。在此背景下,ChatGPT的出現成為人工智能領域的一個全新亮點,為人工智能的發展注入動力。

ChatGPT是OpenAI公司提出的一種多模態大型語言模型(Large Language Model, LLM)。一經推出,憑借著出色的性能立刻吸引了全球無數用戶的目光。

OpenAI公司發展的主要事件如下:

2015年12月11日,OpenAI成立;

2016年4月27日,發布OpenAI Gym Beta;

2017年7月20日,發布Proximal Policy Optimization (PPO)算法;

2019年7月22日,微軟投資OpenAI并與其合作;

2021年1月5日,研究從文本創建圖像神經網絡DALL-E;

2022年12月1日,ChatGPT發布;

2023年2月2日,OpenAI宣布推出ChatGPT Plus訂閱服務。

可見,OpenAI是一家以強化學習(Reinforcement Learning, RL)立足,并逐漸在AIGC(AI Generated Content)領域深耕的公司。OpenAI構建的Gym庫是常用于測試RL算法性能的環境庫,而PPO算法憑借優秀的性能以及泛用性,成為了RL算法的基準。一個在RL領域有深厚積淀的公司推出了ChatGPT,而不是專職研究NLP的團隊,這是非常有趣的事。從之前發布的論文看,該方法的主要研究人員中,甚至很多作者更擅長RL領域。

ChatGPT的由來

在ChatGPT問世之前,OpenAI公司已經推出了3代GPT模型以及InstructGPT模型,它們的公布時間、主要研究點和參數規模如表1所示[1]。

表1 GPT系列模型指標

00b06ae0-ccde-11ed-bfe3-dac502259ad0.png

從ChatGPT的發展歷程可見,從GPT3開始,它加入了情景學習的要素,使得模型的輸出可以聯系前后文的語義和語境,產生的結果性能更符合邏輯。而在InstructGPT中加入了人類反饋,成為了GPT系列模型性能取得突破的關鍵因素,即以RL方式依據人類反饋優化原模型,這就是Reinforcement Learning from Human Feedback。

對于數據驅動的語言模型(Language Model, LM),常規的方法是以預測下一個單詞的方式和損失函數來建模,通過降低損失函數使模型預測的準確度提高。這種方式的目標是最小化損失函數,與用戶希望獲得的體驗在優化方向上并不完全一致。因此,用人類反饋作為性能衡量標準調整模型,使模型的輸出與人類價值對齊,取得了很好的效果。兩種思路的對比如圖1所示。

00c99736-ccde-11ed-bfe3-dac502259ad0.png

| 圖1 對于機器學習模型追求目標的不同

因此,在GPT3的基礎上,InstructGPT由于加入了人類反饋,取得了驚人的性能。從GPT1到GPT3,模型的規??焖贁U張,參數量從1.17億飆升至1750億[1]。但規模的擴張沒有帶來性能的跨代提升。為何InstructGPT僅用了不到GPT3百分之一的參數量,卻取得了更好的效果,RLHF發揮了巨大的作用。

*由于ChatGPT的算法細節官方還沒有公開,考慮到InstructGPT使用的方法和ChatGPT接近,下面的討論和應用的文獻以InstructGPT為主。

優秀的性能從何而來

ChatGPT/InstructGPT的模型訓練主要分為三個部分[2][3]

語言模型的預訓練

原始的語言模型是不需要嚴格意義上的標簽的,可以從數據庫中抽取樣本進行訓練。在ChatGPT/InstructGPT中,OpenAI雇傭了40位專家對從數據集抽取的提示(prompt)編寫了理想的輸出,即進行了數據編寫及標記數據,制作了包含11295個樣本的監督學習訓練集[4],如圖2所示。利用該數據集對原始模型進行了監督訓練,得到了SFT(supervised fine-tune)模型。

010cab3e-ccde-11ed-bfe3-dac502259ad0.png

| 圖2 InstructGPT的數據集數量

獎勵模型訓練

利用預訓練的SFT模型,可以根據不同的prompt輸出回答了。但生成的回答不一定都能讓用戶滿意。解決該問題的一個合理的思路是請標記者(labeler)對模型的輸出進行打分,給更優秀的答案賦予更高的分值,以引導模型產生更合適的回答。但面臨著以下問題:1.labeler很難一直跟上模型訓練的過程;2.人工成本高昂;3.分值容易受到labeler主觀因素影響。因此,考慮構建一個獎勵模型。

首先針對同一個prompt利用模型產生多個結果,labeler僅需要對生成的結果按照從好到壞的順序排序即可。該方法一方面可以降低labeler的工作量,另一方面,對于直接打分存在主觀影響,給結果排序更可能獲得一個相對收斂的結果。再引入Elo排位系統,將針對結果的排序轉換成數值。該數值就以標量的形式表示了不同回答的好壞。也就構建起了《samples, reward》的訓練樣本。利用這些訓練樣本即可訓練得到獎勵模型。

利用RL方式微調LM

將該微調(fine-tune)任務描述為一個RL問題。InstructGPT是利用PPO算法微調語言模型。首先將一個prompt輸出微調的LM模型和輸出的SFT模型。微調的LM模型是根據RL策略產生的輸出,并根據步驟2的獎勵模型產生獎勵值,以評價輸出結果的好壞。根據PPO算法的原理,除了需要以獲得更多獎勵的方向進行微調LM模型的訓練,還要計算該微調模型和SFT模型的KL散度,如下式所示[4]。

01300890-ccde-11ed-bfe3-dac502259ad0.png

式中,期望的第一項 即為獎勵函數反饋的獎勵值。第二項 為微調模型和SFT模型的KL散度,該懲罰項有助于保證模型輸出合理連貫的文本片段。如果沒有該懲罰項,優化可能會產生亂碼的文本。第三項 是在預訓練模型上求的期望,提升模型的泛化能力,防止模型僅關注當前任務。隨著RL策略的更新,由于有獎勵模型的引導,微調LM模型的輸出為逐漸向人類評分較高的結果靠近。

*對于該訓練過程,用戶還可以繼續將這些輸出與模型的早期版本進行排名,目前還沒有論文討論這一點。這引入了RL策略和獎勵模型演變的復雜動態,是一個復雜而開放的研究問題。

ChatGPT的思考和啟示

ChatGPT的成功在給用戶和研究者帶來震撼的同時,也將目前機器學習的研究方法清晰的展現在人們面前。

機器學習技術的交叉和融合

016912fc-ccde-11ed-bfe3-dac502259ad0.png

| 圖3 機器學習技術融合

傳統上,機器學習可以分成監督學習、非監督學習和強化學習。非監督學習專注以挖掘數據之間的規律和價值。監督學習建立起數據和標簽之間的映射關系,即 。強化學習則是可以根據當前狀態進行智能決策。算法的進步不僅是在各自的領域深挖和探索,分支之間的技術融合也可以迸發出強大的性能提升。2013年,DeepMind提出用神經網絡取代RL中的價值表格,可看作是利用深度學習(Deep Learning, DL)對RL的優化方法。該方法解決了價值表格由于表達能力不足無法適用于具有高緯度離散狀態空間和連續動作空間的RL問題,極大地擴展了RL的研究范圍和使用場景,開拓了深度強化學習(Deep Reinforcement Learning, DRL)這一領域[5]。該成果在后續優化后于2015年發表在Nature上[6]。而ChatGPT則是利用RL算法優化了DL模型的一個很好的例子。目前,利用RL進行fine-tune已經出現成為全新的模型訓練范式的趨勢。可以預見,該范式未來會廣泛應用于其他研究領域。ChatGPT是否會像DQN那樣,成為新的訓練范式促進DL發展的標志,我們拭目以待。

*根據2023年2月26日的新聞,google計劃將利用RL微調模型的訓練范式引入到CV。

數據的價值

傳統上對于深度模型的研究,無論是設計更巧妙的模型結構、或者是標記更多的訓練樣本、再或者是擴大模型參數期望大力出奇跡,都在“大”或者“多”的方向深挖。ChatGPT讓我們看到了“質”的重要性。

0182f302-ccde-11ed-bfe3-dac502259ad0.png

| 圖4 分階段的模型訓練方法

OpenAI公開表示將模型和人類意圖對齊的投資,相較于訓練更大的模型,投入產出比更高更好。就像前文所說,GPT3的參數有1750億個,而InstructGPT的參數僅有13億。數據量大幅縮減的同時,反而取得了碾壓的性能優勢。這是否意味著,目前超大規模的模型在“體型”方面是否已經足夠應付目前研究的任務,而真正缺少的是高質量的關鍵數據呢?

RLHF的訓練范式被越來越多的研究驗證,對于模型性能的提升是空前的。那么未來針對不同的問題構建fine-tune的數據集就成為了關鍵。如圖5所示。傳統的、大量的數據集可能構建起了模型的初始性能,在此基礎上需要專家樣本對其進行引導,這部分數據的量遠小于初始的數據集,但對模型取得的效果卻遠超簡單的增加原始數據集的效果。針對任務,如何構建高質量的fine-tune數據也是需要解決的問題。

0199b63c-ccde-11ed-bfe3-dac502259ad0.png

| 圖5 不同質量的數據支撐模型訓練

ChatGPT的影響與挑戰

在NovaAI問世之初,人們就見識到了AIGC的威力。如今,ChatGPT已經出現在我們的面前,高超的性能讓很多行業的從業者感受到了巨大的壓力。未來,GPT4的公布和投入使用,將會很大程度地影響當前的業界態勢。

工作效率的提升

狹義上說,ChatGPT直接改變了文本處理、簡單的代碼編寫、資料查詢等生產和生活方式。微軟已經將ChatGPT融合進bing搜索引擎,直接對google和baidu等搜索引擎取得了絕對的優勢;將ChatGPT融合進office,提升工作效率。一些工作組也在嘗試制作插件融合進集成開發環境(Integrated Development Environment, IDE),輔助程序員更快的完成項目代碼等。

廣義上說,受到ChatGPT啟發,未來在更多的領域將產生性能直逼人類專家的AI模型和算法。ChatGPT是將RLHF應用與LLM的成功案例,但相信利用此方法產生高性能模型的探索會迎來快速增長,未來將會在各領域涌現。工具性能的差距某種程度上會影響社會信息化的發展進度,掌握未來核心算法和數據也是國內研究者需要面臨的問題。

用戶數據的獲取

ChatGPT在上線之后僅5天就實現了獲得超過100萬用戶的里程碑。這個速度遠超twitter、FB等知名應用,大量的用戶為ChatGPT帶來了海量的數據。在大數據的時代,先入場往往就能夠吸引更多的數據。但從目前的研究看,fine-tune數據是提升模型性能的關鍵,而這些數據往往需要具備專業知識的專家標記。大量的用戶數據由于質量參差不齊,是否會使GPT的后續模型性能越來越優秀,并逐漸成為該領域獨樹一幟的存在,也是一個值得觀察和研究的問題。

在生成模型之上的新范式

ChatGPT依然是一個文本生成模型,即使利用RLHF進行了和人類價值的對齊,但依然無法和人類輸出的結果在任何情形下都一樣。例如,當向ChatGPT詢問某領域或者某會議的論文時,輸出的結果從形式上看有模有樣。但如果查閱,會發現很多文章是ChatGPT杜撰的。因此,ChatGPT目前只學到了“形似”。但將ChatGPT和bing搜索引擎融合的new bing一定程度上克服了這個問題。因為相較于ChatGPT的生成,new bing是搜索+生成的模型,而搜索得到的結果是客觀存在的。因此,當使用new bing獲取某領域或者某會議的文章時,產生的結果是真實存在的。這在一些領域可能更有使用價值。

國內缺少可對標的產品

ChatGPT帶來的工作效率的提升是顯而易見的,并且當該模型投入商業化后,能夠取得的收益相信也是非常可觀的。目前國內還沒有性能可與之對標的產品。該模型訓練不僅需要高昂的成本和時間,對于fine-tune的構建和后續的優化也非常重要。我們期待能夠媲美GPT系列的國內語言模型的問世。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136954
  • 大數據
    +關注

    關注

    64

    文章

    9063

    瀏覽量

    143760
  • ChatGPT
    +關注

    關注

    31

    文章

    1598

    瀏覽量

    10269

原文標題:揭秘ChatGPT的優秀性能:新訓練范式下的啟示與發展預測

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    UPS設備性能揭秘:從類型到運維,讀懂這篇就夠了

    支撐?今天我們就深入拆解UPS設備的性能密碼,從類型、參數到運維,全方位揭秘其核心競爭力。一、性能基石:不同類型UPS的核心差異UPS的性能上限,從類型選擇時就已
    的頭像 發表于 01-20 09:25 ?1137次閱讀
    UPS設備<b class='flag-5'>性能</b><b class='flag-5'>揭秘</b>:從類型到運維,讀懂這篇就夠了

    labview如何實現數據的采集與實時預測

    現有以下問題:labview可以實現數據的采集以及調用python代碼,但如何將這兩項功能集成在一個VI文件里,從而實現數據的采集與實時預測。現有條件如下:已完成數據的采集系統,python中的預測代碼也已經訓練封裝完成。
    發表于 12-03 21:13

    成都華微榮獲2025年上市公司可持續發展優秀實踐案例

    近日,中國上市公司協會發布2025年上市公司可持續發展最佳及優秀實踐案例,成都華微憑借在技術創新、產業擔當與低碳賦能等領域的卓越表現成功入選可持續發展優秀實踐案例,這是行業對公司可持續
    的頭像 發表于 11-25 11:32 ?770次閱讀

    蜂鳥E203簡單分支預測的改進

    是最簡單的靜態分支預測,其預測的命中率并不是很高,因此流水線常常需要因為沖刷而浪費很多周期,導致CPU的性能下降。因此,針對題目通過對E203微架構進行優化提升處理器性能的要求,我們想
    發表于 10-24 07:45

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    模型。 我們使用MNIST數據集,訓練一個卷積神經網絡(CNN)模型,用于手寫數字識別。一旦模型被訓練并保存,就可以用于對新圖像進行推理和預測。要使用生成的模型進行推理,可以按照以下步驟進行操作: 1.
    發表于 10-22 07:03

    基于全局預測歷史的gshare分支預測器的實現細節

    的地址位數,雖然BHR位數越多,分支預測器的準確度越高,但正確率提高的代價是PHT消耗的資源呈指數形式迅速地增長,因此我們必須在面積與性能之間進行權衡。。最終經過對各類32位RISC-V開源處理器內核
    發表于 10-22 06:50

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    大模型圈子,其多項性能超過了當時處于領先地位的ChatGPT 4,也證明了不需要高昂的費用也能訓練出優質大模型。這激起了我的好奇心,借著這次機會好好閱讀一DeepSeek的核心技術。
    發表于 07-17 11:59

    AI了,這場盛會,見證傳統工廠的智造創新范式

    上海2025年6月23日?/美通社/ -- 6月20日,2025國際智能制造(上海)論壇盛大舉行。這場制造業的盛會,既是智能制造技術的"閱兵場",更是傳統工業破繭重生的"啟示錄"。 作為中國離散智造
    的頭像 發表于 06-24 07:24 ?798次閱讀
    AI了,這場盛會,見證傳統工廠的智造創新<b class='flag-5'>范式</b>

    ArkUI介紹

    是共用的,但是相比類Web開發范式,聲明式開發范式無需JS框架進行頁面DOM管理,渲染更新鏈路更為精簡,占用內存更少,應用性能更佳。 發展趨勢:聲明式開發
    發表于 06-24 06:41

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    的負載平衡、多token預測技術(MTP) 等,大幅提升了模型的性能。 在模型訓練方面,DeepSeek 依托自研的輕量級分布式訓練框架 HAI-LLM,通過算法、框架和硬件的緊密配合
    發表于 06-09 14:38

    算力網絡的“神經突觸”:AI互聯技術如何重構分布式訓練范式

    ? 電子發燒友網綜合報道 隨著AI技術迅猛發展,尤其是大型語言模型的興起,對于算力的需求呈現出爆炸性增長。這不僅推動了智算中心的建設,還對網絡互聯技術提出了新的挑戰。 ? 在AI大模型訓練
    的頭像 發表于 06-08 08:11 ?7444次閱讀
    算力網絡的“神經突觸”:AI互聯技術如何重構分布式<b class='flag-5'>訓練</b><b class='flag-5'>范式</b>

    如何高效訓練AI模型?這些常用工具你必須知道!

    大模型的發展同樣面臨瓶頸,訓練所需的硬件資源日益增加,比如英偉達的芯片、電力等(這也可能是ChatGPT5遲遲沒有出來的原因)。業界有觀點認為,在大多數情況,并不需要全能的大模型,而
    的頭像 發表于 04-17 16:43 ?2239次閱讀
    如何高效<b class='flag-5'>訓練</b>AI模型?這些常用工具你必須知道!

    燧原科技入選工信部2024年未來產業創新發展優秀典型案例

    近日,工業和信息化部高新技術司發布了《2024年未來產業創新發展優秀典型案例公示》,燧原科技入選工信部未來產業創新發展“領軍企業”優秀典型案例。
    的頭像 發表于 03-31 17:52 ?1359次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

    ,使用PaddleNLP將FineWeb數據集中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制數據,以便提升訓練效果。 ChatGPT發布后,當代大語言模型(LLM)的訓練流程基本遵循Open
    的頭像 發表于 03-21 18:24 ?4315次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進制預<b class='flag-5'>訓練</b>數據集

    和安信可Ai-M61模組對話?手搓一個ChatGPT 語音助手 #人工智能 #

    ChatGPT
    jf_31745078
    發布于 :2025年03月12日 15:56:59