国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

河套IT TALK95:(原創(chuàng))GPT技術(shù)揭秘:大模型訓(xùn)練會(huì)導(dǎo)向滅霸的響指嗎?

共熵服務(wù)中心 ? 來(lái)源:未知 ? 2023-06-21 19:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 大模型訓(xùn)練的套路

昨天寫(xiě)了一篇關(guān)于生成式模型的訓(xùn)練之道,覺(jué)得很多話還沒(méi)有說(shuō)完,一些關(guān)鍵點(diǎn)還沒(méi)有點(diǎn)透,決定在上文的基礎(chǔ)上,再深入探討一下大模型訓(xùn)練這個(gè)話題。

任何一個(gè)大模型的訓(xùn)練,萬(wàn)變不離其宗,一定要經(jīng)歷以下幾個(gè)步驟:

  • 模型選擇(Model Selection):選擇適合任務(wù)和數(shù)據(jù)的模型結(jié)構(gòu)和類型。

  • 數(shù)據(jù)收集和準(zhǔn)備(Data Collection and Preparation):收集并準(zhǔn)備用于訓(xùn)練和評(píng)估的數(shù)據(jù)集,確保其適用于所選模型。

  • 無(wú)監(jiān)督預(yù)訓(xùn)練(Pretraining):使用大規(guī)模未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使模型學(xué)習(xí)通用的語(yǔ)言表示。

  • 驗(yàn)證和測(cè)試(Verification and testing):評(píng)估預(yù)訓(xùn)練或者微調(diào)后模型在特定任務(wù)上的性能,并進(jìn)總的來(lái)說(shuō),這些步驟不是簡(jiǎn)單的線性順序,具體大家看圖來(lái)體會(huì)。而是在預(yù)訓(xùn)練和微調(diào)或調(diào)優(yōu)階段后的驗(yàn)證和測(cè)試,都要跟隨一個(gè)決策是否要調(diào)整模型,是否要繼續(xù)進(jìn)行微調(diào)或調(diào)優(yōu)。根據(jù)決策來(lái)判定是否選擇迭代的循環(huán),通過(guò)不斷的反饋和優(yōu)化,逐步提升模型的性能和泛化能力,知道涌現(xiàn)出來(lái)的能力,讓訓(xùn)練者滿意結(jié)束訓(xùn)練過(guò)程。但讓這個(gè)過(guò)程有個(gè)確定起點(diǎn)的話,一定要從模型選擇開(kāi)始。行必要的調(diào)整和改進(jìn)。

  • 微調(diào)或調(diào)優(yōu)(Fine-tuning):使用標(biāo)記的任務(wù)特定數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),以提高其在特定任務(wù)上的性能。

  • 決策(Decision Making):根據(jù)驗(yàn)證和測(cè)試結(jié)果,判斷是否需要重新選擇模型、調(diào)整超參數(shù)、重新收集數(shù)據(jù)等,進(jìn)一步優(yōu)化模型。

9cf19d1e-1029-11ee-962d-dac502259ad0.png

總的來(lái)說(shuō),這些步驟不是簡(jiǎn)單的線性順序,具體大家看圖來(lái)體會(huì)。而是在預(yù)訓(xùn)練和微調(diào)或調(diào)優(yōu)階段后的驗(yàn)證和測(cè)試,都要跟隨一個(gè)決策是否要調(diào)整模型,是否要繼續(xù)進(jìn)行微調(diào)或調(diào)優(yōu)。根據(jù)決策來(lái)判定是否選擇迭代的循環(huán),通過(guò)不斷的反饋和優(yōu)化,逐步提升模型的性能和泛化能力,直到涌現(xiàn)出能力,讓訓(xùn)練者滿意結(jié)束訓(xùn)練過(guò)程。但讓這個(gè)過(guò)程有個(gè)確定起點(diǎn)的話,一定要從模型選擇開(kāi)始。

2. 模型選擇:信仰、篤定和堅(jiān)持

啟動(dòng)訓(xùn)練大模型這個(gè)事兒,本身就很瘋狂。因?yàn)闆](méi)有人知道結(jié)果是否會(huì)成功,以及最終訓(xùn)練是否會(huì)涌現(xiàn)奇跡。所以模型的選擇,說(shuō)的謙虛一點(diǎn),是基于模型構(gòu)建者的先驗(yàn)知識(shí)、經(jīng)驗(yàn)、文獻(xiàn)研究和調(diào)研,說(shuō)的玄學(xué)一點(diǎn)就是基于一種信仰和篤定。

ChatGPT這種事兒最終能被Samuel Altman 搞成,從他的歷史經(jīng)歷來(lái)看也是有跡可循的。Sam在個(gè)性上是個(gè)敢于冒險(xiǎn)和不按常理出牌的人。在斯坦福大學(xué)學(xué)習(xí)計(jì)算機(jī)科學(xué)那會(huì)兒,剛學(xué)了一年,在2005年就退學(xué)搞創(chuàng)業(yè)了,成立了Loopt,一款基于位置的社交移動(dòng)應(yīng)用,作為CEO,幾年給公司籌集了3000萬(wàn)美金的風(fēng)險(xiǎn)投資,2012年,它被綠點(diǎn)公司以4340萬(wàn)美金收購(gòu),也算是他撈到的第一桶金。Sam接下來(lái)從2011年起,成了YC(以投資種子階段初創(chuàng)公司為業(yè)務(wù)的創(chuàng)投公司)的合伙人。2014年,Sam被任命為YC的總裁,并開(kāi)始大刀闊斧,愿意投資和推動(dòng)新的、未經(jīng)證實(shí)的技術(shù),準(zhǔn)備將YC擴(kuò)大到每年資助1000家初創(chuàng)公司,尤其是“硬科技”公司,而OpenAI就是2015年他和幾個(gè)行業(yè)大佬聯(lián)合資助起來(lái)的,致力于訓(xùn)練人工智能,讓人工智能走進(jìn)人類,試圖創(chuàng)建并推廣友好的人工智能,以造福所有人,實(shí)現(xiàn)智能公平。并很快在2015年就籌集了10億美金。2019年,Sam篤定大模型一定能搞成,毅然決然離開(kāi)YC,專注于OpenAI。

Transformer模型在谷歌大腦2017年發(fā)布開(kāi)源的時(shí)候,應(yīng)用的場(chǎng)景是自然語(yǔ)言處理(NLP) 的機(jī)器翻譯和時(shí)間序列預(yù)測(cè)任務(wù)。Sam等人堅(jiān)信Transformer更適合并行化,允許在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,這就直接導(dǎo)致了預(yù)訓(xùn)練系統(tǒng)的發(fā)展。

3. 數(shù)據(jù)預(yù)處理:剔除“臟”數(shù)據(jù)

有了模型,就要考慮怎么去找數(shù)據(jù)訓(xùn)練了。這可不是隨便在互聯(lián)網(wǎng)上找到海量數(shù)據(jù),然后不分青紅皂白就開(kāi)始訓(xùn)練的。根據(jù)國(guó)際數(shù)據(jù)公司IDC的估計(jì),截至2020年,全球數(shù)字宇宙的大小為44 Zettabytes(其中1 Zettabyte等于10億 Terabytes),其中文本、圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了絕大部分。具體來(lái)說(shuō),據(jù)IDC估計(jì),非結(jié)構(gòu)化數(shù)據(jù)占據(jù)數(shù)字宇宙的80%以上,其中視頻數(shù)據(jù)占比最高,約為60%。據(jù)統(tǒng)計(jì),截至2020年,全球每天產(chǎn)生的文本數(shù)據(jù)量約為50萬(wàn)億字節(jié),這相當(dāng)于每天產(chǎn)生50億部普通手機(jī)的存儲(chǔ)容量;而每天上傳到Y(jié)ouTube的視頻數(shù)據(jù)量約為500小時(shí),相當(dāng)于每分鐘上傳約300小時(shí)的視頻。如果要把這些數(shù)據(jù)都學(xué)習(xí)了,不是不可能,但是也沒(méi)有必要。

人類的信息有很多,有些信息是正確信息,有些是錯(cuò)誤信息,有些是噪聲數(shù)據(jù)。有些信息帶有明顯的惡意或者邏輯漏洞。如果不分青紅皂白,讓AI自己去訓(xùn)練自己,可能會(huì)在訓(xùn)練數(shù)據(jù)這個(gè)環(huán)節(jié)就會(huì)失控,表現(xiàn)不如預(yù)期甚至出現(xiàn)偏差和過(guò)擬合等問(wèn)題。因?yàn)椤芭K”數(shù)據(jù),自然不會(huì)學(xué)出一個(gè)理想的模型和能力沉淀。因此,在選擇訓(xùn)練數(shù)據(jù)時(shí),需要盡量篩選和清洗出具有代表性和高質(zhì)量的數(shù)據(jù),從而提高模型的表現(xiàn)和泛化能力。

關(guān)于GPT-4學(xué)了多大當(dāng)量的數(shù)據(jù)并未公開(kāi),但是GPT-3學(xué)了45TB的文本數(shù)據(jù)。主要來(lái)源于:

  • Common Crawl:提供了包含超過(guò)50億份網(wǎng)頁(yè)數(shù)據(jù)的免費(fèi)數(shù)據(jù)庫(kù)。有超過(guò)7年的網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)集,包含原始網(wǎng)頁(yè)數(shù)據(jù)、元數(shù)據(jù)提取和文本提取。

  • Wikipedia:網(wǎng)絡(luò)維基百科,目前有超過(guò)1億的條目項(xiàng)。

  • BooksCorpus:由100萬(wàn)本英文電子書(shū)組成的語(yǔ)料庫(kù)。

  • WebText:一個(gè)來(lái)自于互聯(lián)網(wǎng)的語(yǔ)料庫(kù),其中包含了超過(guò)8億個(gè)網(wǎng)頁(yè)的文本內(nèi)容。

  • OpenWebText:類似于WebText,但是包含的文本數(shù)據(jù)更加規(guī)范化和質(zhì)量更高。

  • ConceptNet:一個(gè)用于語(yǔ)義網(wǎng)絡(luò)的數(shù)據(jù)庫(kù),其中包含大量的語(yǔ)言學(xué)知識(shí)。

  • NewsCrawl:從新聞網(wǎng)站收集的大量新聞文章的集合。

  • Reddit:一個(gè)包含了大量用戶發(fā)布的信息的論壇網(wǎng)站。

但不能簡(jiǎn)單的運(yùn)用拿來(lái)主義。這種原始數(shù)據(jù),是不能直接進(jìn)入訓(xùn)練的,還至少要經(jīng)過(guò)以下四個(gè)數(shù)據(jù)預(yù)處理階段,才可以進(jìn)入到預(yù)訓(xùn)練環(huán)節(jié):

數(shù)據(jù)清理(Data Cleaning):處理數(shù)據(jù)中存在的錯(cuò)誤、缺失或不一致的部分,包括刪除重復(fù)數(shù)據(jù)、處理缺失值、修復(fù)錯(cuò)誤數(shù)據(jù)或調(diào)整數(shù)據(jù)格式等操作。數(shù)據(jù)清理旨在確保數(shù)據(jù)的準(zhǔn)確性和一致性,以避免對(duì)模型訓(xùn)練產(chǎn)生不良影響。

去除噪聲(Noise Removal):在數(shù)據(jù)中可能存在一些無(wú)關(guān)緊要或錯(cuò)誤的信息,被稱為噪聲。去除噪聲的過(guò)程是識(shí)別和過(guò)濾掉這些噪聲數(shù)據(jù),以提高數(shù)據(jù)的質(zhì)量和模型的性能。噪聲可能包括文本中的標(biāo)點(diǎn)符號(hào)、停用詞、拼寫(xiě)錯(cuò)誤、不一致的格式等。通過(guò)去除噪聲,可以減少對(duì)模型的干擾,提高模型對(duì)真實(shí)信號(hào)的學(xué)習(xí)能力。

標(biāo)準(zhǔn)化(Normalization):標(biāo)準(zhǔn)化是將數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的標(biāo)準(zhǔn)尺度的過(guò)程。這對(duì)于具有不同尺度或分布的特征數(shù)據(jù)非常重要。標(biāo)準(zhǔn)化可以確保不同特征之間的數(shù)據(jù)具有可比性,避免模型在處理數(shù)據(jù)時(shí)對(duì)某些特征給予不合理的權(quán)重。常見(jiàn)的標(biāo)準(zhǔn)化方法包括將數(shù)據(jù)縮放到特定的范圍(例如0到1之間)或者使用均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。

分詞(Tokenization):前文已經(jīng)說(shuō)了,token是指在信息數(shù)據(jù)處理中的最小單位,文本數(shù)據(jù)的預(yù)處理中,一個(gè)常見(jiàn)的步驟是將原始文本拆分成一個(gè)個(gè)token,這個(gè)過(guò)程稱為tokenization。目的是將連續(xù)的文本序列劃分為離散的單元,例如單詞、子詞或字符。這樣做的好處是將文本轉(zhuǎn)換為機(jī)器可以處理的離散表示形式。在深度學(xué)習(xí)模型中,tokenization通常是將文本轉(zhuǎn)換為數(shù)字表示的第一步。每個(gè)token都被賦予一個(gè)唯一的整數(shù)編號(hào),這個(gè)編號(hào)會(huì)作為模型輸入中的一個(gè)特征向量的一部分。

4. 預(yù)訓(xùn)練:反向傳播算法(Backpropagation)

在數(shù)據(jù)開(kāi)始預(yù)訓(xùn)練之前,需要先定義損失函數(shù)。損失函數(shù)是衡量模型預(yù)測(cè)結(jié)果與實(shí)際目標(biāo)之間差異程度的指標(biāo)。確實(shí),較小的損失函數(shù)值表示模型在訓(xùn)練數(shù)據(jù)上的擬合效果較好,也就是更好地學(xué)習(xí)了訓(xùn)練數(shù)據(jù)的內(nèi)容。在訓(xùn)練過(guò)程中,我們的目標(biāo)是最小化損失函數(shù)的值。通過(guò)調(diào)整模型的參數(shù),使損失函數(shù)達(dá)到最小值,即實(shí)現(xiàn)了對(duì)任務(wù)的最佳擬合。

在訓(xùn)練過(guò)程中,通過(guò)計(jì)算損失函數(shù)相對(duì)于參數(shù)的梯度,可以了解每個(gè)參數(shù)對(duì)損失函數(shù)的影響程度。梯度告訴我們應(yīng)該如何更新參數(shù)值來(lái)最小化損失函數(shù)。當(dāng)梯度接近零時(shí),表示損失函數(shù)達(dá)到了一個(gè)局部最小值或平穩(wěn)點(diǎn),這可能意味著模型已經(jīng)收斂到一個(gè)較好的狀態(tài)。這樣的情況下,訓(xùn)練可以被認(rèn)為是相對(duì)順利的。然而,并不是所有情況下梯度接近零都代表訓(xùn)練的順利進(jìn)行。在深度學(xué)習(xí)中,模型可能會(huì)遇到鞍點(diǎn)或局部最小值,并且梯度可能會(huì)陷入平原地帶。此時(shí),某些維度上的梯度接近零,但并不表示找到了全局最小值。鞍點(diǎn)是指在某個(gè)位置上,沿一些維度上的梯度是零,但沿其他維度上的梯度不為零的點(diǎn),甚至其他維度梯度可能仍然有較大的值,說(shuō)明還有改進(jìn)的空間。

這個(gè)損失函數(shù)梯度收斂的過(guò)程,除了剛才說(shuō)的鞍點(diǎn)和局部最小值,還可能遇到梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient),上文已經(jīng)說(shuō)過(guò)這兩個(gè)問(wèn)題代表著什么,以及怎么去應(yīng)對(duì),這里就不再贅述。

神經(jīng)網(wǎng)絡(luò)中,損失函數(shù)梯度收斂的過(guò)程是通過(guò)反向傳播算法(Backpropagation)實(shí)現(xiàn)的。反向傳播算法(Backpropagation)是指在神經(jīng)網(wǎng)絡(luò)中,通過(guò)計(jì)算損失函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)的梯度,并將梯度信息從輸出層向輸入層進(jìn)行傳遞的過(guò)程。它基于鏈?zhǔn)椒▌t,通過(guò)將梯度從輸出層逐層反向傳播至輸入層,計(jì)算每個(gè)參數(shù)對(duì)損失函數(shù)的貢獻(xiàn),并利用梯度信息更新網(wǎng)絡(luò)參數(shù),從而最小化損失函數(shù)。反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),通過(guò)調(diào)整參數(shù)使得預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽更接近。

這個(gè)過(guò)程被很多人戲稱為煉丹。在預(yù)訓(xùn)練階段,模型通過(guò)大規(guī)模的無(wú)監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)語(yǔ)言模型的結(jié)構(gòu)和表示。這個(gè)階段的目標(biāo)是讓模型在未標(biāo)記的數(shù)據(jù)上進(jìn)行自我訓(xùn)練,從中學(xué)習(xí)到語(yǔ)言的統(tǒng)計(jì)規(guī)律和語(yǔ)義信息。在這個(gè)過(guò)程中,模型有機(jī)會(huì)發(fā)現(xiàn)并表現(xiàn)出一些意想不到的能力,這就是“涌現(xiàn)”了。具體來(lái)說(shuō),當(dāng)模型規(guī)模擴(kuò)大、參數(shù)增多時(shí),模型可能會(huì)表現(xiàn)出更好的泛化能力、更高的性能或具備某些令人驚訝的特征。這種涌現(xiàn)現(xiàn)象可能與模型內(nèi)部的復(fù)雜交互和表示能力有關(guān),模型在訓(xùn)練過(guò)程中學(xué)習(xí)到了隱藏的結(jié)構(gòu)或規(guī)律,從而表現(xiàn)出超出預(yù)期的能力。而作為一種驚喜,“涌現(xiàn)”不能自我展示,還得需要在驗(yàn)證環(huán)節(jié)被發(fā)現(xiàn)。

5. 驗(yàn)證和測(cè)試階段:發(fā)現(xiàn)“涌現(xiàn)”的激動(dòng)時(shí)刻

在驗(yàn)證和測(cè)試階段,研究人員和開(kāi)發(fā)者會(huì)對(duì)訓(xùn)練得到的模型進(jìn)行評(píng)估和驗(yàn)證。一般大模型的驗(yàn)證會(huì)分為可塑性、可供性、可用性、可信性和可替代性五個(gè)大類26個(gè)細(xì)分指標(biāo):

9dbd3762-1029-11ee-962d-dac502259ad0.png

在測(cè)試和驗(yàn)證中發(fā)現(xiàn)涌現(xiàn)具有偶然性,但也不是一點(diǎn)兒不能預(yù)測(cè),所以在測(cè)試用例的設(shè)計(jì)時(shí)候,能夠足夠大膽,預(yù)估到可能“涌現(xiàn)”的方向,而提前做好準(zhǔn)備。智愿君下面會(huì)列出來(lái)一些可能涌現(xiàn)的能力,但現(xiàn)實(shí)場(chǎng)景可能遠(yuǎn)遠(yuǎn)比這個(gè)要復(fù)雜:

高階推理能力:大型語(yǔ)言模型在經(jīng)過(guò)訓(xùn)練和優(yōu)化后,可能展現(xiàn)出對(duì)高階推理任務(wù)的能力。這包括對(duì)因果關(guān)系的理解、擾動(dòng)變量分析、反事實(shí)推理等。模型可以在文本中尋找關(guān)聯(lián),并推斷出復(fù)雜的邏輯關(guān)系,從而回答復(fù)雜的問(wèn)題。

去除噪聲和問(wèn)題定位:在訓(xùn)練過(guò)程中,模型可能學(xué)習(xí)到了如何去除輸入中的噪聲,并從復(fù)雜的問(wèn)題中定位和理解問(wèn)題的根源。這使得模型能夠更好地理解用戶的意圖,并給出準(zhǔn)確和有針對(duì)性的回復(fù)。

自我修正能力:大型語(yǔ)言模型可能具有一定的自我修正能力。通過(guò)與用戶的交互和反饋,模型可以不斷學(xué)習(xí)和糾正自己的錯(cuò)誤,并提供更準(zhǔn)確的回答。這種自我修正能力可以幫助模型逐步改進(jìn),并提供更高質(zhì)量的輸出。

靈活應(yīng)對(duì)知識(shí)盲區(qū):模型在訓(xùn)練過(guò)程中可能遇到知識(shí)盲區(qū),即對(duì)某些領(lǐng)域或主題的了解有限。然而,通過(guò)涌現(xiàn),模型可能能夠從已有的知識(shí)中推斷和應(yīng)用相關(guān)信息,填補(bǔ)知識(shí)盲區(qū)并給出合理的回答。

知識(shí)嵌入、想象力和創(chuàng)造力:模型在訓(xùn)練過(guò)程中可能學(xué)習(xí)到了豐富的知識(shí),并能夠?qū)⑦@些知識(shí)嵌入到生成的回答中。這使得模型能夠展示出一定的想象力和創(chuàng)造力,生成豐富多樣的文本,并提供更加富有表現(xiàn)力的回復(fù)。大型語(yǔ)言模型可以通過(guò)知識(shí)圖譜、外部知識(shí)庫(kù)等輔助信息,加深對(duì)知識(shí)的理解和應(yīng)用。它可以從知識(shí)庫(kù)中檢索和整合信息,豐富回答的內(nèi)容和準(zhǔn)確性。

社交和情感智能:大型語(yǔ)言模型可以對(duì)情感和情緒進(jìn)行理解和生成。它可以識(shí)別和表達(dá)情感色彩,并與用戶進(jìn)行情感交流和互動(dòng),從而提供更加個(gè)性化和情感化的回復(fù)。涌現(xiàn)還可能表現(xiàn)為模型能夠根據(jù)上下文進(jìn)行適應(yīng)性回復(fù),并生成多樣性的輸出。模型可以根據(jù)對(duì)話的進(jìn)行和用戶的需求,靈活地調(diào)整回復(fù)的風(fēng)格和內(nèi)容,提供更加個(gè)性化和多樣化的回答。在處理復(fù)雜對(duì)話和語(yǔ)境理解方面,模型可能展現(xiàn)出更強(qiáng)的能力。它可以從多個(gè)回合的對(duì)話中提取關(guān)鍵信息,并進(jìn)行語(yǔ)義上的深入理解,從而給出更加準(zhǔn)確和連貫的回復(fù)。

傾向性調(diào)控和自我監(jiān)控:大型語(yǔ)言模型可能具備一定的傾向性調(diào)控和自我監(jiān)控能力。它可以根據(jù)用戶的需求和要求,調(diào)整回復(fù)的傾向性和風(fēng)格,并對(duì)自己的輸出進(jìn)行監(jiān)控和評(píng)估,以確保回復(fù)的質(zhì)量和合理性,并堅(jiān)守某些原則,不會(huì)被使用者欺騙而給出違反基本價(jià)值觀和傷害人類的回復(fù)。

多模態(tài)能力:大型語(yǔ)言模型不僅可以處理文本輸入,還可以與其他模態(tài)數(shù)據(jù)(如圖像、語(yǔ)音、視頻等)進(jìn)行交互。模型可以通過(guò)學(xué)習(xí)多模態(tài)數(shù)據(jù)的表示和關(guān)聯(lián),展現(xiàn)出理解和生成多模態(tài)內(nèi)容的能力。

增量學(xué)習(xí)和在線學(xué)習(xí):大型語(yǔ)言模型可以具備增量學(xué)習(xí)和在線學(xué)習(xí)的能力,即在不中斷模型服務(wù)的情況下,通過(guò)逐步接受新數(shù)據(jù)進(jìn)行訓(xùn)練和更新,以不斷改進(jìn)模型的性能和適應(yīng)新領(lǐng)域的需求。

增強(qiáng)學(xué)習(xí):大型語(yǔ)言模型可以結(jié)合增強(qiáng)學(xué)習(xí)技術(shù),在與環(huán)境進(jìn)行交互的過(guò)程中,通過(guò)試錯(cuò)和獎(jiǎng)勵(lì)機(jī)制來(lái)改進(jìn)模型的表現(xiàn)。這使得模型能夠在特定任務(wù)或領(lǐng)域中進(jìn)行優(yōu)化和自我調(diào)節(jié)。

跨任務(wù)遷移:大型語(yǔ)言模型在完成一個(gè)任務(wù)的訓(xùn)練后,可以通過(guò)遷移學(xué)習(xí)的方式將學(xué)到的知識(shí)和模型參數(shù)應(yīng)用到其他相關(guān)任務(wù)上,從而加速其他任務(wù)的訓(xùn)練和提升性能。

元學(xué)習(xí)和自適應(yīng)學(xué)習(xí):大型語(yǔ)言模型可以通過(guò)元學(xué)習(xí)和自適應(yīng)學(xué)習(xí)的方法,快速適應(yīng)新的任務(wù)或環(huán)境。模型可以從先前的訓(xùn)練和經(jīng)驗(yàn)中快速學(xué)習(xí)到新任務(wù)的模式和規(guī)律,從而實(shí)現(xiàn)快速上手和靈活應(yīng)對(duì)新情境的能力。

6. 微調(diào):強(qiáng)化學(xué)習(xí)是要尋求特定領(lǐng)域的最優(yōu)解

如果我們的最初目的就是希望ChatGPT就是和我們侃大山,天馬行空,停留在所謂的通用模型的狀態(tài),可能我們不會(huì)進(jìn)入到微調(diào)和調(diào)優(yōu)階段。但如果我們是完美主義者,我們希望ChatGPT可以在很多有最優(yōu)解的問(wèn)題上能回答得很完美,強(qiáng)化學(xué)習(xí)就用的上了。

而無(wú)監(jiān)督學(xué)習(xí)的硬傷就是通常是通過(guò)最大化數(shù)據(jù)的某種統(tǒng)計(jì)屬性來(lái)學(xué)習(xí)模型。以一種通用的方式學(xué)習(xí)數(shù)據(jù)的分布和特征,缺乏領(lǐng)域或任務(wù)特定信息,說(shuō)白了就是萬(wàn)金油之后,容易產(chǎn)生不必要的瞎聯(lián)系,或者說(shuō)一本正經(jīng)地胡說(shuō)八道。

9e35fb98-1029-11ee-962d-dac502259ad0.png

要想讓ChatGPT在很多專業(yè)領(lǐng)域表現(xiàn)出色,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)訓(xùn)練的微調(diào)和調(diào)優(yōu)就顯得格外重要。RLHF在模型預(yù)訓(xùn)練的基礎(chǔ)上,通過(guò)與人類進(jìn)行交互,收集人類專家的反饋信息,以指導(dǎo)模型的微調(diào)和調(diào)優(yōu)。通過(guò)將人類專家的知識(shí)和判斷引入模型訓(xùn)練過(guò)程中,可以根據(jù)人類反饋的獎(jiǎng)勵(lì)信號(hào)對(duì)模型進(jìn)行優(yōu)化,使模型能夠在特定環(huán)境下做出“最優(yōu)決策”。我之所以在這里給“最優(yōu)策略”打引號(hào),是因?yàn)檫@是在部分專家反饋基礎(chǔ)上的最優(yōu)策略。如果我們加大人類專家反饋的力度,花費(fèi)更大的成本進(jìn)行微調(diào),可能最終的效果會(huì)更為理想,到這個(gè)階段,就不是純技術(shù)問(wèn)題,而上升為一個(gè)密集勞動(dòng)型的動(dòng)作了。RLHF的一個(gè)主要問(wèn)題是可擴(kuò)展性,即如何應(yīng)對(duì)大規(guī)模的訓(xùn)練數(shù)據(jù)和計(jì)算資源需求。此外,這種訓(xùn)練過(guò)程可能是緩慢且昂貴的,需要耗費(fèi)大量的時(shí)間和資源。也正是由于這個(gè)原因,OpenAI更愿意把這部分能力通過(guò)API或者Plugin插件開(kāi)放出來(lái),眾人拾柴火焰高, 讓更多的垂直領(lǐng)域的產(chǎn)業(yè)發(fā)揮作用,在各自的領(lǐng)域深耕。經(jīng)過(guò)這種微調(diào)后,GPT的專業(yè)領(lǐng)域技能就會(huì)越來(lái)越豐富,越來(lái)越優(yōu)秀。

微調(diào)和調(diào)優(yōu)還有一個(gè)很重要的點(diǎn)就是價(jià)值學(xué)習(xí)。AI系統(tǒng)如何與人類價(jià)值觀保持一致,能夠在復(fù)雜的動(dòng)態(tài)環(huán)境中與人類價(jià)值觀對(duì)齊,符合人類倫理、法律準(zhǔn)則并尊重個(gè)人隱私和防止壞人用AI進(jìn)行欺詐。這就需要不停地對(duì)AI進(jìn)行微調(diào)和調(diào)優(yōu),來(lái)完善和修訂在實(shí)際運(yùn)作中的各種漏洞和表現(xiàn)。從這個(gè)維度來(lái)看,微調(diào)和調(diào)優(yōu)是一個(gè)永無(wú)止境的工作,不存在一勞永逸。當(dāng)然,這里面還存在另外一個(gè)風(fēng)險(xiǎn),就是人類反饋的質(zhì)量和一致性可能會(huì)因任務(wù)、界面和個(gè)體偏好的差異而有所不同。如果人類反饋缺乏公正性或不正確,那么模型也有可能學(xué)到錯(cuò)誤的東西,這種情況被稱為人工智能偏見(jiàn)。特別是當(dāng)反饋來(lái)自具有特定價(jià)值觀的人群時(shí),這種偏見(jiàn)可能表現(xiàn)得尤為明顯。如果最終模型的使用人群范圍的復(fù)雜度遠(yuǎn)遠(yuǎn)大于RLHF的單一價(jià)值觀,就會(huì)出現(xiàn)非常糟糕的使用體驗(yàn)。所以微調(diào)和調(diào)優(yōu),也是一個(gè)雙刃劍,如果處理不好,害人害己。

7. 大模型訓(xùn)練的未來(lái):“滅霸”還是“女?huà)z”

大模型的訓(xùn)練當(dāng)前的基本流程,未來(lái)一定是會(huì)調(diào)整的。因?yàn)楫?dāng)下,大模型的“煉丹”是離線學(xué)習(xí),也稱為批量學(xué)習(xí)(Batch learning),使用固定的數(shù)據(jù)集進(jìn)行訓(xùn)練和學(xué)習(xí),而不是在實(shí)時(shí)數(shù)據(jù)流中進(jìn)行更新。而未來(lái)是一定要走到在線學(xué)習(xí)(Online learning)的道路上的,能夠在不斷到達(dá)的數(shù)據(jù)流中進(jìn)行實(shí)時(shí)學(xué)習(xí)和適應(yīng)。只有后者,才有可能成為真正的通用人工智能,適應(yīng)人類社會(huì)的高速發(fā)展的實(shí)時(shí)性,更好地應(yīng)對(duì)動(dòng)態(tài)和快速變化的環(huán)境。

所以說(shuō),即便演進(jìn)到通用人工智能,對(duì)這個(gè)模型的訓(xùn)練,也是一條永無(wú)止盡的路。只要人類社會(huì)還在進(jìn)化,通用人工智能就需要考慮如何跟進(jìn)人類的集體智能,不停地將新學(xué)到的人類只是和技能遷移到新任務(wù)或領(lǐng)域中。

而且未來(lái)大模型的交互或者表達(dá)的手段會(huì)更加多模態(tài)化,不僅僅局限在文字、圖形。因此,大模型的訓(xùn)練必然會(huì)整合不同領(lǐng)域的知識(shí)和技術(shù),包括自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等,以構(gòu)建多模態(tài)學(xué)習(xí)的能力。

當(dāng)然,我們?nèi)孕枰?jǐn)慎樂(lè)觀,如果未來(lái)要面對(duì)人機(jī)共生,就需要慎重面對(duì)強(qiáng)化道德倫理和人工智能政策,因?yàn)槲覀円獎(jiǎng)?chuàng)造的不是滅霸的響指,而是女?huà)z造人和盤(pán)古開(kāi)天。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    8745
  • OpenHarmony
    +關(guān)注

    關(guān)注

    33

    文章

    3952

    瀏覽量

    21106

原文標(biāo)題:河套IT TALK95:(原創(chuàng))GPT技術(shù)揭秘:大模型訓(xùn)練會(huì)導(dǎo)向滅霸的響指嗎?

文章出處:【微信號(hào):開(kāi)源技術(shù)服務(wù)中心,微信公眾號(hào):共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。一個(gè)萬(wàn)億參數(shù)大模型訓(xùn)練可能需要數(shù)千張GPU芯片連續(xù)運(yùn)行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?814次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    GPT-5.1發(fā)布 OpenAI開(kāi)始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實(shí)測(cè)發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大
    的頭像 發(fā)表于 11-13 15:49 ?706次閱讀

    亮相CPSE 2025安博會(huì)

    為期四天的 “全球安防第一展”——CPSE 2025 安博會(huì)順利落下帷幕。安以“AI 驅(qū)動(dòng),智影領(lǐng)航”為主題,攜幾大核心技術(shù)矩陣亮相安博會(huì),為全球客戶呈現(xiàn)了一場(chǎng)融合 AI、影像
    的頭像 發(fā)表于 11-04 16:07 ?395次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫(xiě)數(shù)字識(shí)
    發(fā)表于 10-22 07:03

    如何在TPU上使用JAX訓(xùn)練GPT-2模型

    如果您對(duì)如何使用 JAX 從頭開(kāi)始構(gòu)建語(yǔ)言模型感到好奇,那么本文非常適合您。我們?cè)?2025 年 Google Cloud Next 大會(huì)上舉辦了一場(chǎng)關(guān)于此主題的研討會(huì),并獲得了一些很好的反饋,我們也為所有無(wú)法參會(huì)的開(kāi)發(fā)者編寫(xiě)了這份指南。
    的頭像 發(fā)表于 09-03 11:39 ?1699次閱讀
    如何在TPU上使用JAX<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>GPT</b>-2<b class='flag-5'>模型</b>

    摩爾線程“AI工廠”:五大核心技術(shù)支撐,打造大模型訓(xùn)練超級(jí)工廠

    2025年7月25日,上?!谑澜缛斯ぶ悄艽髸?huì)(WAIC 2025)開(kāi)幕前夕,摩爾線程以“算力進(jìn)化,精度革命”為主題舉辦技術(shù)分享會(huì),并創(chuàng)新性提出“AI工廠”理念。摩爾線程創(chuàng)始人兼CEO張建中在主題
    的頭像 發(fā)表于 07-28 11:28 ?4551次閱讀
    摩爾線程“AI工廠”:五大核心<b class='flag-5'>技術(shù)</b>支撐,打造大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>超級(jí)工廠

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】--全書(shū)概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù) 第四章關(guān)于DeepSeek-R1的
    發(fā)表于 07-21 00:04

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    時(shí)間減少,數(shù)據(jù)處理更流暢。這讓我聯(lián)想到工業(yè)生產(chǎn)中的流水線,AI 訓(xùn)練在此處借鑒類似思路,通過(guò)優(yōu)化任務(wù)分配和流程,突破硬件限制,追求更高效率,體現(xiàn)了技術(shù)發(fā)展中持續(xù)優(yōu)化、突破瓶頸的智慧。 三、細(xì)粒度
    發(fā)表于 07-20 15:07

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書(shū)籍介紹+第一章讀后心得

    模型圈子,其多項(xiàng)性能超過(guò)了當(dāng)時(shí)處于領(lǐng)先地位的ChatGPT 4,也證明了不需要高昂的費(fèi)用也能訓(xùn)練出優(yōu)質(zhì)大模型。這激起了我的好奇心,借著這次機(jī)會(huì)好好閱讀一下DeepSeek的核心技術(shù)
    發(fā)表于 07-17 11:59

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.62】一本書(shū)讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    。DeepSeek-V3 的發(fā)布幾乎沒(méi)有預(yù)熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎(chǔ)上構(gòu)建的推理模型,它在后訓(xùn)練階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù)
    發(fā)表于 06-09 14:38

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 03-21 18:24 ?4317次閱讀
    用PaddleNLP為<b class='flag-5'>GPT</b>-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制預(yù)<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:30 ?3304次閱讀

    科技云報(bào)到:AI Agent打了個(gè)響指,商業(yè)齒輪加速轉(zhuǎn)動(dòng)

    科技云報(bào)到原創(chuàng) 3月16日,百度旗下文心大模型4.5和文心大模型X1正式發(fā)布。目前,兩款模型已在文心一言官網(wǎng)上線,免費(fèi)向用戶開(kāi)放。 同時(shí),文心大模型
    的頭像 發(fā)表于 03-18 18:06 ?985次閱讀

    YOLOv5類中rgb888p_size這個(gè)參數(shù)要與模型推理和訓(xùn)練的尺寸一致嗎?一致會(huì)達(dá)到更好的效果?

    YOLOv5類中rgb888p_size這個(gè)參數(shù)要與模型推理和訓(xùn)練的尺寸一致嗎,一致會(huì)達(dá)到更好的效果
    發(fā)表于 03-11 08:12

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 03-11 07:18