国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用較小的語言模型,并用少量樣本來微調(diào)語言模型的權(quán)重

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:魚羊 ? 2021-01-07 14:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年,GPT-3可謂火出了圈。

不僅講故事的本職工作做得風(fēng)生水起,還跨界玩起了網(wǎng)頁設(shè)計(jì)、運(yùn)維、下象棋……

不過,盡管表現(xiàn)驚艷,GPT-3背后到底是實(shí)實(shí)在在的1750億參數(shù),想要在實(shí)際應(yīng)用場景中落地,難度著實(shí)不小。

現(xiàn)在,針對這個(gè)問題,普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出,使用較小的語言模型,并用少量樣本來微調(diào)語言模型的權(quán)重。

4d534696-5036-11eb-8b86-12bb97331649.png

并且,實(shí)驗(yàn)證明,這一名為LM-BFF(better few-shot fine-tuning fo language models)的方法相比于普通微調(diào)方法,性能最多可以提升30%。

詳情如何,一起往下看。

方法原理

首先,研究人員采用了基于提示的預(yù)測路線。

所謂基于提示的預(yù)測,是將下游任務(wù)視為一個(gè)有遮蓋(mask)的語言建模問題,模型會(huì)直接為給定的提示生成文本響應(yīng)。

4d7b70ee-5036-11eb-8b86-12bb97331649.png


這里要解決的問題,是尋找正確的提示。這既需要該領(lǐng)域的專業(yè)知識(shí),也需要對語言模型內(nèi)部工作原理的理解。

在本文中,研究人員提出引入一個(gè)新的解碼目標(biāo)來解決這個(gè)問題,即使用谷歌提出的T5模型,在指定的小樣本訓(xùn)練數(shù)據(jù)中自動(dòng)生成提示。

4dc132be-5036-11eb-8b86-12bb97331649.png

其次,研究人員在每個(gè)輸入中,以額外上下文的形式添加了示例。

問題的關(guān)鍵在于,要有限考慮信息量大的示例,一方面,因?yàn)榭捎檬纠臄?shù)量會(huì)受到模型最大輸入長度的限制;另一方面,不同類型的大量隨機(jī)示例混雜在一起,會(huì)產(chǎn)生很長的上下文,不利于模型學(xué)習(xí)。

為此,研究人員開發(fā)了一種動(dòng)態(tài)的、有選擇性的精細(xì)策略:對于每個(gè)輸入,從每一類中隨機(jī)抽取一個(gè)樣本,以創(chuàng)建多樣化的最小演示集。

另外,研究人員還設(shè)計(jì)了一種新的抽樣策略,將輸入與相似的樣本配對,以此為模型提供更多有價(jià)值的比較。

實(shí)驗(yàn)結(jié)果

那么,這樣的小樣本學(xué)習(xí)方法能實(shí)現(xiàn)怎樣的效果?

研究人員在8個(gè)單句、7個(gè)句子對NLP任務(wù)上,對其進(jìn)行了系統(tǒng)性評(píng)估,這些任務(wù)涵蓋分類和回歸。

4dec6b00-5036-11eb-8b86-12bb97331649.png

結(jié)果顯示:

基于提示的微調(diào)在很大程度上優(yōu)于標(biāo)準(zhǔn)微調(diào);

自動(dòng)提示搜索能匹敵、甚至優(yōu)于手動(dòng)提示;

加入示例對于微調(diào)而言很有效,并提高了少樣本學(xué)習(xí)的性能。

4ec58340-5036-11eb-8b86-12bb97331649.png

在K=16(即每一類樣本數(shù)為16)的情況下,從上表結(jié)果可以看到,該方法在所有任務(wù)中,平均能實(shí)現(xiàn)11%的性能增益,顯著優(yōu)于標(biāo)準(zhǔn)微調(diào)程序。在SNLI任務(wù)中,提升達(dá)到30%。

不過,該方法目前仍存在明顯的局限性,性能仍大大落后于采用大量樣本訓(xùn)練獲得的微調(diào)結(jié)果。

關(guān)于作者

論文有兩位共同一作。

高天宇,清華大學(xué)本科生特等獎(jiǎng)學(xué)金獲得者,本科期間即發(fā)表4篇頂會(huì)論文,師從THUNLP實(shí)驗(yàn)室的劉知遠(yuǎn)副教授。

今年夏天,他本科畢業(yè)后赴普林斯頓攻讀博士,師從本文的另一位作者陳丹琦。

此前,量子位曾經(jīng)分享過他在寫論文、做實(shí)驗(yàn)、與導(dǎo)師相處方面的經(jīng)驗(yàn)。

Adam Fisch,MIT電氣工程與計(jì)算機(jī)科學(xué)專業(yè)在讀博士,是CSAIL和NLP研究小組的成員,主要研究方向是應(yīng)用于NLP的遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。

他本科畢業(yè)于普林斯頓大學(xué),2015-2017年期間曾任Facebook AI研究院研究工程師

至于陳丹琦大神,想必大家已經(jīng)很熟悉了。她本科畢業(yè)于清華姚班,后于斯坦福大學(xué)拿下博士學(xué)位,2019年秋成為普林斯頓計(jì)算機(jī)科學(xué)系助理教授。

最后,該論文代碼即將開源,如果還想了解更多論文細(xì)節(jié),請戳文末論文鏈接詳讀~

傳送門

論文地址:

https://arxiv.org/abs/2012.15723v1

項(xiàng)目地址:

https://github.com/princeton-nlp/LM-BFF

責(zé)任編輯:xj

原文標(biāo)題:【前沿】陳丹琦團(tuán)隊(duì)最新論文:受GPT-3啟發(fā),用小樣本學(xué)習(xí)給語言模型做微調(diào),性能最高提升30%

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11310
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16869
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13986

原文標(biāo)題:【前沿】陳丹琦團(tuán)隊(duì)最新論文:受GPT-3啟發(fā),用小樣本學(xué)習(xí)給語言模型做微調(diào),性能最高提升30%

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬億級(jí)別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語言模型
    的頭像 發(fā)表于 02-02 16:36 ?890次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    亞馬遜云科技擴(kuò)展模型選擇 Amazon Bedrock新增18款開放權(quán)重模型

    亞馬遜云科技在2025 re:Invent全球大會(huì)上宣布在Amazon Bedrock中新增18款開放權(quán)重模型,進(jìn)一步強(qiáng)化其提供廣泛全托管模型選擇的承諾。Amazon Bedrock使客戶能夠
    的頭像 發(fā)表于 12-13 13:53 ?769次閱讀

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這一成果標(biāo)志著摩爾線程在大模型基礎(chǔ)技術(shù)探索上邁出
    的頭像 發(fā)表于 11-17 16:03 ?481次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    為助力打造實(shí)時(shí)、動(dòng)態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實(shí)現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1223次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場景的問題,筆者基于過往工程經(jīng)驗(yàn)
    的頭像 發(fā)表于 09-02 13:34 ?3453次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實(shí)現(xiàn)將先進(jìn)的開放權(quán)重模型與全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上
    的頭像 發(fā)表于 08-06 19:29 ?843次閱讀

    利用自壓縮實(shí)現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個(gè)直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們早期的研究提出了一種訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?552次閱讀
    利用自壓縮實(shí)現(xiàn)大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    【教程】使用NS1串口服務(wù)器對接智普清言免費(fèi)AI大語言模型

    AI大語言模型可以幫助我們解決各種問題,如翻譯、寫文案、創(chuàng)作詩歌、解決數(shù)學(xué)問題、情感陪伴等等。今天教大家如何使用NS1串口服務(wù)器模塊實(shí)現(xiàn)對接智普清言AI大語言模型,實(shí)現(xiàn)與大
    的頭像 發(fā)表于 06-12 19:33 ?789次閱讀
    【教程】使用NS1串口服務(wù)器對接智普清言免費(fèi)AI大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?1178次閱讀

    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大語言模型

    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大語言模型
    的頭像 發(fā)表于 05-13 17:07 ?1636次閱讀
    瑞薩RZ/V2H平臺(tái)支持部署離線版DeepSeek -R1大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1300次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何借助大語言模型打造人工智能生態(tài)系統(tǒng)

    語言模型(LLMs)正以革命性的姿態(tài)重塑我們與科技的互動(dòng)模式。然而,由于其龐大的規(guī)模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語言模型
    的頭像 發(fā)表于 04-27 09:19 ?1079次閱讀
    如何借助大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>打造人工智能生態(tài)系統(tǒng)

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?8817次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    無法在OVMS上運(yùn)行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運(yùn)行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲(chǔ)庫運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    使用OpenVINO?訓(xùn)練擴(kuò)展對水平文本檢測模型進(jìn)行微調(diào),收到錯(cuò)誤信息是怎么回事?

    已針對水平文本檢測模型運(yùn)行OpenVINO?訓(xùn)練擴(kuò)展中的 微調(diào) 步驟,并收到錯(cuò)誤消息: RuntimeError: Failed to find annotation files
    發(fā)表于 03-05 06:48