国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》

華為DevCloud ? 來源:未知 ? 2023-05-11 20:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【摘要】 大模型(LLM)已經(jīng)成為了大多數(shù)語言相關(guān)的技術(shù)的基石,然而大模型的能力、限制、風(fēng)險(xiǎn)還沒有被大家完整地認(rèn)識(shí)。該文為大模型評估方向的綜述論文,由Percy Liang團(tuán)隊(duì)打造,將2022年四月份前的大模型進(jìn)行了統(tǒng)一的評估。其中,被評估的模型包括GPT-3,InstructGPT等。在經(jīng)過大量的實(shí)驗(yàn)之后,論文提出了一些可供參考的經(jīng)驗(yàn)總結(jié)。

1. 在所有被評估的模型中,InstructGPT davinci v2(175B)在準(zhǔn)確率,魯棒性,公平性三方面上表現(xiàn)最好。論文主要聚焦的是國外大公司的語言大模型,而國內(nèi)的知名大模型,如華為的Pangu系列以及百度的文心系列,論文并沒有給出相關(guān)的測評數(shù)據(jù)。下圖展示了各模型間在各種NLP任務(wù)中頭對頭勝率(Head-to-head win rate)的情況。可以看到,出自O(shè)penAI的InstructGPT davinci v2在絕大多數(shù)任務(wù)中都可以擊敗其他模型。最近的大火的ChatGPT誕生于這篇論文之后,因此這篇論文沒有對ChatGPT的測評,但ChatGPT是InstructGPT的升級(jí)版,相信ChatGPT可以取得同樣優(yōu)異的成績。在下圖中,準(zhǔn)確率的綜合第二名由微軟的TNLG獲得,第三名由初創(chuàng)公司Anthropic獲得。同時(shí)我們也可以看到,要想在準(zhǔn)確率額上獲得55%及以上的勝率,需要至少50B的大小,可見大模型是趨勢所向。8317f780-e42d-11ed-ab56-dac502259ad0.png

2. 由于硬件、架構(gòu)、部署模式的區(qū)別,不同模型的準(zhǔn)確率和效率之間沒有強(qiáng)相關(guān)性。而準(zhǔn)確率與魯棒性(Robustness)、公平性(Fairness)之間有一定的正相關(guān)關(guān)系(如下圖所示)。

8335fb7c-e42d-11ed-ab56-dac502259ad0.png

如今,大模型的參數(shù)規(guī)模都非常巨大。GPT-3具有1750億個(gè)參數(shù),部署這樣一個(gè)大模型,無論在成本上還是工程上都是極大的挑戰(zhàn)。同時(shí),由于需要開放API給用戶使用,OpenAI還需要考慮GPT-3的推理速度。文章的測試結(jié)果顯示,GPT-3的推理速度并沒有顯著地比參數(shù)更少地模型慢,可能是在硬件、架構(gòu)和部署模式上都有一定地優(yōu)勢,足以彌補(bǔ)參數(shù)規(guī)模上的劣勢。

3. InstructGPT davinci v2(175B)在知識(shí)密集型的任務(wù)上取得了遠(yuǎn)超其他模型的成績,在TruthfulQA數(shù)據(jù)集上獲得了62.0%的準(zhǔn)確率,遠(yuǎn)超第二名Anthropic-LM v4-s3 (52B) 36.2%的成績。(TruthfulQA是衡量語言模型在生成問題答案時(shí)是否真實(shí)的測評數(shù)據(jù)集。該數(shù)據(jù)集包括817個(gè)問題,涵蓋38個(gè)類別,包括健康,法律,金融和政治。作者精心設(shè)計(jì)了一些人會(huì)因?yàn)殄e(cuò)誤的先驗(yàn)知識(shí)或誤解而錯(cuò)誤回答的問題。)與此同時(shí),TNLG v2(530B)在部分知識(shí)密集型任務(wù)上也有優(yōu)異的表現(xiàn)。作者認(rèn)為模型的規(guī)模對學(xué)習(xí)真實(shí)的知識(shí)起到很大的貢獻(xiàn),這一點(diǎn)可以從兩個(gè)大模型的優(yōu)異表現(xiàn)中推測得到。

4. 在推理(Reasoning)任務(wù)上,Codex davinci v2在代碼生成和文本推理任務(wù)上表現(xiàn)都很優(yōu)異,甚至遠(yuǎn)超一些以文本為訓(xùn)練語料的模型。這一點(diǎn)在數(shù)學(xué)推理的數(shù)據(jù)上表現(xiàn)最明顯。在GSM8K數(shù)據(jù)集上,Codex davinci v2獲得了52.1%的正確率,第二名為InstructGPT davinci v2(175B)的35.0%,且沒有其他模型正確率超過16%。Codex davinci v2主要是用于解決代碼相關(guān)的問題,例如代碼生成、代碼總結(jié)、注釋生成、代碼修復(fù)等,它在文本推理任務(wù)上的優(yōu)秀表現(xiàn)可能是其在代碼數(shù)據(jù)上訓(xùn)練的結(jié)果,因?yàn)榇a是更具有邏輯關(guān)系的語言,在這樣的數(shù)據(jù)集上訓(xùn)練也許可以提升模型的推理能力。

5. 所有的大模型都對輸入(Prompt)的形式非常敏感。論文主要采用few-shot這種In-context learning的形式增強(qiáng)輸入(Prompt)。

835fb868-e42d-11ed-ab56-dac502259ad0.png

如上圖所示,在不同任務(wù)上,in-context examples的數(shù)量影響不同,在不同的模型上也是如此。由于有些任務(wù)比較簡單,例如二分類的IMDB數(shù)據(jù)庫,增加in-context examples并不會(huì)對結(jié)果有明顯的影響。在模型方面,由于window size的限制,過多的in-context examples可能導(dǎo)致剩余的window size不足以生成一個(gè)完成答案,因而對生成結(jié)果造成負(fù)面的影響。

點(diǎn)擊“閱讀原文”,了解更多!


原文標(biāo)題:技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信公眾號(hào):華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 華為
    +關(guān)注

    關(guān)注

    218

    文章

    36009

    瀏覽量

    262136

原文標(biāo)題:技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信號(hào):華為DevCloud,微信公眾號(hào):華為DevCloud】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    谷東智能光學(xué)技術(shù)推動(dòng)AR眼鏡邁向大規(guī)模應(yīng)用

    隨著AI技術(shù)的飛速發(fā)展,世界模型(World Models)作為推動(dòng)AI從感知走向推理與行動(dòng)的核心引擎,正日益成為行業(yè)關(guān)注的焦點(diǎn)。
    的頭像 發(fā)表于 01-30 15:47 ?451次閱讀

    DeepSeek開源Engram:讓大模型擁有"過目不忘"的類腦記憶

    of Sparsity for Large Language Models》,并同步開源記憶模塊Engram。這一機(jī)制通過可擴(kuò)展查找結(jié)構(gòu),讓大模型實(shí)現(xiàn)O(1)時(shí)間復(fù)雜度的"條件反射式"記憶檢索,被業(yè)界視為破解
    的頭像 發(fā)表于 01-14 16:07 ?294次閱讀
    DeepSeek開源Engram:讓大模型擁有"過目不忘"的類腦記憶

    梁文鋒署名DeepSeek新論文:突破GPU內(nèi)存限制的技術(shù)革命

    of Sparsity for Large Language Models》(直譯為《基于可擴(kuò)展查找的條件記憶:大語言模型稀疏性的新維度》)。這篇論文不僅揭示了當(dāng)前大語言模型在知識(shí)檢索方面的低效問題,還通過創(chuàng)新
    的頭像 發(fā)表于 01-14 11:29 ?1931次閱讀

    TDK Joystick Evaluation Platform:HAL 3900的全方位解析

    TDK Joystick Evaluation Platform:HAL 3900的全方位解析 在電子設(shè)備的設(shè)計(jì)與開發(fā)中,傳感器的應(yīng)用至關(guān)重要,尤其是在操縱桿等設(shè)備中,精確的位置和角度檢測能夠極大
    的頭像 發(fā)表于 12-26 11:35 ?472次閱讀

    Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會(huì) AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團(tuán)隊(duì)的端到端軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗到精的軌跡預(yù)測框架——DiffRefiner,能夠?qū)崿F(xiàn)更為靈活、精準(zhǔn)的軌跡預(yù)測。
    的頭像 發(fā)表于 11-12 10:53 ?869次閱讀

    vivado的hardware manager找不到HummingBird Evaluation kit,是什么原因?

    購買了HummingBird Evaluation kit,按照書本的指示, (1)連接FPGA JTAG (2)連接電源,并上電 (3)打開vivado,并進(jìn)入Hardware manager,發(fā)現(xiàn)沒有找到HummingBird Evaluation kit 可能的原因
    發(fā)表于 11-05 07:11

    華為、中國科學(xué)院計(jì)算技術(shù)研究所聯(lián)合開發(fā)論文獲USENIX收錄

    的CCF-A類會(huì)議,本屆ATC共收到634篇論文投稿,僅100篇成功入選,中稿率低至15.8%。其中,華為數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室與中國科學(xué)院計(jì)算技術(shù)研究所合作完成的論文——基于Comp
    的頭像 發(fā)表于 10-12 11:00 ?1856次閱讀
    華為、中國科學(xué)院計(jì)算<b class='flag-5'>技術(shù)</b>研究所聯(lián)合開發(fā)<b class='flag-5'>論文</b>獲USENIX收錄

    智芯公司榮獲ICEPT 2025優(yōu)秀論文獎(jiǎng)

    近日,第26屆電子封裝技術(shù)國際會(huì)議(ICEPT 2025)在上海舉行。智芯公司提交的論文“WBLGA SiP High-Reliability and High-Thermal
    的頭像 發(fā)表于 08-26 11:22 ?1260次閱讀

    你發(fā)文,我獎(jiǎng)勵(lì)!Aigtek安泰電子新周期論文獎(jiǎng)勵(lì)活動(dòng)正式開啟!

    Aigtek論文獎(jiǎng)勵(lì)活動(dòng)為了回饋廣大工程師長久以來對Aigtek安泰電子的深厚信賴,也為了鼓勵(lì)更多科研工作者用自主創(chuàng)新技術(shù)探索科學(xué)領(lǐng)域的無限可能,Aigtek安泰電子新周期論文獎(jiǎng)勵(lì)活動(dòng)正式上線,誠邀
    的頭像 發(fā)表于 07-31 19:07 ?756次閱讀
    你發(fā)文,我獎(jiǎng)勵(lì)!Aigtek安泰電子新周期<b class='flag-5'>論文</b>獎(jiǎng)勵(lì)活動(dòng)正式開啟!

    使用CYW955913EVK-01_Evaluation_Kit,可以燒寫程序但無法啟動(dòng)如何解決?

    我已準(zhǔn)備好通過串口成功將程序燒錄到CYW955913EVK-01_Evaluation_Kit,但是程序一直沒有運(yùn)行。我該如何檢查?
    發(fā)表于 07-17 07:22

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺國際大會(huì))公布論文錄用結(jié)果,格靈深瞳團(tuán)隊(duì)共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1562次閱讀

    理想汽車八篇論文入選ICCV 2025

    ,最終僅接受2698篇論文,錄用率為24%,競爭激烈。理想汽車此次入選8篇論文,展示出深厚的技術(shù)積累和強(qiáng)大的研究實(shí)力。
    的頭像 發(fā)表于 07-03 13:58 ?1117次閱讀

    請問AD7768-4、ADAU1979的配套Evaluation Software能否進(jìn)行原始音頻數(shù)據(jù)?

    請問AD7768-4、ADAU1979的配套Evaluation Software能否進(jìn)行原始音頻數(shù)據(jù)? 另外請問有沒有MCU+AD架構(gòu)的高精度、多通道的聲卡的解決方案?
    發(fā)表于 04-15 07:53

    Keil LPC1769 Evaluation Board支持SPI和I2C通信嗎?

    OM11084 : Keil LPC1769 Evaluation Board 支持 SPI 和 I2C 通信嗎?
    發(fā)表于 04-07 06:33

    京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成

    作者:京東零售 馮偉 WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models
    的頭像 發(fā)表于 03-18 14:00 ?813次閱讀
    京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成