国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

【每天學點AI】人工智能大模型評估標準有哪些?

華清遠見工控 ? 2024-10-17 16:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OpenAI新模型o1號稱編程能力8倍殺GPT-4o,MMLU媲美人類專家,MMLU是什么?評估大模型的標準是什么?

相信大家在閱讀大模型相關文檔的時候經常會看到MMLU,BBH,GSM8K,MATH,HumanEval,MBPP,C-Eval,CMMLU等等這些都是什么?大模型訓練完成后,如何客觀地評估其效果呢?

當然我們不能依靠主觀判斷,于是研究者們制定了一系列標準,用于測評大模型在不同數據集上的表現。而這些數據集( MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU),正是用于評估大模型性能的重要依據。

wKgaoWcQz5eARQUEAAGyTAwPZCY680.png

當然,它們也也可用于模型訓練。

MMLU這個基準包含STEM(科學、技術、工程、數學)、人文學科、社會學科等57個學科領域,難度從初級到高級不等。

wKgZoWcQz5eAR2TAAAG28-vYLGg926.png

C-Eval 是一個全面的中文基礎模型評估套件,它包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別。

wKgZoWcQz5eAWDLKAAIDXISzVW8694.png

GSM8K(Grade School Math)是一個由OpenAI發布的數據集,有8.5K個高質量語言多樣的小學數學問題組成。這些問題需要 2 到 8 個步驟來解決,解決方法主要是使用基本的算術運算(+ - / *)進行一連串的基本計算,以得出最終答案。

wKgaoWcQz5eAb5E9AAF4SUH2jqA445.png

雖然看起來很簡單,但很多大模型的表現都不太好。

MATH是一個包含 12500 個數學競賽問題的數據集,其中的每個問題都有一個完整的推導過程。

wKgZomcQz6KAL2nsAAKIjdVQXjY731.png

HumanEval是由 164 個簡單編程問題組成,主要用來評估語言理解、算法和簡單的數學。

wKgaomcQz6KAMaCFAAHS2H-Env0490.png

MBPP(Mostly Basic Python Programming)由大約 1000 個Python 編程問題組成,每個問題由任務描述、代碼解決方案和 3 個自動化測試用例組成。

wKgZomcQz6KAbEVGAAGu9iWXZn8426.png

BBH的全稱是BIG-Bench Hard,它是BIG-Bench數據集的一個子集,它專注于23個具有挑戰性的任務,這些任務超出了當前語言模型的能力范圍,BBH中的任務需要進行多步驟推理。

wKgZomcQz6GAfufmAAHGWG1ilKw764.png

CMMLU,一個全面的中文大模型評估數據集。它涵蓋了67個主題,涉及自然科學、社會科學、工程、人文、以及常識等,就是中文版的MMLU。

wKgaomcQz6KAaST5AAIhd_uKnB8781.png

通過這些評測數據集和評估標準,我們可以從不同角度系統地評估大模型的性能、泛化能力和魯棒性,為大模型的進一步研究和應用提供科學依據。

AI體系化學習路線

wKgaombzzxSAdyb-AAILSe8A5AM65.jpeg

學習資料免費領

? AI全體系學習路線超詳版

? AI體驗卡(AI實驗平臺體驗權限)

? 100余講AI視頻課程

? 項目源碼《從零開始訓練與部署YOLOV8》

? 170余篇AI經典論文

全體系課程詳情介紹

wKgaomcQz6KAd9SqAAJYAp3tiGg628.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301424
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265393
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5184
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    淺談人工智能(2)

    接前文《淺談人工智能(1)》。 (5)什么是弱人工智能、強人工智能以及超人工智能? 弱人工智能(Weak
    的頭像 發表于 02-22 08:24 ?122次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    人工智能應用開發-中級(大模型)》認證證書含金量如何?怎么考?

    在國家《新一代人工智能發展規劃》及“人工智能+”行動的雙重推動下,人工智能與大模型技術已成為驅動產業智能化升級的核心力量。目前,大
    的頭像 發表于 01-28 15:11 ?709次閱讀
    《<b class='flag-5'>人工智能</b>應用開發-中級(大<b class='flag-5'>模型</b>)》認證證書含金量如何?怎么考?

    探索CY8CKIT - 062S2 - AI PSoC? 6人工智能評估套件

    探索CY8CKIT - 062S2 - AI PSoC? 6人工智能評估套件 在電子工程師的日常工作中,一款優秀的評估套件往往能極大地提高開發效率,加速產品推向市場的進程。今天,我們就
    的頭像 發表于 12-19 14:30 ?308次閱讀

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先進的邊緣設備上進行人工智能處理。在這篇博文中,我們將介紹這對開發人員意味著什么,以及使用 Neuton 模型如何改進您的開發和終端
    發表于 08-31 20:54

    人工智能+”,走老路難賺到新錢

    昨天的“人工智能+”刷屏了,這算是官方第一次對“人工智能+”這個名稱定性吧?今年年初到現在,涌現出了一大批基于人工智能的創業者,這已經算是AI2.0時代的第三波創業潮了,第一波是基礎大
    的頭像 發表于 08-27 13:21 ?725次閱讀
    “<b class='flag-5'>人工智能</b>+”,走老路難賺到新錢

    中國中車通過中國信通院可信AI人工智能數據集質量四級評估

    2025年8月,中國中車集團有限公司順利通過中國信通院可信AI人工智能數據集質量4級評估,成為制造行業中首個獲得最高評級的中央企業。此次評估嚴格依據中國信通院牽頭編制的《面向
    的頭像 發表于 08-22 17:02 ?1424次閱讀

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    應用場景。從數據采集,到模型推理,都能完整且自如地參與,輕松解鎖人工智能全流程實訓,讓你深度體驗AI技術的魅力 。 四、九門課程全覆蓋,滿足多元學習需求 對于高校教學或者技術學習來說,課程覆蓋的廣度
    發表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    應用場景。從數據采集,到模型推理,都能完整且自如地參與,輕松解鎖人工智能全流程實訓,讓你深度體驗AI技術的魅力 。 四、九門課程全覆蓋,滿足多元學習需求 對于高校教學或者技術學習來說,課程覆蓋的廣度
    發表于 08-07 14:23

    超小型Neuton機器學習模型, 在任何系統級芯片(SoC)上解鎖邊緣人工智能應用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學習模型更易于使用。它創建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進的邊緣設備上進行人工智能處理。在這篇博文
    發表于 07-31 11:38

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能
    發表于 07-14 11:23

    最新人工智能硬件培訓AI基礎入門學習課程參考2025版(離線AI語音視覺識別篇)

    端側離線 AI 智能硬件作為 AI 技術的重要載體之一,憑借其無需依賴網絡即可實現智能功能的特性,在一些網絡條件受限或對數據隱私有較高要求的場景中,發揮著不可或缺的作用。本章基于CSK
    發表于 07-04 11:14

    最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)

    人工智能模型重塑教育與社會發展的當下,無論是探索未來職業方向,還是更新技術儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學術研究的
    發表于 07-04 11:10

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網,WiFi,USB 擴展/重力感應/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發表于 04-23 10:55

    Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業人工智能應用

    -Cognizant將與NVIDIA合作部署神經人工智能平臺,加速企業人工智能應用 Cognizant將在關鍵增長領域提供解決方案,包括企業級AI智能體、定制化行業大型語言
    的頭像 發表于 03-26 14:42 ?743次閱讀
    Cognizant將與NVIDIA合作部署神經<b class='flag-5'>人工智能</b>平臺,加速企業<b class='flag-5'>人工智能</b>應用

    AI人工智能隱私保護怎么樣

    在當今科技飛速發展的時代,AI人工智能已經深入到我們生活的方方面面,從醫療診斷到交通調度,從教育輔助到娛樂互動,其影響力無處不在。然而,隨著AI人工智能的廣泛應用,其安全性問題也備受關
    的頭像 發表于 03-11 09:46 ?1204次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>人工智能</b>隱私保護怎么樣