国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

<pre id="8sv0n"><wbr id="8sv0n"></wbr></pre>

<sup id="8sv0n"></sup>

首頁
技術

可編程邏輯

MEMS/傳感技術

嵌入式技術

模擬技術

控制/MCU

處理器/DSP

存儲技術

EMC/EMI設計

電源/新能源

測量儀表

制造/封裝

RF/無線

接口/總線/驅動

EDA/IC設計

光電顯示

連接器

PCB設計

LEDs

汽車電子

醫療電子

人工智能

可穿戴設備

軍用/航空電子

工業控制

觸控感測

智能電網

音視頻及家電

通信網絡

機器人

vr|ar|虛擬現實

安全設備/系統

移動通信

便攜設備

物聯網

區塊鏈

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充電樁

氮化鎵

BLDC

逆變器

5G

電機控制
資源

技術文庫

新品速遞

電路圖

元器件知識

電子百科

最新技術文章

元器件搜索引擎
下載

在線工具

常用軟件

電子書

datasheet
專欄

電子說

專欄
社區

論壇

問答

小組

技術專欄

社區之星

試用中心

HarmonyOS技術社區

2023電子工程師大會
研究院
活動

設計大賽

硬創大賽

社區活動

線下會議

在線研討會

小測驗
學院

直播

課程
視頻
企業號
工具

datasheet查詢

免費評測試用

技術子站

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

【每天學點AI】人工智能大模型評估標準有哪些？

OpenAI新模型o1號稱編程能力8倍殺GPT-4o，MMLU媲美人類專家，MMLU是什么？評估大模型的標準是什么？

相信大家在閱讀大模型相關文檔的時候經常會看到MMLU，BBH，GSM8K，MATH，HumanEval，MBPP，C-Eval，CMMLU等等這些都是什么？大模型訓練完成后，如何客觀地評估其效果呢？

當然我們不能依靠主觀判斷，于是研究者們制定了一系列標準，用于測評大模型在不同數據集上的表現。而這些數據集（ MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU），正是用于評估大模型性能的重要依據。

當然，它們也也可用于模型訓練。

MMLU這個基準包含STEM（科學、技術、工程、數學）、人文學科、社會學科等57個學科領域，難度從初級到高級不等。

C-Eval 是一個全面的中文基礎模型評估套件，它包含了13948個多項選擇題，涵蓋了52個不同的學科和四個難度級別。

GSM8K（Grade School Math）是一個由OpenAI發布的數據集，有8.5K個高質量語言多樣的小學數學問題組成。這些問題需要 2 到 8 個步驟來解決，解決方法主要是使用基本的算術運算（+ - / *）進行一連串的基本計算，以得出最終答案。

雖然看起來很簡單，但很多大模型的表現都不太好。

MATH是一個包含 12500 個數學競賽問題的數據集，其中的每個問題都有一個完整的推導過程。

HumanEval是由 164 個簡單編程問題組成，主要用來評估語言理解、算法和簡單的數學。

MBPP（Mostly Basic Python Programming）由大約 1000 個Python 編程問題組成，每個問題由任務描述、代碼解決方案和 3 個自動化測試用例組成。

BBH的全稱是BIG-Bench Hard，它是BIG-Bench數據集的一個子集，它專注于23個具有挑戰性的任務，這些任務超出了當前語言模型的能力范圍，BBH中的任務需要進行多步驟推理。

CMMLU，一個全面的中文大模型評估數據集。它涵蓋了67個主題，涉及自然科學、社會科學、工程、人文、以及常識等，就是中文版的MMLU。

通過這些評測數據集和評估標準，我們可以從不同角度系統地評估大模型的性能、泛化能力和魯棒性，為大模型的進一步研究和應用提供科學依據。

AI體系化學習路線

學習資料免費領

? AI全體系學習路線超詳版

? AI體驗卡(AI實驗平臺體驗權限)

? 100余講AI視頻課程

? 項目源碼《從零開始訓練與部署YOLOV8》

? 170余篇AI經典論文

全體系課程詳情介紹

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
39793

瀏覽量
301424
人工智能

人工智能

+關注

關注
1817

文章
50098

瀏覽量
265393
大模型

大模型

+關注

關注
2

文章
3650

瀏覽量
5184

評論

電子發燒友

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

電子發燒友

關于我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

張迎輝：mikezhang@elecfans.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

版權所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發燒友 （電路圖） 湘公網安備43011202000918 工商網監湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
伦伦影院久久影视