精品人妻无码一区二区三级精东,加勒比精品一区二区三区,久久久久久亚洲综合影院红桃

OpenAI Vs Google

目前大模型 top2 應該就是 OpenAI 的 GPT-4，以及谷歌的PALM-2。這兩家公司早已布局，而且技術(shù)實力雄厚。國內(nèi)大模型和 GPT-4 相比，還是有比較大的差距。

但是國內(nèi)的勢頭目前不錯，百家齊鳴，還沒有一家有絕對的優(yōu)勢。

讓人頭暈的排名

之前有媒體給出了目前國內(nèi)Top-5的大模型公司，分別是：百度的文心一言、阿里的通義千問、騰訊的混元、華為的盤古以及360的智腦。

而最近，中文通用大模型基準（SuperCLUE）評測公布了最新結(jié)果，GPT-4 遙遙領(lǐng)先，而國內(nèi)成績最好的是科大訊飛的星火認知大模型。這里面文心一言居然排在了最后一名，甚至比ChatGLM-6B的得分還低，實在難以置信。

但是我又仔細看了一下這個評測。媽呀，評測集是SuperCLUE，而非SuperGLUE。

眾所周知，在國際NLP領(lǐng)域，有大名鼎鼎的數(shù)據(jù)集 GLUE 和 SuperGLUE，非常權(quán)威，OpenAI、谷歌等的大模型都在上面評測，極大推動了 NLP 領(lǐng)域的發(fā)展。

這次這份 SuperCLUE 評測的發(fā)起方為 Chinese GLUE 組織（簡稱 CLUE），CLUE 是仿照 GLUE由國內(nèi)民間組織的評測，權(quán)威度和影響力與 GLUE 相比差很遠，其微信賬號主體屬性為個人。但這也迷惑了不少圈內(nèi)人，GLUE和 CLUE 分不清楚，堪稱李逵和李鬼。

還有一點存疑，評測榜單發(fā)布當天5月9日，其官網(wǎng)顯示信息，中文基準測評成員顧問中排名第一的是崔一鳴，身份為學術(shù)顧問委員會主任，哈工大訊飛聯(lián)合實驗室（HFL）資深級研究員。而5月10日，官網(wǎng)已刪除此條顧問的信息。

而001號創(chuàng)始會員徐亮，是會長，相當于這個榜單的實際負責人。昵稱 brightmart，中文任務基準測評發(fā)起人。多個預訓練模型中文版、文本分類和數(shù)據(jù)集開源項目作者。

徐亮還有另一個身份，在5月9日官網(wǎng)中顯示，他是杭州實在智能算法專家，也就是元語智能的創(chuàng)始人，曾在2月份發(fā)布自稱“國內(nèi)首個功能對話大模型ChatYuan”，不僅無法測試，發(fā)布幾天即被監(jiān)管叫停。4月，又被報道套殼推出開源組件。有分析人士認為，不排除創(chuàng)業(yè)公司有融資壓力，蹭熱度吸引投資人關(guān)注。

該 SpuerClue 榜單發(fā)起方，001號顧問是訊飛身份背景、001號基準發(fā)起人是創(chuàng)業(yè)公司創(chuàng)始人。在榜單發(fā)布后，擔心行業(yè)質(zhì)疑其公平、公正，相關(guān)信息還被刪除。這就有點不言而喻了。

僅用100道評測題目就出來了一份“權(quán)威報告”

最后來說下這個榜單本身，業(yè)內(nèi)人士一眼就可以看出來，評測的很不合理，首先，沒有公布評估數(shù)據(jù)，以及具體的評估方式。同時從它的公開表述，可推斷總共題目就 100 道題目。這個題目量少到難以置信。專業(yè)人士可能有參與過，像國際權(quán)威 SuperGlue 榜單，題目一般都得有 2 萬多道，離權(quán)威可是差了幾萬倍。況且，它的評測得分榜首都是人類，那這個評分的基準到底是什么？是否有很多主觀性因素在里面？是否某些大模型提前在這個數(shù)據(jù)集上已經(jīng)訓練過？

任務設計太武斷，所謂“通用”基準，是用以測試通用的人工認知能力的，那么我們自然希望，評測任務是參考了模型想要模擬的認知能力及相關(guān)理論，系統(tǒng)化地選擇出來的。而實際上，我們觀察到的則是，基準的作者們在選擇任務的時候，更像是圖方便、省事。以往，CLUE 中存在著部分數(shù)據(jù)集，一味考慮任務的復雜性，卻在最起碼的分布邊界劃分上（如NER各個類別的邊界，如場所、景點類，組織機構(gòu)及其子類），模糊不清，且數(shù)據(jù)的一致性無法保證。

要么別比，要比就來點正規(guī)的比賽。自己出題自己考，說不準還搶跑，自己還是評委，那這是欺不負了解真相的吃瓜群眾。投機取巧，終皆散去。苦練內(nèi)功，才是王道。

國內(nèi)大模型排名（僅供參考）

拋開這些，從模型規(guī)模、模型效果、市場占有率等多個角度，百度的文心一言、華為的盤古、阿里的通義千問、騰訊的混元排在前四，應該是比較合理的，至于后面的排名，就不大能保證了。不過下面的排名也可以參考一下：

下面是一份完整的名單：

按發(fā)布時間排序：

百度：文心一言

作為國內(nèi)最早發(fā)布的大模型，百度的文心一言在今年3月16號就發(fā)布了，隨后經(jīng)過了多個版本的迭代。目前已經(jīng)有上千家企業(yè)接入。文心一言支持圖片、語音等多模態(tài)。

3月16日，百度在全球大廠中率先發(fā)布對標 ChatGPT 的大模型產(chǎn)品文心一言。據(jù)了解，文心一言內(nèi)測一個多月，就完成了4次大的技術(shù)升級，大模型推理性能提升近10倍。

李彥宏在5月4日百度內(nèi)部活動中表示，百度之所以能夠在Google、Meta、Amazon等大廠之前率先發(fā)布生成式大模型產(chǎn)品，是因為百度在芯片、框架、模型、應用等四個層面做到全棧布局、層層領(lǐng)先。

360：360智腦

百度是國內(nèi)搜索市場排名第一公司，而排名第二就是360。

大模型依靠的算力、數(shù)據(jù)、算法、場景，這兩家公司都具備，這也是搜索公司的優(yōu)勢，有業(yè)務和數(shù)據(jù)支撐大模型研發(fā)和落地。

5月16日，360集團和智譜AI宣布達成戰(zhàn)略合作，雙方共同研發(fā)的千億級大模型“360GLM”已具備新一代認知智能通用模型水準。

而在今天的世界智能大會上，周鴻祎展示了“360智腦”的多輪對話和“360鴻圖”的AI生圖兩個能力。

就像谷歌和微軟，一個擁有谷歌搜索，一個擁有必應。國內(nèi)的百度和360，一個擁有百度搜索，一個擁有360搜索。

搜索公司應該是這場大模型爭霸賽最后的贏家。（只是個人看法）

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴