Facebook AI Research、Google DeepMind、華盛頓大學和紐約大學合作,共同推出了SuperGLUE,這是一系列用來衡量現(xiàn)代高性能語言理解AI表現(xiàn)的基準測試任務,SuperGLUE針對的是已經(jīng)達到挑戰(zhàn)上限的會話式AI深度學習模型,為其提供更難的挑戰(zhàn),其比GLUE基準任務更負責,旨在構建能處理更加復雜和掌握更細微差別的語言模型。
目前NLP主要著眼在多任務學習和語言模型預訓練,從而孕育出各種模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評估這些模型的精準度,GLUE基準應運而生。
SuperGLUE正式上線:NLP模型們,來迎接挑戰(zhàn)吧!
GLUE全稱是通用語言理解評估(General Language Understanding Evaluation),基于已有的9種英文語言理解任務,涵蓋多種數(shù)據(jù)集大小、文本類型和難度。終極目標是推動研究,開發(fā)通用和強大的自然語言理解系統(tǒng)。
但隨著NLP模型狂飆似的發(fā)展速度,僅推出一年時間的GLUE基準,已經(jīng)顯得有些力不從心。于是,F(xiàn)acebook AI研究院、谷歌DeepMind、華盛頓大學以及紐約大學4家公司和高校開始攜手打造進化版新基準:SuperGLUE!
近日,進化后的基準也正式宣布上線,可供大家使用了!
地址:
https://gluebenchmark.com
因為BERT在GLUE上是當前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準。
什么是SuperGLUE?
如果你搜索SuperGLUE,出現(xiàn)在首頁的一定的各種膠水。這也是科技公司在給產(chǎn)品起名時特別喜歡玩兒的一個梗:利用命名的首字母縮寫成為一個十分普通、十分常見的英文單詞,這個單詞經(jīng)常和實際的科技產(chǎn)品毫不相關。
實際上,我們今天要介紹的SuperGLUE,全稱是超(級)通用語言理解評估(Super General-Purpose Language Understanding Evaluation)。
據(jù)SuperGLUE團隊介紹,為了獲得更強悍的任務集,他們向各個NLP社區(qū)發(fā)出了征集令,并最終獲得一個包含約30種不同NLP任務的列表。隨后按照如下標準篩選:
任務本質(zhì):即測試系統(tǒng)理解英語的能力
任務難度:即超出當前最先進模型的能力
可評估性:具備自動評斷機制,同時還需要能夠準確對應人類的判斷或表現(xiàn)
公開數(shù)據(jù):擁有可公開的數(shù)據(jù)
任務格式:提升輸入值的復雜程度,允許出現(xiàn)復雜句子、段落和文章等
任務許可:所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可
最終獲得一個包含7個任務的集合。然后,以這7個任務為基礎構建公開排行榜。
此外,SuperGLUE還包含基于已有數(shù)據(jù)的抽取、單個數(shù)值的表現(xiàn)指標,以及一套分析工具包jiant。 下載地址: https://jiant.info/
相比GLUE有哪些變化?效果如何?
進化后的新基準,難度有了大幅提升,應對起當前這些發(fā)育迅猛的NLP模型更加得心應手,從而可以鼓勵構建能夠掌握更復雜,或具有更細微差別的語言的模型。
相比上一代GLUE,首先研究人員向原有的11項任務開刀,直接砍掉其中的9項,并對剩下的2項任務進行了升級,這兩項任務分別是識別文本蘊涵(RTE)和Winograd模式挑戰(zhàn)賽(WSC)。
之后,5項新的評估基準也被添加進來,用于測試模型在回答問題、指代消解和常識推理方面的能力。這5項新任務分別是:CB,COPA,GAP,MultiRC和WiC。
初始的SuperGLUE基準版本包含了人類水平估計結(jié)果,擴展了GLUE中的句子和句子的分類,還包含了共指消解、句子完成和問答。
SuperGLUE任務集合比較多樣化,為了幫助研究者能夠開發(fā)出統(tǒng)一的新方法,SuperGLUE團隊還貼心的為研究人員提供了一套基于PyTorch和AllenNLP、用來操作NLP的預訓練、多任務學習和遷移學習的模塊化建模工具包。
此外,因為考慮到公平性、信息的豐富性,管理SuperGLUE排行榜的規(guī)則也有很多地方和GLUE有所區(qū)別,以期能充分體現(xiàn)數(shù)據(jù)和任務創(chuàng)建者的貢獻。
研究人員用主流NLP模型對新基準進行了測試,效果如下圖:
任務示例:
值得一提的是,即使是當前最先進的BERT模型,量化后的綜合分數(shù),比人類低了約16.8%。這樣的表現(xiàn),恐怕只能勉強算過得去而已。
-
語言模型
+關注
關注
0文章
571瀏覽量
11322 -
數(shù)據(jù)集
+關注
關注
4文章
1236瀏覽量
26207 -
nlp
+關注
關注
1文章
491瀏覽量
23282
原文標題:超難NLP新基準SuperGLUE正式發(fā)布:橫掃SOTA模型BERT勉強過關
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
中德開集團與蔚來能源首批共建換電站上線交付
亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型
OpenAI Sora 2模型上線微軟Azure AI Foundry國際版
中科曙光助力首個地質(zhì)大模型“坤樞”上線
小白學大模型:國外主流大模型匯總
亞馬遜云科技Amazon Bedrock模型再更新,Anthropic最新版Claude4模型現(xiàn)已上線
亞馬遜云科技現(xiàn)已上線OpenAI開放權重模型
積算科技上線赤兔推理引擎服務,創(chuàng)新解鎖FP8大模型算力
蔚來第1000座高速公路換電站上線運營
華為開發(fā)者大會2025(HDC 2025)亮點:華為云發(fā)布盤古大模型5.5 宣布新一代昇騰AI云服務上線
商湯科技日日新大模型SenseNova上線聲網(wǎng)云市場
加征關稅對中國芯片的影響,萬年芯:做好自己迎接挑戰(zhàn)
模型原生操作系統(tǒng):機遇、挑戰(zhàn)與展望 CCCF精選
SuperGLUE正式上線:NLP模型們,來迎接挑戰(zhàn)吧!
評論