@sifangxiu.com,久久精品国产一区二区蜜桃,亚洲精品无码久久

Facebook AI Research、Google DeepMind、華盛頓大學和紐約大學合作，共同推出了SuperGLUE，這是一系列用來衡量現(xiàn)代高性能語言理解AI表現(xiàn)的基準測試任務，SuperGLUE針對的是已經(jīng)達到挑戰(zhàn)上限的會話式AI深度學習模型，為其提供更難的挑戰(zhàn)，其比GLUE基準任務更負責，旨在構建能處理更加復雜和掌握更細微差別的語言模型。

目前NLP主要著眼在多任務學習和語言模型預訓練，從而孕育出各種模型，如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評估這些模型的精準度，GLUE基準應運而生。

SuperGLUE正式上線：NLP模型們，來迎接挑戰(zhàn)吧！

GLUE全稱是通用語言理解評估（General Language Understanding Evaluation），基于已有的9種英文語言理解任務，涵蓋多種數(shù)據(jù)集大小、文本類型和難度。終極目標是推動研究，開發(fā)通用和強大的自然語言理解系統(tǒng)。

但隨著NLP模型狂飆似的發(fā)展速度，僅推出一年時間的GLUE基準，已經(jīng)顯得有些力不從心。于是，F(xiàn)acebook AI研究院、谷歌DeepMind、華盛頓大學以及紐約大學4家公司和高校開始攜手打造進化版新基準：SuperGLUE！

近日，進化后的基準也正式宣布上線，可供大家使用了！

地址：

https://gluebenchmark.com

因為BERT在GLUE上是當前最成功的方法，所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準。

什么是SuperGLUE？

如果你搜索SuperGLUE，出現(xiàn)在首頁的一定的各種膠水。這也是科技公司在給產(chǎn)品起名時特別喜歡玩兒的一個梗：利用命名的首字母縮寫成為一個十分普通、十分常見的英文單詞，這個單詞經(jīng)常和實際的科技產(chǎn)品毫不相關。

實際上，我們今天要介紹的SuperGLUE，全稱是超（級）通用語言理解評估（Super General-Purpose Language Understanding Evaluation）。

據(jù)SuperGLUE團隊介紹，為了獲得更強悍的任務集，他們向各個NLP社區(qū)發(fā)出了征集令，并最終獲得一個包含約30種不同NLP任務的列表。隨后按照如下標準篩選：

任務本質(zhì)：即測試系統(tǒng)理解英語的能力

任務難度：即超出當前最先進模型的能力

可評估性：具備自動評斷機制，同時還需要能夠準確對應人類的判斷或表現(xiàn)

公開數(shù)據(jù)：擁有可公開的數(shù)據(jù)

任務格式：提升輸入值的復雜程度，允許出現(xiàn)復雜句子、段落和文章等

任務許可：所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可

最終獲得一個包含7個任務的集合。然后，以這7個任務為基礎構建公開排行榜。

此外，SuperGLUE還包含基于已有數(shù)據(jù)的抽取、單個數(shù)值的表現(xiàn)指標，以及一套分析工具包jiant。下載地址： https://jiant.info/

相比GLUE有哪些變化？效果如何？

進化后的新基準，難度有了大幅提升，應對起當前這些發(fā)育迅猛的NLP模型更加得心應手，從而可以鼓勵構建能夠掌握更復雜，或具有更細微差別的語言的模型。

相比上一代GLUE，首先研究人員向原有的11項任務開刀，直接砍掉其中的9項，并對剩下的2項任務進行了升級，這兩項任務分別是識別文本蘊涵（RTE）和Winograd模式挑戰(zhàn)賽（WSC）。

之后，5項新的評估基準也被添加進來，用于測試模型在回答問題、指代消解和常識推理方面的能力。這5項新任務分別是：CB，COPA，GAP，MultiRC和WiC。

初始的SuperGLUE基準版本包含了人類水平估計結(jié)果，擴展了GLUE中的句子和句子的分類，還包含了共指消解、句子完成和問答。

SuperGLUE任務集合比較多樣化，為了幫助研究者能夠開發(fā)出統(tǒng)一的新方法，SuperGLUE團隊還貼心的為研究人員提供了一套基于PyTorch和AllenNLP、用來操作NLP的預訓練、多任務學習和遷移學習的模塊化建模工具包。

此外，因為考慮到公平性、信息的豐富性，管理SuperGLUE排行榜的規(guī)則也有很多地方和GLUE有所區(qū)別，以期能充分體現(xiàn)數(shù)據(jù)和任務創(chuàng)建者的貢獻。

研究人員用主流NLP模型對新基準進行了測試，效果如下圖：

任務示例：

值得一提的是，即使是當前最先進的BERT模型，量化后的綜合分數(shù)，比人類低了約16.8%。這樣的表現(xiàn)，恐怕只能勉強算過得去而已。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
571

瀏覽量
11322
數(shù)據(jù)集

數(shù)據(jù)集

+關注

關注
4

文章
1236

瀏覽量
26207
nlp

nlp

+關注

關注
1

文章
491

瀏覽量
23282

原文標題：超難NLP新基準SuperGLUE正式發(fā)布：橫掃SOTA模型BERT勉強過關

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

搜索歷史

SuperGLUE正式上線：NLP模型們，來迎接挑戰(zhàn)吧！

評論