久久亚洲男人第一AV网站,国产九九视频一区二区三区,欧美日韩一区二区在线观看

如果把中學生的英語閱讀理解選擇題讓AI來做，會做出什么水平？近日，上交大團隊訓練的“雙向協同匹配網絡”（DCMN）取得了74%的正確率。盡管和人類學生相比只能算馬馬虎虎，但對AI來說，這已經達到了目前的最高水平。

目前，在英語考試的閱讀理解上，AI雖然無法擊敗更有能力的人類學生，但它仍然是衡量機器對語言理解能力的最佳量度之一。

近日，上海交通大學的趙海團隊對AI模型進行了超過25000次英語閱讀理解測試訓練。訓練材料和中國現行英語水平考試的閱讀理解形式類似，每篇文章大約200到300個詞，文后是一系列與文章內容相關的多項選擇題。這些測試來自針對12至18歲中國學生的英語水平考試。

雖然這些問題有些可以在文中找到答案，但其中一半以上的題目仍需要一定程度的推理。例如，有些問題會要求從四個選項中選出文章的“最佳標題”。在訓練結束后，AI參加了測試，其中包括1400次以前從未見過的考試。綜合得分為74分（百分制），優于之前的所有機器測試。

上交大的AI系統可以識別與問題相關的文章相關部分，然后選出在含義上和邏輯上最相似的答案。在測試中排名第二的是騰訊的AI系統，在同一次考試中得分為72分。騰訊的AI學會了比較每個選項中包含的信息，并將不同選項間的信息差異作為提示，在文章中尋找證據。

目前最厲害的AI，閱讀理解只能得個C+

盡管在測試中分數處于領先，趙海團隊仍在努力提高AI系統的能力。“如果從真人學生的視角來看，我們的AI的表現也就是一般水平，最多得個C+，”他說。“對于那些想進入中國優秀大學的學生來說，他們的目標是90分。”

為了提高分數，團隊將嘗試修改AI，以便理解嵌入在句子結構中的信息，并為AI提供更多數據，擴大其詞匯量。

如何理解人類的語言，一直是AI領域的一個主要問題，因為這種理解通常是不精確的，這個問題涉及機器難以掌握的隱含語境信息和社會線索問題。

卡內基梅隆大學的GuokunLai表示，目前我們仍不清楚AI在學習我們的語言時會遵循什么規則，“不過在閱讀了大量的句子和文章之后，AI似乎能夠理解我們的邏輯。”

該研究的相關論文已經發表在Arxiv上，以下是論文的主要內容：

讓AI做閱讀理解是一項具有挑戰性的任務，需要復雜的推理過程。AI需要從一組候選答案中選擇正確的答案。本文提出雙重協同匹配網絡（DCMN），該網絡可以雙向地模擬通道，問題和答案之間的關系。

與僅就問題感知或選擇性文章表示進行計算的現有方法不同，DCMN能夠計算文章感知問題表示和文章感知答案表示。為了證明DCMN模型的有效性，我們在大型閱讀理解數據集（即RACE）上評估了模型。結果表明，該模型達到了目前AI閱讀理解的最高水平。

機器閱讀理解和問答已經成為評估自然語言處理和理解領域人工智能系統進展的關鍵應用問題。計算語言學界對機器閱讀理解和問答的一般問題給予了極大的關注。

本文主要關注選擇題閱讀理解數據集，如RACE，該數據集中每個問題后都帶有一組答案選項。大多數問題的正確答案可能不會在原文中完全復現，問題類型和范圍也更加豐富和廣泛，比如涉及某一段落的提要和對文章作者態度的分析。

這需要AI能夠更深入地了解文章內容，并利用外部世界知識來回答這些問題。此外，與傳統的閱讀理解問題相比，我們需要充分考慮通過文章-問題-答案三者之間的關系，而不僅僅是問題-答案的配對。

新模型DCMN：在文章、問題、答案三者之間建立聯系

DCMN模型可以將問題-答案與給定文章內容進行雙向匹配，利用了NLP領域的最新突破——BERT進行上下文嵌入。在介紹BERT的原論文中提到，對應于第一輸入令牌（CLS）的最終隱藏向量被用作聚合表示，然后利用分類層計算標準分類損失。

我們認為這種方法太粗糙，無法處理文章-問題-答案的三者關系組合，因為這種方法只是粗略地將文章-問題的聯系作為第一序列，將問題作為第二序列，沒有考慮問題和文章內容之間的關系。因此，我們提出了一種新方法來模擬文章、問題和候選答案之間的關系。

使用BERT作為編碼層，分別得到文章、問題和答案選項的上下文表示。

構造匹配層以獲得文章-問題-答案三者之間匹配表示，對問題在文章中對應的位置信息與特定上下文匹配的候選答案進行編碼。

對從字級到序列級的匹配表示應用層次聚合方法，然后從序列級到文檔級應用。

我們的模型在BERT模型的基礎上，于RACE數據集上將當前最高得分提高了2.6個百分點，并使用大規模BERT模型進一步將得分提高了3個百分點。

實驗及測試結果

在RACE數據集上對模型進行了評估。這個數據集由兩個子集組成：RACE-M和RACE-H。RACE-M來自初中考試試題，RACE-H來自高中考試試題。RACE是這兩者的結合。我們將我們的模型與以下基線方法進行了比較：MRU（多范圍推理），DFN（動態融合網絡），HCM（等級協同匹配），OFT（OpenAI微調語言轉換模型），RSM（閱讀策略模型）。

我們還將我們的模型與BERT基線進行比較，并實現BERT原論文（2018）中描述的方法，該方法使用對應于第一個輸入標記（[CLS]）的最終隱藏向量作為聚合表示，然后是分類層，最后計算標準分類損失。測試結果如上表所示。

我們可以看到BERT基線模型的性能非常接近先前的最高水平，而大型BERT模型的表現甚至超過了之前SOTA水平3.7％。但是實驗結果表明，我們的DCMN模型更強大，將最高得分進一步分別提升了2.2％。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
39866

瀏覽量
301510
人工智能

人工智能

+關注

關注
1817

文章
50105

瀏覽量
265534
數據集

數據集

+關注

關注
4

文章
1236

瀏覽量
26207

原文標題：最強AI挑戰中國英語閱讀理解：只得70多分，不如中等生

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

搜索歷史

如果把中學生的英語閱讀理解選擇題讓AI來做，會做出什么水平？

評論