女同洣看久久产品99,亚洲AV无码成人精品区亚非,久久经典

—

研究動機

自動作文評分（英文叫Automated Essay Scoring，簡稱AES）旨在使用計算機來根據論文的整體質量或與某些屬性（trait）相關的質量來評分，例如，文章組織、切題程度、敘述性等。現有的大多數研究都是針對同一主題的已評分作文數據集上進行模型的訓練和預測（如圖1左上角和左下角），其中訓練和測試數據都是從同一分布中（DA）提取的。

圖1: AES任務概覽

然而真實場景中的AES系統通常無法獲得足夠多的目標主題文章，因此有必要研究如何預測訓練數據中不存在的主題的文章分數。因此，最近的一些研究探索了跨主題的AES，即從不同的主題中提取訓練數據和測試數據（圖1的右上角）。跨主題的AES研究目前只關注根據論文的整體性來評分，而我們認為一個有效的AES系統還應該能夠提供屬性級別的反饋，因此，我們引入了一個新的AES任務，即自動跨主題作文屬性評分，該任務要求模型在僅有非目標主題作文進行訓練的前提下，能夠準確預測屬于目標主題的文章的總分以及多個屬性的分數（如圖1右下角），其中訓練和測試數據來自不同的分布，輸出是不同屬性的分數。

這項新的任務表現出兩個主要的挑戰：

第一，模型需要有足夠的泛化能力，才能在新的主題中表現良好；

第二，模型需要能夠從不同的方面表示文章質量，以便有效地對各種文章屬性進行評分。

在探討自動跨主題作文屬性評分的任務中，我們解決了兩個問題：

第一，屬于不同題目的文章有不同的trait集，因此許多trait有部分覆蓋率（論文中叫partial-trait coverage），這會導致某些trait的訓練數據不足。例如，如果只有兩個題目的文章在敘述性trait上有分數（所有其他題目的文章沒有），那一個被訓練為這一trait打分的模型只能在這兩個題目的文章上進行訓練；

第二，不同trait之間存在高度的相關性。例如，一個在word choice的trait上分數高的文章也可以預期在conventions上獲得很好的分數。

為了解決partial-trait coverage的問題，我們引入了一種多任務的方法，即Cross-prompt Trait Scorer（CTS），該方法同時預測總體分數和所有trait的分數。這使得模型能夠對訓練集中的所有數據進行訓練，以學習更魯棒的表示。為了解決trait間關系的問題，我們設計了一個trait-attention機制，利用最相關的trait信息來預測每個trait的分數。

—

貢獻

1.我們提出了一個新的任務，即自動主題作文屬性評分，它將AES解決方案中的兩個重要任務（跨主題作文評分和作文屬性評分）結合起來，從而更貼近真實場景。

2.我們設計了一個新的方法叫Cross-prompt Trait Scorer（CTS），通過使用多任務方法來解決由于partial-trait coverage而導致訓練數據受限的問題。

3.我們設計了一個trait-attention機制來利用不同trait之間存在的關系。

—

解決方案

我們的方法建立在PAES（Ridley et al. 2020，如圖2左）之上，PAES是一個跨主題AES的SOTA方法。該方法利用詞性嵌入來學習廣義句法表示。首先，每個句子都有一個卷積層，通過attention pooling來實現句子級的表示。然后，這些表示被輸入一個recurrent層，該層使用LSTM，然后是第二個attention pooling層來學習完整的文章表示。然后將一組非主題特定的特征與文章表示鏈接起來，最后通過一個線性層和sigmoid激活來預測單個分數。

這類方法通過獨立地對每個trait進行訓練，也可以直接應用于本文提出的新任務中，然而這樣做有兩個問題：首先，如果訓練數據中只有少量的文章擁有目標trait的標簽，那么就沒有足夠的數據來訓練一個魯棒的模型。其次，這些trait并不是相互獨立的，而是相互關聯的。這種簡單的方法不利用任何隱含的trait間的關系。

為了解決上述問題，我們設計了一個名為Cross prompt Trait Scorer（CTS）的模型，如圖2右所示。針對partial-trait coverage導致數據不足的問題，我們采用了基于多任務的體系結構，這使得模型能夠對數據集中的所有樣本進行訓練，以便學習更魯棒的編碼器表示。為了解決trait間的關系問題，我們在模型的低級別實現共享層，然后在高級別實現私有層。共享層旨在學習對所有任務都有用的通用表示。在多任務結構中，高級別的層能夠表示更復雜的信息，因此私有層被用來學習更多的任務特定表示。此外，為了更明確地共享trait之間的信息，我們設計了一個trait-attention機制，允許每個trait集中于其他trait的相關信息。

圖2: PAES（左，Ridley et al. 2020）及本文給出的CTS模型（右）

—

實驗

本文的實驗是在Automated Student Assessment Prize（ASAP）數據集上進行的。ASAP數據集包含八個不同的文章集，每個集中的文章都有不同的題目。每一篇文章都會根據文章的整體質量獲得一個人性化的評分，而文章集7和8的文章則會根據評分標準對一些相關trait進行額外評分。由于只有文章集7和8具有trait分數，因此我們還使用了ASAP++數據集，該數據集是在原始ASAP數據集的基礎上構建的。ASAP++的作者為文章集1-6提供了各種相關trait的分數，以補充ASAP的原始總分。

表1: ASAP和ASAP++數據集中的屬性定義

每個文章集的trait如表1所示，文章集1-6的trait分數來自補充的ASAP++數據集，文章集7和8的trait分數來自ASAP數據集。所有的總分都來自原始的ASAP數據集。

在實驗中，一個文章集的作文被用作測試數據，其余幾組的文章被用作訓練數據。對于每個文章集重復此操作。在每種情況下，開發集包含與訓練集相同集的文章。

我們將CTS與四個baseline模型進行了比較，Hi att和AES aug都是在Prompt-specific Holistic scoring和Prompt-specific Trait Scoring都取得了很好性能的模型，PAES是我們的base模型，是一個面向Cross-prompt Holistic Scoring的SOTA方法，最后，CTS no att是我們的CTS模型的一個消融版本，沒有添加trait-attention機制。

表2:各文章集的平均QWK值

表3:各屬性的平均QWK值

在表2中，我們顯示了每個文章集的所有trait的平均分數，在表3中，我們顯示了每個trait的所有文章集的平均分數。從這兩個表來看，我們可以看出兩個面向Prompt-specific的方法（Hi att 和AES aug）都表現不好。這是因為這些模型不是為Cross-prompt的設置設計的，因此它們過擬合很嚴重。

當我們比較三種面向Cross-prompt模型時，我們可以看到，除了文章集5外，CTS在所有文章集上的性能都超過了PAES和CTS no att，而且在大多數文章集中，多任務方法CTS no att的性能都優于單任務方法PAES。這是因為PAES無法利用完整的訓練數據集，它只能在目標trait有標簽的樣本上進行訓練。CTS no att和CTS的多任務結構能夠利用訓練集中的所有樣本進行訓練。

表4:文章集2中每個屬性的平均QWK值

我們還通過實驗來驗證可用的訓練數據的數量對模型性能的影響。表4中顯示了PAES、CTS no att和CTS的文章集2的每個屬性的性能。在這個表格中，有Word Choice和Sentence Fluency只出現在另外兩個文章集中。因此，在對這兩個屬性進行評分時，基于單任務方法僅能對訓練集9499篇論文中的2129篇進行訓練，與其他兩個模型相比，這兩個trait的表現顯著降低。

圖3:預測文章集3的總分時所有屬性的注意力權重

為了深入了解trait-attention機制的運作方式，我們將注意力權重可視化。在圖3中，當預測文章集3的總分時，由于這是一個整體評分，應該從多個不同方面考慮文章的質量，因此我們可以看到注意力在所有屬性中的分布相對均勻，基本沒有權重明顯高于其他屬性的屬性。

圖4:預測文章集3的Language分數時的屬性注意權重

圖4則顯示了在預測文章集3的Language分數時的trait注意權重。這是一個比總分更具體、更集中的屬性，此時與語言密切相關的屬性Word Choice的權重要明顯高于其他屬性權重。

—

總結

為了滿足真實場景中AES系統的需求，我們引入了一個新的AES任務，即Automated Cross-prompt Scoring of Essay Traits。此外，我們還提出了一個新的方法（Cross-prompt Trait Scorer），它利用共享和私有層的多任務結構以及trait-attention機制來解決在跨主題設置中某些屬性數據有限以及屬性間關系利用的兩個問題。

責任編輯：xj

原文標題：【AAAI2021】自動跨主題作文屬性評分

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴