亚洲熟女性爱,17c成人精品,玖玖插

9月份，我們兩位同學一起組隊，參加Byte Cup 2018國際機器學習競賽。本次比賽由中國人工智能學會和字節跳動主辦，IEEE中國代表處聯合組織。比賽的任務是文章標題自動生成。最終，我們隊伍獲得了第一名。

1.比賽介紹

本次比賽的任務是給定文章文本內容，自動生成標題。本質上和文本摘要任務比較類似。本次比賽有100多萬篇文章的訓練數據。

1.1數據介紹

詳細參見：https://biendata.com/competition/bytecup2018/data/。

本次競賽使用的訓練集包括了約130萬篇文本的信息，驗證集1000篇文章，

測試集800篇文章。

1.2數據處理

文章去重，訓練數據中包含一些重復數據，清洗，去重；

清洗非英文文章。

1.3評價指標

本次比賽將使用Rouge（Recall-Oriented Understudy for Gisting Evaluation）作為模型評估度量。Rough是評估自動文摘以及機器翻譯的常見指標。它通過將自動生成的文本與人工生成的文本（即參考文本）進行比較，根據相似度得出分值。

2.模型介紹

本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。

模型如下圖：

（其實就是將pointer-generator的copy機制加到transformer模型上）。

同時，嘗試了將ner-tagger和pos-tagger信息加入到模型中，如下圖所示：

3.問題分析

最開始我們嘗試了最基本的transformer模型，通過查看數據，遇到以下幾類明顯錯誤：

OOV(out of vocabulary)；

數字，人名，地名預測錯誤；

詞形預測錯誤。

OOV問題，主要原因是數據集詞表太大，但是，模型能夠實際使用的詞表較小；數字，人名，地名預測錯誤，主要原因是低頻詞embedding學習不充分；詞形預測錯誤，主要原因是模型中沒有考慮詞的形態問題（當然，如果訓練數據足夠大，是能避免這個問題的）。

為了解決這些問題，我們嘗試了以下方法。

4.重要組件

4.1copy機制

對于很多低頻詞，通過生成式方法生成，其實是很不靠譜的。為此，我們借鑒Pointer-generator的方法，在生成標題的單詞的時候，通過Attention的概率分布，從原文中拷貝詞。

4.2subword

為了避免oov問題，我們采用subword的方法，處理文本。這樣，可以將詞表大小減小到20k，同時，subword會包含一些單詞詞形結構的信息。

4.3ner-tagger和pos-tagger信息

因為baseline在數字，人名，地名，詞形上預測錯誤率較高，所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實驗證明通過加入這兩個序列信息能夠大大加快模型的收斂速度（訓練收斂后，指標上基本沒差異）。

4.4Gradient Accumulation

在實驗過程中，我們發現transformer模型對batch_size非常敏感。之前，有研究者在機器翻譯任務中，通過實驗也證明了這一觀點。然而，對于文章標題生成任務，因為每個sample的文章長度較長，所以，并不能使用超大batch_size來訓練模型，所以，我們用Gradient Accumulation的方法模擬超大batch_size。

4.5ensemble

采用了兩層融合。第一層，對于每一個模型，將訓練最后保存的N個模型參數求平均值（在valid集上選擇最好的N）。第二層，通過不同隨機種子得到的兩個模型，一個作為生成候選標題模型（選擇不同的beam_width, length_penalty）, 一個作為打分模型，將候選標題送到模型打分，選擇分數最高的標題。

5.失敗的方法

將copy機制加入到transformer遇到一些問題，我們直接在decoder倒數第二層加了一層Attention層作為copy機制需要的概率分布，訓練模型非常不穩定，并且結果比baseline還要差很多；

我們嘗試了bert，我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層，結果并沒有得到提升；

word-embedding的選擇，我們使用glove和fasttext等預訓練的詞向量，模型收斂速度加快，但是，結果并沒有random的方法好。

6.結束語

非常感謝主辦方舉辦本次比賽，通過本次比賽，我們探索，學習到了很多算法方法和調參技巧。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴