9月份,我們兩位同學一起組隊,參加Byte Cup 2018國際機器學習競賽。本次比賽由中國人工智能學會和字節跳動主辦,IEEE中國代表處聯合組織。比賽的任務是文章標題自動生成。最終,我們隊伍獲得了第一名。
1.比賽介紹
本次比賽的任務是給定文章文本內容,自動生成標題。本質上和文本摘要任務比較類似。本次比賽有100多萬篇文章的訓練數據。
1.1數據介紹
詳細參見:https://biendata.com/competition/bytecup2018/data/。
本次競賽使用的訓練集包括了約130萬篇文本的信息,驗證集1000篇文章,
測試集800篇文章。
1.2數據處理
文章去重,訓練數據中包含一些重復數據,清洗,去重;
清洗非英文文章。
1.3評價指標
本次比賽將使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作為模型評估度量。Rough是評估自動文摘以及機器翻譯的常見指標。它通過將自動生成的文本與人工生成的文本(即參考文本)進行比較,根據相似度得出分值。

2.模型介紹
本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。
模型如下圖:

(其實就是將pointer-generator的copy機制加到transformer模型上)。
同時,嘗試了將ner-tagger和pos-tagger信息加入到模型中,如下圖所示:

3.問題分析
最開始我們嘗試了最基本的transformer模型,通過查看數據,遇到以下幾類明顯錯誤:
OOV(out of vocabulary);
數字,人名,地名預測錯誤;
詞形預測錯誤。
OOV問題,主要原因是數據集詞表太大,但是,模型能夠實際使用的詞表較小;數字,人名,地名預測錯誤,主要原因是低頻詞embedding學習不充分;詞形預測錯誤,主要原因是模型中沒有考慮詞的形態問題(當然,如果訓練數據足夠大,是能避免這個問題的)。
為了解決這些問題,我們嘗試了以下方法。
4.重要組件
4.1copy機制
對于很多低頻詞,通過生成式方法生成,其實是很不靠譜的。為此,我們借鑒Pointer-generator的方法,在生成標題的單詞的時候,通過Attention的概率分布,從原文中拷貝詞。
4.2subword
為了避免oov問題,我們采用subword的方法,處理文本。這樣,可以將詞表大小減小到20k,同時,subword會包含一些單詞詞形結構的信息。
4.3ner-tagger和pos-tagger信息
因為baseline在數字,人名,地名,詞形上預測錯誤率較高,所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實驗證明通過加入這兩個序列信息能夠大大加快模型的收斂速度(訓練收斂后,指標上基本沒差異)。
在實驗過程中,我們發現transformer模型對batch_size非常敏感。之前,有研究者在機器翻譯任務中,通過實驗也證明了這一觀點。然而,對于文章標題生成任務,因為每個sample的文章長度較長,所以,并不能使用超大batch_size來訓練模型,所以,我們用Gradient Accumulation的方法模擬超大batch_size。
4.5ensemble
采用了兩層融合。第一層,對于每一個模型,將訓練最后保存的N個模型參數求平均值(在valid集上選擇最好的N)。第二層,通過不同隨機種子得到的兩個模型,一個作為生成候選標題模型(選擇不同的beam_width, length_penalty), 一個作為打分模型,將候選標題送到模型打分,選擇分數最高的標題。
5.失敗的方法
將copy機制加入到transformer遇到一些問題,我們直接在decoder倒數第二層加了一層Attention層作為copy機制需要的概率分布,訓練模型非常不穩定,并且結果比baseline還要差很多;
我們嘗試了bert,我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層,結果并沒有得到提升;
word-embedding的選擇,我們使用glove和fasttext等預訓練的詞向量,模型收斂速度加快,但是,結果并沒有random的方法好。
6.結束語
非常感謝主辦方舉辦本次比賽,通過本次比賽,我們探索,學習到了很多算法方法和調參技巧。
-
人工智能
+關注
關注
1817文章
50098瀏覽量
265381 -
機器翻譯
+關注
關注
0文章
141瀏覽量
15526 -
數據集
+關注
關注
4文章
1236瀏覽量
26196
原文標題:Byte Cup 2018國際機器學習競賽奪冠記
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
太燃了!人形機器人1500米比賽,這家奪冠!更有機器人全程自主奔跑
人工智能與機器學習在這些行業的深度應用
機器學習和深度學習中需避免的 7 個常見錯誤與局限性
東莞理工學院“小眼睛科技杯”第四屆集成電路設計與創新應用競賽圓滿落幕
思嵐科技邀您相約2025日本東京國際機器人展覽會
廣和通斬獲具身智能家務機器人黑客松競賽二等獎
普渡樓宇配送機器人榮獲2025年IDEA國際設計卓越獎
舍弗勒攜手英飛凌共赴智能汽車競賽
第六屆TE Connectivity AI Cup全球競賽圓滿收官
中國兩大高校團隊斬獲第六屆TE Connectivity AI Cup全球競賽桂冠
Byte Cup 2018國際機器學習競賽奪冠記
評論