Encoder-Decoder 和 Seq2Seq
機器翻譯、對話機器人、詩詞生成、代碼補全、文章摘要(文本 - 文本)
「文本 - 文本」 是最典型的應用,其輸入序列和輸出序列的長度可能會有較大的差異。
Google 發(fā)表的用Seq2Seq做機器翻譯的論文《Sequence to Sequence Learning with Neural Networks》
語音識別也有很強的序列特征,比較適合 Encoder-Decoder 模型。
Google 發(fā)表的使用Seq2Seq做語音識別的論文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》
圖像描述生成(圖片 - 文本)
通俗的講就是「看圖說話」,機器提取圖片特征,然后用文字表達出來。這個應用是計算機視覺和 NLP 的結(jié)合。
圖像描述生成的論文《Sequence to Sequence – Video to Text》
Encoder-Decoder 的缺陷
上文提到:Encoder(編碼器)和 Decoder(解碼器)之間只有一個「向量 c」來傳遞信息,且 c 的長度固定。
為了便于理解,我們類比為「壓縮-解壓」的過程:
將一張 800X800 像素的圖片壓縮成 100KB,看上去還比較清晰。再將一張 3000X3000 像素的圖片也壓縮到 100KB,看上去就模糊了。
Encoder-Decoder 就是類似的問題:當輸入信息太長時,會丟失掉一些信息。
Attention 解決信息丟失問題
Attention 機制就是為了解決「信息過長,信息丟失」的問題。
Attention 模型的特點是 Eecoder 不再將整個輸入序列編碼為固定長度的「中間向量 C」 ,而是編碼成一個向量的序列。
這樣,在產(chǎn)生每一個輸出的時候,都能夠做到充分利用輸入序列攜帶的信息。而且這種方法在翻譯任務中取得了非常不錯的成果。
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1817文章
50098瀏覽量
265399 -
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23280
發(fā)布評論請先 登錄
百度文心大模型5.0 Preview榮登LMArena文本榜國內(nèi)第一
一文看懂AI大模型的并行訓練方式(DP、PP、TP、EP)
摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026
一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq
評論