在過去的幾年中,神經(jīng)網(wǎng)絡的興起與應用成功推動了模式識別和數(shù)據(jù)挖掘的研究。許多曾經(jīng)嚴重依賴于手工提取特征的機器學習任務(如目標檢測、機器翻譯和語音識別),如今都已被各種端到端的深度學習范式(例如卷積神經(jīng)網(wǎng)絡(CNN)、長短期記憶(LSTM)和自動編碼器)徹底改變了。曾有學者將本次人工智能浪潮的興起歸因于三個條件,分別是:
·計算資源的快速發(fā)展(如GPU)
·大量訓練數(shù)據(jù)的可用性
·深度學習從歐氏空間數(shù)據(jù)中提取潛在特征的有效性
盡管傳統(tǒng)的深度學習方法被應用在提取歐氏空間數(shù)據(jù)的特征方面取得了巨大的成功,但許多實際應用場景中的數(shù)據(jù)是從非歐式空間生成的,傳統(tǒng)的深度學習方法在處理非歐式空間數(shù)據(jù)上的表現(xiàn)卻仍難以使人滿意。例如,在電子商務中,一個基于圖(Graph)的學習系統(tǒng)能夠利用用戶和產(chǎn)品之間的交互來做出非常準確的推薦,但圖的復雜性使得現(xiàn)有的深度學習算法在處理時面臨著巨大的挑戰(zhàn)。這是因為圖是不規(guī)則的,每個圖都有一個大小可變的無序節(jié)點,圖中的每個節(jié)點都有不同數(shù)量的相鄰節(jié)點,導致一些重要的操作(例如卷積)在圖像(Image)上很容易計算,但不再適合直接用于圖。此外,現(xiàn)有深度學習算法的一個核心假設是數(shù)據(jù)樣本之間彼此獨立。然而,對于圖來說,情況并非如此,圖中的每個數(shù)據(jù)樣本(節(jié)點)都會有邊與圖中其他實數(shù)據(jù)樣本(節(jié)點)相關,這些信息可用于捕獲實例之間的相互依賴關系。
近年來,人們對深度學習方法在圖上的擴展越來越感興趣。在多方因素的成功推動下,研究人員借鑒了卷積網(wǎng)絡、循環(huán)網(wǎng)絡和深度自動編碼器的思想,定義和設計了用于處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡結構,由此一個新的研究熱點——“圖神經(jīng)網(wǎng)絡(Graph Neural Networks,GNN)”應運而生
近期看了關于Transformer的信息
來簡述一下Transformer結構
Transformer 整體結構
首先介紹 Transformer 的整體結構,下圖是 Transformer 用于中英文翻譯的整體結構:

Transformer 的整體結構,左圖Encoder和右圖Decoder
可以看到Transformer 由 Encoder 和 Decoder 兩個部分組成,Encoder 和 Decoder 都包含 6 個 block。Transformer 的工作流程大體如下:
第一步:獲取輸入句子的每一個單詞的表示向量X,X由單詞的 Embedding(Embedding就是從原始數(shù)據(jù)提取出來的Feature) 和單詞位置的 Embedding 相加得到。

Transformer 的輸入表示
第二步:將得到的單詞表示向量矩陣 (如上圖所示,每一行是一個單詞的表示x) 傳入 Encoder 中,經(jīng)過 6 個 Encoder block 后可以得到句子所有單詞的編碼信息矩陣C,如下圖。單詞向量矩陣用Xn×d表示, n 是句子中單詞個數(shù),d 是表示向量的維度 (論文中 d=512)。每一個 Encoder block 輸出的矩陣維度與輸入完全一致。

Transformer Encoder 編碼句子信息
第三步:將 Encoder 輸出的編碼信息矩陣C傳遞到 Decoder 中,Decoder 依次會根據(jù)當前翻譯過的單詞 1~ i 翻譯下一個單詞 i+1,如下圖所示。在使用的過程中,翻譯到單詞 i+1 的時候需要通過Mask (掩蓋)操作遮蓋住 i+1 之后的單詞。
Transofrmer Decoder 預測
上圖 Decoder 接收了 Encoder 的編碼矩陣C,然后首先輸入一個翻譯開始符 "",預測第一個單詞 "I";然后輸入翻譯開始符 "" 和單詞 "I",預測單詞 "have",以此類推。這是 Transformer 使用時候的大致流程。
審核編輯 黃昊宇
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4839瀏覽量
108048 -
深度學習
+關注
關注
73文章
5602瀏覽量
124565 -
Transformer
+關注
關注
0文章
156瀏覽量
6959
發(fā)布評論請先 登錄
面向嵌入式部署的神經(jīng)網(wǎng)絡優(yōu)化:模型壓縮深度解析
Transformer如何讓自動駕駛變得更聰明?
自動駕駛中常提的卷積神經(jīng)網(wǎng)絡是個啥?
CNN卷積神經(jīng)網(wǎng)絡設計原理及在MCU200T上仿真測試
NMSIS神經(jīng)網(wǎng)絡庫使用介紹
在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗
人工智能工程師高頻面試題匯總:循環(huán)神經(jīng)網(wǎng)絡篇(題目+答案)
液態(tài)神經(jīng)網(wǎng)絡(LNN):時間連續(xù)性與動態(tài)適應性的神經(jīng)網(wǎng)絡
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經(jīng)形態(tài)計算、類腦芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構
如何在機器視覺中部署深度學習神經(jīng)網(wǎng)絡
深度學習對工業(yè)物聯(lián)網(wǎng)有哪些幫助
自動駕駛中Transformer大模型會取代深度學習嗎?
深度學習與圖神經(jīng)網(wǎng)絡學習分享:Transformer
評論