国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

21個Transformer面試題的簡單回答

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:研究員易顯維 ? 2021-04-15 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.Transformer為何使用多頭注意力機制?(為什么不使用一個頭)

答:多頭可以使參數矩陣形成多個子空間,矩陣整體的size不變,只是改變了每個head對應的維度大小,這樣做使矩陣對多方面信息進行學習,但是計算量和單個head差不多。

2.Transformer為什么Q和K使用不同的權重矩陣生成,為何不能使用同一個值進行自身的點乘?

答:請求和鍵值初始為不同的權重是為了解決可能輸入句長與輸出句長不一致的問題。并且假如QK維度一致,如果不用Q,直接拿K和K點乘的話,你會發現attention score 矩陣是一個對稱矩陣。因為是同樣一個矩陣,都投影到了同樣一個空間,所以泛化能力很差。

3.Transformer計算attention的時候為何選擇點乘而不是加法?兩者計算復雜度和效果上有什么區別?

答:K和Q的點乘是為了得到一個attention score 矩陣,用來對V進行提純。K和Q使用了不同的W_k, W_Q來計算,可以理解為是在不同空間上的投影。正因為 有了這種不同空間的投影,增加了表達能力,這樣計算得到的attention score矩陣的泛化能力更高。

4.為什么在進行softmax之前需要對attention進行scaled(為什么除以dk的平方根),并使用公式推導進行講解

答:假設 Q 和 K 的均值為0,方差為1。它們的矩陣乘積將有均值為0,方差為dk,因此使用dk的平方根被用于縮放,因為,Q 和 K 的矩陣乘積的均值本應該為 0,方差本應該為1,這樣可以獲得更平緩的softmax。當維度很大時,點積結果會很大,會導致softmax的梯度很小。為了減輕這個影響,對點積進行縮放。

643dedc2-9cd8-11eb-8b86-12bb97331649.png

5.在計算attention score的時候如何對padding做mask操作?

答:對需要mask的位置設為負無窮,再對attention score進行相加

6.為什么在進行多頭注意力的時候需要對每個head進行降維?

答:將原有的高維空間轉化為多個低維空間并再最后進行拼接,形成同樣維度的輸出,借此豐富特性信息,降低了計算量

7.大概講一下Transformer的Encoder模塊?

答:輸入嵌入-加上位置編碼-多個編碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網絡層(包含激活函數層))

8.為何在獲取輸入詞向量之后需要對矩陣乘以embedding size的開方?

embedding matrix的初始化方式是xavier init,這種方式的方差是1/embedding size,因此乘以embedding size的開方使得embedding matrix的方差是1,在這個scale下可能更有利于embedding matrix的收斂。

9.簡單介紹一下Transformer的位置編碼?有什么意義和優缺點?

答:因為self-attention是位置無關的,無論句子的順序是什么樣的,通過self-attention計算的token的hidden embedding都是一樣的,這顯然不符合人類的思維。因此要有一個辦法能夠在模型中表達出一個token的位置信息,transformer使用了固定的positional encoding來表示token在句子中的絕對位置信息。

10.你還了解哪些關于位置編碼的技術,各自的優缺點是什么?

答:相對位置編碼(RPE)1.在計算attention score和weighted value時各加入一個可訓練的表示相對位置的參數。2.在生成多頭注意力時,把對key來說將絕對位置轉換為相對query的位置3.復數域函數,已知一個詞在某個位置的詞向量表示,可以計算出它在任何位置的詞向量表示。前兩個方法是詞向量+位置編碼,屬于亡羊補牢,復數域是生成詞向量的時候即生成對應的位置信息。

11.簡單講一下Transformer中的殘差結構以及意義。

答:encoder和decoder的self-attention層和ffn層都有殘差連接。反向傳播的時候不會造成梯度消失。

12.為什么transformer塊使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?

答:多頭注意力層和激活函數層之間。CV使用BN是認為channel維度的信息對cv方面有重要意義,如果對channel維度也歸一化會造成不同通道信息一定的損失。而同理nlp領域認為句子長度不一致,并且各個batch的信息沒什么關系,因此只考慮句子內信息的歸一化,也就是LN。

13.簡答講一下BatchNorm技術,以及它的優缺點。

答:批歸一化是對每一批的數據在進入激活函數前進行歸一化,可以提高收斂速度,防止過擬合,防止梯度消失,增加網絡對數據的敏感度。

14.簡單描述一下Transformer中的前饋神經網絡?使用了什么激活函數?相關優缺點?

答:輸入嵌入-加上位置編碼-多個編碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網絡層(包含激活函數層))-多個解碼器層(每個編碼器層包含全連接層,多頭注意力層和點式前饋網絡層)-全連接層,使用了relu激活函數

15.Encoder端和Decoder端是如何進行交互的?

答:通過轉置encoder_ouput的seq_len維與depth維,進行矩陣兩次乘法,即q*kT*v輸出即可得到target_len維度的輸出

16.Decoder階段的多頭自注意力和encoder的多頭自注意力有什么區別?

答:Decoder有兩層mha,encoder有一層mha,Decoder的第二層mha是為了轉化輸入與輸出句長,Decoder的請求q與鍵k和數值v的倒數第二個維度可以不一樣,但是encoder的qkv維度一樣。

17.Transformer的并行化提現在哪個地方?

答:Transformer的并行化主要體現在self-attention模塊,在Encoder端Transformer可以并行處理整個序列,并得到整個輸入序列經過Encoder端的輸出,但是rnn只能從前到后的執行

18.Decoder端可以做并行化嗎?

訓練的時候可以,但是交互的時候不可以

19.簡單描述一下wordpiece model 和 byte pair encoding,有實際應用過嗎?

答“傳統詞表示方法無法很好的處理未知或罕見的詞匯(OOV問題)

傳統詞tokenization方法不利于模型學習詞綴之間的關系”BPE(字節對編碼)或二元編碼是一種簡單的數據壓縮形式,其中最常見的一對連續字節數據被替換為該數據中不存在的字節。后期使用時需要一個替換表來重建原始數據。優點:可以有效地平衡詞匯表大小和步數(編碼句子所需的token次數)。

缺點:基于貪婪和確定的符號替換,不能提供帶概率的多個分片結果。

20.Transformer訓練的時候學習率是如何設定的?Dropout是如何設定的,位置在哪里?Dropout 在測試的需要有什么需要注意的嗎?

LN是為了解決梯度消失的問題,dropout是為了解決過擬合的問題。在embedding后面加LN有利于embedding matrix的收斂。

21.bert的mask為何不學習transformer在attention處進行屏蔽score的技巧?

答:BERT和transformer的目標不一致,bert是語言的預訓練模型,需要充分考慮上下文的關系,而transformer主要考慮句子中第i個元素與前i-1個元素的關系。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142655
  • 矩陣
    +關注

    關注

    1

    文章

    448

    瀏覽量

    36094
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6937

原文標題:21個Transformer面試題的簡單回答

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    TCP三次握手與四次揮手的詳細過程

    TCP 三次握手和四次揮手,大概是網絡領域被問爛了的面試題。但真正能把狀態變遷、序列號變化、抓包細節講清楚的人并不多。很多人背了八股文,一到生產環境看 Wireshark 抓包就懵了
    的頭像 發表于 02-25 10:38 ?217次閱讀

    Transformer 入門:從零理解 AI 大模型的核心原理

    第一部分:數學基礎鋪墊 在開始之前,讓我們先了解一些基礎概念。不用擔心,我會用最簡單的方式來解釋。 向量、矩陣、張量 什么是向量(Vector)? 向量就是一排數字的集合。 想象你要描述一人的特征
    發表于 02-10 16:33

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer在自動駕駛行業一直被提及?
    的頭像 發表于 02-01 09:15 ?4172次閱讀

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯起來。
    的頭像 發表于 11-19 18:17 ?2277次閱讀

    人工智能工程師高頻面試題匯總:循環神經網絡篇(題目+答案)

    后臺私信雯雯老師,備注:循環神經網絡,領取更多相關面試題隨著人工智能技術的突飛猛進,AI工程師成為了眾多求職者夢寐以求的職業。想要拿下這份工作,面試的時候得展示出你不僅技術過硬,還得能解決問題。所以
    的頭像 發表于 10-17 16:36 ?708次閱讀
    人工智能工程師高頻<b class='flag-5'>面試題</b>匯總:循環神經網絡篇(題目+答案)

    用30道電子工程師面試題來拷問墮落的你...

    今天用30道電子工程師面試題來拷問墮落的你,你能扛住第幾題?1、下面是一些基本的數字電路知識問題,請簡要回答之。(1)什么是Setup和Hold時間?答:Setup/HoldTime用于測試芯片
    的頭像 發表于 10-15 17:37 ?1136次閱讀
    用30道電子工程師<b class='flag-5'>面試題</b>來拷問墮落的你...

    每周推薦!硬件設計指南+無刷電機原理圖大全+工程師面試題庫匯總

    、硬件工程師或研發類筆試面試題庫匯總 一、模擬電路(基本概念和知識總攬) 1、基本放大電路種類 (電壓放大器,電流放大器,互導放大器和互阻放大器),優缺點,特別是廣泛采用差分結構的原因。 2、負反饋種類
    發表于 07-07 14:38

    硬件工程師或研發類筆試面試題庫匯總

    一、模擬電路(基本概念和知識總攬)1、基本放大電路種類(電壓放大器,電流放大器,互導放大器和互阻放大器),優缺點,特別是廣泛采用差分結構的原因。2、負反饋種類(電壓并聯反饋,電流串聯反饋,電壓串聯反饋和電流并聯反饋);負反 饋的優點(降低放大器的增益靈敏度,改變輸入電阻和輸出電阻,改善放大器的線性和非 線性失真,有效地擴展放大器的通頻帶,自動調節作用)3、基爾霍夫定理的內容是什么?基爾霍夫定律包括電流定律和電壓定律。電流定律:在集總電路中,任何時刻,對任一節點,所有流出節點的支路電流代數和恒等于零。電壓定律:在集總電路中,任何時刻,沿任一回路,所有支路電壓的代數和恒等于零。4、描述反饋電路的概念,列舉他們的應用?反饋,就是在電子系統中,把輸出回路中的電量輸入到輸入回路中去。反饋的類型有:電壓串聯負反饋、電流串聯負反饋、電壓并聯負反饋、電流并聯負反饋。負反饋的優點:降低放大器的增益靈敏度,改變輸入電阻和輸出電阻,改善放大器的線性和非線性失真,有效地擴展放大器的通頻帶,自動調節作用。電壓(流)負反饋的特點:電路的輸出電壓(流)趨向于維持恒定。5、有源濾波器和無源濾波器的區別?無源濾波器:這種電路主要有無源元件R、L和C組成有源濾波器:集成運放和R、C組成,具有不用電感、體積小、重量輕等優點。集成運放的開環電壓增益和輸入阻抗均很高,輸出電阻小,構成有源濾波電路后還具有一定的電壓放大和緩沖作用。但集成運放帶寬有限,所以目前的有源濾波電路的工作頻率難以做得很高。6、基本放大電路的種類及優缺點,廣泛采用差分結構的原因。答:基本放大電路按其接法的不同可以分為共發射極放大電路、共基極放大電路和共集電極放大電路,簡稱共基、共射、共集放大電路。共射放大電路既能放大電流又能放大電壓,輸入電阻在三種電路中居中,輸出電阻較大,頻帶較窄。常做為低頻電壓放大電路的單元電路。共基放大電路只能放大電壓不能放大電流,輸入電阻小,電壓放大倍數和輸出電阻與共射放大電路相當,頻率特性是三種接法中最好的電路。常用于寬頻帶放大電路。共集放大電路只能放大電流不能放大電壓,是三種接法中輸入電阻最大、輸出電阻最小的電路,并具有電壓跟隨的特點。常用于電壓放大電路的輸入級和輸出級,在功率放大電路中也常采用射極輸出的形式。廣泛采用差分結構的原因是差分結構可以抑制溫度漂移現象。? 7、二極管主要用于限幅,整流,鉗位.? 判斷二極管是否正向導通:1.先假設二極管截止,求其陽極和陰極電位;2.若陽極陰極電位差> UD ,則其正向導通;3.若電路有多個二極管,陽極和陰極電位差最大的二極管優先導通;其導通后,其陽極陰極電位差被鉗制在正向導通電壓(0.7V 或0.3V );再判斷其它二極管. 獲取完整文檔資料可下載附件哦!!!! 如果內容有幫助可以關注、點贊、評論支持一下哦~
    發表于 07-01 14:21

    最全的硬件工程師筆試試題

    硬件面試題之一 1、下面是一些基本的數字電路知識問題,請簡要回答之。 (1) 什么是 Setup 和 Hold 時間? 答:Setup/Hold Time 用于測試芯片對輸入信號和時鐘信號之間的時間
    發表于 06-26 15:34

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發表于 06-10 14:27 ?1067次閱讀
    <b class='flag-5'>Transformer</b>架構中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1291次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    【硬件方向】名企面試筆試真題:大疆創新校園招聘筆試題

    名企面試筆試真題:大疆創新校園招聘筆試題-硬件 是幾年前的題目,不過值得參考一下哦 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內容有幫助可以關注、點贊、評論支持一下哦~)
    發表于 05-16 17:31

    硬件工程師面試/筆試經典 100 題

    分享一些常見的硬件工程師面試/筆試題。公眾號后臺回復關鍵字:100題,可獲取完整的PDF。--END--免責聲明:本文轉自網絡,版權歸原作者所有,如涉及作品版權問題,請及時與我們聯系,謝謝!加入粉絲
    的頭像 發表于 04-30 19:34 ?1452次閱讀
    硬件工程師<b class='flag-5'>面試</b>/筆試經典 100 題

    硬件工程師面試必看試題(經典)

    硬件工程師面試試題 模擬電路 1、基爾霍夫定理的內容是什么?(仕蘭微電子) 2、平板電容公式(C=εS/4πkd)。(未知) 3、最基本的如三極管曲線特性。(未知) 4、描述反饋電路的概念
    發表于 04-21 15:36

    模電與數電的基本知識 (學習備用)

    類似TTL和CMOS區別的基礎面試題1,TTL電平:輸出高電平>2.4V,輸出低電平=2.0V,輸入低電平Vih,輸入低電平Vih>Vt>Vil>Vol。6:Ioh:邏輯門
    的頭像 發表于 03-26 19:32 ?1948次閱讀
    模電與數電的基本知識 (學習備用)