国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文帶你了解RNN、LTSM、Seq2Seq、Attention機制

智能生物識別說 ? 來源:快商通AI ? 作者:快商通AI ? 2021-09-27 18:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

上一章我們詳細介紹了小樣本做文本分類中的膠囊網絡,那么這一章我們就來看看RNN(循環神經網絡)。大神們準備好了嗎,我們要發車了~

首先就是我們為什么需要RNN?

舉個簡單的例子,最近娛樂圈頂流明星吳亦凡又出新瓜,大家都吃了咩?(反正小編吃的很飽哈)那么就以我 吃 瓜為例,三個單詞標注詞性為 我/nn 吃/v 瓜/nn。

那么這個任務的輸入就是:

我 吃 瓜 (已經分詞好的句子)

這個任務的輸出是:

我/nn 吃/v 瓜/nn(詞性標注好的句子)

很明顯,一個句子中,前一個單詞其實對于當前單詞的詞性預測是有很大影響的,比如預測“瓜”的時候,由于前面的吃是一個動詞,那么很顯然“瓜”作為名詞的概率就會遠大于動詞的概率,因為動詞后面接名詞很常見,而動詞后面接動詞很少見。

所以為了更好的處理序列的信息,解決一些這樣類似的問題,我們的RNN就誕生了。

rnn的結構和原理

看完初步的概念我們來深入一點看看RNN的結構和原理。rnn的結構和原理

pYYBAGC4meiAAdlHAABjM2jJoEw935.jpg

剛開始看到這幅圖的同學會不會有一點懵懵?沒關系,我們來帶著解釋一遍~

首先通過這副圖,就能明白RNN的意義就是每個輸出的狀態都只由前一時刻的狀態和當前時刻的輸入來決定。從等式左邊的一個環繞箭頭就能明白參數是共享的。

一個序列的每個詞就是每個時間步,每個詞都會對應得到一個hidden_state,并將這個隱藏層狀態輸入下一個時間步。

最終會得到output和hidden,output是每一步運算的輸出,因此output=(seqence_len, batch_size, hidden_size)。hidden_state是每一步的輸出,當然有參數來控制可以取最后一步的輸出,所以RNN中一般output=hidden。

lstm的結構和原理

聊完一圈RNN之后,我們來看看它的變種兄弟-LSTM吧!

別慌,我說的不是變種成僵尸的那種東東,Lstm為長短期記憶,是在RNN的基礎上引入了細胞狀態,根據細胞狀態可決定哪些狀態應該保留下來,哪些狀態應該被遺忘,可以在一定程度上解決梯度消失問題。

那么為了能夠學習序列關系的長期依賴,Lstm的輸出和rnn一樣都包含output和hidden,除此之外還有一個cell_state,這個就是學習序列信息lstm與rnn的差異。

在lstm里面理解的就是用“門”結構,來選擇信息通過,關鍵是用了$sigmoid(\cdot)$函數來區分趨于0的和趨于1的特征數據。

遺忘門:通過$f_t=\sigma(W_f \cdot[h_{t-1},x_t] + b_f)$ 來判斷隱藏層信息的取舍。

輸入門:

poYBAGC4meWADv9WAAAccVYUC9w682.jpg

通過$\tanh(\cdot)$,來將隱藏層狀態映射到(-1,1)最后來更新$C_{t-1}$ 到$C_t $

輸出門:

pYYBAGC4meyAMy7aAAAWL7NbiQI218.jpg

會發現$f_t、i_t、o_t$的構成是一致的。但是通過不同的權重來學習。因此優化lstm是將遺忘門和輸入門合并成了一個更新門,這就是GRU:

可以理解為主要分為兩部分,第一部分:

pYYBAGC4me2AOoxXAAASZqSshqY694.jpg

$z_t$表示更新向量,$r_t$表示重置向量,于是在接下來就能夠考慮$r_t$與$h_{t-1}$的相關性來去對部分數據進行重置,也就相當于舍棄。實現遺忘門的效果。

第二部分:

poYBAGC4meiAGOzMAAAd9tihyU0202.jpg

很好理解,就可以通過篩選得到的有效的隱藏層信息$\tilde{h}t$和更新向量來獲取最終的輸出結果$(1-z_t) * h{t-1}$表示對當前一時刻隱藏層狀態選擇性“遺忘”。$z_t * \tilde{h}_t$就表示對當前序列信息的“記憶”。

sequence-to-sequence的結構和原理

也叫做Encoder-Decoder結構,在encoder和decoder中也都是用序列模型,就是將數據先encode成一個上下文向量context vector,這個context vector可以是1)最后一個隱藏層狀態,2)可以是完整的隱藏層輸出,3)也可以是對隱藏層輸出做激活或者線性變換之后的輸出。

之后在decoder中,將context vector作為前一時刻初始化的狀態輸入從而將語義按監督信息的需要解碼?;蛘邔ontext vector作為decoder每一個時間步的輸入。因此會發現seq2seq并不限制輸入和輸出的序列長度,這就表示應用范圍可以很廣。

Attention

會發現context vector并不能夠包含長句的所有信息,或者說會造成信息的丟失,因此attention機制就是能夠向decoder的每一個時間步輸入不同的文本信息,提升語義的理解能力。

因為lstm會得到完整的包含每一個時間步的輸出得到的ouput和hidden,因此$h_i$和$C_j$的相關性就能夠表示在decode第$j$步序列時最關心的文本是那一步的 $h_i $,用 $\alpha_{ij}$來表示。

每一個encoder的hidden單元和每一個decoder的hidden單元做點乘,得到每兩個單元之間的相關性,在lstm/rnn之后用attention就是計算hidden和ouput的每個單元之間的相關性,然后做一步$softmax$得到encoder的hidden或者說是lstm的hidden每個單元的attention weights。因此:Attention 無非就是這三個公式:

poYBAGC4meqAKxjvAAAT3nJUrlE172.jpg

從常規的(Q,K,V)的角度來理解,可以如圖所示:

pYYBAGC4mfCAE2pwAAApg85OSxU468.jpg

在Attention中$Q$和$K$分別是hidden和output,同樣的$V$也是ouput,在self-attention中Q=K=V,并且$\sqrt{d_k}$有些情況下是不會加在attention過程中的。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94754
  • Gru
    Gru
    +關注

    關注

    0

    文章

    12

    瀏覽量

    7750
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    搞清 BLE 藍牙 UUID

    帶你搞清楚藍牙 UUID ...... 矜辰所致
    的頭像 發表于 12-18 11:23 ?4247次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>搞清 BLE 藍牙 UUID

    讀懂LSTM與RNN:從原理到實戰,掌握序列建模核心技術

    RNN的核心局限。今天,我們從原理、梯度推導到實踐,全面解析這兩大經典模型。、基礎鋪墊:RNN的核心邏輯與痛點RNN的核心是讓模型“記住過去”——通過隱藏層的循環連
    的頭像 發表于 12-09 13:56 ?1369次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>讀懂LSTM與<b class='flag-5'>RNN</b>:從原理到實戰,掌握序列建模核心技術

    OK3506-S12 Mini開發板開箱和基本使用(飛凌嵌入式)

    OK3506-S12 Mini開發板 圖2 OK3506-S12 Mini開發板 開發板簡介 ? ?RK3506J/RK3506B是款高性能的三核Cortex-A7應用處理器,專為智能語音交互、音頻輸入/輸出
    發表于 11-03 00:57

    帶你了解海凌科毫米波雷達

    什么是毫米波雷達?毫米波雷達有什么特點?毫米波雷達有什么作用?海凌科有哪些系列毫米波雷達?帶你了解!毫米波的定義毫米波是指頻率在30GHz至300GHz之間、波長為1~10毫米的電
    的頭像 發表于 08-11 12:04 ?1815次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>帶你</b><b class='flag-5'>了解</b>海凌科毫米波雷達

    帶你了解什么是機器視覺網卡

    機器視覺網卡通常指的是在機器視覺系統中用于連接工業相機到計算機的以太網卡。它的核心作用是實現高速、穩定、低延遲的圖像數據傳輸。以下是關于機器視覺網卡的關鍵信息:1.核心功能:高速圖像傳輸:處理來自千兆以太網或萬兆以太網相機產生的大量圖像數據流。萬兆網卡能提供更高的帶寬,滿足高分辨率、高幀率相機的需求。支持GigEVision協議:這是機器視覺領域最重要的工業
    的頭像 發表于 07-09 16:18 ?657次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>帶你</b><b class='flag-5'>了解</b>什么是機器視覺網卡

    帶你了解電源測試系統的功能!

    在當今電子與電力技術飛速發展的時代,各類電子設備、電力系統以及新能源相關產品的研發、生產和維護過程中,電源測試系統扮演著至關重要的角色。本文將帶你了解源儀電子的電源測試系統的功能。
    的頭像 發表于 07-02 09:10 ?966次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>帶你</b><b class='flag-5'>了解</b>電源測試系統的功能!

    帶你了解工業計算機尺寸

    項艱巨的任務。本博客將指導您了解關鍵的工業計算機尺寸、使用案例。關鍵工業計算機外形要素及其使用案例、工業微型PC尺寸范圍:寬度:100毫米-180毫米深度:10
    的頭像 發表于 04-24 13:35 ?1031次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>帶你</b><b class='flag-5'>了解</b>工業計算機尺寸

    ELF2開發板的ubuntu系統的ax200 wifi配網

    root@elf2-desktop:/home/elf/Desktop# ls 5.10.209 碰到的很弟弟的問題:我理解是把5.10.209件內容復制到/usr/lib/modules,然后重啟
    發表于 04-18 16:05

    詳解MCP傳輸機制

    MCP 傳輸機制(Transport)是 MCP 客戶端與 MCP 服務器通信的個橋梁,定義了客戶端與服務器通信的細節,幫助客戶端和服務器交換消息。
    的頭像 發表于 04-14 14:03 ?3798次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解MCP傳輸<b class='flag-5'>機制</b>

    帶你了解芯片開封技術

    芯片開封的定義芯片開封,即Decap,是種對完整封裝的集成電路(IC)芯片進行局部處理的工藝。其目的是去除芯片的封裝外殼,暴露出芯片內部結構,同時確保芯片功能不受損。芯片開封是芯片故障分析實驗
    的頭像 發表于 04-07 16:01 ?1278次閱讀
    <b class='flag-5'>帶你</b><b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>了解</b>芯片開封技術

    【米爾-全志T536開發板試用體驗】Wi-Fi連接測試體驗

    ms 64 bytes from 36.152.44.93: seq=1 ttl=51 time=120.037 ms 64 bytes from 36.152.44.93: seq=2 ttl=51
    發表于 03-18 11:29

    函數HAL_I2C_Slave_Seq_Transmit_IT和HAL_I2C_Slave_Seq_Receive_IT實現代碼里有處理DMA請求,這是出于什么考慮?

    函數HAL_I2C_Slave_Seq_Transmit_IT和HAL_I2C_Slave_Seq_Receive_IT實現代碼里有處理DMA請求,這是出于什么考慮?求解答!
    發表于 03-14 09:01

    求助,關于STM32G070調用HAL_I2C_Mem_Read_IT測試疑問求解

    HAL_I2C_Slave_Seq_Receive_IT接收內存地址后再調用HAL_I2C_Slave_Seq_Transmit_IT發送10個數據; 現象: 從機正常接收,給主機發送第1個數據正常,到第2
    發表于 03-11 07:00

    嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡-開發板適配之USB轉網絡

    =2 ttl =64 time =0.470 ms 64 bytes from 192.168.3.102: icmp seq =3 ttl =64 time =0.850 ms 64 bytes
    發表于 03-07 10:21

    摩爾線程Round Attention優化AI對話

    摩爾線程科研團隊發布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對話優化新范式》,該方法端到端延遲低于現在主流的Flash Attention推理引擎,kv-cache 顯存占用節省55%到82% 。
    的頭像 發表于 03-06 09:39 ?1065次閱讀
    摩爾線程Round <b class='flag-5'>Attention</b>優化AI對話