国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自然語言處理(NLP)技術不斷突破,谷歌Transformer再升級

工程師鄧生 ? 來源:OFweek維科網 ? 作者:學術頭條 ? 2020-11-05 15:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當我們在翻譯軟件上輸入 “Transformer is a novel neural network architecture based on a self-attention mechanism” 后,計算機就可以迅速將它翻譯為 “Transformer 是一種基于自注意力機制的新型神經網絡架構”,神奇的機器翻譯使得多語種互譯成為可能。

近年來,得益于機器學習的快速發展,自然語言處理(NLP)技術不斷突破,在人機交互、在線翻譯工具等領域的應用層出不窮,不同語種的人與人、人與機器之間的無障礙自由交流得以實現。

當前的主流機器翻譯主要是基于神經網絡機器翻譯,這類方法是一個 “編碼器-解碼器”(encoder-decoder)架構的系統,編碼器對源語言序列進行編碼,并提取信息,然后通過解碼器把信息轉換為目標語言,完成語言翻譯過程。

自 2017 年問世以來,基于“編碼器-解碼器”架構設計的 Transformer 模型憑借其優越的性能,已然成為機器翻譯領域的主流模型,在深度學習領域產生了巨大影響。

然而,Transformer 模型并非完美,模型引入self-attention機制雖實現了快速并行的訓練,但在長序列文本的處理問題上,卻需要占據大量計算資源,導致模型訓練成本提高。

近日,由 Google、劍橋大學、DeepMind 和艾倫·圖靈研究院(Alan Turing Institute)的研究人員組成的團隊基于正交隨機特征的快速注意力(Fast Attention Via Positive Orthogonal Random Features,FAVOR+)機制,提出了一種新的 Transformer 模型——Performer。相比于 Transformer 模型,新模型無需做出過度調整就可以變得更加高效和節能。

Performer 模型的技術突破

2017 年,谷歌大腦(Google Brain)的 Ashish Vaswani 等人發表了一篇題為 “Attention Is All You Need” 的論文,首次提出一種基于自注意力機制的 Transformer 模型。

Transformer 模型顛覆了傳統神經網絡的架構,彌補了卷積神經網絡(CNN)和遞歸神經網絡(RNN)存在的不足,在語義特征提取、長距離特征捕獲、任務綜合特征抽取等自然語言處理方面表現出了更優的性能,在自然語言處理、人機對話、圖像處理等許多領域都達到了當時最好的水平(SOTA)。

Transformer 架構的核心模塊是自注意力模塊,模型在處理每個單詞(輸入序列中的每個位置)時,自注意力模塊通過計算輸入序列中所有位置對的相似度分數,來尋找能夠幫助更好地編碼該單詞的線索。

然而,隨著輸入序列長度的增加,模型需要二次方的計算時間來產生所有相似度分數,所需計算內存也隨之增加,注意力機制面臨的效率問題也越來越突出。

針對那些需要長距離關注的應用,在 Transformer 基礎上已經有一些研究者提出了幾種快速的、空間利用率高的改進方法,但是大部分常見方法都依賴于稀疏注意力機制。

然而,稀疏注意力機制仍存在一定的局限性。

(1)它們需要高效的稀疏矩陣乘法運算,而這些運算并不是在所有加速器上都能實現的;(2)它們通常不能為其表示能力提供嚴格的理論保證;(3)它們主要針對 Transformer 模型和生成式預訓練進行優化;(4)它們通常會疊加更多的注意力層來補償稀疏表示,這使得它們很難與其他預訓練模型一起使用,因此需要重新訓練并消耗大量能量。

此外,稀疏注意機制通常仍然不足以解決常規注意方法應用的全部問題,如指針網絡。還有一些運算不能被稀疏化,如在工業級推薦系統中被大量應用的 softmax 運算。

Performer 使用了一個高效的(線性)廣義注意力框架,能夠對常規(softmax)全階注意力進行可證明的、準確的、實用的估計,不依賴于任何稀疏性或低階等先驗條件,從而實現更快的訓練速度,同時允許模型處理更長的序列,這一特性恰恰滿足了 ImageNet64 圖像數據集和PG-19文本數據集的要求。

Performer 模型通過正交隨機特征(FAVOR+)算法實現快速注意力機制,并改用 Positive Orthogonal Random Features 估計 softmax 和高斯核函數,以實現在 FAVOR+ 機制中對常規 softmax 注意力進行魯棒且無偏的估計。

研究人員表示:“Performer 是第一個通過微調可以與常規 Transformers 進行完全兼容的線性架構”。

左圖 | 原點對稱的通用函數 r(定義為建立在:三角隨機特征和正隨機特征上的估計器的均方誤差(MSEs)的比值)是輸入特征向量與其長度l之間的角度 φ(以弧度為單位)的函數, 函數的數值越大表示正隨機特征性能越好的(φ,l)空間區域;

右圖 | 當l為定值 1 時,與變化的角度 φ 構成的函數 r 為正切函數;右上角 | 比較低 softmax 內核值區域中兩個估算器的 MSE。

作者通過比較發現,對于 φ 足夠大的臨界區域,該方法所使用的正交隨機特征比任意的三角隨機特征更精確。

圖| 我們將原始的經過預訓練的 Transformer 的權重轉移到 Performer 中,Performer 產的精度達到 0.07 (橙色虛線),但在原來的梯度步數的一小部分中,很快就恢復了精度。然而在 PG-19 上,三角法(TRIG) softmax 逼近變得非常不穩定,而正特征(POS)(不重繪)和 Linformer (也是逼近 softmax)即使在重繪投影的情況下,也會在同樣的復雜度中趨于平穩。具有特征重繪的正 softmax 是匹配 Transformer 的必要條件,SMREG 可實現更快的收斂。

這篇論文利用詳細的數學定理,證明了與其單純依靠計算資源來提升性能,還不如開發出改進的、高效的 Transformer 架構,來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓練超參數,也可以有效訓練基于 softmax 的線性 Transformer。因此 FAVOR+ 機制可以作為一個簡單的插件,而無需進行過多的調整。

Performer 模型應用前景廣泛

研究人員表示,Performer 模型的提出,顯著降低了常規 Transformer 的空間和時間復雜度,并在 Transformer 的研究以及非稀疏注意機制的作用方面開辟了新的途徑。

該論文利用詳細的數學定理,證明了與其單純依靠計算資源來提升性能,還不如開發出改進的、高效的 Transformer 架構,來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓練超參數,因此 FAVOR+ 機制可以作為一個簡單的插件,而無需進行過多的調整。

該團隊在一系列豐富的場景下測試了 Performers 的性能,執行的任務包括像素預測、蛋白質序列建模。在實驗設置中,一個 Performer 只用 FAVOR+ 機制取代了常規 Transformer 的注意力組件。

在使用蛋白質序列訓練一個 36 層模型的挑戰性任務上,基于 Performer 的模型(Performer-RELU)的性能優于基線 Transformer 模型:Reformer 和 Linformer,后者的準確率顯著下降。

在標準的 ImageNet64 基準上,具有 6 層的 Performer 與具有 12 層的 Reformer 的準確性相當。優化后,Performer 的速度達到了 Reformer 的兩倍。

研究人員表示,由于基于 Performer 的可擴展 Transformer 架構可以處理更長的序列,而不受注意力機制結構的限制,同時保持準確和魯棒性,相信它們可以在生物信息學領域帶來新的突破,如蛋白質的語言建模等技術已經顯示出強大的潛力。

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111366
  • 軟件
    +關注

    關注

    69

    文章

    5332

    瀏覽量

    91575
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    解鎖谷歌FunctionGemma模型的無限潛力

    在智能體 AI 領域,工具調用能力是將自然語言轉化為可執行軟件操作的關鍵。此前,我們發布了專門針對函數調用而特別優化的 Gemma 3 270M 模型版本 FunctionGemma。該模型旨在協助開發者構建響應快速且具高性價比的智能體,以將自然語言轉化為可執行的 API
    的頭像 發表于 02-04 11:30 ?326次閱讀
    解鎖<b class='flag-5'>谷歌</b>FunctionGemma模型的無限潛力

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個分支,它會教計算機如何理解口頭和書面形式的人類語言自然語言
    的頭像 發表于 01-29 14:01 ?357次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b><b class='flag-5'>NLP</b>的概念和工作原理

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所
    的頭像 發表于 11-19 18:17 ?2268次閱讀

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理NLP)領域國際權威會議 ——2025 年計算語言學與自然語言處理國際會議(
    的頭像 發表于 11-10 17:30 ?800次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    格靈深瞳突破文本人物檢索技術難題

    格靈深瞳參與研究的GA-DMS框架,為攻破上述技術難題提供了全新解決方案。研究團隊通過數據構建和模型架構的協同改進,推動CLIP在人物表征學習中的應用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言
    的頭像 發表于 09-28 09:42 ?628次閱讀
    格靈深瞳<b class='flag-5'>突破</b>文本人物檢索<b class='flag-5'>技術</b>難題

    HarmonyOSAI編程自然語言代碼生成

    安裝CodeGenie后,在下方對話框內,輸入代碼需求描述,將根據描述智能生成代碼,生成內容可一鍵復制或一鍵插入至編輯區當前光標位置。 提問示例 使用ArkTs語言寫一段代碼,在頁面中間部分
    發表于 09-05 16:58

    小白學大模型:國外主流大模型匯總

    數據科學AttentionIsAllYouNeed(2017)https://arxiv.org/abs/1706.03762由GoogleBrain的團隊撰寫,它徹底改變了自然語言處理NLP
    的頭像 發表于 08-27 14:06 ?949次閱讀
    小白學大模型:國外主流大模型匯總

    【HZ-T536開發板免費體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發板上搭建 MCP 服務器,自然語言輕松控板

    )真香,是不是可以沒有YOLO和OCR了? - 北京合眾恒躍科技有限公司 - 電子技術論壇 - 廣受歡迎的專業電子論壇!已經詳細介紹了,這里不再贅述。 四、測試驗證:用自然語言控制開發板 啟動服務器
    發表于 08-23 13:10

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    時間減少,數據處理更流暢。這讓我聯想到工業生產中的流水線,AI 訓練在此處借鑒類似思路,通過優化任務分配和流程,突破硬件限制,追求更高效率,體現了技術發展中持續優化、突破瓶頸的智慧。
    發表于 07-20 15:07

    人工智能技術的現狀與未來發展趨勢

    人工智能技術的現狀與未來發展趨勢 ? ? 近年來,人工智能(AI)技術迅猛發展,深刻影響著各行各業。從計算機視覺到自然語言處理,從自動駕駛到醫療診斷,AI的應用場景
    的頭像 發表于 07-16 15:01 ?1853次閱讀

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理NLP
    的頭像 發表于 06-10 14:24 ?1284次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    近日,第63屆國際計算語言學年會ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)論文接收
    的頭像 發表于 05-26 14:15 ?1310次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會ACL 2025

    自然語言處理的發展歷程和應用場景

    你是否曾經對著手機說:“嘿,Siri,今天天氣怎么樣?”或者在出國旅行時,打開翻譯軟件,對著菜單說:“請把這道菜翻譯成英文”。
    的頭像 發表于 04-17 11:40 ?1327次閱讀

    自然語言提示原型在英特爾Vision大會上首次亮相

    在英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業由AI驅動的洞察和效率提速。
    的頭像 發表于 04-09 09:30 ?959次閱讀

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型,能夠理解并生成與視覺內容相關的自然語言。以下
    的頭像 發表于 03-17 15:32 ?8823次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b>模型)?詳細解析