国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌將AutoML應用于Transformer架構,翻譯結果飆升!

DPVg_AI_era ? 來源:YXQ ? 2019-06-16 11:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了探索AutoML在序列域中的應用是否能夠取得的成功,谷歌的研究團隊在進行基于進化的神經架構搜索(NAS)之后,使用了翻譯作為一般的序列任務的代理,并找到了Evolved Transformer這一新的Transformer架構。Evolved Transformer不僅實現了最先進的翻譯結果,與原始的Transformer相比,它還展示了語言建模的改進性能。

自幾年前推出以來,Google的Transformer架構已經應用于從制作奇幻小說到編寫音樂和聲的各種挑戰。重要的是,Transformer的高性能已經證明,當應用于序列任務(例如語言建模和翻譯)時,前饋神經網絡可以與遞歸神經網絡一樣有效。雖然用于序列問題的Transformer和其他前饋模型越來越受歡迎,但它們的架構幾乎完全是手動設計的,與計算機視覺領域形成鮮明對比。AutoML方法已經找到了最先進的模型,其性能優于手工設計的模型。當然,我們想知道AutoML在序列域中的應用是否同樣成功。

在進行基于進化的神經架構搜索(NAS)之后,我們使用翻譯作為一般的序列任務的代理,我們找到了Evolved Transformer,這是一種新的Transformer架構,它展示了對各種自然語言處理(NLP)任務的有希望的改進。Evolved Transformer不僅實現了最先進的翻譯結果,而且與原始的Transformer相比,它還展示了語言建模的改進性能。我們是將此新模型作為Tensor2Tensor的部分發布,它可用于任何序列問題。

開發技術

要開始進化NAS,我們有必要開發新技術,因為用于評估每個架構的“適應性”的任務——WMT'14英語-德語翻譯——計算量很大。這使得搜索比在視覺領域中執行的類似搜索更加昂貴,這可以利用較小的數據集,如CIFAR-10。

這些技術中的第一種是溫啟動——在初始進化種群中播種Transformer架構而不是隨機模型。這有助于在我們熟悉的搜索空間區域中進行搜索,從而使其能夠更快地找到更好的模型。

第二種技術是我們開發的一種稱為漸進動態障礙(PDH)(Progressive Dynamic Hurdles)的新方法,這種算法增強了進化搜索,以便為最強的候選者分配更多的資源,這與先前的工作相反,其中NAS的每個候選模型被分配相同的評估時的資源量。如果模型明顯不好,PDH允許我們提前終止對模型的評估,從而使有前途的架構獲得更多資源。

Evolved Transformer簡介

使用這些方法,我們在翻譯任務上進行了大規模的NAS,并發現了Evolved Transformer(ET)。與大多數序列到序列(seq2seq)神經網絡體系結構一樣,它有一個編碼器,將輸入序列編碼為嵌入,解碼器使用這些嵌入構造輸出序列;在翻譯的情況下,輸入序列是要翻譯的句子,輸出序列是翻譯。

演化變壓器最有趣的特征是其編碼器和解碼器模塊底部的卷積層,在兩個地方都以類似的分支模式添加(即輸入在加到一起之前通過兩個單獨的卷積層)。

Evolved Transformer與原始Transformer編碼器架構的比較。注意模塊底部的分支卷積結構,它獨立地在編碼器和解碼器中形成。

這一點特別有趣,因為在NAS期間編碼器和解碼器架構不共享,因此獨立發現該架構對編碼器和解碼器都很有用,這說明了該設計的優勢。雖然最初的Transformer完全依賴于自我關注,但Evolved Transformer是一種混合體,利用了自我關注和廣泛卷積的優勢。

對Evolved Transformer的評估

為了測試這種新架構的有效性,我們首先將它與我們在搜索期間使用的英語-德語翻譯任務的原始Transformer進行了比較。我們發現在所有參數尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,擁有最大增益與移動設備兼容(約700萬個參數),證明了參數的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上達到了最先進的性能,BLEU得分為29.8,SacreBLEU得分為29.2。

不同尺寸的WMT'14 En-DeEvolved Transformer與原Transformer的比較。性能的最大提高發生在較小的尺寸上,而ET在較大的尺寸上也顯示出強度,優于最大的Transformer,參數減少37.6%(要比較的模型用綠色圈出)。

為了測試普遍性,我們還在其他NLP任務上將ET與Transformer進行了比較。首先,我們研究了使用不同語言對的翻譯,發現ET表現提升,其邊緣與英語-德語相似;再次,由于其有效使用參數,對于中型模型觀察到了最大的提升。我們還比較了使用LM1B進行語言建模的兩種模型的解碼器,并且看到性能提升近2個perplexity。

未來工作

這些結果是探索體系結構搜索在前饋序列模型中應用的第一步。Evolved Transformer作為Tensor2Tensor的一部分已開源,在那里它可以用于任何序列問題。為了提高可重復性,我們還開源了我們用于搜索的搜索空間,以及實施漸進動態障礙的Colab。我們期待著看到研究團體用新模型做了什么,并希望其他人能夠利用這些新的搜索技術!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111370
  • 開源
    +關注

    關注

    3

    文章

    4203

    瀏覽量

    46125

原文標題:谷歌將AutoML應用于Transformer架構,翻譯結果飆升,已開源!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    谷歌推出TranslateGemma全新開放翻譯模型系列

    我們已正式推出 TranslateGemma,這一全新的開放翻譯模型系列基于 Gemma 3 構建,并提供 4B、12B 和 27B 三種參數規模。TranslateGemma 的問世標志著開放翻譯領域邁出了重要一步,它可幫助人們跨越 55 種語言進行交流,無論身在何處或
    的頭像 發表于 02-26 10:22 ?489次閱讀

    Transformer 入門:從零理解 AI 大模型的核心原理

    分:Transformer 架構詳解 現在你已經了解了數學基礎和語言模型概念,讓我們來看 Transformer 是如何工作的! Transformer 的目標
    發表于 02-10 16:33

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer在自動駕駛行業一直被提及?
    的頭像 發表于 02-01 09:15 ?4156次閱讀

    谷歌評論卡,碰一碰即可完成谷歌評論 #谷歌評論卡 #NFC標簽 #nfc卡

    谷歌
    深圳市融智興科技有限公司
    發布于 :2026年01月15日 17:02:00

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態判斷哪些部分更為關鍵,同時可以
    的頭像 發表于 11-19 18:17 ?2270次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    1.1RISC-VISA 擴展 1.2 向量協處理器 1.3 與各級存儲耦合的NPU 1.4 針對Transformer 模型的架構優化 SwiftTron是一款專用的開源AI加速器,用于量化
    發表于 09-12 17:30

    FU6866應用于風機出現電流波動

    FU6866應用于風機, 問題: 電流iq id波動比較大,隨著轉速的變大波動也變大,并且高速(20000rpm)時反電動勢出現較大波動,轉速是穩定的 電機的反電動勢 電機反拖獲取到的反電動勢的波形
    發表于 08-26 15:28

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學習嗎?

    Transformer在端到端自動駕駛架構中是何定位?

    典型的Transformer架構已被用于構建“感知-規劃-控制統一建模”的方案。如Waymo和小馬智行正在研發的多模態大模型(MultimodalLargeModels,MLLMs),將來自攝像頭
    的頭像 發表于 08-03 11:03 ?1377次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    一、模型架構 在閱讀第三章關于 DeepSeek 的模型架構部分時,我仿佛打開了一扇通往人工智能核心構造的大門。從架構圖中,能清晰看到 Transformer 塊、前饋神經網絡、注意力
    發表于 07-20 15:07

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發表于 06-10 14:27 ?1062次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b>中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1286次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b>概述

    GPU架構深度解析

    GPU架構深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現代計算機中不可或缺的一部分,已經從最初的圖形渲染專用處理器,發展成為強大的并行計算引擎,廣泛應用于人工智能、科學計算
    的頭像 發表于 05-30 10:36 ?1852次閱讀
    GPU<b class='flag-5'>架構</b>深度解析

    谷歌地圖GPS定位

    谷歌地圖GPS定位:精準導航背后的技術解析 谷歌地圖作為全球最受歡迎的地圖服務之一,其精準的GPS定位功能為用戶提供了極大便利。本文深入探討谷歌地圖如何利用GPS技術,實現高精度定位
    的頭像 發表于 05-29 16:54 ?1467次閱讀

    谷歌打造通用AI助手的愿景

    在過去的十年中,我們為現代 AI 時代奠定了許多基礎,從率先提出所有大型語言模型賴以構建的 Transformer 架構,到開發 AlphaGo 和 AlphaZero 等可以學習和規劃的智能體系統。
    的頭像 發表于 05-23 14:48 ?995次閱讀