精品成人,丝袜熟女精品一区二区三区 ,国产ⅴ片一区二区三区

白皮書《Transformer-LS：用于語言和視覺處理的高效 Transformer》中提出了“長-短 Transformer” （Transformer-LS），這是一種高效的 Transformer 架構，用于為語言和視覺任務模擬中具有線性復雜度的長序列。

鑒于 Transformer 的模型在自然語言處理（NLP）和計算機視覺領域已經取得了巨大的成功。這種模型可受益于自注意力模塊，后者既可捕獲詞元間的相鄰相關性和長距離相關性，同時又能在現代硬件上高效擴展。

然而，自注意力機制所消耗的時間和內存與輸入長度呈二次方關系，使其處理長序列的成本非常高昂。許多語言和視覺任務能夠從長序列建模中獲益。在 NLP 中，文檔級任務需要處理較長的文章，而語言模型的性能往往隨序列長度而增加。

在計算機視覺里，大量任務涉及高分辨率圖像。而這些圖像在使用 Transformer 模型處理前，會被轉換成圖像塊的長序列。因此，設計一種能泛化到各種不同領域的長序列建模的高效注意力機制至關重要。

一直以來，業界提出了各種方法來減少完全注意力機制的二次方成本。但是，在語言和視覺領域都有良好應用的高效注意力機制尚未得到深入研究。一類方法使用滑動窗口和隨機稀疏模式等預定義模式對注意力矩陣進行稀疏化處理。

這類方法使用強大的歸納偏置來改善計算性能和模型性能，但它們會限制自注意力層的能力，因為每個特定分詞器只能處理一個詞元子集。

另一類方法使用 low-rank 投影為輸入序列構成低分辨率表示，但這類方法只能對特定的 NLP 任務有效。與稀疏注意力不同，這類方法允許每個分詞器處理整個輸入序列。但是，由于缺少高保真度詞元級信息，對于需要細粒度局部信息的任務（包括語言領域和視覺領域的標準基準測試）而言，這類方法的性能有時并不優于完全注意力或稀釋注意力機制。

盡管高效 Transformer 的發展相當迅速，一些提出的架構只適用于雙向模型。基于 Transformer 的自回歸模型已經在語言建模、圖像合成和文本轉圖像合成領域取得了巨大的成功。這些領域都涉及長文本或高分辨率圖像。

因此，有必要設計一種同時適用于自回歸模型和雙向模型的高效 Transformer。

在白皮書《Transformer-LS：用于語言和視覺處理的高效 Transformer》中，研究把局部窗口注意力和新穎的長距離注意力統一成單個高效注意力機制。展示這兩種注意力機制的互補效應，能在多種語言和視覺任務中為自回歸模型和雙向模型帶來優異的效果。

原文標題：白皮書 | 《Transformer-LS：用于語言和視覺處理的高效Transformer》

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

審核編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴