国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer模型的具體應用

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2024-11-20 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer。

盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。

在上一篇《什么是 Transformer 模型(一)》中,通過對 Transformer 模型進行的深入剖析,展開了一幅 AI 領域的創新畫卷,本篇文章將聚焦于該模型在現實世界各個領域中的具體應用,以及這些應用如何改變我們的生活和工作方式,展望其在未來人工智能發展中的潛在影響。

讓 Transformer 發揮作用

很快,Transformer 模型就被應用于科學和醫療領域。

倫敦的 DeepMind 使用一種名為 AlphaFold2 的 Transformer 加深了對蛋白質這一生命基礎要素的理解。最近《自然》期刊上的一篇文章對該 Transformer 進行了描述。這種 Transformer 能夠像處理文本字符串一樣處理氨基酸鏈,為描述蛋白質的折疊方式打開了新的思路,這項研究可以加快藥物發現的速度。

阿斯利康和 NVIDIA 共同開發了一個專為藥物發現量身定制的 Transformer MegaMolBART。MegaMolBART 是該制藥公司 MolBART Transformer 的一個版本,使用 NVIDIA Megatron 在一個大型、無標記的化合物數據庫上訓練,以創建大規模 Transformer 模型。

閱讀分子和醫療記錄

阿斯利康分子 AI、發現科學和研發部門負責人 Ola Engkvist 在 2020 年宣布這項工作時表示:“正如 AI 語言模型可以學習句子中單詞之間的關系一樣,我們的目標是使在分子結構數據上訓練而成的神經網絡能夠學習現實世界分子中原子之間的關系。”

為了從大量臨床數據中提煉洞察,加快醫學研究的速度,佛羅里達大學學術健康中心與 NVIDIA 研究人員聯合創建了 GatorTron 這個 Transformer 模型。

Transformer 增長

在研究過程中,研究人員發現大型 Transformer 性能更好。

慕尼黑工業大學 Rostlab 的研究人員推動著 AI 與生物學交叉領域的前沿研究,他們利用自然語言處理技術來了解蛋白質。該團隊在 18 個月的時間里,從使用具有 9000 萬個參數的 RNN 升級到具有 5.67 億個參數的 Transformer 模型。

Rostlab 研究人員展示了在沒有標記樣本的情況下訓練的語言模型所捕捉到的蛋白質序列信號

OpenAI 實驗室的生成式預訓練 Transformer(GPT)證明了模型的規模越大越好。其最新版本 GPT-3 有 1750 億個參數,而 GPT-2 只有 15 億個。

憑借更多的參數,GPT-3 即使在沒有經過專門訓練的情況下,也能回答用戶的問詢。思科、IBM、Salesforce 等公司已經在使用 GPT-3。

巨型 Transformer 的故事

NVIDIA 和微軟在 2022 年 11 月發布了擁有 5300 億個參數的 Megatron-Turing 自然語言生成模型(MT-NLG)。與它一起發布的框架 NVIDIA NeMo Megatron 旨在讓任何企業都能創建自己的十億或萬億參數 Transformer,為自定義聊天機器人、個人助手以及其他能理解語言的 AI 應用提供助力。

MT-NLG 首次公開亮相是作為 Toy Jensen(TJ)虛擬形象的大腦,幫助 TJ 在 NVIDIA 2021 年 11 月的 GTC 上發表了一部分主題演講。

負責 NVIDIA 團隊訓練該模型的 Mostofa Patwary 表示:“當我們看到 TJ 回答問題時,他作為我們的首席執行官展示我們的工作成果,那一刻真是令人振奮。”

創建這樣的模型并非易事。MT-NLG 使用數千億個數據元素訓練而成,整個過程需要數千顆 GPU 運行數周時間。

Patwary 表示:“訓練大型 Transformer 模型既昂貴又耗時,如果前一兩次沒有成功,項目就可能被取消。”

萬億參數 Transformer

如今,許多 AI 工程師正在研究萬億參數 Transformer 及其應用。

Patwary 表示:“我們一直在研究這些大模型如何提供更好的應用。我們還在研究它們會在哪些方面失敗,這樣就能創建出更好、更大的模型。”

為了提供這些模型所需的算力,NVIDIA 的加速器內置了一個 Transformer 引擎并支持新的 FP8 格式,既加快了訓練速度,又保持了準確性。

黃仁勛在 GTC 2022 上表示,通過這些及其他方面的進步,“Transformer 模型的訓練時間可以從數周縮短到數天。”

TJ 在 GTC 2022 上表示:“Megatron 能幫助我回答黃仁勛拋給我的所有難題。”

MoE 對于 Transformer 的意義更大

谷歌研究人員 2021 年介紹的 Switch Transformer 是首批萬億參數模型之一。該模型利用 AI 稀疏性、復雜的混合專家(MoE)架構等先進技術提高了語言處理性能并使預訓練速度加快了最多 7 倍。

8cb8f6e8-9ffe-11ef-93f3-92fbcf53809c.jpg

首個擁有多達一萬億個參數模型 Switch Transformer 的編碼器

微軟 Azure 則與 NVIDIA 合作,在其翻譯服務中使用了 MoE Transformer。

解決 Transformer 所面臨的挑戰

如今,一些研究人員的目標是開發出性能與那些最大的模型相同、但參數更少并且更簡單的 Transformer。

Cohere 的 Gomez 以 DeepMind 的 Retro 模型為例:“我看到基于檢索的模型將大有可為并實現彎道超車,對此我感到非常興奮。”

基于檢索的模型通過向數據庫提交查詢來進行學習。他表示:“這很酷,因為你可以對放到知識庫中的內容進行選擇。”

8ccbe12c-9ffe-11ef-93f3-92fbcf53809c.jpg

在追求更高性能的過程中,Transformer 模型的規模也在不斷擴大

Vaswani 現在是一家隱形 AI 初創公司的聯合創始人,他表示最終目標是“讓這些模型像人類一樣,在現實世界中使用極少的數據就能從上下文中學習。”

他想象未來的模型可以在前期進行更多計算,從而減少對數據的需求,使用戶能夠更好地提供反饋。

“我們的目標是創建能夠在日常生活中幫助人們的模型。”

安全、負責任的模型

其他研究人員正在研究如何在模型放大錯誤或有害語言時消除偏見或有害性,例如斯坦福大學專門創建了基礎模型研究中心探究這些問題。

NVIDIA 研究科學家 Shrimai Prabhumoye 是業內眾多研究這一領域的人士之一。他表示:“這些都是在安全部署模型前需要解決的重要問題。”

“如今,大多數模型需要的是特定的單詞或短語。但在現實生活中,這些內容可能會以十分微妙的方式呈現,因此我們必須考慮整個上下文。”

Gomez 表示:“這也是 Cohere 最關心的問題。如果這些模型會傷害到人,就不會有人使用它們,所以創建最安全、最負責任的模型是最基本的要求。”

展望未來

在 Vaswani 的想象中,未來能夠自我學習、由注意力驅動的 Transformer 最有可能成為 AI 的“殺手锏”。

他表示:“我們現在有機會實現人們在創造‘通用人工智能’一詞時提到的一些目標,我覺得這給我們帶來了巨大的啟發。”

“在當前這個時代,神經網絡等各種簡單的方法正在賦予我們大量新的能力。”

小結

本文通過對 Transformer 模型的應用案例進行了梳理,并對其未來的發展方向進行了預測。從生物醫藥到科學研究,該模型不僅在技術上取得了突破,更在實際應用中展現了其深遠的影響力和廣闊的前景。本文系列內容到此已經對 Transformer 模型如何擴展我們對于機器學習和 AI 的想象進行了深入介紹。隨著技術的不斷進步,Transformer 模型將在 AI 的新時代中扮演著更加關鍵的角色,推動各行各業的創新與變革。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109716
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301356
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6937

原文標題:什么是 Transformer 模型(二)

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer 入門:從零理解 AI 大模型的核心原理

    分:Transformer 架構詳解 現在你已經了解了數學基礎和語言模型概念,讓我們來看 Transformer 是如何工作的! Transformer 的目標
    發表于 02-10 16:33

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer在自動駕駛行業一直被提及?
    的頭像 發表于 02-01 09:15 ?4155次閱讀

    深入解析NVIDIA Nemotron 3系列開放模型

    這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構,使多智能體系統能夠進行快速長上下文推理。
    的頭像 發表于 12-24 10:34 ?4044次閱讀
    深入解析NVIDIA Nemotron 3系列開放<b class='flag-5'>模型</b>

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯起來。
    的頭像 發表于 11-19 18:17 ?2267次閱讀

    圖解AI核心技術:大模型、RAG、智能體、MCP

    和使用AI。 大模型 Transformer vs. Mixture of Experts 混合專家 (MoE) 是一種流行的架構,它使用不同的“專家”來改進 Transformer 模型
    的頭像 發表于 10-21 09:48 ?707次閱讀
    圖解AI核心技術:大<b class='flag-5'>模型</b>、RAG、智能體、MCP

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個用于優化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經網絡(CNN)為核心組件的預測式AI模型(Predictive AI),還支持以Transformer為核心組件的生成式AI
    的頭像 發表于 09-20 11:17 ?1239次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    連接定義了神經網絡的拓撲結構。 不同神經網絡的DNN: 一、基于大模型的AI芯片 1、Transformer 模型與引擎 1.1 Transformer
    發表于 09-12 17:30

    小白學大模型:國外主流大模型匯總

    )領域。論文的核心是提出了一種名為Transformer的全新模型架構,它完全舍棄了以往序列模型(如循環神經網絡RNNs和卷積神經網絡CNNs)中常用的循環和卷積結構
    的頭像 發表于 08-27 14:06 ?949次閱讀
    小白學大<b class='flag-5'>模型</b>:國外主流大<b class='flag-5'>模型</b>匯總

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1777次閱讀
    NVIDIA Nemotron Nano 2推理<b class='flag-5'>模型</b>發布

    自動駕駛中Transformer模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4183次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>會取代深度學習嗎?

    Transformer在端到端自動駕駛架構中是何定位?

    典型的Transformer架構已被用于構建“感知-規劃-控制統一建模”的方案。如Waymo和小馬智行正在研發的多模態大模型(MultimodalLargeModels,MLLMs),將來自攝像頭
    的頭像 發表于 08-03 11:03 ?1375次閱讀

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發表于 06-10 14:27 ?1062次閱讀
    <b class='flag-5'>Transformer</b>架構中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1284次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    從FA模型切換到Stage模型時:module的切換說明

    module的切換 從FA模型切換到Stage模型時,開發者需要將config.json文件module標簽下的配置遷移到module.json5配置文件module標簽下,具體差異
    發表于 06-05 08:16

    FA模型訪問Stage模型DataShareExtensionAbility說明

    。 DataShareHelper并沒有實現原DataAbilityHelper對外API接口的所有功能,因此有部分接口是無法兼容的,具體如表1所示。 表1 FA模型訪問stage模型
    發表于 06-04 07:53