国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SC22 | 解析基因組的“語言”:戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

NVIDIA英偉達企業解決方案 ? 來源:未知 ? 2022-11-16 21:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自美國阿貢國家實驗室、NVIDIA、芝加哥大學等組織機構的研究員開發了一個處理基因組規模數據的先進模型,并入圍戈登貝爾 COVID-19 研究特別獎決賽

這一戈登貝爾特別獎旨在表彰基于高性能計算的 COVID-19 研究。一位決賽入圍選手教會了大型語言模型(LLMs)一種新的語言——基因序列,使這些模型能夠提供基因組學、流行病學和蛋白質工程方面的洞察。

這項開創性的成果發表于 10 月,是由來自美國阿貢國家實驗室、NVIDIA、芝加哥大學等組織機構的二十多名學術和商業研究員合作完成。

該研究團隊訓練了一個 LLM 來追蹤基因突變,并預測需要關注的 SARS-CoV-2(導致 COVID-19 的病毒)變異株。雖然迄今為止大多數應用于生物學的 LLM 都是在小分子或蛋白質的數據集上訓練的,但這一項目是在原始核苷酸序列(DNA 和 RNA 的最小單位)上訓練的首批模型之一。

負責帶領該項目的阿貢國家實驗室計算生物學家 Arvind Ramanathan 表示:“我們假設從蛋白質水平到基因水平的數據有助于我們構建出更易于理解新冠病毒變異株的模型。通過訓練模型去追蹤整個基因組及其進化過程中的所有變化,我們不僅能夠更好地預測 COVID,還能預測已掌握足夠基因組數據的任何疾病。”

戈登貝爾獎被譽為 HPC 領域的諾貝爾獎。今年的戈登貝爾獎將在本周的 SC22 上由美國計算機協會頒發。該協會代表著全球約 10 萬名計算領域的專家,自2020年開始向使用 HPC 推進 COVID-19 研究的杰出研究員頒發特別獎。

在一種只有四個字母的語言上

訓練大型語言模型

長期以來,LLM 一直在接受人類語言的訓練,這些語言通常由幾十個字母組成,可以排列組合成數萬個單詞,并連接成長句和段落。而生物學語言只有四個代表核苷酸的字母,即 DNA 中的 A、T、G 和 C,或 RNA 中的 A、U、G 和 C。這些字母按不同順序排列成基因。

雖然較少的字母看似會降低 AI 學習的難度,但實際上生物學語言模型要復雜得多。這是因為人類的基因組由超過 30 億個核苷酸組成,而冠狀病毒的基因組由大約 3 萬個核苷酸組成,因此很難將基因組分解成不同、有意義的單位。

Ramanathan 表示:“在理解基因組這一生命代碼的過程中,我們所面對的一個主要挑戰是基因組中的龐大測序信息。核苷酸序列的意義可能會受另一序列的影響,以人類的文本做類比,這種影響的范圍不僅僅是文本中的下一句話或下一段話,而是相當于一本書中的整個章節。”

參與該項目協作的 NVIDIA 研究員設計了一種分層擴散方法,使 LLM 能夠將約 1500 個核苷酸的長字符串當作句子來處理。

論文共同作者、NVIDIA AI 研究高級總監、加州理工學院計算+數學科學系布倫講席教授 Anima Anandkumar 表示:“標準語言模型難以生成連貫的長序列,也難以學習不同變異株的基本分布。我們開發了一個在更高細節水平上運作的擴散模型,該模型使我們能夠生成現實中的變異株,并采集到更完善的統計數據。”

預測需要關注的新冠病毒變異株

該團隊首先使用細菌和病毒生物信息學資源中心的開源數據,對來自原核生物(像細菌一樣的單細胞生物)超過 1.1 億個基因序列進行了 LLM 預訓練,然后使用 150 萬個高質量的新冠病毒基因組序列,對該模型進行微調。

研究員還通過在更廣泛的數據集上進行預訓練,確保其模型能夠在未來的項目中推廣到其他預測任務,使其成為首批具備此能力的全基因組規模的模型之一。

在對 COVID 數據進行了微調后,LLM 就能夠區分病毒變異株的基因組序列。它還能夠生成自己的核苷酸序列,預測 COVID 基因組的潛在突變,這可以幫助科學家預測未來需要關注的變異株。

f7239024-65b3-11ed-8abf-dac502259ad0.png

在長達一年時間內積累的 SARS-CoV-2 基因組數據的訓練下,該模型可以推斷出各種病毒株之間的區別。左邊的每個點對應一個已測序的 SARS-CoV-2 病毒株,并按變異株顏色編碼。右圖放大了該病毒的一個特定毒株,它捕捉到了該毒株特有的病毒蛋白進化耦合關系。圖片由美國阿貢國家實驗室的 Bharat Kale、Max Zvyagin 和 Michael E. Papka 提供。

Ramanathan 表示:“大多數研究員一直在追蹤新冠病毒突刺蛋白的突變,尤其是與人類細胞結合的域。但病毒基因組中還有其他蛋白質也會經歷頻繁的突變,所以了解這些蛋白質十分重要。”

論文中提到,該模型還可以與 AlphaFold、OpenFold 等常見的蛋白質結構預測模型整合,幫助研究員模擬病毒結構,研究基因突變如何影響病毒感染其宿主的能力。OpenFold 是 NVIDIA BioNeMo LLM 服務中包含的預訓練語言模型之一。NVIDIA BioNeMo LLM 服務面向的是致力于將 LLM 應用于數字生物學和化學應用的開發者

利用 GPU 加速超級計算機

大幅加快 AI 訓練速度

該團隊在由 NVIDIA A100 Tensor Core GPU 驅動的超級計算機上開發 AI 模型,包括阿貢國家實驗室的 Polaris、美國能源部的 Perlmutter 以及 NVIDIA 的 Selene 系統。通過擴展到這些強大的系統,他們在訓練中實現了超過 1500 exaflops 的性能,創建了迄今為止最大的生物語言模型。

Ramanathan 表示:“我們如今處理的模型有多達 250 億個參數,預計這一數量未來還會大幅增加。模型的尺寸、基因序列的長度、以及所需的訓練數據量,都意味著我們的確需要搭載數千顆 GPU 的超級計算機來完成復雜的計算。”

研究員估計,訓練一個具有 25 億參數的模型版本,需要約 4000 個 GPU 耗時一個多月。該團隊已經在研究用于生物學的 LLM,在公布論文和代碼之前,他們在這個項目上已耗時約四個月。GitHub 頁面上有供其他研究員在 Polaris 和 Perlmutter 上運行該模型的說明。

NVIDIA BioNeMo 框架可在 NVIDIA NGC 中心上的 GPU 優化軟件中搶先體驗。該框架將幫助研究員在多個 GPU 上擴展大型生物分子語言模型。作為 NVIDIA Clara Discovery 藥物研發工具集的一部分,該框架將支持化學、蛋白質、DNA 和 RNA 數據格式。

即刻點擊“閱讀原文”掃描下方海報二維碼收下這份 GTC22 精選演講合集清單,在NVIDIA on-Demand 上點播觀看主題演講精選、中國精選、元宇宙應用領域與全球各行業及領域的最新成果!


原文標題:SC22 | 解析基因組的“語言”:戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4087

    瀏覽量

    99185

原文標題:SC22 | 解析基因組的“語言”:戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型實戰(SC171開發套件V2-FAS)

    模型實戰(SC171開發套件V2-FAS) 序列 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 工程源碼 1 大語言模型(Qwen3)案例----基于
    發表于 02-11 14:57

    模型賦能物資需求精準預測與采購系統:功能特點與平臺架構解析

    ? ? 大模型賦能物資需求預測與采購智能化:核心功能與價值解析 ? ?大模型賦能物資需求精準預測與采購系統通過深度整合多源數據、構建動態
    的頭像 發表于 12-16 11:54 ?302次閱讀

    第十二屆全國功能基因組學高峰論壇在京舉辦:聚焦人工智能與多組學融合發展

    時維金秋,群賢畢至。2025年第十二屆全國功能基因組學高峰論壇(FGC-12)近日在北京圓滿落幕。本屆論壇匯聚了包括60余位國內頂尖學者在內的近500名科研院所、高等院校及行業代表,圍繞“融匯學?
    的頭像 發表于 11-19 17:05 ?538次閱讀
    第十二屆全國功能<b class='flag-5'>基因組</b>學高峰論壇在京舉辦:聚焦人工智能與多組學融合發展

    openDACS 2025 開源EDA與芯片賽項 賽題七:基于大模型的生成式原理圖設計

    , ASPDAC\'2017, DAC\'2017最佳論文提名。2018年獲國家自然科學基金委優青項目資助。 3. 賽題背景 隨著人工智能技術的迅猛發展,特別是深度學習與自然語言處理領域的持續突破,大型預訓練模型
    發表于 11-13 11:49

    一文了解Mojo編程語言

    ,利用硬件加速提升效率。 科學計算與數據處理 高效處理大規模數值分析、基因組學數據等任務。 系統工具開發 開發操作系統級工具,結合 Python 的便捷性和 C 的性能優勢。 嵌入式與實時應用 適用于
    發表于 11-07 05:59

    北京理工大學與中科曙光成功研發大規模冷凍電鏡圖像原位重構軟件

    冷凍電鏡技術是解析生物大分子三維結構的關鍵手段,曾獲2017年諾貝爾化學,并在新病毒結構解析
    的頭像 發表于 10-31 14:45 ?656次閱讀

    3萬字長文!深度解析語言模型LLM原理

    我們正在參加全球電子成就的評選,歡迎大家幫我們投票~~~謝謝支持本文轉自:騰訊技術工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數學解決了工業場景的問題,筆者基于過往工程經驗
    的頭像 發表于 09-02 13:34 ?3453次閱讀
    3萬字長文!深度<b class='flag-5'>解析</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    利用自壓縮實現大型語言模型高效縮減

    隨著語言模型規模日益龐大,設備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務貢獻甚微的完整通道(channel)。我們早期的研究提出了一種訓練階段的方法——自壓
    的頭像 發表于 07-28 09:36 ?555次閱讀
    利用自壓縮實現<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    今日看點丨我國團隊研制出系列牛用基因芯片;Littelfuse推出緊湊型PTS647輕觸開關系列

    1、我國團隊研制出系列牛用基因芯片 日前,國家乳液技術創新中心傳來消息,該中心技術研發團隊成功研制出奶牛種用胚胎基因組遺傳評估芯片和“高產、抗病、長生產期”功能強化基因組預測芯片。該系
    發表于 07-22 11:26 ?2219次閱讀
    今日看點丨我國團隊研制出系列牛用<b class='flag-5'>基因</b>芯片;Littelfuse推出緊湊型PTS647輕觸開關系列

    中科曙光構建全國產化基因組學高性能計算平臺

    近日,中科曙光承建的國內某研究所基因組學高性能計算平臺正式交付。這是國內生物信息學領域首個從底層硬件到上層軟件實現完全自主可控,并深度融合高性能計算與人工智能算力的平臺,成功填補了該領域國產高端算力的空白。
    的頭像 發表于 06-26 17:36 ?1014次閱讀

    【教程】使用NS1串口服務器對接智普清言免費AI大語言模型

    AI大語言模型可以幫助我們解決各種問題,如翻譯、寫文案、創作詩歌、解決數學問題、情感陪伴等等。今天教大家如何使用NS1串口服務器模塊實現對接智普清言AI大語言模型,實現與大
    的頭像 發表于 06-12 19:33 ?793次閱讀
    【教程】使用NS1串口服務器對接智普清言免費AI大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    歐洲借助NVIDIA Nemotron優化主權大語言模型

    NVIDIA 正攜手歐洲和中東的模型構建商與云提供商,共同優化主權大語言模型 (LLM),加速該地區各行業采用企業級 AI。
    的頭像 發表于 06-12 15:42 ?1186次閱讀

    小白學大模型:從零實現 LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任
    的頭像 發表于 04-30 18:34 ?1307次閱讀
    小白學大<b class='flag-5'>模型</b>:從零實現 LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何借助大語言模型打造人工智能生態系統

    語言模型(LLMs)正以革命性的姿態重塑我們與科技的互動模式。然而,由于其龐大的規模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語言模型
    的頭像 發表于 04-27 09:19 ?1084次閱讀
    如何借助大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>打造人工智能生態系統

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分
    的頭像 發表于 03-17 15:32 ?8843次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細<b class='flag-5'>解析</b>