国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

攀登深度學(xué)習(xí)之巔 對AI領(lǐng)域會產(chǎn)生什么深遠影響

Tensorflowers ? 來源:未知 ? 2019-02-23 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2018 年,由美國國家能源研究科學(xué)計算中心 (NERSC) 與 NVIDIA組成的聯(lián)合團隊取得了一項突破性成就。他們成功將一種科學(xué)嚴謹?shù)?a target="_blank">深度學(xué)習(xí)應(yīng)用擴展至 27000 多個NVIDIA V100Tensor 核心 GPU,攻克了此過程中百億億次運算的難關(guān)。憑借該項成就,研究團隊由此斬獲高性能計算領(lǐng)域的最高獎項ACM 戈登貝爾獎。除 2018 年的技術(shù)論文與新聞稿之外,我們還將在本文中探討這項成就對 AI 領(lǐng)域產(chǎn)生的深遠影響,以及未來面臨的開放性挑戰(zhàn)。

由伯克利實驗室與橡樹嶺國家實驗室各自領(lǐng)導(dǎo)的兩個研究團隊共享 2018 年 ACM 戈登貝爾獎

深度學(xué)習(xí)軟件:性能與生產(chǎn)力

低級工具能為開發(fā)者帶來精確度,高級工具則可提高工作效率,這二者之間總存在一個折衷點。我們已為此找到解決方案。在本次項目中,我們用高效的 PythonTensorFlow 表示網(wǎng)絡(luò)架構(gòu)與整體的應(yīng)用工作流。TensorFlow 反過來會利用在 C 和 C++ 環(huán)境中實施的例程來實現(xiàn)高性能,提供精確度,并解放開發(fā)者以提高其工作效率。因此,在 8 個月的時間里,我們的團隊從頭開始構(gòu)建網(wǎng)絡(luò)原型,并在全球最大的高性能計算 (HPC) 系統(tǒng) Summit 上對其性能與擴展作出了優(yōu)化。

我們相信,此項目能夠展示出研究人員長期推測的 HPC 與 AI 軟件堆棧的實際融合效果,即以 C/C++ 編寫的高性能庫 (CuDNN) 和框架 (TensorFlow),以及通過 Python 公開的高效接口。同理,我們還在 NCCL 和 MPI 中實施經(jīng)高度優(yōu)化且基于拓撲感知的通信集合,但通過簡單高效的 Horovod 接口實現(xiàn)公開。展望未來,我們相信,在助力科學(xué)家及更廣泛的研究社區(qū)探索更復(fù)雜架構(gòu)的過程中,為混合并行模式(數(shù)據(jù)、模型、流水線)提供透明支持將至關(guān)重要。

深度學(xué)習(xí)硬件:GPU 和混合精度

本次項目利用 NVIDIA Volta GPU 來訓(xùn)練 DeepLabv3+ 分割網(wǎng)絡(luò)。在混合精度模式下,Volta 上可達到的峰值性能為 125 萬億次浮點運算。該模式由 NVIDIA 通過 Tensor 核心 GPU 架構(gòu)推出,可執(zhí)行 FP16 精度計算并能以 FP32 精度模式累積結(jié)果。在本項目開展之前,該領(lǐng)域存在一個仍待解決的問題,即現(xiàn)實的科學(xué)應(yīng)用能否利用 FP16(不損失精確度)并獲得較高的峰值性能。我們的研究最終證明,對于科學(xué)領(lǐng)域的模式識別問題,16 位精度可能足以滿足相關(guān)需求。此外,對于擁有 4000 多個計算核心的復(fù)雜應(yīng)用而言,極高的峰值亦有可能實現(xiàn):在規(guī)模龐大的 GPU 集群上,我們的應(yīng)用實現(xiàn)了每塊 GPU 大約 40 萬億次浮點運算的峰值性能。

我們相信,這些結(jié)果為科學(xué)應(yīng)用打開了通往低精度加速器的一扇大門。雖然原始數(shù)據(jù)集可能具有高精度(64 位或 32 位),但我們或許仍可以在不損失收斂或穩(wěn)定性的前提下,以低精度模式執(zhí)行模式識別任務(wù)。

開放性挑戰(zhàn)

如要在當代的 HPC 系統(tǒng)上實現(xiàn)百億億級的性能,我們需對所有組件仔細調(diào)優(yōu),包括硬件(CPU、GPU、NVLink、文件系統(tǒng)、網(wǎng)絡(luò)互連)和軟件。雖然我們的項目成功實現(xiàn)了大幅調(diào)優(yōu)、優(yōu)化和擴展,但我們想指出兩項挑戰(zhàn),以便向行業(yè)及研究社區(qū)征求更多意見。

大規(guī)模數(shù)據(jù)管理

得益于 GPU 架構(gòu)在加快計算方面取得的進展,我們現(xiàn)已能在單個硅處理器上暢享高于 100 萬億次浮點運算級的性能。隨著 GPU 速度越來越快,向其輸送數(shù)據(jù)的能力會逐漸限制性能。本次項目中,我們對 20 太字節(jié)的數(shù)據(jù)集展開分析,這實際上需要整個 Summit 系統(tǒng)保持每秒大約 4 太字節(jié)的 I/O 速率。Summit 上的 GPFS 文件系統(tǒng)根本無法勝任該項任務(wù),在 NERSC Cori 系統(tǒng)的 Lustre 文件系統(tǒng)上執(zhí)行的類似實驗也以徹底失敗而告終。對于這兩種情況,在節(jié)點本地 NVMe上暫存數(shù)據(jù)和突發(fā)緩沖區(qū)技術(shù)便顯得至關(guān)重要。

傳統(tǒng)的 HPC 文件系統(tǒng)主要用于支持以寫入為主的工作負載;而深度學(xué)習(xí)工作負載則屬于讀取密集型負載,對數(shù)據(jù)帶寬和元數(shù)據(jù)操作速率要求頗高。如要支持大規(guī)模深度學(xué)習(xí)工作負載,我們可能必須先對緩存分層、分片和混編操作提供透明支持。

大規(guī)模收斂

提供深度學(xué)習(xí)解決方案的時間由兩部分構(gòu)成:計算擴展效率和統(tǒng)計擴展效率。我們的研究已經(jīng)展示出卓越的計算擴展性能,并且提供了許多有關(guān)系統(tǒng)級注意事項的建議。一個未解決的問題是,如何使用 SGD(隨機梯度下降)的其中一個收斂屬性取代大批量(在本項目中,批量大小高于 27000)。

在 HPC 資源上提供高度并行性具有正反兩方面作用。如要以超高并發(fā)級別在大規(guī)模資源上運行,我們需在短時間內(nèi)對超參數(shù)進行調(diào)優(yōu)。有關(guān)收斂算法行為的啟發(fā)式方法可能會或不會繼承自較小規(guī)模的運行。盡管目前對于選擇各類超參數(shù)所產(chǎn)生效果的實證評估都很合理,但我們預(yù)計,科學(xué)界將需要更好的指導(dǎo)原則,以及用于解決新問題的收斂保證。

我們相信,在解決收斂問題的過程中,進一步開發(fā) LARS 與 LARC 等新算法和潛在的高階優(yōu)化方法將是至關(guān)重要的一環(huán)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135468
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265414
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124398

原文標題:攀登百億億級深度學(xué)習(xí)之巔

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    人工智能與機器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用

    自人工智能和機器學(xué)習(xí)問世以來,多個在線領(lǐng)域的數(shù)字化格局迎來了翻天覆地的變化。這些技術(shù)從誕生之初就為企業(yè)賦予了競爭優(yōu)勢,而在線行業(yè)正是受其影響最為顯著的領(lǐng)域。人工智能(AI)與機器
    的頭像 發(fā)表于 02-04 14:44 ?482次閱讀

    低功耗高性能選:LTC6256運放深度剖析

    低功耗高性能選:LTC6255/LTC6256/LTC6257運放深度剖析 在電子工程師的日常設(shè)計工作中,選擇一款合適的運算放大器至關(guān)重要。它不僅關(guān)系到電路的性能表現(xiàn),還會對功耗、成本等方面產(chǎn)生
    的頭像 發(fā)表于 01-22 16:05 ?132次閱讀

    AI服務(wù)器電源測試解決方案:為算力巨擘注入穩(wěn)定

    在人工智能浪潮AI服務(wù)器電源作為驅(qū)動萬億參數(shù)模型奔騰不息的“心臟”,其性能至關(guān)重要。這顆心臟能否在極限負載下強勁搏動,在復(fù)雜工況中穩(wěn)定運行,直接決定了整個AI算力集群的可靠性與效
    的頭像 發(fā)表于 12-03 13:56 ?702次閱讀

    華為數(shù)字技術(shù)推動交通高質(zhì)量發(fā)展

    當前,人工智能(AI)浪潮席卷全球,成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,將對全球經(jīng)濟社會發(fā)展和人類文明進步產(chǎn)生深遠影響。傳統(tǒng)的生產(chǎn)、生活與學(xué)習(xí)方式,將被深刻重構(gòu)。千行萬業(yè)的數(shù)智
    的頭像 發(fā)表于 10-30 11:15 ?784次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊化的指令集架構(gòu)(ISA)。優(yōu)勢如下: ①模
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法和架構(gòu)。以及一些新型的算法和思路。第四章是全面介紹半導(dǎo)體芯產(chǎn)業(yè)的前沿技
    發(fā)表于 09-05 15:10

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    技術(shù)落地到了一個小小的邊緣設(shè)備MaixCAM-Pro上。它不僅展示了深度學(xué)習(xí)在圖像取證領(lǐng)域的強大能力,更體現(xiàn)了邊緣AI在現(xiàn)實世界中的應(yīng)用價值——無需依賴云端,即可在本地快速、安全、低成
    發(fā)表于 08-21 13:59

    AI 芯片浪潮下,職場晉升新契機?

    中能充分展現(xiàn)個人對行業(yè)的貢獻。 持續(xù)學(xué)習(xí)助力 AI 芯片與職稱雙贏 AI 芯片領(lǐng)域知識更新迅速,持續(xù)學(xué)習(xí)是保持競爭力的關(guān)鍵,這一點在職稱評審
    發(fā)表于 08-19 08:58

    自動駕駛中Transformer大模型取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4185次閱讀
    自動駕駛中Transformer大模型<b class='flag-5'>會</b>取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    NVIDIA全棧加速代理式AI應(yīng)用落地

    在近期舉辦的 AWS 中國峰會上,NVIDIA 聚焦于“NVIDIA 全棧加速代理式 AI 應(yīng)用落地”,深入探討了代理式 AI (Agentic AI) 技術(shù)的前沿發(fā)展以及在企業(yè)級應(yīng)用中的深遠
    的頭像 發(fā)表于 07-14 11:41 ?1318次閱讀

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    ,TensorFlow、PyTorch用于構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)。以Python為例,通過編寫簡單的程序來處理數(shù)據(jù),如讀取數(shù)據(jù)集、進行數(shù)據(jù)清洗和預(yù)處理,這是進入AI領(lǐng)域的基本技能。 學(xué)習(xí)機器學(xué)習(xí)
    發(fā)表于 07-08 17:44

    Nordic收購 Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析

    與 Nordic 的 nRF54 系列超低功耗無線 SoC 結(jié)合,使得即使是資源極為有限的設(shè)備也能高效運行邊緣 AI。Nordic 目前正在將 Neuton 深度集成到自身開發(fā)生態(tài)中,未來提供更多工具、固件
    發(fā)表于 06-28 14:18

    部分外資廠商IGBT模塊失效報告作假對中國功率模塊市場的深遠影響

    部分IGBT模塊廠商失效報告作假的根本原因及其對中國功率模塊市場的深遠影響,可以從技術(shù)、商業(yè)、行業(yè)競爭等多維度分析,并結(jié)合中國功率模塊市場的動態(tài)變化進行綜合評估: 一、失效報告作假的根本原因 技術(shù)
    的頭像 發(fā)表于 05-23 08:37 ?947次閱讀
    部分外資廠商IGBT模塊失效報告作假對中國功率模塊市場的<b class='flag-5'>深遠影響</b>

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+ 入門篇學(xué)習(xí)

    工程、RAG技術(shù)、和AI Agent是3個重要方面。其中AI Agent作為2024年最新興的技術(shù)領(lǐng)域,具備很好的應(yīng)用前景,本書對零基礎(chǔ)小白普及和應(yīng)用AI Agent有著很好的指導(dǎo)作用
    發(fā)表于 05-02 09:26

    嵌入式AI技術(shù)深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對深度學(xué)習(xí)的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡(luò)實現(xiàn)機器學(xué)習(xí),網(wǎng)絡(luò)的每個層都將對輸入的數(shù)據(jù)做一次抽象,多層神經(jīng)網(wǎng)絡(luò)構(gòu)成深度學(xué)習(xí)的框架,可以深度理解數(shù)據(jù)中所要表示的規(guī)律。從原理上看,使用
    的頭像 發(fā)表于 04-02 18:21 ?1518次閱讀