国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌AI利用機器學習和硬件加速器實現流體模擬數量級加速

深度學習實戰 ? 來源:機器之心 ? 作者:魔王 ? 2021-02-24 09:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌 AI 最近一項研究表明,利用機器學習和硬件加速器能夠改進流體模擬,且不損害準確率或泛化性能。

流體數值模擬對于建模多種物理現象而言非常重要,如天氣、氣候、空氣動力學和等離子體物理學。流體可以用納維 - 斯托克斯方程來描述,但大規模求解這類方程仍屬難題,受限于解決最小時空特征的計算成本。這就帶來了準確率和易處理性之間的權衡。

fae3676a-74f7-11eb-8b86-12bb97331649.png

不可壓縮流體通常由如上納維 - 斯托克斯方程來建模。 最近,來自谷歌 AI 的研究人員利用端到端深度學習改進計算流體動力學(CFD)中的近似,以建模二維渦流。對于湍流的直接數值模擬(direct numerical simulation, DNS)和大渦模擬(large eddy simulation, LES),該方法獲得的準確率與基線求解器相同,而后者在每個空間維度的分辨率是前者的 8-10 倍,因而該方法實現了 40-80 倍的計算加速。在較長模擬中,該方法仍能保持穩定,并泛化至訓練所用流以外的力函數(forcing function)和雷諾數,這與黑箱機器學習方法正相反。此外,該方法還具備通用性,可用于任意非線性偏微分方程。

fafb7878-74f7-11eb-8b86-12bb97331649.png

論文地址:https://arxiv.org/pdf/2102.01010.pdf 該研究作者之一、谷歌研究員 Stephan Hoyer 表示:這項研究表明,機器學習 + TPU 可以使流體模擬加速多達兩個數量級,且不損害準確率或泛化性能。

至于效果如何呢?論文共同一作 Dmitrii Kochkov 展示了該研究提出的神經網絡與 Ground truth、基線的效果對比: 首先是雷諾數 Re=1000 時,在 Kolmogorov 流上的效果對比:

fb5d3fe0-74f7-11eb-8b86-12bb97331649.gif

其次是關于衰變湍流(decaying turbulence)的效果對比:

fce866e6-74f7-11eb-8b86-12bb97331649.gif

最后是雷諾數 Re=4000 時,在更復雜流上的效果對比:

fe6eba74-74f7-11eb-8b86-12bb97331649.gif

方法簡介 用非線性偏微分方程描述的復雜物理系統模擬對于工程與物理科學而言非常重要。然而,大規模求解這類方程并非易事。 谷歌 AI 這項研究提出一種方法來計算非線性偏微分方程解的準確時間演化,并且其使用的網格分辨率比傳統方法實現同等準確率要粗糙一個數量級。這種新型數值求解器不會對未解決的自由度取平均,而是使用離散方程,對未解決的網格給出逐點精確解。研究人員將受分辨率損失影響最大的傳統求解器組件替換為其學得的組件,利用機器學習發現了一些算法。 如下圖 1a 所示,對于渦流的二維直接數值模擬,該研究提出的算法可以在每個維度的分辨率粗糙 10 倍的情況下維持準確率不變,也就是說獲得了 80 倍的計算時間改進。該模型學習如何對解的局部特征進行插值,從而能夠準確泛化至不同的流條件,如不同受力條件,甚至不同的雷諾數(圖 1b)。 研究者還將該方法應用于渦流的高分辨率 LES 模擬中,獲得了類似的性能提升,在網格分辨率粗糙 8 倍的情況下在 Re = 100, 000 LES 模擬中維持逐點準確率不變,實現約 40 倍的計算加速。

0277f838-74f8-11eb-8b86-12bb97331649.png

圖 1:該研究提出方法與結果概覽。a)基線(direct simulation)與 ML 加速(learned interpolation)求解器的準確率與計算成本對比情況;b)訓練與驗證樣本圖示,展示出該模型強大的泛化能力;c)該研究提出「learned interpolation」模型的單時間步結構,用卷積神經網絡控制標準數值求解器對流計算中學得的近似。 研究者使用數據驅動離散化將微分算子插值到粗糙網格,且保證高準確率(圖 1c)。具體而言,將求解底層偏微分方程的標準數值方法內的求解器作為可微分編程進行訓練,在 JAX 框架中寫神經網絡和數值方法(JAX 框架支持反向模式自動微分)。這允許對整個算法執行端到端的梯度優化,與密度泛函理論、分子動力學和流體方面的之前研究類似。

研究者推導出的這些方法是特定于方程的,需要使用高分辨率真值模擬訓練粗糙分辨率的求解器。由于偏微分方程的動態是局部的,因此高分辨率模擬可以在小型域內實施。 該算法的工作流程如下:在每一個時間步中,神經網絡在每個網格位置基于速度場生成隱向量,然后求解器的子組件使用該向量處理局部解結構。該神經網絡為卷積網絡,具備平移不變性,因而允許解結構在空間中是局部的。之后,使用標準數值方法的組件執行納維 - 斯托克斯方程對應的歸納偏置,如圖 1c 灰色框所示:對流通量(convective flux)模型改進離散對流算子的近似;散度算子(divergence operator)基于有限體積法執行局部動量守恒;壓力投影(pressure projection)實現不可壓縮性,顯式時間步算子(explicit time step operator)使動態具備時間連續性,并允許額外時變力的插值。

「在更粗糙網格上的 DNS」將傳統 DNS 和 LES 建模的界限模糊化,從而得到多種數據驅動方法。 該研究主要關注兩種 ML 組件:learned interpolation 和 learned correction。此處不再贅述,詳情參見原論文。 實驗結果加速 DNS 一旦網格分辨率無法捕捉到解的最小細節,則 DNS 的準確率將快速下降。而該研究提出的 ML 方法極大地緩解了這一效應。下圖 2 展示了雷諾數 Re = 1000 的情況下在 Kolmogorov 流上訓練和評估模型的結果。

02f321ca-74f8-11eb-8b86-12bb97331649.png

而就計算效率而言,10 倍網格粗糙度的情況下,learned interpolation 求解器取得與 DNS 同等準確率的速度也要更快。研究者在單個谷歌云 TPU v4 內核上對該求解器進行了基準測試,谷歌云 TPU 是用于機器學習模型的硬件加速器,也適用于許多科學計算用例。在足夠大的網格大小(256 × 256 甚至更大)上,該研究提出的神經網絡能夠很好地利用矩陣乘法單元,每秒浮點運算的吞吐量是基線 CFD 求解器的 12.5 倍。因此,盡管使用了 150 倍的算術運算,該 ML 求解器所用時間仍然僅有同等分辨率下傳統求解器的 1/12。三個維度(兩個空間維度和一個時間維度)中有效分辨率的 10 倍提升,帶來了 10^3/12 ≈ 80 倍的加速。 此外,研究者還考慮了三種不同的泛化測試:大型域規模;非受迫衰減渦流;較大雷諾數的 Kolmogorov 流。 首先,研究者將同樣的力泛化至較大的域規模。該 ML 模型得到了與在訓練域中同樣的性能,因為它們僅依賴流的局部特征(參見下圖 5)。 然后,研究者將在 Kolmogorov 流上訓練的模型應用于衰減渦流。下圖 3 表明,在 Kolmogorov 流 Re = 1000 上學得的離散模型的準確率可以匹配以 7 倍分辨率運行的 DNS。

03422c52-74f8-11eb-8b86-12bb97331649.png

最后,該模型可以泛化至更高的雷諾數嗎?也就是更復雜的流。下圖 4a 表明,該模型的準確率可以匹配以 7 倍分辨率運行的 DNS。鑒于該測試是在復雜度顯著增加的流上進行的,因此這種泛化效果很不錯。圖 4b 對速度進行了可視化,表明該模型可以處理更高的復雜度,圖 4c 的能譜進一步驗證了這一點。

036f9a3e-74f8-11eb-8b86-12bb97331649.png

與其他 ML 模型進行對比 研究者將 learned interpolation 與其他 ML 方法的性能進行了對比,包括 ResNet (RN) [50]、Encoder Processor-Decoder (EPD) [51, 52] 架構和之前介紹的 learned correction (LC) 模型。下圖 5 展示了這些方法在所有考慮配置中的結果??傮w而言,learned interpolation (LI) 性能最佳,learned correction (LC) 緊隨其后。

038a0a68-74f8-11eb-8b86-12bb97331649.png

對 LES 的加速效果 研究者已經描述了該方法在 DNS 納維 - 斯托克斯方程中的應用,但其實該方法是較為通用的,可用于任意非線性偏微分方程。為了證明這一點,研究者將該方法應用于 LES 加速。當 DNS 不可用時,LES 是執行大規模模擬的行業標準方法。 下圖 6 表明,將 learned interpolation 應用于 LES 也能達到 8 倍的 upscaling,相當于實現大約 40 倍的加速。

03e3f5e6-74f8-11eb-8b86-12bb97331649.png

原文標題:谷歌AI利用「ML+TPU」實現流體模擬數量級加速

文章出處:【微信公眾號:深度學習實戰】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301387
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136941

原文標題:谷歌AI利用「ML+TPU」實現流體模擬數量級加速

文章出處:【微信號:gh_a204797f977b,微信公眾號:深度學習實戰】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FPGA硬件加速卡設計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA硬件加速, PCIe半高卡, XCKU115, 光纖采集卡, 信號計算板, 硬件加速
    的頭像 發表于 02-12 09:52 ?386次閱讀
    FPGA<b class='flag-5'>硬件加速</b>卡設計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 <b class='flag-5'>硬件加速</b>卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    工業級-專業液晶圖形顯示加速器RA8889ML3N簡介+顯示方案選型參考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 編輯 專業液晶圖形顯示加速器能夠有效減少對MCU運算資源的占用,對于只需普通單片機運算資源的儀器儀表來說,專業圖形顯示加速器
    發表于 11-14 16:03

    邊緣計算中的AI加速器類型與應用

    人工智能正在推動對更快速、更智能、更高效計算的需求。然而,隨著每秒產生海量數據,將所有數據發送至云端處理已變得不切實際。這正是邊緣計算中AI加速器變得不可或缺的原因。這種專用硬件能夠直接在邊緣設備上
    的頭像 發表于 11-06 13:42 ?816次閱讀
    邊緣計算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>類型與應用

    亞馬遜云科技第三期創業加速器圓滿收官 助力初創釋放Agentic AI潛力 加速全球化進程

    的Agentic AI。入營初創企業在為期10周的加速營中,均獲得了亞馬遜云科技提供的技術資源支持及定制化加速方案,得以在AI領域快速起步。90%的
    的頭像 發表于 10-29 15:18 ?926次閱讀

    常用硬件加速的方法

    之前總結了一些常用硬件加速方法 1)面積換速度:也就是串轉并運算,可以多個模塊同時計算; 2)時間換空間:時序收斂下通過頻率提高性能,雖然面積可能稍微加大點; 3)流水線操作:流水線以面積換性能,以
    發表于 10-29 06:20

    硬件協同技術分享 - 任務劃分 + 自定義指令集

    ),基于CPU的純軟件計算時間長達10秒以上。這意味著該模塊需要通過硬件加速器實現。 我們的設計將硬件加速器掛載到SoC外圍總線上,自動獲取麥克風的數值計算并輸出數據到FIFO中,實現
    發表于 10-28 08:03

    SNN加速器內部神經元數據連接方式

    數量級,而且生物軸突的延遲和神經元的時間常數比數字電路的傳播和轉換延遲要大得多,AER 的工作方式和神經網絡的特點相吻合,所以受生物啟發的神經形態處理中的NoC或SNN加速器通常使用AER協議來進行
    發表于 10-24 07:34

    硬件加速模塊的時鐘設計

    硬件加速模塊需要四個時鐘,分別為clk_l , clk_r , clk_c , clk_n 。 clk_l : 整個硬件加速模塊為了最大化的節約時間成本而采用了類似處理的流水線設計,具體上將每一層
    發表于 10-23 07:28

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    、Transformer 模型的后繼者 二、用創新方法實現深度學習AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模
    發表于 09-12 17:30

    如何驗證硬件加速是否真正提升了通信協議的安全性?

    驗證硬件加速是否真正提升通信協議的安全性,需從 安全功能正確性、抗攻擊能力增強、安全性能適配、合規一致性 等核心維度展開,結合實驗室測試與真實場景驗證,避免 “硬件參與即安全提升” 的表面判斷。以下
    的頭像 發表于 08-27 10:16 ?1137次閱讀
    如何驗證<b class='flag-5'>硬件加速</b>是否真正提升了通信協議的安全性?

    有哪些方法可以確保硬件加速與通信協議的兼容性?

    ? 確保硬件加速與通信協議的兼容性,核心是從 硬件選型、協議標準匹配、軟硬件接口適配、全場景測試驗證 四個維度建立閉環,避免因硬件功能缺失、接口不兼容或協議特性支持不全導致的性能損耗、
    的頭像 發表于 08-27 10:07 ?1085次閱讀

    如何利用硬件加速提升通信協議的安全性?

    產品實拍圖 利用硬件加速提升通信協議安全性,核心是通過 專用硬件模塊或可編程硬件 ,承接軟件層面難以高效處理的安全關鍵操作(如加密解密、認證、密鑰管理等),在提升性能的同時,通過
    的頭像 發表于 08-27 09:59 ?978次閱讀
    如何<b class='flag-5'>利用</b><b class='flag-5'>硬件加速</b>提升通信協議的安全性?

    Andes晶心科技推出新一代深度學習加速器

    高效能、低功耗 32/64 位 RISC-V 處理核與 AI 加速解決方案的領導供貨商—Andes晶心科技(Andes Technology)今日正式發表最新深度學習
    的頭像 發表于 08-20 17:43 ?2339次閱讀

    粒子加速器?——?科技前沿的核心裝置

    粒子加速器全稱“荷電粒子加速器”,是一種利用電磁場在高真空環境中對帶電粒子(如電子、質子、離子)進行加速和控制,使其獲得高能量的特種裝置。粒子加速器
    的頭像 發表于 06-19 12:05 ?3593次閱讀
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心裝置

    TPU處理的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學習應用設計的硬件加速器。它的開發源于對人工智能(AI)和機器
    的頭像 發表于 04-22 09:41 ?4366次閱讀
    TPU處理<b class='flag-5'>器</b>的特性和工作原理