国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta開發(fā)AITemplate,大幅簡(jiǎn)化多GPU后端部署

3D視覺工坊 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-04 17:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

眾所周知,GPU 在各種視覺、自然語言和多模態(tài)模型推理任務(wù)中都占據(jù)重要位置。然而,對(duì)于高性能 GPU 推理引擎,AI 從業(yè)者幾乎沒有選擇權(quán),必須使用一些平臺(tái)專有的黑盒系統(tǒng)。這意味著如果要切換 GPU 供應(yīng)商,就必須重新實(shí)現(xiàn)一遍部署系統(tǒng)。在生產(chǎn)環(huán)境中當(dāng)涉及復(fù)雜的依賴狀況時(shí),這種靈活性的缺失使維護(hù)迭代成本變得更加高昂。

在 AI 產(chǎn)品落地過程中,經(jīng)常需要模型快速迭代。盡管一些閉源系統(tǒng)(如 TensorRT)提供了一些定制化功能,但這些定制化功能完全不能滿足需求。更進(jìn)一步來說,這些閉源專有的解決方案,會(huì)使 debug 更加困難,對(duì)開發(fā)敏捷性造成影響。

針對(duì)這些業(yè)界難題,Meta AI 開發(fā)了擁有 NVIDIA GPU 和 AMD GPU 后端的統(tǒng)一推理引擎——AITemplate。

AITemplate 在 CNN、Transformer 和 Diffusion 模型上都能提供接近硬件上限的 TensorCore (NVIDIA GPU) 和 MatrixCore (AMD GPU) 性能。使用 AITemplate 后,在 NVIDIA GPU 上對(duì)比 PyTorch Eager 的提速最高能達(dá)到 12 倍,在 AMD GPU 上對(duì)比 PyTorch Eager 的提速達(dá)到 4 倍。

這意味著,當(dāng)應(yīng)用于超大規(guī)模集群時(shí),AITemplate 能夠節(jié)約的成本數(shù)額將是驚人的。

具體而言,AITemplate 是一個(gè)能把 AI 模型轉(zhuǎn)換成高性能 C++ GPU 模板代碼的 Python 框架。該框架在設(shè)計(jì)上專注于性能和簡(jiǎn)化系統(tǒng)。AITemplate 系統(tǒng)一共分為兩層:前段部分進(jìn)行圖優(yōu)化,后端部分針對(duì)目標(biāo) GPU 生成 C++ 模板代碼。AITemplate 不依賴任何額外的庫或 Runtime,如 cuBLAS、cudnn、rocBLAS、MIOpen、TensorRT、MIGraphX 等。任何 AITemplate 編譯的模型都是自洽的。

AITemplate 中提供了大量性能提升創(chuàng)新,包括更先進(jìn)的 GPU Kernel fusion,和一些專門針對(duì) Transformer 的先進(jìn)優(yōu)化。這些優(yōu)化極大提升了 NVIDIA TensorCore 和 AMD MatrixCore 的利用率。

目前,AITemplate 支持 NVIDIA A100 和 MI-200 系列 GPU,兩種 GPU 都被廣泛應(yīng)用在科技公司、研究實(shí)驗(yàn)室和云計(jì)算提供商的數(shù)據(jù)中心

團(tuán)隊(duì)對(duì) AITemplate 進(jìn)行了一系列測(cè)試。下圖的測(cè)試展示了 AITemplate 和 PyTorch Eager 在 NVIDIA A100 上的主流模型中的加速比。

92189092-4576-11ed-96c9-dac502259ad0.png

在帶有 Cuda 11.6 的 Nvidia A100 上運(yùn)行 BERT 和 ResNet-50,AITemplate 在 ResNet-50 中提供了 3 到 12 倍的加速,在 BERT 上提供了 2 到 5 倍的加速。

經(jīng)測(cè)試,AITemplate 在 AMD MI250 GPU 上較 PyTorch Eager 也有較大的加速比。

922eea18-4576-11ed-96c9-dac502259ad0.png

使用 ROCm 5.2 和 MI250 加速器,ResNet-50 和 BERT 的加速在 1.5-2 倍范圍內(nèi)。

AITemplate 的統(tǒng)一 GPU 后端支持,讓深度學(xué)習(xí)開發(fā)者在最小開銷的情況下,擁有了更多的硬件提供商選擇。下圖直觀展示了 AITemplate 在 NVIDIA A100 GPU 和 AMD MI250 GPU 上的加速對(duì)比:

924a6572-4576-11ed-96c9-dac502259ad0.png

此外,AITemaplte 的部署較其他方案也更為簡(jiǎn)潔。由于 AI 模型被編譯成了自洽的二進(jìn)制文件并且不存在任何第三方庫的依賴,任何被編譯的二進(jìn)制文件都能在相同硬件、CUDA 11/ ROCm 5 或者更新的軟件環(huán)境中運(yùn)行,也不用擔(dān)心任何后向兼容問題。AITemplate 提供了開箱即用的模型樣例,如 Vision Transformer、BERT、Stable Diffusion、ResNet 和 MaskRCNN,使得部署 PyTorch 模型更加簡(jiǎn)單。

AITemplate 的優(yōu)化

AITemplate 提供了目前最先進(jìn)的 GPU Kernel 融合技術(shù):支持縱向、水平和內(nèi)存融合為一體的多維融合技術(shù)。縱向融合將同一條鏈上的操作進(jìn)行融合;水平融合將并行無依賴的操作進(jìn)行融合;內(nèi)存融合把所有內(nèi)存移動(dòng)操作和計(jì)算密集算子進(jìn)行融合。

9265ec70-4576-11ed-96c9-dac502259ad0.png

在水平融合中,AITemplate 目前可以把不同輸入形狀的矩陣乘法 (GEMM)、矩陣乘法和激活函數(shù),以及 LayerNorm、LayerNorm 和激活函數(shù)進(jìn)行融合。

在縱向融合中,AITemplate 支持超過傳統(tǒng)標(biāo)準(zhǔn)的 Elementwise 融合,包括:

通過 CUTLASS 和 Composable Kernel 支持了矩陣和 Elementwise 算子融合;

為 Transformer 的 Multi-head Attention 提供了矩陣乘法和內(nèi)存布局轉(zhuǎn)置融合;

通過張量訪問器對(duì)內(nèi)存操作,如 split、slice、concatenate 等進(jìn)行融合來消除內(nèi)存搬運(yùn)。

在標(biāo)準(zhǔn)的 Transformer Multi head attention 模塊,目前 AITemplate 在 CUDA 平臺(tái)使用了 Flash Attention,在 AMD 平臺(tái)上使用了 Composable Kernel 提供的通用背靠背矩陣乘法融合。兩種解決方案都能大幅減小內(nèi)存帶寬需求,在長(zhǎng)序列問題中,提升更為明顯。如下圖所示:

928121ca-4576-11ed-96c9-dac502259ad0.png

AITemplate 與 Composable Kernel 的廣義背靠背融合顯著提高了長(zhǎng)序列 Transformer 的推理效率。在 batch size 為 1 時(shí),使用 AITemplate 的兩張 GPU 均比原生框架加速了 80%。

開發(fā) AITemplate

AITemplate 有兩層模版系統(tǒng):第一層在 Python 中使用 Jinja2 模板,第二層在 GPU TensorCore/MatrixCore 中使用 C++ 模板(NVIDIA GPU 上使用 CUTLASS,AMD GPU 上使用 Composable Kernel)。AITemplate 在 Python 中找到性能最優(yōu)的 GPU 模板參數(shù),再通過 Jinja2 渲染出最終的 C++ 代碼。

在代碼生成后,就能使用 GPU C++ 編譯器(NVIDIA 平臺(tái)上的 NVCC 和 AMD 平臺(tái)上的 HIPCC)編譯出最終的二進(jìn)制代碼。AITemplate 提供了一套類似于 PyTorch 的前端,方便用戶直接將模型轉(zhuǎn)換到 AITemplate 而不是通過多層 IR 轉(zhuǎn)換。

總體來看,AITemplate 對(duì)當(dāng)前一代及下一代 NVIDIA GPU 和 AMD GPU 提供了 SOTA 性能并大幅簡(jiǎn)化了系統(tǒng)復(fù)雜度。

Meta 表示,這只是創(chuàng)建高性能多平臺(tái)推理引擎旅程的開始:「我們正在積極擴(kuò)展 AITemplate 的完全動(dòng)態(tài)輸入支持。我們也有計(jì)劃推廣 AITemplate 到其他平臺(tái),例如 Apple 的 M 系列 GPU,以及來自其他供應(yīng)商的 CPU 等等。」

此外,AITemplate 團(tuán)隊(duì)也正在開發(fā)自動(dòng) PyTorch 模型轉(zhuǎn)換系統(tǒng),使其成為開箱即用的 PyTorch 部署方案。「AITemplate 對(duì)支持 ONNX 和 Open-XLA 也持開放態(tài)度。我們希望能構(gòu)建一個(gè)更為綠色高效的 AI 推理系統(tǒng),能擁有更高的性能,更強(qiáng)的靈活性和更多的后端選擇。」團(tuán)隊(duì)表示。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5176

    瀏覽量

    135068
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39485

    瀏覽量

    300575

原文標(biāo)題:推理速度數(shù)倍提升,大幅簡(jiǎn)化多GPU后端部署:Meta發(fā)布全新推理引擎AITemplate

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計(jì)目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢(shì)是允許開發(fā)者基于其構(gòu)建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?88次閱讀

    FPGA+GPU異構(gòu)混合部署方案設(shè)計(jì)

    為滿足對(duì) “納秒級(jí)實(shí)時(shí)響應(yīng)” 與 “復(fù)雜數(shù)據(jù)深度運(yùn)算” 的雙重需求,“FPGA+GPU”異構(gòu)混合部署方案通過硬件功能精準(zhǔn)拆分與高速協(xié)同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實(shí)時(shí)交易鏈路,GPU承接高復(fù)雜度數(shù)據(jù)處理任務(wù),
    的頭像 發(fā)表于 01-13 15:20 ?283次閱讀

    八通道智能驅(qū)動(dòng)器SiLM92108,集成驅(qū)動(dòng)與診斷,簡(jiǎn)化電機(jī)系統(tǒng)設(shè)計(jì)

    ,加速開發(fā)進(jìn)程。 控制智能且靈活 支持PWM直接控制與SPI參數(shù)配置,驅(qū)動(dòng)電流及斜率可調(diào)。菊花鏈通信簡(jiǎn)化芯片布線,特別適合通道擴(kuò)展需求。 診斷全面,安全可靠 提供從電源、電流到溫度的全方位故障監(jiān)測(cè)
    發(fā)表于 01-09 08:22

    Meta的AI慢性病,靠Manus能治嗎?

    Meta
    腦極體
    發(fā)布于 :2026年01月08日 16:58:02

    Hi9204 4.5~65V輸入高可靠性電源解決方案智芯一級(jí)代理聚能芯半導(dǎo)體原廠技術(shù)支持

    工程師提供高效可靠的電源設(shè)計(jì)方案,大幅簡(jiǎn)化研發(fā)流程并提升系統(tǒng)穩(wěn)定性。 Hi9204 具備 4.5~65V 寬輸入電壓范圍,可靈活適配多種電源場(chǎng)景,無需額外設(shè)計(jì)適配電路,輕松應(yīng)對(duì)不同輸入電壓波動(dòng)工況。其能
    發(fā)表于 12-18 10:26

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    兼容未來的 GPU 架構(gòu)。借助 NVIDIA cuTile Python,開發(fā)者可以直接用 Python 編寫 tile kernels。
    的頭像 發(fā)表于 12-13 10:12 ?1117次閱讀
    在Python中借助NVIDIA CUDA Tile<b class='flag-5'>簡(jiǎn)化</b><b class='flag-5'>GPU</b>編程

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    流程 2.1 依賴環(huán)境 2.2 一鍵編譯 2.3 端側(cè)部署步驟 三、效果展示:圖文輪問答 四、二次開發(fā)與拓展方向 五、結(jié)論與未來發(fā)展方向 一、引言1.1 什么是輪對(duì)話?
    發(fā)表于 09-05 17:25

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測(cè)

    關(guān)鍵詞:瑞芯微 RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、端側(cè)小語言模型(SLM)、模態(tài) LLM、邊緣 AI 部署開發(fā)板、RKLLM隨著大語言模型(LLM)技術(shù)的快速迭代,從云端集中式部署
    發(fā)表于 08-29 18:08

    【米爾RK3576開發(fā)板免費(fèi)體驗(yàn)】1、開發(fā)環(huán)境、鏡像燒錄、QT開發(fā)環(huán)境搭建以及應(yīng)用部署

    示例程序中的.pro文件,導(dǎo)入工程。 修改QT的Projects界面中的Command line Argments為--platform wayland,指定QT使用的顯示后端類型。 編譯并運(yùn)行工程,部署執(zhí)行程序到開發(fā)
    發(fā)表于 07-14 11:26

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側(cè)部署

    ImaginationTechnologies宣布率先完成百度文心大模型(ERNIE4.5開源版)在其GPU硬件上的端側(cè)部署。適配完成后,開發(fā)者可在搭載ImaginationGPU的設(shè)備上實(shí)現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?951次閱讀
    Say Hi to ERNIE!Imagination <b class='flag-5'>GPU</b>率先完成文心大模型的端側(cè)<b class='flag-5'>部署</b>

    HarmonyOS5云服務(wù)技術(shù)分享--Serverless抽獎(jiǎng)模板部署

    活動(dòng)。不用寫復(fù)雜代碼,跟著步驟走就能搞定,文末還有部署避坑指南哦~ 一、前期準(zhǔn)備 1?? ??注冊(cè)賬號(hào)+創(chuàng)建項(xiàng)目?? 先到華為開發(fā)者平臺(tái)注冊(cè)賬號(hào) 創(chuàng)建新項(xiàng)目時(shí)記得勾選\"云開發(fā)
    發(fā)表于 05-22 20:25

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡(jiǎn)化了模型的部署和調(diào)用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場(chǎng)景。
    的頭像 發(fā)表于 04-14 10:22 ?1408次閱讀

    極速部署!GpuGeek提供AI開發(fā)者的云端GPU最優(yōu)解

    在AI開發(fā)領(lǐng)域,算力部署的效率和資源調(diào)度的靈活性直接影響研發(fā)進(jìn)程與創(chuàng)新速度。隨著模型復(fù)雜度的提升和全球化協(xié)作需求的增長(zhǎng),開發(fā)者對(duì)GPU云服務(wù)的核心訴求已從單純追求硬件性能,轉(zhuǎn)向?qū)?/div>
    的頭像 發(fā)表于 03-17 11:27 ?733次閱讀
    極速<b class='flag-5'>部署</b>!GpuGeek提供AI<b class='flag-5'>開發(fā)</b>者的云端<b class='flag-5'>GPU</b>最優(yōu)解

    添越智創(chuàng)基于 RK3588 開發(fā)部署測(cè)試 DeepSeek 模型全攻略

    DeepSeek 模型的部署與測(cè)試,開啟這場(chǎng)充滿挑戰(zhàn)與驚喜的技術(shù)探索之旅。 RK3588 開發(fā)板:AI 性能擔(dān)當(dāng) RK3588 開發(fā)板基于先進(jìn)的 8nm LP 制程工藝精心打造,其硬件配置堪稱豪華,在 AI
    發(fā)表于 02-14 17:42

    如何在Arm Ethos-U85上使用ExecuTorch

    在快速發(fā)展的機(jī)器學(xué)習(xí)領(lǐng)域,PyTorch 憑借其靈活性和全面的生態(tài)系統(tǒng),已成為模型開發(fā)的熱門框架。Arm 與 Meta 合作在 ExecuTorch 中引入了對(duì) Arm 平臺(tái)的支持,進(jìn)一步簡(jiǎn)化了模型算法
    的頭像 發(fā)表于 02-14 14:23 ?1185次閱讀
    如何在Arm Ethos-U85上使用ExecuTorch