国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

7nm制程,比GPU效率高,Meta發布第一代AI推理加速器

AI智勝未來 ? 來源:機器之心 ? 2023-05-26 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,Meta 透露了其在人工智能方面取得的最新進展。

人們提起 Meta 時,通常會想到其應用程序,包括 Facebook、Instagram、WhatsApp 或即將推出的元宇宙。但許多人不知道的是這家公司設計和構建了非常復雜的數據中心來運營這些服務。

與 AWS、GCP 或 Azure 等云服務提供商不同,Meta 不需要披露有關其硅芯選擇、基礎設施或數據中心設計的細節,除了其 OCP 設計用來給買家留下深刻印象。Meta 的用戶希望獲得更好、更一致的體驗,而不關心它是如何實現的。

在 Meta,AI 工作負載無處不在,它們構成了廣泛用例的基礎,包括內容理解、信息流、生成式 AI 和廣告排名。這些工作負載在 PyTorch 上運行,具有一流的 Python 集成、即時模式(eager-mode)開發和 API 簡潔性。特別是深度學習推薦模型(DLRMs),對于改善 Meta 的服務和應用體驗非常重要。但隨著這些模型的大小和復雜性的增加,底層的硬件系統需要在保持高效的同時提供指數級增長的內存和計算能力。

Meta 發現,對于目前規模的 AI 運算和特定的工作負載,GPU 的效率不高,并不是最佳選擇。因此,該公司提出了推理加速器 MTIA,幫助更快地訓練 AI 系統。

MTIA V1

4ca17d8c-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1(推理)芯片(die)

2020 年,Meta 為其內部工作負載設計了第一代 MTIA ASIC 推理加速器。該推理加速器是其全棧解決方案的一部分,整個解決方案包括芯片、PyTorch 和推薦模型。

MTIA 加速器采用 TSMC 7nm 工藝制造,運行頻率為 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的熱設計功耗 (TDP) 為 25 W。

MTIA 加速器由處理元件 (PE)、片上和片外存儲器資源以及互連組成。該加速器配備了運行系統固件的專用控制子系統。固件管理可用的計算和內存資源,通過專用主機接口與主機通信,協調加速器上的 job 執行。

內存子系統使用 LPDDR5 作為片外 DRAM 資源,可擴展至 128 GB。該芯片還有 128 MB 的片上 SRAM,由所有 PE 共享,為頻繁訪問的數據和指令提供更高的帶寬和更低的延遲。

MTIA 加速器網格包含以 8x8 配置組織的 64 個 PE,這些 PE 相互連接,并通過網狀網絡連接到內存塊。整個網格可以作為一個整體來運行一個 job,也可以分成多個可以運行獨立 job 的子網格。

每個 PE 配備兩個處理器內核(其中一個配備矢量擴展)和一些固定功能單元,這些單元經過優化以執行關鍵操作,例如矩陣乘法、累加、數據移動和非線性函數計算。處理器內核基于 RISC-V 開放指令集架構 (ISA),并經過大量定制以執行必要的計算和控制任務。

每個 PE 還具有 128 KB 的本地 SRAM 內存,用于快速存儲和操作數據。該架構最大限度地提高了并行性和數據重用性,這是高效運行工作負載的基礎。

該芯片同時提供線程和數據級并行性(TLP 和 DLP),利用指令級并行性 (ILP),并通過允許同時處理大量內存請求來實現大量的內存級并行性 (MLP)。

4d2fdce4-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1 系統設計

MTIA 加速器安裝在小型雙 M.2 板上,可以更輕松地集成到服務器中。這些板使用 PCIe Gen4 x8 鏈接連接到服務器上的主機 CPU,功耗低至 35 W。

4d5ef182-fb2c-11ed-90ce-dac502259ad0.png

帶有 MTIA 的樣品測試板

托管這些加速器的服務器使用來自開放計算項目的 Yosemite V3 服務器規范。每臺服務器包含 12 個加速器,這些加速器連接到主機 CPU,并使用 PCIe 交換機層級相互連接。因此,不同加速器之間的通信不需要涉及主機 CPU。此拓撲允許將工作負載分布在多個加速器上并并行運行。加速器的數量和服務器配置參數經過精心選擇,以最適合執行當前和未來的工作負載。

MTIA 軟件棧

MTIA 軟件(SW)棧旨在提供給開發者更好的開發效率和高性能體驗。它與 PyTorch 完全集成,給用戶提供了一種熟悉的開發體驗。使用基于 MTIA 的 PyTorch 與使用 CPU 或 GPU 的 PyTorch 一樣簡單。并且,得益于蓬勃發展的 PyTorch 開發者生態系統和工具,現在 MTIA SW 棧可以使用 PyTorch FX IR 執行模型級轉換和優化,并使用 LLVM IR 進行低級優化,同時還支持 MTIA 加速器自定義架構和 ISA。

下圖為 MTIA 軟件棧框架圖:

4e236b98-fb2c-11ed-90ce-dac502259ad0.png

作為 SW 棧的一部分,Meta 還為性能關鍵型 ML 內核開發了一個手動調整和高度優化的內核庫,例如完全連接和嵌入包運算符。在 SW 棧的更高層級可以選擇在編譯和代碼生成過程中實例化和使用這些高度優化的內核。

此外,MTIA SW 棧隨著與 PyTorch 2.0 的集成而不斷發展,PyTorch 2.0 更快、更 Python 化,但一如既往地動態。這將啟用新功能,例如 TorchDynamo 和 TorchInductor。Meta 還在擴展 Triton DSL 以支持 MTIA 加速器,并使用 MLIR 進行內部表示和高級優化。

MTIA 性能

Meta 比較了 MTIA 與其他加速器的性能,結果如下:

4e597684-fb2c-11ed-90ce-dac502259ad0.png

Meta 使用五種不同的 DLRMs(復雜度從低到高)來評估 MTIA

此外,Meta 還將 MTIA 與 NNPI 以及 GPU 進行了比較,結果如下:

4e63c922-fb2c-11ed-90ce-dac502259ad0.png

評估發現,與 NNPI 和 GPU 相比,MTIA 能夠更高效地處理低復雜度(LC1 和 LC2)和中等復雜度(MC1 和 MC2)的模型。此外,Meta 尚未針對高復雜度(HC)模型進行 MTIA 的優化。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 加速器
    +關注

    關注

    2

    文章

    839

    瀏覽量

    40106
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135473
  • pytorch
    +關注

    關注

    2

    文章

    813

    瀏覽量

    14853

原文標題:7nm制程,比GPU效率高,Meta發布第一代AI推理加速器

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專用 AI 加速器,對 TensorFlow Lite 模型可實現最高約 15× 推理
    發表于 01-31 23:16

    曦望發布一代推理GPU芯片,單位Token推理成本降低90%

    電子發燒友網報道 1月27日,國產GPU廠商曦望(Sunrise)重磅發布一代推理GPU芯片——啟望S3。這是曦望在近
    的頭像 發表于 01-28 17:38 ?8677次閱讀

    今日看點:消息稱 AMD、通考慮導入 SOCAMM 內存;曦望發布一代推理GPU芯片啟望S3

    曦望發布一代推理GPU芯片啟望S3 近日,浙江杭州GPU創企曦望(Sunrise)發布
    發表于 01-28 11:09 ?398次閱讀

    d-Matrix與Andes晶心科技合作打造下一代AI推理加速器

    數據中心生成式 AI 推理計算的先驅 d-Matrix,以及高效率、低功耗 RISC-V 處理核心的領先供應商、RISC-V 國際協會的創始首席會員 Andes 晶心科技 (Ande
    的頭像 發表于 12-17 10:47 ?895次閱讀

    邊緣計算中的AI加速器類型與應用

    人工智能正在推動對更快速、更智能、更高效計算的需求。然而,隨著每秒產生海量數據,將所有數據發送至云端處理已變得不切實際。這正是邊緣計算中AI加速器變得不可或缺的原因。這種專用硬件能夠直接在邊緣設備上
    的頭像 發表于 11-06 13:42 ?818次閱讀
    邊緣計算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>類型與應用

    國產AI芯片真能扛住“算力內卷”?海思昇騰的這波操作藏了多少細節?

    最近行業都在說“算力是AI的命門”,但國產芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下算力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    發表于 10-27 13:12

    今日看點丨華為發布AI推理創新技術UCM;比亞迪汽車出口暴增130%

    ? ? 降低HBM依賴,華為發布AI推理創新技術UCM ? 日前,華為正式發布AI推理創新技術U
    發表于 08-13 09:45 ?5328次閱讀

    PCIe協議分析儀能測試哪些設備?

    /ASIC加速器 測試場景:分析專用AI推理加速器與主系統的PCIe通信,優化數據傳輸和指令下發效率。 應用價值:提高
    發表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    模態的技術特性,DeepSeek正加速推動AI在金融、政務、科研及網絡智能化等關鍵領域的深度應用。 信而泰:AI推理引擎賦能網絡智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發表于 07-16 15:29

    直擊Computex 2025:英特爾重磅發布一代GPU,圖形和AI性能躍升3.4倍

    電子發燒友原創? 章鷹 5月19日,在Computex 2025上,英特爾發布了最新全新圖形處理GPU)和AI加速器產品系列。包括全新英
    的頭像 發表于 05-21 00:57 ?7480次閱讀
    直擊Computex 2025:英特爾重磅<b class='flag-5'>發布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    直擊Computex2025:英特爾重磅發布一代GPU,圖形和AI性能躍升3.4倍

    5月19日,在Computex 2025上,英特爾發布了最新全新圖形處理GPU)和AI加速器產品系列。包括全新英特爾銳炫? Pro B系
    的頭像 發表于 05-20 12:27 ?5453次閱讀
    直擊Computex2025:英特爾重磅<b class='flag-5'>發布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    英特爾發布全新GPUAI和工作站迎來新選擇

    英特爾推出面向準專業用戶和AI開發者的英特爾銳炫Pro GPU系列,發布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2
    發表于 05-20 11:03 ?1845次閱讀

    第一代半導體被淘汰了嗎

    在半導體產業的百年發展歷程中,“第一代半導體是否被淘汰”的爭議從未停歇。從早期的鍺晶體管到如今的硅基芯片,以硅為代表的第一代半導體材料,始終以不可替代的產業基石角色,支撐著全球95%以上的電子設備
    的頭像 發表于 05-14 17:38 ?1096次閱讀
    <b class='flag-5'>第一代</b>半導體被淘汰了嗎

    谷歌第七TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發布了 Ironwood,這是其第七張量處理單元 (TP
    的頭像 發表于 04-12 11:10 ?3745次閱讀
    谷歌第七<b class='flag-5'>代</b>TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時代的硬件革命

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務的后續產品,NVIDIA Dynamo 是款全新的 AI 推理服務軟件,旨在為部署
    的頭像 發表于 03-20 15:03 ?1237次閱讀