国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI/ML應用和處理器的架構探索

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:嵌入式計算設計 ? 2022-07-08 17:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

行業(yè)背景

人工智能AI) 應用程序考慮了計算、存儲、內存、管道、通信接口、軟件和控制。此外,人工智能應用程序處理可以分布在處理器內的多核、PCIe 主干上的多個處理器板、分布在以太網網絡中的計算機、高性能計算機或跨數據中心的系統(tǒng)中。此外,人工智能處理器還具有巨大的內存大小要求、訪問時間限制、模擬和數字分布以及硬件-軟件分區(qū)。

問題

人工智能應用的架構探索很復雜,涉及多項研究。首先,我們可以針對單個問題,例如內存訪問,或者可以查看完整的處理器或系統(tǒng)。大多數設計都是從內存訪問開始的。有很多選擇——SRAMDRAM、本地與分布式存儲、內存計算以及緩存反向傳播系數與丟棄。

第二個評估部門是總線或網絡拓撲。虛擬原型可以具有用于處理器內部的片上網絡、TileLink 或 AMBA AXI 總線、用于連接多處理器板和機箱的 PCIe 或以太網,以及用于訪問數據中心的 Wifi/5G/Internet 路由器。

使用虛擬原型的第三項研究是計算。這可以建模為處理器內核、多處理器、加速器、FPGA、Multi-Accumulate 和模擬處理。最后一部分是傳感器、網絡、數學運算、DMA、自定義邏輯、仲裁器、調度器和控制功能的接口

此外,人工智能處理器和系統(tǒng)的架構探索具有挑戰(zhàn)性,因為它將數據密集型任務圖應用于硬件的全部功能。

模型構建

在 Mirabilis,我們使用 VisualSim 對 AI 應用程序進行架構探索。VisualSim 的用戶在具有大量 AI 硬件和軟件建模組件的圖形離散事件仿真平臺中非常快速地組裝虛擬原型。該原型可用于進行時間、吞吐量、功耗和服務質量的權衡。提供超過 20 種 AI 處理器和嵌入式系統(tǒng)模板,以加速開發(fā)新的 AI 應用程序。

為 AI 系統(tǒng)的權衡而生成的報告包括響應時間、吞吐量、緩沖區(qū)占用率、平均功率、能耗和資源效率。

ADAS模型構建

首先,讓我們考慮自動駕駛 (ADAS) 應用程序,這是圖 1 中的一種人工智能部署形式。ADAS 應用程序與計算機或電子控制單元 (ECU) 和網絡上的許多應用程序共存。 ADAS 任務的正確運行還依賴于現有系統(tǒng)的傳感器和執(zhí)行器。

poYBAGLH8vGAa_RSAAI0sk_genQ618.png

圖 1. 汽車設計中 AI 應用程序的邏輯到物理架構

早期的架構權衡可以測試和評估假設以快速識別瓶頸,并優(yōu)化規(guī)范以滿足時序、吞吐量、功率和功能要求。在圖 1 中,您將看到體系結構模型需要硬件、網絡、應用程序任務、傳感器、衰減器和流量激勵來獲得對整個系統(tǒng)操作的可見性。圖 2 顯示了映射到物理架構的 ADAS 邏輯架構的實現。

架構模型的一個很好的特性是能夠分離設計的所有部分,這樣就可以研究單個操作的性能。在圖 2 中,您會注意到現有任務被單獨列出,網絡與 ECU、傳感器生成和 ADAS 邏輯任務組織。ADAS 任務圖中的每個功能都映射到一個 ECU。

pYYBAGLH8vyABhJdAAKozTfxomM207.png

圖 2. ADAS 映射到 ECU 網絡的汽車系統(tǒng)系統(tǒng)模型

ADAS分析

當模擬圖2中的ADAS模型時,可以得到各種報告。在圖 3 中,顯示了完成 ADAS 任務的延遲以及電池為此任務耗散的相關熱量。其他感興趣的圖可以是測量的功率、網絡吞吐量、電池消耗、CPU 利用率和緩沖區(qū)占用。

poYBAGLH8wWAMvWTAAMtxKUt3Gk534.png

圖 3. ADAS 架構模型的分析報告

處理器模型構建

AI 處理器和系統(tǒng)的設計人員針對應用程序類型、訓練與推理、成本點、功耗和尺寸限制進行實驗。例如,設計人員可以將子網絡分配到流水線階段,權衡深度神經網絡 (DNN) 與傳統(tǒng)機器學習算法,測量 GPU、TPU、AI 處理器、FPGA 和傳統(tǒng)處理器上的算法性能,評估融合計算和內存的好處在芯片上計算類似于人腦功能的模擬技術對功率的影響,并構建具有針對單個應用程序的部分功能集的 SoC。

從 PowerPoint 到新 AI 處理器的第一個原型的時間非常短,第一個生產樣品不能有任何瓶頸或錯誤。因此,建模成為強制性的。

圖 4 顯示了 Google 張量處理器的內部視圖。框圖已轉換為圖 5 中的架構模型。處理器通過 PCIe 接口接收來自主機的請求。MM、TG2、TG3 和 TG4 是來自獨立主機的不同請求流。權重存儲在片外 DDR3 中并被調用到權重 FIFO。到達的請求在統(tǒng)一本地緩沖區(qū)中存儲和更新,并發(fā)送到矩陣多單元進行處理。當請求通過 AI 管道處理完畢后,將其返回到統(tǒng)一緩沖區(qū)以響應主機。

pYYBAGLH8w6AUY5cAAH5cVXHPd0055.png

圖 4. 來自 Google 的 TPU-1

pYYBAGLH8xeAES5nAAH9blh3v80920.png

圖5. AI 硬件架構的 VisualSim 模型頂視圖

處理器模型分析

在圖 6 中,您可以查看片外 DDR3 中的延遲和反向傳播權重管理。延遲是從主機發(fā)送請求到接收響應的時間。您將看到 TG3 和 TG4 能夠分別保持低延遲,直到 200 us 和 350 us。MM 和 TG2 在模擬的早期就開始緩沖。由于這組流量配置文件存在大量緩沖并且延遲增加,因此當前的 TPU 配置不足以處理負載和處理。TG3 和 TG4 的更高優(yōu)先級有助于維持更長的運營時間。

poYBAGLH8yGAb-mYAAHT-36YM8g888.png

圖 6. 架構探索權衡的統(tǒng)計數據

汽車設計施工

poYBAGLH8yqAeDErAADu_tWXouM594.png

圖 7. 帶有 CAN 總線、傳感器和 ECU 的汽車網絡

當今的汽車設計包含許多需要大量機器學習和推理的安全和自動駕駛功能。可用的時間表將決定處理是在 ECU 完成還是發(fā)送到數據中心。例如,可以在本地進行制動決策,同時可以將空調溫度的變化發(fā)送到遠程處理。兩者都需要一些基于輸入傳感器和攝像頭的人工智能。

圖 7 是包含 ECU、CAN-FD、以太網和網關的網絡框圖。

pYYBAGLH8zKABDcwAAOrtsXCqXU994.png

圖 8. 自動駕駛和 E/E 架構的 VisualSim 模型

圖 8 捕獲了圖 7 的一部分,它將 CAN-FD 網絡與包含多個 ARM 內核和一個 GPU 的高性能 Nvidia DrivePX 集成。以太網/TSN/AVB 和網關已從模型中移除以簡化視圖。在此模型中,重點是了解 SoC 的內部行為。該應用程序是由車輛上的攝像頭傳感器觸發(fā)的 MPEG 視頻捕獲、處理和渲染。

汽車設計分析

圖 9 顯示了 AMBA 總線和 DDR3 內存的統(tǒng)計數據。您可以看到跨多個主服務器的工作負載分布。可以評估應用程序管道的瓶頸,確定最高周期時間的任務、內存使用情況以及每個單獨任務的延遲。

poYBAGLH8zuADCzoAAKvaLBwix8310.png

圖 9. 總線和內存活動報告

用例和流量模式應用于作為硬件、RTOS 和網絡組合的架構模型。周期性流量配置文件用于對雷達、激光雷達和攝像頭進行建模,而用例可以是自動駕駛、聊天機器人、搜索、學習、推理、大數據處理、圖像識別和疾病檢測。用例和流量可以根據輸入速率、數據大小、處理時間、優(yōu)先級、依賴性、先決條件、反向傳播循環(huán)、系數、任務圖和內存訪問而變化。通過改變屬性在系統(tǒng)模型上模擬用例。這會生成各種統(tǒng)計數據和圖表,包括緩存命中率、流水線利用率、拒絕的請求數、每條指令或任務的瓦特數、吞吐量、緩沖區(qū)占用率和狀態(tài)圖。

poYBAGLH8teAdkAAAACYtpBw9Uc115.png

圖 10. 實時測量 AI 處理器的功耗

圖 10 顯示了系統(tǒng)和芯片的功耗。除了散熱、電池充電消耗率和電池生命周期變化外,該模型還可以捕捉動態(tài)功率變化。該模型繪制了每個設備的狀態(tài)活動、相關的瞬時峰值和系統(tǒng)的平均功率。獲得有關功耗的早期反饋有助于熱和機械團隊設計外殼和冷卻方法。大多數機箱對每個板都有最大功率限制。這種早期的功耗信息可用于執(zhí)行架構與性能的權衡,從而尋找降低功耗的方法。

進一步的探索場景

以下是一些突出使用 AI 架構模型和分析的附加示例。

1. 360度激光掃描儀、立體攝像頭、魚眼攝像頭、毫米波雷達、聲納或激光雷達的自動駕駛系統(tǒng),通過網關連接到多個IEEE802.1Q網絡上的20個ECU。該原型用于測試 OEM 硬件配置的功能包,以確定硬件和網絡要求。主動安全行動的響應時間是主要標準。

2. 用于學習和推理任務的人工智能處理器是使用由 32 個內核、32 個加速器、4 個 HBM2.0、8 個 DDR5、多個 DMA 和完整緩存一致性構建的片上網絡骨干定義的。該模型使用 RISC-V、ARM Z1 和專有內核的變體進行了試驗。實現的目標是鏈路上的 40Gbps,同時保持較低的路由器頻率并重新訓練網絡路由。

3. 需要一個 32 層的深度神經網絡,將內存從 40GB 降低到 7GB 以下。數據吞吐量和響應時間沒有改變。該模型設置有用于處理和反向傳播的內存訪問行為的功能流程圖。對于不同的數據大小和任務圖,該模型確定了數據的丟棄量以及各種片外 DRAM 大小和 SSD 存儲選項。任務圖隨任意數量的圖和幾個輸入和輸出而變化。

4. 使用ARM處理器和AXI總線進行低成本AI處理的通用SoC。目標是獲得最低的每瓦功率,從而最大限度地提高內存帶寬。乘法累加函數被卸載到向量指令,加密到 IP 核,以及自定義算法到加速器。構建該模型的明確目的是評估不同的高速緩存存儲器層次結構以提高命中率和總線拓撲以減少延遲。

5. 模數 AI 處理器需要對功耗進行徹底分析,并對所達到的吞吐量進行準確分析。在該模型中,非線性控制在離散事件模擬器中建模為一系列線性函數,以加快模擬時間。在這種情況下,對功能進行了測試以檢查行為并衡量真正的節(jié)能效果。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 存儲器
    +關注

    關注

    39

    文章

    7739

    瀏覽量

    171676
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107778
  • soc
    soc
    +關注

    關注

    40

    文章

    4576

    瀏覽量

    229147
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    探索TDA54x Jacinto?處理器:高性能與安全的完美融合

    探索TDA54x Jacinto?處理器:高性能與安全的完美融合 在電子工程領域,處理器的性能和安全性一直是設計的關鍵考量因素。今天,我們來深入了解一下TDA54x Jacinto?處理器
    的頭像 發(fā)表于 03-06 16:50 ?497次閱讀

    Vicor分比式電源架構破解AI處理器供電瓶頸

    AI 處理器以低于 1V 的電壓運行時,電流消耗卻高達數千安培。這種前所未有的電流需求已使供電網絡(PDN)成為系統(tǒng)的主要瓶頸。
    的頭像 發(fā)表于 12-28 10:02 ?1064次閱讀
    Vicor分比式電源<b class='flag-5'>架構</b>破解<b class='flag-5'>AI</b><b class='flag-5'>處理器</b>供電瓶頸

    瑞芯微SOC智能視覺AI處理器

    RK3568B2: 一款性能均衡、接口豐富的中高端AIoT應用處理器,是RK3568的優(yōu)化版本,主打穩(wěn)定與可靠性。CPU/GPU: 延續(xù)RK3568的4核A55 + G52 GPU架構,性能可靠
    發(fā)表于 12-19 13:44

    DNR6521x_VC1:革新音頻體驗的AI降噪處理器

    在當今數字時代,高質量的音頻處理需求日益增長。無論是直播、游戲、會議還是專業(yè)錄音,都需要清晰、純凈的聲音體驗。DNR6521x_VC1作為一款基于XMOS處理器架構AI深度降噪
    的頭像 發(fā)表于 10-15 16:59 ?1545次閱讀
    DNR6521x_VC1:革新音頻體驗的<b class='flag-5'>AI</b>降噪<b class='flag-5'>處理器</b>

    DNR65211-VC1單通道AI深度降噪處理器技術解析

    一、產品概述DNR65211-VC1是飛騰云音頻推出的高性能AI音頻處理方案,基于XMOS處理器架構設計,專為直播/會議/戶外等場景提供智能化音頻解決方案。該產品集成雙
    的頭像 發(fā)表于 10-08 15:32 ?584次閱讀
    DNR65211-VC1單通道<b class='flag-5'>AI</b>深度降噪<b class='flag-5'>處理器</b>技術解析

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    建立的基礎: ①算力支柱②數據支柱③計算支柱 1)算力 與AI算力有關的因素: ①晶體管數量②晶體管速度③芯片架構④芯片面積⑤制造工藝⑥芯片內部擴展⑦內存帶寬、存儲容量等⑧處理器利用率⑨芯片之間的互連
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    是一種快速反應能力,是直接的感知;靈感是一種通過思考和探索獲得的創(chuàng)造性想法,是一種創(chuàng)意。 AI怎么模擬直覺與靈感呢?四、AI代替人類的假說 這可能嗎? 用機器來生成假說: 1、直接生成 生成式
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創(chuàng)新方法與架構

    1.1RISC-VISA 擴展 1.2 向量協處理器 1.3 與各級存儲耦合的NPU 1.4 針對Transformer 模型的架構優(yōu)化 SwiftTron是一款專用的開源AI加速
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽

    AI芯片:科技探索與AGI愿景》這本書是張臣雄所著,由人民郵電出版社出版,它與《AI芯片:前沿技術與創(chuàng)新未來》一書是姊妹篇,由此可見作者在AI芯片領域的功力和造詣。 作者畢業(yè)于上海交
    發(fā)表于 09-05 15:10

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    RISC-V架構AI加速、量子AI芯片、光電組合AI芯片等。 隨著大模型面臨收益遞減、資源浪費等困境,書中接著將目光投向 “后Tran
    發(fā)表于 07-28 13:54

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    數據中挖掘有價值信息,這也讓我意識到架構設計對模型性能起著根本性作用,是 AI 具備強大能力的 “骨骼” 支撐。 二、流水線并行 書中關于流水線并行的內容,展現了提升計算效率的巧妙思路。簡單流水線并行雖
    發(fā)表于 07-20 15:07

    技術分享 | 如何在2k0300(LoongArch架構處理器上跑通qt開發(fā)流程

    技術分享 | 如何在2k0300開發(fā)板(LoongArch架構處理器上跑通qt開發(fā)流程
    的頭像 發(fā)表于 05-20 11:05 ?898次閱讀
    技術分享 | 如何在2k0300(LoongArch<b class='flag-5'>架構</b>)<b class='flag-5'>處理器</b>上跑通qt開發(fā)流程

    Cadence推出Tensilica NeuroEdge 130 AI處理器

    Vision DSP 系列的成熟架構,能夠在不影響性能的情況下,將面積縮減超過 30%,并將動態(tài)功耗和能耗降低超過 20%。此外,該處理器還利用相同的軟件、AI 編譯、庫和框架,加
    的頭像 發(fā)表于 05-17 09:38 ?1397次閱讀

    光子 AI 處理器的核心原理及突破性進展

    電子發(fā)燒友網(文 / 李彎彎)光子 AI 處理器,作為一種借助光子執(zhí)行信息處理與人工智能(AI)計算的新型硬件設備,正逐漸嶄露頭角。與傳統(tǒng)基于晶體管的電子
    的頭像 發(fā)表于 04-19 00:40 ?4167次閱讀

    在線研討會 @4/10 ASTRA?賦能邊緣 AI探索 Synaptics SL &amp;amp; SR 處理器的無限可能

    邊緣AI探索SynapticsSL&SR處理器的無限可能”主題研討會。介紹SynapticsASTRA系列AI處理器,包括SL和SR系列,
    的頭像 發(fā)表于 04-02 16:34 ?851次閱讀
    在線研討會 @4/10 ASTRA?賦能邊緣 <b class='flag-5'>AI</b>:<b class='flag-5'>探索</b> Synaptics SL &amp;amp; SR <b class='flag-5'>處理器</b>的無限可能