国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

本土NPU IP再升級!高達320TOPS算力,引領邊緣計算與汽車浪潮

21克888 ? 來源:電子發燒友網 ? 作者:黃晶晶 ? 2023-04-03 10:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2023年3月28日,安謀科技(中國)有限公司正式發布自研新一代人工智能處理器“周易”X2 NPU。周易NPU是安謀的一個IP系列,此前發布的“周易”X1 NPU產品主要是基于的V1、V2架構,更多是用在AIoT領域,此次發布的“周易”X2 NPU是安謀科技第一款基于V3架構的NPU,算力有大幅提升,能夠支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合計算,計算效率與計算密度也得到了顯著提升。還針對車載、邊緣計算等應用場景進行了專門優化,為新興領域不斷迭代的計算需求提供更為完善的解決方案。

“周易”X2 NPU性能全面升級


“周易”X2 NPU作為新一代人工智能處理器,采用第三代“周易”架構,支持多核Cluster,最高可達320TOPS子系統。

安謀科技產品總監楊磊介紹,相比于“周易”X1和“周易”Z系列都是單核NPU的解決方案,“周易”X2有一個集群(Cluster)的概念,擁有多個NPU的核,算力得到成倍的提升。Cluster內部有總線的互聯,用于數據的溝通和維護,也有內部的存儲系統,協調不同核間的數據通信。同時還支持多個Cluster,整個算力可以成倍提升。通過多核構成Cluster,多個Cluster構成一個子系統的方案來完成大算力的產品形態的交付。

“周易”X2 NPU主要功能升級


楊磊進一步分析,這里面有一個很核心的功能,就是任務調度器Task Scheduling Manager,簡稱為TSM,它可以同時調度多個Cluster的多個核心。舉例來說,當車有10個攝像頭,有10路數據進來,可以每一路都跑一個檢測的算法,它可以當成是10個任務,假設只有4個核心,通過調度器發現哪個核是空閑的,就可以把任務立刻調度給那個核心做計算,因此它完全是動態、實時的調度的解決方案。實時的硬件任務管理使得“周易”X2 NPU可實現最高千萬次/秒的任務調度,將各個計算單元的效能發揮到最佳。

一般來說,數據要從片外的存儲設備中來讀取,這個傳輸通道在物理上有限制,其次通道速度越快整個方案的成本也會越高,而i-Tiling的技術方案節省帶寬需求,進一步提升計算效率,從而大幅降低系統的成本。同時,還增加了無損權重壓縮技術,進一步節省帶寬。以汽車應用上處理一個4K分辨率的單路圖像為例,去噪聲計算需要40GB帶寬,基于i-Tiling技術,能夠大幅壓縮帶寬。它是把一個很大的圖片拆成若干個小塊,這樣每一個tile就變得很小,而memory緩存在芯片內部,不需要把數據放到外部設備做讀寫操作,從而節省對外部帶寬的需求。

此前,“周易”Z系列,包括“周易”X1的處理都是基于定點的方案,也就是int8整型方案來做的NPU,它的好處是兼顧了計算性能和密度和芯片成本。在汽車領域對于計算的精度要求更高,“周易”X2 NPU支持混合精度計算,支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合計算,既可以是定點的計算、整型的數據計算,也支持浮點的16bit或者是32bit的計算,計算效率與計算密度得到顯著提升。
“周易”X2 NPU優化了Transformer性能。如今汽車領域大量地采用Transformer結構,Transformer是一個在汽車領域很常見的AI模型,有基于圖像、基于分割檢測的模型。

此外,在低功耗領域做了很多的技術升級,在7nm工藝節點上做到10TOP/W的能效。面向手機、平板電腦、PC等市場可以提供30T算力,這個算力基本上可以對標現在業界旗艦手機的NPU的解決方案。針對手持設備做了專門的優化,比如說拍照的AI去噪聲,視頻超分辨率、插幀等。總之整個“周易”X2產品有大量的技術升級,滿足面向汽車以及手持設備的產品的需求。

在靈活性方面,“周易”X2 NPU在支持自定義算子、滿足各種模型部署需求的基礎上,還面向各類應用場景提供定制化AI解決方案,以進一步滿足客戶在智能駕駛、手機影像AI處理、人機交互等場景中的差異化需求。
為幫助開發者更方便、快速地進行算法移植和調試,“周易”X2 NPU還提供了一套完善的人工智能軟件平臺,可以更好地滿足開發者對性能調優、系統部署的需求。目前,“周易”X2 NPU已面向客戶正式交付,并且今年會有多款搭載“周易”X2 NPU的芯片產品面世。

V3架構突破,與完整的“周易” Compass軟件平臺


安謀科技NPU研發高級總監孫錦鴻Ryan解析,在“周易”X2 NPU中,一個核分成兩個大的計算部件,一個是可編程的、靈活的單元,采用VLIW結構,它是通用向量處理單元。另外,我們還專門為Tensor處理做了不同種類算子加速單元,跟靈活單元有機結合成為一個可擴展性的核結構。擴展性層面,在一個Cluster里擴展,通過高帶寬的內部NoC,以及一些Debug單元、電源管理單元、內部memory構成一個計算Cluster,再通過Task Scheduling Manager,將計算任務調度到合適的核,或者合適的Cluster里?!爸芤住奔軜嬆茏龅礁咝蹵I固定運算和靈活編程要求的有效平衡。



孫錦鴻表示,對比起“周易”v1、v2架構,v3架構更強調并行性和可擴展性。整個“周易”NPU的設計核心思想在指令、數據處理單元的同構計算里做到了最大并行。在整個v3架構的指令集中,安謀科技定義了超過1000個專門針對不同場景的指令,這些指令也是基于VLIW結構,由長指令和短指令構成,并且可以支持64bit和128bit的指令包,做到統一的指令集組合。



孫錦鴻分析,在運算單元里,需要很多AI固定功能的加速,我們提供了高效的4K MAC矩陣,適用于CNN、RNN、Transformer等結構。其次提供了很多可重置的結構單元,以適配很多新算子,因為很多AI功能背后的模型或算子更新是日新月異,這些可重置的結構單元就給我們的NPU提供了很多的可擴展性和適應性。
靈活單元層面,我們就做了很多針對AI標量、矢量的指令,這些指令都可以通過OpenCL實現很好的編程體驗。每個基礎單元可以做到1024bit/cycle的數據處理,它的數據帶寬可以根據1024bit做到較為有效的拓展。也加入支持矩陣浮點運算。

“周易”NPU不僅提供硬件NPU IP,還提供一整套完整的“周易” Compass軟件平臺,這個平臺中包括模型編譯器、調試器,不僅可以分析和判斷運行中是否有一些異常和錯誤,還可以調試性能。



孫錦鴻表示,基于V3架構,安謀科技開發了很多底層軟件、中間部件,包括runtime、IDE、simulator等等都整合到“周易” Compass軟件平臺里。也開發了很多高效能的NN算子,供客戶直接調用。還開發了專門的NN compiler,整合i-Tiling的技術。此外,提供一個友好的OpenCL的Compiler,通過單次編程就可以把這么多運算單元整合起來。在頂層上,我們也有統一的Parser對接到各種神經網絡框架。此外,還有一個核心部件是量化部件,可以把各種浮點的原始模型量化到合適精度,給NPU最高效的運行。我們也定義了一套名為Compass IR的公開標準接口,將IR直接對接到上層神經網絡或底層硬件。并且這一部分設計已經實現了開源。


“周易” Compass軟件平臺現在已經支持了上百種AI算子或者是AI層,支持上百種AI模型,希望通過這樣一套“周易” Compass軟件平臺來支持全部的軟件模型,因為整個“周易”NPU具有完全可編程性,客戶可以開發新的算子?!坝绕涫窃谄囶I域,無論是模型、數據,對客戶來講都是核心資產,它的算法中就采用了很多自定義算子,也就是非標準算子,這些算子都能體現出車廠、自動駕駛廠商的特有技術或方案。這種情況下,我們就可以支持這些客戶進行自定義算子的部署。”孫錦鴻說道。


同時,“周易” Compass軟件平臺不單可以把NPU的性能充分發揮出來,還結合通用的Arm CPU處理器,GPU IP單元,以及ISP、VPU、SPU等提供一套完整的異構計算解決方案。目前支持TVM以及Arm NN兩套異構計算平臺,能夠將SoC芯片中的CPU、GPU、NPU IP的性能協同發揮出來。

解決NPU碎片化問題,“周易”NPU軟件開源計劃


從AI訓練和推理的生態來看,“周易”NPU主要做推理,沒有涉足訓練的部分。安謀科技產品總監楊磊分享了一個數據,安謀科技統計了過去一年里國內的60個用到NPU的芯片項目。發現其中大概55%的項目用的都是自研NPU,但是每一家都不一樣。剩下的部分主要是基于IP的解決方案,過去1年大概有8個項目用了安謀科技“周易”NPU的方案,雖然“周易”NPU占的比例從整個餅圖來看不高,但在IP領域仍然是最多的。這就說明整個硬件的平臺是極其碎片化的。



硬件碎片化所帶來的弊端就是每一家硬件都有自己的軟件工具鏈,對應的可能就有40種工具鏈。這對應用開發來講是極其復雜或者是痛苦的。怎樣能在推理側使生態更加友好,尤其是對于軟件開發者、應用開發者更加友好,可以讓他們更加方便、快捷地做應用的開發和部署,是安謀科技一直在深入思考的問題。

隨著“周易”X2 NPU的推出,安謀科技正式發布“周易”NPU軟件開源計劃,并更新了生態伙伴計劃的最新進展。作為立足全球生態、深耕本土創新的重要舉措,安謀科技一方面通過開放源碼的形式,攜手更多開發者以及合作伙伴共建國內NPU產業生態;另一方面,通過戰略合作、產品技術支持、項目協作等形式與合作伙伴共建上下游產業生態,共同推動各領域軟硬件、工具鏈、行業標準以及社區聯盟等生態環節的發展。

在“周易”NPU軟件開源計劃下,安謀科技已率先對外開放NPU中間表示層規范、模型解析器、模型優化器、驅動等,并向相關合作伙伴提供“周易”Compass軟件平臺,包括軟件模擬器、調試器、C編譯器等在內的多種軟件工具。在滿足合作伙伴更自主、更靈活的算法移植需求的同時,進一步提升了軟件開發效率,避免重復造輪。據悉,上述只是“周易”NPU軟件開源計劃的第一步,安謀科技后續還將逐步開放更多資源,如模型量化、算子實現等源代碼。

“周易”NPU軟件部署


截至目前,憑借完整的工具鏈及技術服務,“周易”NPU軟件開源計劃已經有第一批合作伙伴率先加入,其中不乏來自AIoT、智能汽車、智能操作系統等領域的明星企業。

小結:

安謀科技一直積極推進自研IP的研發。安謀科技執行副總裁、產品研發負責人劉澍 William Liu表示,以NPU研發團隊來看,經過5年的努力從零開始建立,目前在北京、上海、深圳吸引和培養眾多工程師,整個團隊擁有超過130位工程師從事開發包含硬件和軟件的NPU全棧研發。我們可以看到,如今安謀科技已經做了多款NPU產品,已發展到第三代架構,此次大算力“周易”X2 NPU的推出可謂恰逢其時,趕上AIoT、智能終端和汽車大發展的浪潮。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301454
  • NPU
    NPU
    +關注

    關注

    2

    文章

    373

    瀏覽量

    21102
  • 安謀科技
    +關注

    關注

    0

    文章

    126

    瀏覽量

    8331
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    國芯科技DPNPU新IP產品最新進展,單核支持0.5~4.8TOPS靈活配置

    國芯科技DPNPU新IP產品 最新進展,單核支持0.5~4.8TOPS 靈活配置 ? 電子發燒友網綜合報道 國芯科技發布公告稱,其自主研發的神經網絡處理器DPNPU(Dataflo
    的頭像 發表于 01-09 09:19 ?1883次閱讀
    國芯科技DPNPU新<b class='flag-5'>IP</b>產品最新進展,單核支持0.5~4.8<b class='flag-5'>TOPS</b>靈活<b class='flag-5'>算</b><b class='flag-5'>力</b>配置

    高達 1570 TOPS!支持多硬盤的高服務器 CSB2-N10

    口和1個千兆管理口,可擴展6個SATA3.0硬盤。配套智能管理系統,標準的2U機架服務器機箱設計。高達1570TOPS服務器內置10個分布式計算
    的頭像 發表于 01-06 16:33 ?488次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>高達</b> 1570 <b class='flag-5'>TOPS</b>!支持多硬盤的高<b class='flag-5'>算</b><b class='flag-5'>力</b>服務器 CSB2-N10

    高達 1100 TOPS!內置 Jetson AGX Orin 模組的高服務器

    CSB1-N4AGXOrin最高可配置4個NVIDIAJetsonAGXOrin(64GB)計算節點,最高1100TOPS(INT8)。支持主流AI大模型的私有化部署、多種深度學習
    的頭像 發表于 12-17 16:31 ?584次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>高達</b> 1100 <b class='flag-5'>TOPS</b>!內置 Jetson AGX Orin 模組的高<b class='flag-5'>算</b><b class='flag-5'>力</b>服務器

    解鎖邊緣智能新境界,天數智AI邊緣模組賦能端側AI應用新篇章?

    在數字化與智能化飛速發展的時代,邊緣計算正逐漸成為推動行業變革的關鍵力量。天數智緊跟技術浪潮,精心布局AI邊緣
    的頭像 發表于 12-12 09:16 ?653次閱讀
    解鎖<b class='flag-5'>邊緣</b>智能新境界,天數智<b class='flag-5'>算</b>AI<b class='flag-5'>邊緣</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組賦能端側AI應用新篇章?

    解鎖邊緣智能新境界,天數智AI邊緣模組賦能端側AI應用新篇章?

    在數字化與智能化飛速發展的時代,邊緣計算正逐漸成為推動行業變革的關鍵力量。天數智緊跟技術浪潮,精心布局AI邊緣
    的頭像 發表于 12-12 09:15 ?618次閱讀
    解鎖<b class='flag-5'>邊緣</b>智能新境界,天數智<b class='flag-5'>算</b>AI<b class='flag-5'>邊緣</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組賦能端側AI應用新篇章?

    高達 275 TOPS!EC-AGXOrin 邊緣計算主機

    采用NVIDIAJetsonAGXOrin(64GB)模組,可達275TOPS,支持多種AI大模型和深度學習框架。支持22路1080P視頻解碼。配置工業級全鋁合金外殼、兩個散熱風扇設計,7×24
    的頭像 發表于 10-21 16:33 ?1710次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>高達</b> 275 <b class='flag-5'>TOPS</b>!EC-AGXOrin <b class='flag-5'>邊緣</b><b class='flag-5'>計算</b>主機

    天波科普:超過30T的邊緣計算服務器可以做什么?

    網關的能力邊界,也涉及到高低。那么,目前邊緣計算服務器的到多少算高呢?以廣東天波AI
    的頭像 發表于 09-28 11:18 ?679次閱讀
    天波科普:<b class='flag-5'>算</b><b class='flag-5'>力</b>超過30T的<b class='flag-5'>邊緣</b><b class='flag-5'>計算</b>服務器可以做什么?

    天璣9500 性能大爆發!NPU AI或達100TOPS

    機芯片中首發落地。而幾家終端廠商今天迭代的新機也基于強做了一些AI新奇特的玩法。 ? 據稱,天璣9500搭載第九代AI處理器NPU,可提供100TOPS的AI
    的頭像 發表于 08-21 11:12 ?3963次閱讀
    天璣9500 性能大爆發!<b class='flag-5'>NPU</b> AI<b class='flag-5'>算</b><b class='flag-5'>力</b>或達100<b class='flag-5'>TOPS</b>

    之后看存,英韌科技洞庭-N3X SSD推動AI和邊緣計算存儲升級

    洞庭-N3X以前所未有的速度和效率重新定義了數據存儲,契合AI服務器和AIPC的發展需求,為移動計算、邊緣計算和實時分析領域的下一波創新浪潮提供了動力。01在人工智能(AI)高速發展的
    的頭像 發表于 08-11 10:12 ?1301次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>之后看存<b class='flag-5'>力</b>,英韌科技洞庭-N3X SSD推動AI和<b class='flag-5'>邊緣</b><b class='flag-5'>計算</b>存儲<b class='flag-5'>升級</b>

    騰視科技TS-NV-P100系列AI邊緣盒子綜合算高達157TOPS:重新定義AI邊緣,賦能千行百業智能化升級

    視科技正通過持續的技術創新,為千行百業的智能化轉型提供堅實的邊緣底座,讓AI真正成為驅動產業升級的核心動能。
    的頭像 發表于 07-02 10:24 ?1748次閱讀
    騰視科技TS-NV-P100系列AI<b class='flag-5'>邊緣</b><b class='flag-5'>算</b><b class='flag-5'>力</b>盒子綜合算<b class='flag-5'>力</b><b class='flag-5'>高達</b>157<b class='flag-5'>TOPS</b>:重新定義AI<b class='flag-5'>邊緣</b><b class='flag-5'>算</b><b class='flag-5'>力</b>,賦能千行百業智能化<b class='flag-5'>升級</b>

    騰視科技TS-NV-P100系列AI邊緣盒子綜合算高達157TOPS:重新定義AI邊緣,賦能千行百業智能化升級

    視科技正通過持續的技術創新,為千行百業的智能化轉型提供堅實的邊緣底座,讓AI真正成為驅動產業升級的核心動能。
    的頭像 發表于 07-02 10:16 ?1089次閱讀

    芯原超低能耗NPU可為移動端大語言模型推理提供超40 TOPS

    芯原股份今日宣布其超低能耗且高性能的神經網絡處理器(NPUIP現已支持在移動端進行大語言模型(LLM)推理,AI可擴展至40 TOPS
    的頭像 發表于 06-11 10:47 ?874次閱讀

    6TOPSNPU加持!RK3588如何重塑8K顯示的邊緣計算新邊界

    在萬物互聯的時代背景下,邊緣計算與8K顯示的融合需求日益迫切。傳統的云端處理模式在面對8K超高清視頻數據時,常常出現延遲高、帶寬壓力大等問題,而邊緣計算設備由于
    發表于 04-18 15:32

    迅為iTOP-RK3588S開發板/核心板瑞芯微RK3588S處理器6TOPS內置NPU

    能力6TOPSNPU,賦能各類AI場景。 強大的視頻編解碼8K編碼+8K解碼,持 8Kp60 H.264/H.265NVP9 視頻解碼,支持 8Kp30 H.264/H.265視
    發表于 04-10 11:13

    157 TOPS !AIO-OrinNX 主板助力邊緣 AI 應用

    Firefly最新推出NVIDlAJetsonOrin主板,搭載JetsonOrin系列核心模組,最高可達157TOPS,支持大模型私有化部署,為邊緣AI應用的開發與部署提供強勁的
    的頭像 發表于 04-02 16:33 ?3412次閱讀
    157 <b class='flag-5'>TOPS</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>!AIO-OrinNX 主板助力<b class='flag-5'>邊緣</b> AI 應用