国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DPU軟件棧五層模型系列(一)DPU異構(gòu)計(jì)算架構(gòu)五層開發(fā)模型

中科馭數(shù)(北京)科技有限公司 ? 2022-06-06 18:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一般說來,異構(gòu)計(jì)算的核心目的是解決特定應(yīng)用場景下算力不足的問題,并且大幅度提升整體系統(tǒng)的計(jì)算性能。在整體架構(gòu)上,它的分層邏輯從應(yīng)用場景出發(fā),通過上層的需求來定義下層的功能,而每一層是對特定功能的抽象與封裝。在定義每一層功能時(shí),要達(dá)到以下幾個(gè)目標(biāo):

各層職責(zé)單一

層間邊界清晰

層內(nèi)功能實(shí)現(xiàn)獨(dú)立

靈活易擴(kuò)展

基于上述目標(biāo),將一個(gè)異構(gòu)計(jì)算的系統(tǒng)抽象為五層(如下圖所示),自下而上分別是:1)DSA設(shè)備層(DSA Device Layer),2)DSA操作層 (DSA Operating Layer),3)計(jì)算引擎層(Scheduling Operating Layer),4)應(yīng)用服務(wù)層(Application Service Layer)和5)業(yè)務(wù)開發(fā)層 (Business Development Layer),詳述如下。

pYYBAGKdni-AKbWXABHPTwvC8VU475.png圖異構(gòu)計(jì)算系統(tǒng)抽象模型

一、DSA設(shè)備層

DSA設(shè)備層代表的是執(zhí)行異構(gòu)計(jì)算的DSA處理器以及集成了該處理器的硬件設(shè)備,例如,以DPU或GPU為處理器的異構(gòu)計(jì)算設(shè)備。異構(gòu)計(jì)算設(shè)備需要具備以下兩個(gè)核心能力:1)提供支持專用計(jì)算操作的指令集(Instruction Set),2)CPU或其他DSA設(shè)備的標(biāo)準(zhǔn)通信接口,如PCIe數(shù)據(jù)傳輸標(biāo)準(zhǔn)。

二、DSA操作層

DSA操作層是對DSA處理器的指令集的管理以及基礎(chǔ)開發(fā)平臺的整合,該層完成了對硬件資源的抽象,從而使上層軟件對底層設(shè)備透明;DSA操作層是對DSA設(shè)備層計(jì)算設(shè)備的抽象和計(jì)算資源的封裝,是軟件與硬件、邏輯與物理的邊界。它基于如DPU芯片等DSA處理器提供的指令集,以更加抽象和編程友好的方式對上層提供了異構(gòu)計(jì)算開發(fā)和訪問的軟件接口、以及設(shè)備監(jiān)控管理的接口。該層內(nèi)部有四個(gè)必要的模塊,分別是設(shè)備驅(qū)動(dòng)器,指令集管理器,資源訪問接口,開發(fā)和管理平臺。

  • 設(shè)備驅(qū)動(dòng)器:設(shè)備驅(qū)動(dòng)器是硬件設(shè)備的軟件抽象,它基于操作系統(tǒng)標(biāo)準(zhǔn)的驅(qū)動(dòng)框架及PCIe協(xié)議,實(shí)現(xiàn)了對計(jì)算設(shè)備的物理訪問,主要包括設(shè)備處理器的指令執(zhí)行和設(shè)備存儲的讀寫。
  • 指令集管理器:指令管理器的作用是對計(jì)算設(shè)備所提供的指令集進(jìn)行統(tǒng)一管理,通過對指令集的封裝及組合,提供更加友好的編程接口。
  • 資源訪問接口:基于設(shè)備驅(qū)動(dòng)器和指令集管理器的功能,該模塊完成對整個(gè)計(jì)算資源訪問的抽象和封裝,它以編程接口的方式對上層提供資源訪問入口,服務(wù)于上層計(jì)算邏輯和控制邏輯的執(zhí)行。
  • 開發(fā)和管理平臺:除了上述運(yùn)行時(shí)所需的能力外,還需要針對開發(fā)人員提供友好的編程工具,如指令集編譯工具、監(jiān)控管理工具、日志工具、異構(gòu)計(jì)算卡模擬器等。

三、計(jì)算引擎層

計(jì)算引擎層是對計(jì)算邏輯的封裝,為上層提供通用的計(jì)算能力。與DSA操作層的對計(jì)算資源封裝不同,計(jì)算引擎層是對計(jì)算邏輯的封裝,它基于DSA操作層提供的資源訪問接口,根據(jù)上層應(yīng)用層軟件對算力的需求,提供了可復(fù)用的算子集合及執(zhí)行接口。

算子抽象

算子定義為實(shí)現(xiàn)某一特定功能或算法的函數(shù)或獨(dú)立的服務(wù),它是對計(jì)算邏輯的抽象。例如,根據(jù)指定條件對數(shù)據(jù)進(jìn)行過濾的函數(shù)可以是一個(gè)算子,稱它為“過濾算子”。在標(biāo)準(zhǔn)的數(shù)據(jù)庫軟件中,它的算子有Scan, Join, GroupBy等,而在網(wǎng)絡(luò)處理軟件中,特有的算子會是以BSD Socket,NVMe等標(biāo)準(zhǔn)服務(wù)的形式呈現(xiàn)。由于異構(gòu)計(jì)算的“異構(gòu)”特性,每個(gè)算子在不同設(shè)備上的具體實(shí)現(xiàn)有所不同,所以針對每一個(gè)支持的算子,都要有多種不同設(shè)備平臺上的實(shí)現(xiàn),如ScanOnDPU、ScanOnGPU。

計(jì)算優(yōu)化器

異構(gòu)計(jì)算追求的是計(jì)算性能的提升,相應(yīng)的需要一個(gè)計(jì)算優(yōu)化器來對上層的計(jì)算請求做優(yōu)化。它的基本策略是根據(jù)應(yīng)用場景、上下文、數(shù)據(jù)規(guī)模等因素來動(dòng)態(tài)的選擇最優(yōu)的算子實(shí)現(xiàn)進(jìn)行計(jì)算。

四、應(yīng)用服務(wù)層

應(yīng)用服務(wù)層是數(shù)據(jù)處理的應(yīng)用服務(wù)軟件,也是算力的需求側(cè)。應(yīng)用服務(wù)層代表具有通用功能的軟件系統(tǒng),這些軟件系統(tǒng)可以利用計(jì)算引擎提供的算子進(jìn)行異構(gòu)計(jì)算,從而達(dá)到計(jì)算性能提升的目的。常見的應(yīng)用層軟件系統(tǒng)有分布式計(jì)算領(lǐng)域的Spark, Flink, Hadoop;數(shù)據(jù)庫領(lǐng)域的PostgreSQL, MySQL;分布式網(wǎng)絡(luò)中的gPRC,Network Gateway,Nginx;以及存儲服務(wù)中的Ceph等等,基本上通用服務(wù)型的系統(tǒng)都屬于該層的范疇。

在實(shí)際開發(fā)中,針對應(yīng)用服務(wù)層中的軟件,需要解決以下幾個(gè)關(guān)鍵問題:

  • 性能瓶頸的識別:通常應(yīng)用軟件的性能瓶頸會在高并發(fā)、大吞吐的情況下出現(xiàn),這些瓶頸一般源于CPU計(jì)算資源的競爭、CPU計(jì)算性能的不足、網(wǎng)絡(luò)傳輸?shù)难舆t以及磁盤I/O的延遲等。識別出應(yīng)用軟件的性能瓶頸是算力卸載的第一步。
  • 異構(gòu)計(jì)算的有效性邊界:在定位到軟件的性能瓶頸后,需要從中識別出哪些是可以通過異構(gòu)計(jì)算來解決的。通常,CPU成為瓶頸的原因會有兩類,一類是算力的問題,另一類是算法的問題。針對算力的問題,可以通過異構(gòu)計(jì)算來解決,而算法的問題則不然。
  • 算子的高效調(diào)用:算子是異構(gòu)計(jì)算的執(zhí)行單元,只有把算子集成到應(yīng)用軟件的執(zhí)行路徑中,算力卸載才算完成。考慮到性能的優(yōu)化,還需要根據(jù)實(shí)際情況優(yōu)化算子的執(zhí)行策略,例如,數(shù)據(jù)在主機(jī)端與設(shè)備端內(nèi)存之間的數(shù)據(jù)拷貝策略、各算子執(zhí)行序列的編排策略等等。
  • 應(yīng)用軟件的向前兼容性:在整合應(yīng)用軟件與異構(gòu)計(jì)算的算子時(shí),要確保應(yīng)用軟件的向前兼容性,以保證應(yīng)用服務(wù)層的軟件迭代對正在運(yùn)行的上層業(yè)務(wù)系統(tǒng)是透明的,從而提高整個(gè)架構(gòu)的穩(wěn)定性與可維護(hù)性。

五、業(yè)務(wù)開發(fā)層

業(yè)務(wù)開發(fā)層是在某特定領(lǐng)域的業(yè)務(wù)系統(tǒng)。業(yè)務(wù)開發(fā)層是最貼近實(shí)際業(yè)務(wù)場景的軟件系統(tǒng),通常它是針對某個(gè)特定行業(yè)的具體業(yè)務(wù)需求定制的軟件系統(tǒng),如金融行業(yè)的交易系統(tǒng),互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)分析系統(tǒng)等等。整個(gè)異構(gòu)計(jì)算架構(gòu)本質(zhì)上就是解決業(yè)務(wù)層的性能瓶頸問題,所以在實(shí)際開發(fā)過程中,應(yīng)該從業(yè)務(wù)端出發(fā),尋找要解決的根本問題,然后驅(qū)動(dòng)整個(gè)異構(gòu)系統(tǒng)的構(gòu)建。同時(shí),整體架構(gòu)也要保證底層構(gòu)建對具體的業(yè)務(wù)系統(tǒng)完全透明,達(dá)到對各行業(yè)業(yè)務(wù)軟件系統(tǒng)的無縫支撐和業(yè)務(wù)邏輯開發(fā)的隔離。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    414

    瀏覽量

    26967
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    到三:NanoPaint無隔離層壓阻油墨,簡化制造,重塑柔性傳感設(shè)計(jì)

    大連義邦NanoPaint推出的YT0901-Y-YZ03無隔離層壓阻油墨。它將傳統(tǒng)的功能結(jié)構(gòu)精簡至三,不僅徹底省去了絕緣和高精度對準(zhǔn)步驟,更在成本、良率、性能與設(shè)計(jì)自由度上帶
    的頭像 發(fā)表于 12-24 13:34 ?481次閱讀
    從<b class='flag-5'>五</b><b class='flag-5'>層</b>到三<b class='flag-5'>層</b>:NanoPaint無隔離層壓阻油墨,簡化制造,重塑柔性傳感設(shè)計(jì)

    大衛(wèi)星運(yùn)管中心大模型智能決策分系統(tǒng)軟件的應(yīng)用與未來發(fā)展

    衛(wèi)星運(yùn)管中心大模型智能決策分系統(tǒng)、北京木恒潤衛(wèi)星運(yùn)管中心大模型智能決策分系統(tǒng)、洛克希德·馬丁、諾斯羅普·格魯曼及SpaceX等機(jī)構(gòu)在該領(lǐng)域展現(xiàn)出顯著技術(shù)積累與工程實(shí)踐能力。以下為各主體相關(guān)系統(tǒng)的精要介紹: ? ?
    的頭像 發(fā)表于 12-18 14:58 ?345次閱讀

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    PCIe協(xié)議分析儀能測試多種依賴PCIe總線進(jìn)行高速數(shù)據(jù)傳輸?shù)脑O(shè)備,其測試范圍覆蓋計(jì)算、存儲、網(wǎng)絡(luò)及異構(gòu)計(jì)算等多個(gè)領(lǐng)域,具體設(shè)備類型及測試場景如下:、核心計(jì)算設(shè)備 GPU(圖形處理器
    發(fā)表于 07-25 14:09

    模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過程對顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來了挑戰(zhàn)。為了解決這問題,本文將探討大
    發(fā)表于 07-03 19:43

    異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu)

    異構(gòu)計(jì)算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實(shí)現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計(jì)算需求。其核心技術(shù)與實(shí)踐方案如下: 、硬件架構(gòu)設(shè)計(jì)
    的頭像 發(fā)表于 06-23 07:40 ?850次閱讀

    如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

    報(bào)告作者:PallaviSharma,Imaginaiton產(chǎn)品管理總監(jiān)Dr.EricNorige,BayaSystems首席軟件架構(gòu)師關(guān)注Imagination公眾號,消息框發(fā)送【異構(gòu)計(jì)算】,即可
    的頭像 發(fā)表于 06-13 08:33 ?1138次閱讀
    如何釋放<b class='flag-5'>異構(gòu)計(jì)算</b>的潛能?Imagination與Baya Systems的系統(tǒng)<b class='flag-5'>架構(gòu)</b>實(shí)踐啟示

    DPU核心技術(shù)論文再次登陸體系結(jié)構(gòu)領(lǐng)域旗艦期刊《IEEE Transactions on Computers》

    能力,在降低了規(guī)模限制的硬件成本和設(shè)計(jì)周期的同時(shí),又可通過軟件編程實(shí)現(xiàn)不同功能的計(jì)算,具有較高的可擴(kuò)展性和靈活性。中科馭數(shù)DPU芯片基于自研KPU架構(gòu)設(shè)計(jì)。
    的頭像 發(fā)表于 06-11 18:11 ?653次閱讀
    <b class='flag-5'>DPU</b>核心技術(shù)論文再次登陸體系結(jié)構(gòu)領(lǐng)域旗艦期刊《IEEE Transactions on Computers》

    知識分享 | 評估模型架構(gòu)——如何實(shí)現(xiàn)?

    確保良好的模型架構(gòu)對于開發(fā)安全和可靠的軟件非常重要。本文為您介紹MES Model Examiner? (MXAM)如何優(yōu)化模型
    的頭像 發(fā)表于 06-05 11:46 ?652次閱讀
    知識分享 | 評估<b class='flag-5'>模型</b><b class='flag-5'>架構(gòu)</b>——如何實(shí)現(xiàn)?

    第三屆NVIDIA DPU黑客松開啟報(bào)名

    碰撞的絕佳機(jī)會。本次競賽采用開放式主題,參與者將通過 NVIDIA DOCA 軟件架構(gòu)建創(chuàng)新的加速應(yīng)用程序,充分挖掘 NVIDIA BlueField DPU 在 AI、網(wǎng)絡(luò)、存儲和安全等領(lǐng)域的強(qiáng)大潛能。
    的頭像 發(fā)表于 05-27 10:16 ?900次閱讀

    能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電

    。它是應(yīng)對復(fù)雜計(jì)算需求的關(guān)鍵技術(shù)之。 ? 異構(gòu)計(jì)算架構(gòu)的核心優(yōu)勢 ? 異構(gòu)計(jì)算架構(gòu)的核心要素主
    的頭像 發(fā)表于 05-25 01:55 ?3994次閱讀

    中科馭數(shù)攜DPU產(chǎn)品亮相福州數(shù)博會,賦能智算時(shí)代算力基建

    4月29日-5月2日,由國家發(fā)展改革委、國家數(shù)據(jù)局、國家網(wǎng)信辦、工業(yè)和信息化部、福建省人民政府共同主辦的第八屆數(shù)字中國建設(shè)峰會在福州海峽國際會展中心舉辦,同期第屆福州國際數(shù)字產(chǎn)品博覽會(簡稱“數(shù)博
    的頭像 發(fā)表于 05-23 11:01 ?643次閱讀
    中科馭數(shù)攜<b class='flag-5'>DPU</b>全<b class='flag-5'>棧</b>產(chǎn)品亮相福州數(shù)博會,賦能智算時(shí)代算力基建

    【米爾MYC-YM90X安路飛龍DR1開發(fā)板】安路科技 SALDRAGON開發(fā)板介紹

    的領(lǐng)域。以下從產(chǎn)品特點(diǎn)、技術(shù)優(yōu)勢、應(yīng)用場景和行業(yè)價(jià)值等維度進(jìn)行分析:、核心產(chǎn)品特點(diǎn) 異構(gòu)計(jì)算架構(gòu) SALDRAGON系列通常集成ARM Cortex-A
    發(fā)表于 04-28 17:57

    Nordic新代旗艦芯片nRF54H20深度解析

    顯著提升) 異構(gòu)計(jì)算架構(gòu)創(chuàng)新 graph LR A[主應(yīng)用處理器] -->|320MHz M33| B(傳感器融合) C[實(shí)時(shí)協(xié)處理器] -->|RISC-V| D(低延遲
    發(fā)表于 04-26 23:25

    RAKsmart智能算力架構(gòu)異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級

    在AI大模型參數(shù)量突破萬億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計(jì)算資源池化與超低時(shí)延網(wǎng)絡(luò)為核心,重構(gòu)AI訓(xùn)練基礎(chǔ)設(shè)施,助力企業(yè)實(shí)現(xiàn)訓(xùn)練速度提升、硬件成本下
    的頭像 發(fā)表于 04-17 09:29 ?762次閱讀

    請問使用2022.2時(shí)是否可以讀取模型OpenVINO??

    使用 2020.3 時(shí),使用 net.layers 和 layers.blob 讀取模型OpenVINO?。 OpenVINO?自 2021.2 OpenVINO?起,使用 2022.2 作為 net.layers 和 layers.blob 時(shí)無法讀取
    發(fā)表于 03-06 06:37