国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文詳談AI邊緣推理與數據中心的差異和應用

如意 ? 來源:OFweek電子工程網 ? 作者:電子工程世界 ? 2020-09-19 11:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

雖然推理加速器最初用于數據中心,但它們已經迅速發展到應用程序的邊緣推理,如自動駕駛醫學成像。通過這種轉變,客戶發現,同樣的加速器,在數據中心處理圖像很順利,但移到邊緣推斷方面卻顯得糟糕。其實原因很簡單:一個處理數據池,而另一個處理的是數據流。

當你在batch = 1時進行批處理時,池子里待處理的batch就會很多。在數據中心,客戶通常是數據的處理池,比如被標記的照片。其目標是用最少的資源和功耗以及最佳的延遲來處理盡可能多的照片。

另一方面,邊緣推斷應用程序需要處理數據流。我們通常的相機每秒拍攝30幀,每幀通常是200萬像素。通常情況下,每幅圖像需要33毫秒,每秒大約30幀。當你有一個圖像從一個流進來,它如何被處理取決于它需要做什么。

例如,使用推理進行零售分析的商店可能會計算給定時間排隊的人數。在這個例子中,他們真的不需要幾個小時甚至幾天的結果。然而,如果你駕駛一輛使用自動駕駛功能的汽車,你只有毫秒來處理圖像,否則你可能會撞到人。雖然在這兩個例子中,相機每3毫秒生成1幀圖像,但使用的推理加速器非常不同。

讓我們看看數據流發生了什么。

首先,您需要清理圖像以去除諸如光線條紋之類的東西,然后應用推理。當推理完成后,您需要采取一個行動,根據你正在處理的活動,所有這些都需要在特定的時間內發生。如果你不需要幾個小時的結果,你可以對圖像進行批處理。在這種情況下,延遲就無關緊要了。重要的是用最少的成本和能量處理最多的圖像。

最常犯的一個錯誤就是在選擇邊緣推斷解決方案時沒有考慮延遲和流媒體吞吐量。比方說,你有一臺每秒能處理30幀的推理加速器,另一臺每秒能處理15幀。

大多數人自然而然地認為每秒30幀的解決方案更好——其實你錯了。

每秒30幀的加速器可能會獲得比較可觀的吞吐量,原因是它有三個引擎,每個引擎都有不同的延遲。最典型的是英偉達Xavier推理加速器。Xavier的深度學習引擎處理圖像大約需要300毫秒,GPU大約需要90毫秒。如果客戶有兩個深度學習引擎+GPU都在運行,他們可能會在數據池中獲得顯著的吞吐量。

但是,如果它需要從數據流一次處理一個圖像,它就不能有效地使用深度學習引擎,吞吐量會顯著下降。在這種情況下,你需要觀察哪個執行單元的延遲最短,即GPU的延遲為90毫秒。分割成1000毫秒就是每秒的幀數,這意味著這個吞吐量實際上只有每秒10幀(而不是宣傳的每秒30幀)。

x Logix購買了一臺Xavier AGX,并將其配置為NX模式(該軟件測量芯片的功率,當功率超過15W時,會調低芯片的時鐘,以防止芯片過熱)。

然后,我們通過Nvidia Xavier NX軟件流運行三個模型(YOLOv3加上我們客戶的兩個模型),并在芯片上運行,測量每張圖像的延遲。我們還通過自己的InferX X1性能評估器運行了相同的模型。

顯然,Nvidia不能為我們自己客戶的機型發布基準測試,但YOLOv3的數據是在Xavier AGX上發布的,而不是在NX上發布的——而且他們發布的數據是使用GPU和兩個DL加速器的綜合吞吐量。對于Batch= 1,GPU有可接受的延遲。

不同的領域對應不同的處理器

關注自動駕駛和航空航天等應用程序的客戶要處理數據流,所以可能只關心流吞吐量。即使它們是空閑的,它們也不能利用運行較慢的執行單元,因為它們需要在下一個圖像可用之前處理第一個圖像。在這些應用程序中,要跟上圖像流是至關重要的,因為如果不這樣做,就需要存儲越來越多的數據。如果應用程序是自動駕駛,這將延長延遲時間,并可能導致嚴重后果。

總之,如果你正在研究推理加速器,請明白它們是為什么而優化的。

今年推出的大多數推斷加速器都是為ResNet-50進行優化設計的,本人認為是一個糟糕基準測試,因為它使用了小圖像,比如224×224。

對于像自動駕駛這樣的應用程序,一般是需要處理200萬像素的1440×1440級別的圖像。對于這些應用程序,YOLOv3是一個更好的基準測試。

我們也開始看到與ResNet-50和YOLOv3有著截然不同的新模型。在生物醫學工程或醫學成像等市場,他們處理不同類型的傳感器,而非行人目標的檢測和識別,他們以一種非常不同的方式使用神經網絡。在YOLOv3上運行良好的加速器可能在這些模型上運行得更好。

簡單介紹一下YOLOv3,它是YOLO (You Only Look Once)系列目標檢測算法中的第三版,相比之前的算法,尤其是針對小目標,精度有顯著提升。下面我們就來看看在算法中究竟有哪些提升。

YOLOv3算法

首先如上圖所示,在訓練過程中對于每幅輸入圖像,YOLOv3會預測三個不同大小的3D tensor,對應著三個不同的scale。設計這三個scale的目的就是為了能夠檢測出不同大小的物體。在這里我們以13x13的tensor為例做一個簡單講解。對于這個scale,原始輸入圖像會被分成分割成13x13的grid cell,每個grid cell對應著3D tensor中的1x1x255這樣一個長條形voxel。255這個數字來源于(3x(4+1+80)),其中的數字代表bounding box的坐標,物體識別度(objectness score),以及相對應的每個class的confidence,具體釋義見上圖。

其次,如果訓練集中某一個ground truth對應的bounding box中心恰好落在了輸入圖像的某一個grid cell中(如圖中的紅色grid cell),那么這個grid cell就負責預測此物體的bounding box,于是這個grid cell所對應的objectness score就被賦予1,其余的grid cell則為0。此外,每個grid cell還被賦予3個不同大小的prior box。在學習過程中,這個grid cell會逐漸學會如何選擇哪個大小的prior box,以及對這個prior box進行微調(即offset/coordinate)。但是grid cell是如何知道該選取哪個prior box呢?在這里作者定義了一個規則,即只選取與ground truth bounding box的IOU重合度最高的哪個prior box。

上面說了有三個預設的不同大小的prior box,但是這三個大小是怎么計算得來的呢?作者首先在訓練前,提前將COCO數據集中的所有bbox使用K-means clustering分成9個類別,每3個類別對應一個scale,這樣總共3個scale。這種關于box大小的先驗信息極大地幫助網絡準確的預測每個Box的offset/coordinate,因為從直觀上,大小合適的box將會使網絡更快速精準地學習。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據中心
    +關注

    關注

    18

    文章

    5651

    瀏覽量

    75017
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301389
  • 應用程序
    +關注

    關注

    38

    文章

    3344

    瀏覽量

    60254
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    數據中心缺電,英偉達又有新動作!

    電子發燒友網報道(/李彎彎)近日,英偉達宣布將舉辦場私人峰會,邀請聚焦數據中心電力問題的初創公司參會,共同應對可能阻礙人工智能發展的電力難題。當下,大模型訓練與推理對算力的需求呈指
    的頭像 發表于 12-14 00:06 ?1.3w次閱讀
    <b class='flag-5'>數據中心</b>缺電,英偉達又有新動作!

    高通挑戰英偉達,發布768GB內存AI推理芯片,“出征”AI數據中心

    電子發燒友網報道(/莫婷婷)隨著生成式AI應用的爆發式增長,數據中心對高效、低成本、低功耗AI推理能力的需求急劇上升。高通憑借其在移動計算
    的頭像 發表于 10-29 10:36 ?3639次閱讀
    高通挑戰英偉達,發布768GB內存<b class='flag-5'>AI</b><b class='flag-5'>推理</b>芯片,“出征”<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>

    高通挑戰英偉達!發布768GB內存AI推理芯片,“出征”AI數據中心

    電子發燒友網報道(/莫婷婷)隨著生成式AI應用的爆發式增長,數據中心對高效、低成本、低功耗AI推理能力的需求急劇上升。高通憑借其在移動計算
    的頭像 發表于 10-29 09:14 ?6452次閱讀
    高通挑戰英偉達!發布768GB內存<b class='flag-5'>AI</b><b class='flag-5'>推理</b>芯片,“出征”<b class='flag-5'>AI</b><b class='flag-5'>數據中心</b>

    國產數據中心AI芯片企業

    電子發燒友網報道(/李彎彎)在全球科技競爭日益激烈的背景下,數據中心AI芯片已成為各國科技企業爭奪的戰略高地。隨著嚴格的芯片出口管制政策實施,國產數據中心
    的頭像 發表于 02-09 09:07 ?5059次閱讀

    1分鐘帶你了解數據中心供電架構 #電子元器件 #數據中心 #供電架構

    數據中心
    沛城芯動力
    發布于 :2026年02月03日 15:39:04

    128周才能交貨!AI狂潮下,全球數據中心排隊等變壓器?

    電子發燒友網報道(/莫婷婷)AI加速落地,算力需求呈指數級增長。以大模型訓練、推理服務為代表的AI應用,推動全球數據中心規模持續擴張。據I
    的頭像 發表于 01-30 09:06 ?2478次閱讀

    工業視覺網關:RK3576賦能多路檢測與邊緣AI

    ~150ms6TOPS NPU 邊緣AI推理易對接 MES / 追溯系統 、產線痛點:從“人看”到“機判”的轉變· 多工位/多角度同步:單機位覆蓋不足,典型項目需 8~12 路并發,
    發表于 10-16 17:56

    睿海光電以高效交付與廣泛兼容助力AI數據中心800G光模塊升級

    合作案例,成為AI數據中心升級的關鍵推動者。 、技術實力:AI光模塊的研發與量產先鋒 睿海光電作為全球AI光模塊的領先品牌,專注于為
    發表于 08-13 19:01

    PCIe協議分析儀在數據中心中有何作用?

    數據中心的整體可靠性。以下是其核心作用及具體應用場景的詳細分析:、性能優化:突破帶寬瓶頸,提升計算效率 鏈路帶寬利用率分析 場景:在AI訓練集群中,GPU通過PCIe與CPU交換數據
    發表于 07-29 15:02

    中型數據中心應用平臺與差分晶體振蕩器參數對照中型數據中心應用平臺與差分晶體振蕩器參數對照

    中型數據中心對高頻、低抖動、寬溫與多電壓晶振的需求日益提升,FCO系列差分晶體振蕩器憑借豐富封裝、輸出邏輯選擇與優異相位抖動性能,為網絡、存儲、服務器與邊緣系統提供穩定的時鐘解決方案。FCO-2L 到 FCO-7L 系列,已成為新一代
    發表于 07-10 14:11

    中型數據中心中的差分晶體振蕩器應用與匹配方案

    核心網絡、存儲、通信與計算節點。 通過精準選型與合理布線,這些高性能差分晶體振蕩器可有效提升數據中心設備間的時鐘致性與傳輸效率,是構建穩定、可靠、高吞吐量數據中心的關鍵器件。
    發表于 07-01 16:33

    華為AI WAN在智算邊緣推理網絡中的關鍵優勢

    此前, 2025年3月24日至27日,MPLS&SRv6 AI Net World Congress 2025在法國巴黎會議中心舉辦。華為數據通信IP標準化高級代表李呈發表了題為“AI
    的頭像 發表于 04-09 09:53 ?1134次閱讀

    適用于數據中心AI時代的800G網絡

    ,成為新AI數據中心的核心驅動力。 AI時代的兩大數據中心AI工廠與
    發表于 03-25 17:35

    華為全新升級星河AI數據中心網絡

    在華為中國合作伙伴大會2025期間,以 “星河AI數據中心網絡,賦AI時代新動能”為主題的數據中心網絡分論壇圓滿落幕。本次論壇匯聚了來自全國的300多位客戶和伙伴,共同探討
    的頭像 發表于 03-24 14:46 ?1091次閱讀

    Cadence顛覆AI數據中心設計

    日前舉辦的英偉達 GTC 2025 開發者大會匯聚了眾多行業精英,共同探討人工智能的未來。而人工智能正在重塑全球數據中心的格局。據預測,未來將有 1 萬億美元用于 AI 驅動的數據中心升級。然而
    的頭像 發表于 03-21 15:43 ?1157次閱讀