国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google又放大招,高效實時實現視頻目標檢測

ml8z_IV_Technol ? 來源:YXQ ? 2019-04-08 15:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖像目標檢測是圖像處理領域的基礎。自從2012年CNN的崛起,深度學習在Detection的持續發力,為這個領域帶來了變革式的發展:一個是基于RPN的two-stage,RCNN/Fast RCNN/Faster RCNN、RetinaNet、Mask RCNN等,致力于檢測精度的提高。一類是基于SSD和YOLOv1/v2/3的one-stage,致力于提高檢測速度。

視頻目標檢測要解決的問題是對于視頻中每一幀目標的正確識別和定位。相對于圖像目標檢測,視頻是高度冗余的,包含了大量時間局部性(temporal locality,即在不同的時間是相似的)和空間局部性(spatial locality,即在不同場景中看起來是相似的),既Temporal Context(時間上下文)的信息。充分利用好時序上下文關系,可以解決視頻中連續幀之間的大量冗余的情況,提高檢測速度;還可以提高檢測質量,解決視頻相對于圖像存在的運動模糊、視頻失焦、部分遮擋以及形變等問題。

視頻目標檢測和視頻跟蹤不同。兩個領域解決相同點在于都需要對每幀圖像中的目標精準定位,不同點在于視頻目標檢測不考慮目標的識別問題,而跟蹤需要對初始幀的目標精確定位和識別。

圖1 高德地圖車載AR導航可識別前方車輛并提醒

視頻目標檢測應用廣泛,如自動駕駛,無人值守監控,安防等領域。如圖1所示,高德地圖車載AR導航利用視頻目標檢測,能夠對過往車輛、行人、車道線、紅綠燈位置以及顏色、限速牌等周邊環境,進行智能的圖像識別,從而為駕駛員提供跟車距離預警、壓線預警、紅綠燈監測與提醒、前車啟動提醒、提前變道提醒等一系列駕駛安全輔助。

視頻目標檢測算法一般包括單幀目標檢測、多幀圖像處理、光流算法、自適應關鍵幀選擇。Google提出基于Slownetwork 和Fast network分別提取不同特征,基于ConvLSTM特征融合后生成檢測框,實現實時性的state-of-art。

論文地址:https://arxiv.org/abs/1903.10172

1 Motivation

物體在快速運動時,當人眼所看到的影像消失后,人眼仍能繼續保留其影像,約0.1-0.4秒左右的圖像,這種現象被稱為視覺暫留現象。人類在觀看視頻時,利用視覺暫留機制和記憶能力,可以快速處理視頻流。借助于存儲功能,CNN同樣可以實現減少視頻目標檢測的計算量。

視頻幀具有較高的時序冗余。如圖2所示,模型[1]提出使用兩個特征提取子網絡:Slow network 和Fast network。Slow network負責提取視頻幀的精確特征,速度較慢,Fast network負責快速提取視頻幀的特征提取,準確率較差,兩者交替處理視頻幀圖像。Fast network和Slow network特征經過ConvLSTM層融合并保存特征。檢測器在當前幀特征和上下文特征融合基礎上生成檢測框。論文提取基于強化學習策略的特征提取調度機制和需要保存特征的更新機制。

論文提出的算法模型在Pixel 3達到72.3 FPS,在VID 2015數據集state-of-art性能。

論文創新點:

1、提出基于存儲引導的交替模型框架,使用兩個特征提取網絡分別提取不同幀特征,減少計算冗余。

2、提出基于Q-learning學習自適應交替策略,取得速度和準確率的平衡。

3、在手機設備實現迄今為止已知視頻目標檢測的最高速度。

圖2 存儲引導的交錯模型

2網絡架構

2.1交錯模型

圖3交錯模型

如圖3所示論文提出的交錯模型(τ = 2),Slow network(Large featureextractor)和Fastnetwork(Small feature extractor)均由MobileNetV2構成(兩個模型的depth multiplier不同,前者為1.4,后者為0.35),anchors比率限制為{1.0,0.5,2.0}。

2.2存儲模型

LSTM可以高效處理時序信息,但是卷積運算量較大,并且需要處理所有視頻幀特征。論文提出改進的ConvLSTM模型加速視頻幀序列的特征處理。

ConvLSTM是一種將CNN與LSTM在模型底層結合,專門為時空序列設計的深度學習模塊。ConvLSTM核心本質還是和LSTM一樣,將上一層的輸出作下一層的輸入。不同的地方在于加上卷積操作之后,為不僅能夠得到時序關系,還能夠像卷積層一樣提取特征,提取空間特征。這樣就能夠得到時空特征。并且將狀態與狀態之間的切換也換成了卷積計算。

圖4 存儲模型LSTM單元

如所示,論文的ConvLSTM有一下改進:

1、增加Bottleneck Gate和output跳躍連接。

2、LSTM單元分組卷積。特征圖HxWxN分為G組,每個LSTM僅處理HxWxN/G的特征,加速ConvLSTM計算。論文中G = 4。

3、LSTM有一固有弱點,sigmoid激活輸入和忘記門很少完全飽和,導致緩慢的狀態衰減,長期依賴逐漸喪失,更新中無法保留完整的前期狀態。導致Fast network運行中,Slownetwork特征緩慢消失。論文使用簡單的跳躍連接,既第一個Fast network輸出特征重復使用。

2.3推斷優化

論文提出基于異步模式和量化模型,提高系統的計算效率。

1、異步模式。交錯模型的短板來自于Slow network。論文采用Fastnetwork提取每幀圖像特征,τ = 2幀采用Slow network計算特征和更新存儲特征。Slownetwork和Fast network異步進行,提高計算效率。

2、在有限資源的硬件設備上布置性能良好的網絡,就需要對網絡模型進行壓縮和加速,其中量化模型是一種高效手段。基于[2]算法,論文的ConvLSTM單元在數學運算(addition,multiplication, sigmoid and ReLU6)后插入量化計算,確保拼接操作的輸入范圍相同,消除重新縮放的需求。

3 實驗

模型在Imagenet DET 和COCO訓練,在Imagenet VID 2015測試結果如圖5所示。

從測試結果看,系統只有Slow network模塊時準確率最高, 只有Fast network模塊時準確率最低,但是速度沒有交錯模型快,比較詫異。另外基于強化學習的adaptive對精度和速度幾乎沒有影響,而異步模式和模型量化提高系統的實時性。

圖5 Imagenet VID 2015測試結果

4 優缺點分析

視頻處理策略

1、基于強化學習的交錯模型調度是偽命題。論文的Slow network提取強特征,Fastnetwork提取弱特征,交錯模型的τ越大,模型性能越差。理論上τ=2時模型的準確率越高。綜合考慮準確率和實時性,論文中τ=9。

2、視頻具有很強的上下文相關性。視頻理解領域的目標檢測、分割、識別,跟蹤,等領域,都需要提取前后幀的運動信息,而傳統采用光流方式,無法保證實時性。本文提出的分組ConvLSTM,可加速計算,量化模型保持準確率,具有借鑒意義。

以上僅為個人閱讀論文后的理解、總結和思考。觀點難免偏差,望讀者以懷疑批判態度閱讀,歡迎交流指正。

參考文獻

[1] MasonLiu, Menglong Zhu, Marie White, Yinxiao Li, Dmitry Kalenichenko.Looking Fastand Slow: Memory-Guided Mobile Video Object Detection.arXivpreprint arXiv:1903.10172,2019.

[2] B.Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard,H. Adam, and D.Kalenichenko. Quantization and training of neural networks for efficientinteger-arithmetic-only inference. In CVPR, 2018.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1807

    瀏覽量

    60535
  • 目標檢測
    +關注

    關注

    0

    文章

    233

    瀏覽量

    16496

原文標題:Google又發大招:高效實時實現視頻目標檢測

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    YOLO5目標檢測方案-基于米爾RK3576開發板

    實時性:完成從攝像頭采集→NPU推理→屏幕顯示的完整流程,耗時不超過攝像頭一幀的時間。 輸入/輸出:盡可能提高攝像頭采集幀率,并在顯示端支持更高的輸出分辨率。 功能:實現YOLO5s目標檢測
    發表于 01-22 19:21

    基于iTOP-3568核心板的YOLO目標檢測全棧解決方案

    在智能制造、智慧安防、智能交通等領域,實時、精準的目標檢測技術正成為行業智能化轉型的核心需求。然而,傳統方案面臨云端延遲高、網絡依賴強、成本居高不下等挑戰。現在,基于瑞芯微RK3568處理器的iTOP-3568開發板,為您帶來
    的頭像 發表于 01-21 16:44 ?1005次閱讀
    基于iTOP-3568核心板的YOLO<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>全棧解決方案

    探索HMC913LC4B:高速、高效的連續檢測對數視頻放大

    探索HMC913LC4B:高速、高效的連續檢測對數視頻放大器 在電子工程領域,對于高性能、寬頻帶的放大器需求始終居高不下。今天我們聚焦于一款備受關注的產品——HMC913LC4B,它是
    的頭像 發表于 01-15 14:00 ?351次閱讀

    探秘HMC913:0.6 - 20 GHz連續檢測對數視頻放大

    探秘HMC913:0.6 - 20 GHz連續檢測對數視頻放大器 在電子工程領域,對于高性能放大器的追求從未停止。今天,我們就來深入了解一款具有獨特性能的放大器——HMC913,它是一
    的頭像 發表于 01-15 14:00 ?231次閱讀

    低成本高效能:ADM4073電流檢測放大器的全方位解析

    低成本高效能:ADM4073電流檢測放大器的全方位解析 在電子設計領域,電流檢測是一項基礎而關鍵的任務。對于眾多小型便攜式應用來說,選擇一款合適的電流
    的頭像 發表于 01-13 16:25 ?198次閱讀

    基于FD-SST 的無人機目標跟蹤系統的設計與實現|技術集結

    應用實現功能1.本應用基于睿擎派,實現了對無人機目標實時跟蹤,并將跟蹤結果用于驅動兩軸轉臺完成自動指向。主要功能包括:使用FD-SST算法在視頻
    的頭像 發表于 12-10 19:32 ?8913次閱讀
    基于FD-SST 的無人機<b class='flag-5'>目標</b>跟蹤系統的設計與<b class='flag-5'>實現</b>|技術集結

    基于米爾MYC-LR3576開發板的實時視頻識別系統設計與實現

    實時視頻識別系統。重點解決了多路視頻流處理、NPU加速模型部署、低延遲推理等關鍵問題,在工業安防、智能零售等場景中實現精準目標
    發表于 12-01 21:23

    目標追蹤的簡易實現:模板匹配

    往往是先在一個靜態的圖象中尋找到某一片像素區域(比如從背景畫面中框選出人臉或文字),然后再對這片像素區域作分析(比如提取人臉關鍵點信息等等);而目標追蹤則是在一段視頻流中進行,它根據指定的追蹤目標
    發表于 10-28 07:21

    借助NVIDIA技術構建實時視覺檢測工作流

    構建一套可靠的視覺檢測流程來實現缺陷檢測和質量控制面臨諸多挑戰,例如針對特定領域定制通用視覺 AI 模型、在算力受限的邊緣設備上優化模型規模,以及高效
    的頭像 發表于 10-21 11:01 ?959次閱讀
    借助NVIDIA技術構建<b class='flag-5'>實時</b>視覺<b class='flag-5'>檢測</b>工作流

    【機器視覺】睿擎平臺支持NCNN AI 推理框架,輕松實現實時目標檢測( 睿擎線下 Workshop 報名已開啟)|產品動

    RT-Thread系統上深度集成NCNN推理框架,通過其輕量化架構與硬件級優化能力,結合YOLO系列算法的高效單階段檢測特性,實現了工業場景下的目標
    的頭像 發表于 08-20 17:40 ?5273次閱讀
    【機器視覺】睿擎平臺支持NCNN AI 推理框架,輕松<b class='flag-5'>實現實時</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>( 睿擎線下 Workshop 報名已開啟)|產品動

    迅為八核高算力RK3576開發板攝像頭實時推理測試?ppyoloe目標檢測

    迅為八核高算力RK3576開發板攝像頭實時推理測試 ppyoloe目標檢測
    的頭像 發表于 07-14 15:18 ?1287次閱讀
    迅為八核高算力RK3576開發板攝像頭<b class='flag-5'>實時</b>推理測試?ppyoloe<b class='flag-5'>目標</b><b class='flag-5'>檢測</b>

    【嘉楠堪智K230開發板試用體驗】01 Studio K230開發板Test2——手掌,手勢檢測,字符檢測

    架構,這是一種高效的模式識別方法,特別擅長從復雜圖像數據中提取特征和識別目標。 高能效比與低延遲: 在執行高強度計算時,KPU 能保持高能效比(低功耗)和低延遲(高速度),支持實時圖像分析。 高級視覺
    發表于 07-10 09:45

    Google Fast Pair服務簡介

    Google Fast Pair 是一項利用低功耗藍牙(Bluetooth LE)技術,實現設備間快速安全配對及提供多種服務的協議。其主要功能包括: 設備處于配對模式時,顯示半頁通知,便于用戶進行
    發表于 06-29 19:28

    基于LockAI視覺識別模塊:C++目標檢測

    的基本概念,并提供了詳細的API文檔說明,幫助開發者理解和實現目標檢測與可視化功能。通過上述流程,可以構建高效實時目標
    發表于 06-06 14:43

    明遠智睿SSD2351開發板:視頻監控領域的卓越之選

    開發板的四核1.4GHz處理器在視頻監控數據處理方面表現優異。視頻監控系統會產生大量的視頻數據,需要進行實時編碼、解碼和分析。該處理器能夠高效
    發表于 05-30 10:24