學習利用視覺語言模型,打造從 AI 驅動的智能搜索到全自動分析的視頻解析應用。
當前的計算機視覺系統擅長于識別物理空間與流程中的事件,卻難以詮釋場景細節及其意義,也無法推理后續可能發生的情況。
由視覺語言模型(VLM) 驅動的代理式 AI,能夠解決這一問題。它讓團隊能夠快速、便捷地獲取關鍵的洞見與分析,并將文本描述與時空信息、以及系統每日產生的海量視覺數據無縫銜接。
以下三種方法可助力企業使用代理式 AI 激活傳統計算機視覺系統:
- 運用密集標注技術,生成可搜索的視覺內容
- 利用詳細上下文增強系統警報
- 借助AI 推理,總結復雜場景中的信息并解答疑問
利用密集標注,實現視覺內容可搜索
傳統的卷積神經網絡(CNN) 驅動的視頻搜索工具受限于有限的訓練數據、上下文及語義理解的不足,這導致信息提煉工作必須依賴人工,且既繁瑣又耗時。CNN 通常被調優以執行如識別異常之類的視覺任務,但缺乏將其所見轉換為文本的多模態能力。
企業可以將 VLM 直接嵌入其現有應用程序中,為圖像和視頻生成詳盡的標注。這些標注能在不受限于文件名或基礎標簽的情況下,將非結構化內容轉化為豐富的、可搜索的元數據,從而實現靈活度遠勝以往的視覺搜索。
以自動化車輛檢測系統Uveye為例,作為全球規模最大的車輛及零部件數據集之一,它每月處理超過 7 億張高分辨率圖像。通過應用 VLM,Uveye 將這些視覺數據轉化為結構化的報告,且能夠以高準確性與可靠性,檢測出細微的缺陷、改裝或異物,以供搜索與分析。
由 VLM 驅動的視覺理解提供了至關重要的上下文,保障了從合規、安全到質控各環節洞察的透明與一致。Uveye 能檢測出 96% 的缺陷,比人工檢測高出 24%,這使早期干預成為可能,從而減少停機時間并控制維護成本。
Relo Metrics是一家由 AI 驅動的體育營銷評估服務商,致力于幫助品牌量化媒體投資價值并優化支出。通過將 VLM 與計算機視覺相結合,Relo Metrics 不僅僅可以做到基礎的 Logo 檢測,現能夠精準捕捉如在比賽“絕殺球”時刻展示的場邊廣告牌等場景,并將其轉化為實時的商業價值。
這種基于環境的洞察能力,通過突顯 Logo 在關鍵高曝光時刻的出現時間和方式,幫助營銷人員更清晰地了解投資回報率,并找到優化策略的途徑。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前僅依賴賽季末的報告來評估贊助資產的表現,這限制了決策的及時性。現在通過利用 Relo Metrics 獲取實時洞察,Stanley Black & Decker 及時調整了廣告牌位置,從而挽回了價值 130 萬美元的潛在贊助媒體損失。
利用 VLM 推理能力增強計算機視覺系統警報
基于 CNN 的計算機視覺系統通常只生成類似“是或否”、“真或假”的二元的檢測警報。缺乏 VLM 的推理能力,往往會導致誤報或細節遺漏,從而在安全保障方面引發代價高昂的錯誤,并造成商業情報的缺失。VLM 無需完全取代現有的 CNN 視覺系統,而是可以作為一個智能附加組件,輕松地對現有系統進行增強。通過在 CNN 系統之上疊加 VLM 層,系統不僅能標記檢測警報,還能結合場景語境對事件發生的地點、方式及原因進行復核。
在智慧城市交通管理領域,Linker Vision利用 VLM 驗證關鍵的城市警報,包括:交通事故、洪澇災害或暴風雨引發的樹木及電線桿倒塌。這種方式不僅降低了誤報率,還為每起事件補充了關鍵的背景信息,從而顯著提升了市政部門的實時響應效率。
當前的計算機視覺系統擅長于識別物理空間與流程中的事件,卻難以詮釋場景細節及其意義,也無法推理后續可能發生的情況。
由視覺語言模型(VLM) 驅動的代理式 AI,能夠解決這一問題。它讓團隊能夠快速、便捷地獲取關鍵的洞見與分析,并將文本描述與時空信息、以及系統每日產生的海量視覺數據無縫銜接。
以下三種方法可助力企業使用代理式 AI 激活傳統計算機視覺系統:
運用密集標注技術,生成可搜索的視覺內容
利用詳細上下文增強系統警報
借助AI 推理,總結復雜場景中的信息并解答疑問
利用密集標注,實現視覺內容可搜索
傳統的卷積神經網絡(CNN) 驅動的視頻搜索工具受限于有限的訓練數據、上下文及語義理解的不足,這導致信息提煉工作必須依賴人工,且既繁瑣又耗時。CNN 通常被調優以執行如識別異常之類的視覺任務,但缺乏將其所見轉換為文本的多模態能力。
企業可以將 VLM 直接嵌入其現有應用程序中,為圖像和視頻生成詳盡的標注。這些標注能在不受限于文件名或基礎標簽的情況下,將非結構化內容轉化為豐富的、可搜索的元數據,從而實現靈活度遠勝以往的視覺搜索。
以自動化車輛檢測系統Uveye為例,作為全球規模最大的車輛及零部件數據集之一,它每月處理超過 7 億張高分辨率圖像。通過應用 VLM,Uveye 將這些視覺數據轉化為結構化的報告,且能夠以高準確性與可靠性,檢測出細微的缺陷、改裝或異物,以供搜索與分析。
由 VLM 驅動的視覺理解提供了至關重要的上下文,保障了從合規、安全到質控各環節洞察的透明與一致。Uveye 能檢測出 96% 的缺陷,比人工檢測高出 24%,這使早期干預成為可能,從而減少停機時間并控制維護成本。
Relo Metrics是一家由 AI 驅動的體育營銷評估服務商,致力于幫助品牌量化媒體投資價值并優化支出。通過將 VLM 與計算機視覺相結合,Relo Metrics 不僅僅可以做到基礎的 Logo 檢測,現能夠精準捕捉如在比賽“絕殺球”時刻展示的場邊廣告牌等場景,并將其轉化為實時的商業價值。
這種基于環境的洞察能力,通過突顯 Logo 在關鍵高曝光時刻的出現時間和方式,幫助營銷人員更清晰地了解投資回報率,并找到優化策略的途徑。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前僅依賴賽季末的報告來評估贊助資產的表現,這限制了決策的及時性。現在通過利用 Relo Metrics 獲取實時洞察,Stanley Black & Decker 及時調整了廣告牌位置,從而挽回了價值 130 萬美元的潛在贊助媒體損失。
利用 VLM 推理能力增強計算機視覺系統警報
基于 CNN 的計算機視覺系統通常只生成類似“是或否”、“真或假”的二元的檢測警報。缺乏 VLM 的推理能力,往往會導致誤報或細節遺漏,從而在安全保障方面引發代價高昂的錯誤,并造成商業情報的缺失。VLM 無需完全取代現有的 CNN 視覺系統,而是可以作為一個智能附加組件,輕松地對現有系統進行增強。通過在 CNN 系統之上疊加 VLM 層,系統不僅能標記檢測警報,還能結合場景語境對事件發生的地點、方式及原因進行復核。
在智慧城市交通管理領域,Linker Vision利用 VLM 驗證關鍵的城市警報,包括:交通事故、洪澇災害或暴風雨引發的樹木及電線桿倒塌。這種方式不僅降低了誤報率,還為每起事件補充了關鍵的背景信息,從而顯著提升了市政部門的實時響應效率。
Linker Vision的代理式 AI 架構能自動分析超過 50,000 路多樣化的智慧城市攝像頭視頻流,以實現跨部門的協同整治。當事件發生時,該系統可協調如交通管制、公共事業及急救響應等多團隊展開聯合行動。憑借同時查詢所有攝像頭流的能力,系統能迅速將觀察到的現象轉化為深刻洞察,給出下一步最佳行動的具體建議。
基于代理式 AI 的復雜場景自動解析
代理式 AI系統能夠處理視頻流、音頻、文本、視頻及傳感器數據等多種模態的信息,并能對復雜查詢進行推理與回答,從而實現對復雜場景的自動化分析。該功能的實現,需結合 VLM、推理模型、大語言模型 (LLM)、檢索增強生成 (RAG)、計算機視覺和語音轉錄等多種技術。
將 VLM 直接集成到現有計算機視覺工作流中,雖能驗證關鍵時刻的短視頻片段,但其能力受限于單模型一次可處理的視覺token數量,故而無法理解更長時間周期與外部知識構成的上下文,最終只能提供表面層次的答案。
相比之下,基于代理式 AI 構建的完整架構,則能對冗長、多路的視頻檔案進行可擴展且精確的處理,實現超越表面理解的更深層、準確和可靠的洞察。此外,該系統還適用于根本原因分析,或處理冗長巡檢視頻以生成帶時間戳洞察的報告。
Levatas利用移動機器人與自主系統,為關鍵基礎設施開發視覺巡檢解決方案,致力于提升電力變電站、燃料站、鐵路調車場與物流中心等關鍵基礎設施資產的安全性、可靠性與性能。基于 VLM,Levatas 構建了視頻分析 AI 智能體,可自動審查巡檢影像并起草詳細報告,從而極大地優化了這一傳統上依賴人工的耗時流程。 Levatas 通過將其 AI 與 Skydio X10 設備集成,為 American Electric Power (AEP) 簡化電力基礎設施巡檢。該方案使 AEP 能夠自主巡檢電線桿、精準識別熱缺陷并檢測設備損壞。一旦發現問題,系統會立即向 AEP 團隊發送警報,確保快速響應與問題解決,從而保障可靠、清潔且經濟高效的能源供應。
Eklipse 是一款利用 VLM 驅動代理的 AI 游戲高光工具,它能通過為直播流添加字幕和索引元數據,實現快速查詢、總結并生成精美高光片段,整個過程僅需數分鐘,效率高達傳統方案的 10 倍,徹底革新了內容消費體驗。
基于 NVIDIA 技術構建視頻智能體
開發人員可運用NVCLIP、NVIDIA Cosmos Reason與Nemotron Nano V2等多模態 VLM,構建富含元數據的索引,以此實現高級搜索與推理功能。
開發人員若要將 VLM 集成到計算機視覺應用中,可使用NVIDIA 用于視頻搜索及總結的Blueprint (VSS)中的 event reviewer 功能。VSS Blueprint 是NVIDIA Metropolis 平臺的一部分。
為實現智能運營、更豐富的視頻分析及實時流程合規性,并能隨需求擴展,VSS Blueprint提供了定制化方案:它支持開發人員構建直接訪問 VLM 的 AI 智能體,或將 VLM 與 LLM、RAG 和計算機視覺模型結合使用,以應對更復雜的視頻查詢與總結任務。
-
NVIDIA
+關注
關注
14文章
5594瀏覽量
109738 -
AI
+關注
關注
91文章
39793瀏覽量
301407 -
計算機視覺
+關注
關注
9文章
1715瀏覽量
47630
原文標題:AI On:代理式 AI 在計算機視覺中的三大應用
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
上海計算機視覺企業行學術沙龍走進西井科技
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件
代理式 AI 重構 EDA:從對話助手到虛擬工程師
機器視覺系統工業相機的成像原理及如何選型
代理式AI與AI智能體在不同行業中的實際應用
NVIDIA全棧加速代理式AI應用落地
NVIDIA攜手微軟加速代理式AI發展
精選好文!噪聲系數測量的三種方法
英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理
Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理
NVIDIA 宣布推出 DGX Spark 個人 AI 計算機
工業相機采集卡:機器視覺系統的關鍵樞紐
英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持
使用代理式AI激活傳統計算機視覺系統的三種方法
評論