人妻久久精品一区二区三蜜桃,国内精品免费久久久影院,亚洲精品9999久久久久

學(xué)習(xí)利用視覺語(yǔ)言模型，打造從 AI 驅(qū)動(dòng)的智能搜索到全自動(dòng)分析的視頻解析應(yīng)用。

當(dāng)前的計(jì)算機(jī)視覺系統(tǒng)擅長(zhǎng)于識(shí)別物理空間與流程中的事件，卻難以詮釋場(chǎng)景細(xì)節(jié)及其意義，也無(wú)法推理后續(xù)可能發(fā)生的情況。

由視覺語(yǔ)言模型(VLM) 驅(qū)動(dòng)的代理式 AI，能夠解決這一問(wèn)題。它讓團(tuán)隊(duì)能夠快速、便捷地獲取關(guān)鍵的洞見與分析，并將文本描述與時(shí)空信息、以及系統(tǒng)每日產(chǎn)生的海量視覺數(shù)據(jù)無(wú)縫銜接。

以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)：

運(yùn)用密集標(biāo)注技術(shù)，生成可搜索的視覺內(nèi)容
利用詳細(xì)上下文增強(qiáng)系統(tǒng)警報(bào)
借助AI 推理，總結(jié)復(fù)雜場(chǎng)景中的信息并解答疑問(wèn)

利用密集標(biāo)注，實(shí)現(xiàn)視覺內(nèi)容可搜索

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 驅(qū)動(dòng)的視頻搜索工具受限于有限的訓(xùn)練數(shù)據(jù)、上下文及語(yǔ)義理解的不足，這導(dǎo)致信息提煉工作必須依賴人工，且既繁瑣又耗時(shí)。CNN 通常被調(diào)優(yōu)以執(zhí)行如識(shí)別異常之類的視覺任務(wù)，但缺乏將其所見轉(zhuǎn)換為文本的多模態(tài)能力。

企業(yè)可以將 VLM 直接嵌入其現(xiàn)有應(yīng)用程序中，為圖像和視頻生成詳盡的標(biāo)注。這些標(biāo)注能在不受限于文件名或基礎(chǔ)標(biāo)簽的情況下，將非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)化為豐富的、可搜索的元數(shù)據(jù)，從而實(shí)現(xiàn)靈活度遠(yuǎn)勝以往的視覺搜索。

以自動(dòng)化車輛檢測(cè)系統(tǒng)Uveye為例，作為全球規(guī)模最大的車輛及零部件數(shù)據(jù)集之一，它每月處理超過(guò) 7 億張高分辨率圖像。通過(guò)應(yīng)用 VLM，Uveye 將這些視覺數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的報(bào)告，且能夠以高準(zhǔn)確性與可靠性，檢測(cè)出細(xì)微的缺陷、改裝或異物，以供搜索與分析。

由 VLM 驅(qū)動(dòng)的視覺理解提供了至關(guān)重要的上下文，保障了從合規(guī)、安全到質(zhì)控各環(huán)節(jié)洞察的透明與一致。Uveye 能檢測(cè)出 96% 的缺陷，比人工檢測(cè)高出 24%，這使早期干預(yù)成為可能，從而減少停機(jī)時(shí)間并控制維護(hù)成本。

Relo Metrics是一家由 AI 驅(qū)動(dòng)的體育營(yíng)銷評(píng)估服務(wù)商，致力于幫助品牌量化媒體投資價(jià)值并優(yōu)化支出。通過(guò)將 VLM 與計(jì)算機(jī)視覺相結(jié)合，Relo Metrics 不僅僅可以做到基礎(chǔ)的 Logo 檢測(cè)，現(xiàn)能夠精準(zhǔn)捕捉如在比賽“絕殺球”時(shí)刻展示的場(chǎng)邊廣告牌等場(chǎng)景，并將其轉(zhuǎn)化為實(shí)時(shí)的商業(yè)價(jià)值。

這種基于環(huán)境的洞察能力，通過(guò)突顯 Logo 在關(guān)鍵高曝光時(shí)刻的出現(xiàn)時(shí)間和方式，幫助營(yíng)銷人員更清晰地了解投資回報(bào)率，并找到優(yōu)化策略的途徑。例如，Stanley Black & Decker 及其旗下的 Dewalt，此前僅依賴賽季末的報(bào)告來(lái)評(píng)估贊助資產(chǎn)的表現(xiàn)，這限制了決策的及時(shí)性。現(xiàn)在通過(guò)利用 Relo Metrics 獲取實(shí)時(shí)洞察，Stanley Black & Decker 及時(shí)調(diào)整了廣告牌位置，從而挽回了價(jià)值 130 萬(wàn)美元的潛在贊助媒體損失。

利用 VLM 推理能力增強(qiáng)計(jì)算機(jī)視覺系統(tǒng)警報(bào)

基于 CNN 的計(jì)算機(jī)視覺系統(tǒng)通常只生成類似“是或否”、“真或假”的二元的檢測(cè)警報(bào)。缺乏 VLM 的推理能力，往往會(huì)導(dǎo)致誤報(bào)或細(xì)節(jié)遺漏，從而在安全保障方面引發(fā)代價(jià)高昂的錯(cuò)誤，并造成商業(yè)情報(bào)的缺失。VLM 無(wú)需完全取代現(xiàn)有的 CNN 視覺系統(tǒng)，而是可以作為一個(gè)智能附加組件，輕松地對(duì)現(xiàn)有系統(tǒng)進(jìn)行增強(qiáng)。通過(guò)在 CNN 系統(tǒng)之上疊加 VLM 層，系統(tǒng)不僅能標(biāo)記檢測(cè)警報(bào)，還能結(jié)合場(chǎng)景語(yǔ)境對(duì)事件發(fā)生的地點(diǎn)、方式及原因進(jìn)行復(fù)核。

在智慧城市交通管理領(lǐng)域，Linker Vision利用 VLM 驗(yàn)證關(guān)鍵的城市警報(bào)，包括：交通事故、洪澇災(zāi)害或暴風(fēng)雨引發(fā)的樹木及電線桿倒塌。這種方式不僅降低了誤報(bào)率，還為每起事件補(bǔ)充了關(guān)鍵的背景信息，從而顯著提升了市政部門的實(shí)時(shí)響應(yīng)效率。

以下三種方法可助力企業(yè)使用代理式 AI 激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)：

運(yùn)用密集標(biāo)注技術(shù)，生成可搜索的視覺內(nèi)容

利用詳細(xì)上下文增強(qiáng)系統(tǒng)警報(bào)

借助AI 推理，總結(jié)復(fù)雜場(chǎng)景中的信息并解答疑問(wèn)

利用密集標(biāo)注，實(shí)現(xiàn)視覺內(nèi)容可搜索

這種基于環(huán)境的洞察能力，通過(guò)突顯 Logo 在關(guān)鍵高曝光時(shí)刻的出現(xiàn)時(shí)間和方式，幫助營(yíng)銷人員更清晰地了解投資回報(bào)率，并找到優(yōu)化策略的途徑。例如，Stanley Black & Decker 及其旗下的 Dewalt，此前僅依賴賽季末的報(bào)告來(lái)評(píng)估贊助資產(chǎn)的表現(xiàn)，這限制了決策的及時(shí)性?，F(xiàn)在通過(guò)利用 Relo Metrics 獲取實(shí)時(shí)洞察，Stanley Black & Decker 及時(shí)調(diào)整了廣告牌位置，從而挽回了價(jià)值 130 萬(wàn)美元的潛在贊助媒體損失。

利用 VLM 推理能力增強(qiáng)計(jì)算機(jī)視覺系統(tǒng)警報(bào)

Linker Vision的代理式 AI 架構(gòu)能自動(dòng)分析超過(guò) 50,000 路多樣化的智慧城市攝像頭視頻流，以實(shí)現(xiàn)跨部門的協(xié)同整治。當(dāng)事件發(fā)生時(shí)，該系統(tǒng)可協(xié)調(diào)如交通管制、公共事業(yè)及急救響應(yīng)等多團(tuán)隊(duì)展開聯(lián)合行動(dòng)。憑借同時(shí)查詢所有攝像頭流的能力，系統(tǒng)能迅速將觀察到的現(xiàn)象轉(zhuǎn)化為深刻洞察，給出下一步最佳行動(dòng)的具體建議。

基于代理式 AI 的復(fù)雜場(chǎng)景自動(dòng)解析

代理式 AI系統(tǒng)能夠處理視頻流、音頻、文本、視頻及傳感器數(shù)據(jù)等多種模態(tài)的信息，并能對(duì)復(fù)雜查詢進(jìn)行推理與回答，從而實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景的自動(dòng)化分析。該功能的實(shí)現(xiàn)，需結(jié)合 VLM、推理模型、大語(yǔ)言模型 (LLM)、檢索增強(qiáng)生成 (RAG)、計(jì)算機(jī)視覺和語(yǔ)音轉(zhuǎn)錄等多種技術(shù)。

將 VLM 直接集成到現(xiàn)有計(jì)算機(jī)視覺工作流中，雖能驗(yàn)證關(guān)鍵時(shí)刻的短視頻片段，但其能力受限于單模型一次可處理的視覺token數(shù)量，故而無(wú)法理解更長(zhǎng)時(shí)間周期與外部知識(shí)構(gòu)成的上下文，最終只能提供表面層次的答案。

相比之下，基于代理式 AI 構(gòu)建的完整架構(gòu)，則能對(duì)冗長(zhǎng)、多路的視頻檔案進(jìn)行可擴(kuò)展且精確的處理，實(shí)現(xiàn)超越表面理解的更深層、準(zhǔn)確和可靠的洞察。此外，該系統(tǒng)還適用于根本原因分析，或處理冗長(zhǎng)巡檢視頻以生成帶時(shí)間戳洞察的報(bào)告。

Levatas利用移動(dòng)機(jī)器人與自主系統(tǒng)，為關(guān)鍵基礎(chǔ)設(shè)施開發(fā)視覺巡檢解決方案，致力于提升電力變電站、燃料站、鐵路調(diào)車場(chǎng)與物流中心等關(guān)鍵基礎(chǔ)設(shè)施資產(chǎn)的安全性、可靠性與性能?；?VLM，Levatas 構(gòu)建了視頻分析 AI 智能體，可自動(dòng)審查巡檢影像并起草詳細(xì)報(bào)告，從而極大地優(yōu)化了這一傳統(tǒng)上依賴人工的耗時(shí)流程。 Levatas 通過(guò)將其 AI 與 Skydio X10 設(shè)備集成，為 American Electric Power (AEP) 簡(jiǎn)化電力基礎(chǔ)設(shè)施巡檢。該方案使 AEP 能夠自主巡檢電線桿、精準(zhǔn)識(shí)別熱缺陷并檢測(cè)設(shè)備損壞。一旦發(fā)現(xiàn)問(wèn)題，系統(tǒng)會(huì)立即向 AEP 團(tuán)隊(duì)發(fā)送警報(bào)，確?？焖夙憫?yīng)與問(wèn)題解決，從而保障可靠、清潔且經(jīng)濟(jì)高效的能源供應(yīng)。

Eklipse 是一款利用 VLM 驅(qū)動(dòng)代理的 AI 游戲高光工具，它能通過(guò)為直播流添加字幕和索引元數(shù)據(jù)，實(shí)現(xiàn)快速查詢、總結(jié)并生成精美高光片段，整個(gè)過(guò)程僅需數(shù)分鐘，效率高達(dá)傳統(tǒng)方案的 10 倍，徹底革新了內(nèi)容消費(fèi)體驗(yàn)。

基于 NVIDIA 技術(shù)構(gòu)建視頻智能體

開發(fā)人員可運(yùn)用NVCLIP、NVIDIA Cosmos Reason與Nemotron Nano V2等多模態(tài) VLM，構(gòu)建富含元數(shù)據(jù)的索引，以此實(shí)現(xiàn)高級(jí)搜索與推理功能。

開發(fā)人員若要將 VLM 集成到計(jì)算機(jī)視覺應(yīng)用中，可使用NVIDIA 用于視頻搜索及總結(jié)的Blueprint (VSS)中的 event reviewer 功能。VSS Blueprint 是NVIDIA Metropolis 平臺(tái)的一部分。

為實(shí)現(xiàn)智能運(yùn)營(yíng)、更豐富的視頻分析及實(shí)時(shí)流程合規(guī)性，并能隨需求擴(kuò)展，VSS Blueprint提供了定制化方案：它支持開發(fā)人員構(gòu)建直接訪問(wèn) VLM 的 AI 智能體，或?qū)?VLM 與 LLM、RAG 和計(jì)算機(jī)視覺模型結(jié)合使用，以應(yīng)對(duì)更復(fù)雜的視頻查詢與總結(jié)任務(wù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5674

瀏覽量
110038
AI

AI

+關(guān)注

關(guān)注
91

文章
40591

瀏覽量
302265
計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
9

文章
1715

瀏覽量
47695

原文標(biāo)題：AI On：代理式 AI 在計(jì)算機(jī)視覺中的三大應(yīng)用

文章出處：【微信號(hào)：NVIDIA_China，微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

使用代理式AI激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)的三種方法

評(píng)論