久久这里只有精品国产,久久免费国产视频,久久精品在线播放

異常檢測任務旨在識別明顯偏離正常數(shù)據(jù)分布的異常值，在工業(yè)檢驗、醫(yī)學診斷、視頻監(jiān)控和欺詐檢測等多個領域都發(fā)揮了重要作用。傳統(tǒng)的異常檢測方法主要依賴于描述正常數(shù)據(jù)分布以進行正異常樣本的區(qū)分。然而，對于實際的應用而言，異常檢測也需要理解數(shù)據(jù)的高層語義，從而深入理解 “什么是異常”。

要實現(xiàn)更準確且智能的異常檢測，我們需要關注以下關鍵步驟：

1. 理解多樣數(shù)據(jù)類型和類別

不同領域的數(shù)據(jù)集包含各種數(shù)據(jù)類型和類別，如圖像、視頻、點云、時間序列等。每種數(shù)據(jù)類型可能需要不同的異常檢測方法，每個物體類別可能對應不同的正常標準，因此深入理解數(shù)據(jù)的多樣性至關重要。

2. 確定正常狀態(tài)標準

一旦理解了數(shù)據(jù)的類型和類別，我們需要推斷正常狀態(tài)的標準。這需要高級數(shù)據(jù)語義信息的理解，以確保我們能夠正確識別正常數(shù)據(jù)的特征和模式。

3. 評估數(shù)據(jù)的符合度

最后，我們需要評估提供的數(shù)據(jù)是否符合已建立的正常數(shù)據(jù)分布。任何偏離這些數(shù)據(jù)分布的情況都可以被歸類為異常。

最近，大型多模態(tài)模型（LMM）迅猛發(fā)展，其中 OpenAI 最近推出的 GPT-4V （ision）表現(xiàn)最為出色，具有強大的多模態(tài)感知能力，在場景理解，圖片生成等多個任務中都取得了良好表現(xiàn)。我們認為，LMM 的出現(xiàn)為通用異常檢測的研究提供了新的范式和新的機會。

為了評估 GPT-4V 在通用異常檢測中的性能，來自華中科技大學、密歇根大學和多倫多大學的研究者聯(lián)合進行了一項研究，在涉及 4 個數(shù)據(jù)模態(tài)，9 個異常檢測任務的 15 個異常檢測數(shù)據(jù)集上對 GPT-4V 進行了全面的測試。具體而言，測試的數(shù)據(jù)集包括圖像、點云、視頻、時序等模態(tài)，并涵蓋了工業(yè)圖像異常檢測 / 定位，醫(yī)療圖像異常檢測 / 定位，點云異常檢測，邏輯異常檢測，行人異常檢測，交通異常檢測，時序異常檢測等 9 個異常檢測任務。

論文地址：https://arxiv.org/pdf/2311.02782.pdf

項目地址：https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

觀察與分析

本文在多種模態(tài)和領域的異常檢測數(shù)據(jù)集上對 GPT4V 的性能進行了測試。我們認為，GPT4V 已經(jīng)初步具備了多模態(tài)的通用異常檢測能力。具體而言，GPT-4V 不僅能夠有效理解多樣數(shù)據(jù)類型和類別，而且可以建模正常數(shù)據(jù)的空間分布，并評估測試數(shù)據(jù)的分布情況。

除此以外，GPT-4V 在異常檢測任務中還具有以下特點：

GPT-4V 能夠在零 / 單樣本下處理多模態(tài)、多領域的異常檢測任務

多模態(tài)異常檢測：GPT-4V 可有效處理多種模態(tài)數(shù)據(jù)的異常檢測任務。例如，它在識別圖像、點云、MRI、X-ray 等數(shù)據(jù)模態(tài)上均表現(xiàn)出了不俗的異常檢測能力。多模態(tài)異常檢測能力使 GPT-4V 能夠突破傳統(tǒng)單模態(tài)異常檢測器的限制，完成現(xiàn)實世界的復雜異常檢測任務。

多領域異常檢測：GPT-4V 在工業(yè)、醫(yī)療、行人、交通和時間序列異常檢測等多個領域表現(xiàn)優(yōu)異。

零 / 單樣本下的異常檢測：GPT-4V 在零樣本及單樣本（即提供了一張正常的參考圖片）任務中均表現(xiàn)不俗。在沒有參考圖像的情況下，GPT-4V 可以有效地使用語言提示信息來檢測異常。當提供正常參考圖像時，GPT-4V 能夠更好的對齊文本格式的正常標準與正常的圖像內(nèi)容，其異常檢測準確性進一步提高。

GPT-4V 可以理解異常檢測任務所需的全局和細粒度語義

全局語義理解能力：GPT-4V 對全局語義的理解能力表現(xiàn)在它能夠識別整體的異常模式或行為。例如，在交通異常檢測中，它可以分辨正常的交通流和不規(guī)則事件之間的區(qū)別，并且提供了關于異常檢出的詳細解釋。這種全局理解使其非常適合在開放世界中識別偏離正常分布的異常點。

細粒度語義理解能力：GPT-4V 對細粒度語義的理解能力在一些情況下表現(xiàn)出色，使得它不僅能夠檢測異常，還能夠精確地在復雜數(shù)據(jù)中定位異常。例如，在工業(yè)圖像異常檢測中，它可以準確定位細節(jié)，如傾斜的蠟燭燭芯、瓶口周圍的輕微劃痕。這種細粒度理解增強了它在復雜數(shù)據(jù)中檢測微小異常的能力，從而提高了其整體檢測。

GPT-4V 具備自動推理異常檢測的能力

GPT-4V 能夠根據(jù)復雜的正常標準自動推理、拆分子任務。例如，在邏輯異常檢測中，GPT-4V 能夠理解所給的正常圖像標準，并拆分為子任務，依次檢驗圖像內(nèi)容是否滿足指定內(nèi)容。這種內(nèi)在的推理能力增強了其異常檢測結果的可解釋性，使其成為理解和解決通用異常檢測的有效工具。

GPT-4V 可以通過增加提示進一步增強異常檢測能力

評估結果顯示，提供更多文本和圖像信息對 GPT-4V 的異常檢測性能有積極影響。通過增加類別信息、人類專業(yè)知識、參考圖像，模型獲得了更多的上下文信息，異常檢測性能也得到顯著提升。該特點允許用戶通過提供相關的補充信息來微調(diào)和增強模型的性能。

GPT-4V 在實際應用中可能受到限制，但仍具有潛力

本報告發(fā)現(xiàn) GPT-4V 在實際應用中仍面臨一些挑戰(zhàn)。例如，GPT-4V 可能在處理工業(yè)應用中的復雜場景時面臨困難，導致其出現(xiàn)錯誤檢測。醫(yī)療領域的倫理約束也使其在判斷腫瘤等異常情況時趨于保守。但我們相信它在各種異常檢測任務中仍然具有潛力。為了有效解決這些挑戰(zhàn)，可能需要進一步增強、專門的精細調(diào)整或補充技術。總結而言，GPT-4V 在通用異常檢測中具有明顯潛力，有望開啟異常檢測任務的高層次感知時代。

應用場景展示

工業(yè)圖像異常檢測

工業(yè)圖像異常檢測旨在維護產(chǎn)品質(zhì)量，是制造過程的重要環(huán)節(jié)。近年來，許多方法在此領域蓬勃發(fā)展，其中一些方法著眼于開發(fā)適用于任意產(chǎn)品類別的統(tǒng)一模型。本研究探討了 GPT-4V 在工業(yè)圖像異常檢測中的應用，包括對不同類型的信息進行測試，以及展示其性能和局限性。

我們從工業(yè)圖像中選擇了幾個示例，如瓶子和蠟燭的圖像。即使只提供簡單的語言提示，GPT-4V 能夠有效地識別這些圖像中的異常，展示了其能力和多樣性。此外，GPT-4V 不僅能夠檢測期望的異常，還能夠識別微觀結構異常。在復雜情況下，如電路板中的異常檢測，GPT-4V 能夠識別圖像中的細節(jié)，但也存在一定的局限性。總的來說，GPT-4V 在圖像上下文理解和類別特定異常理解方面表現(xiàn)出色。

工業(yè)圖像異常定位

與工業(yè)圖像異常檢測不同，工業(yè)圖像異常定位旨在精確識別異常的位置。為了實現(xiàn)這一目標，我們采用了與 SoM（Set-of-mark）類似的方法，使用圖像 - 掩模對來提示 GPT-4V。我們研究了 GPT-4V 在不同場景下的表現(xiàn)，展示了其在細粒度異常定位方面的能力和局限性。

我們展示了 GPT-4V 在工業(yè)圖像異常定位中的性能，包括定位彎曲的電線、堅果上的空洞以及識別電路板異常。GPT-4V 在一些情況下能夠準確識別異常位置，例如能夠有效定位堅果中的空洞，并且由于結合了視覺提示技術，GPT-4V 將異常定位問題轉化為了對掩膜的分類問題，有效降低了問題復雜度，且提升了定位精度。因此，結合視覺提示技術和 GPT-4V 可有效解決工業(yè)圖像異常定位問題。

點云異常檢測

點云異常檢測在工業(yè)領域具有重要作用。CPMF 提出了一種新方法，將點云轉化為深度圖像，以利用圖像基礎模型來提高點云異常檢測的性能。我們借助 CPMF，將點云轉為深度圖像，從而使得 GPT-4V 可處理點云異常檢測任務。

我們展示了 GPT-4V 在點云異常檢測中的性能，包括識別袋圈中的小突起、檢測繩子上的異常以及查找工件中的異常。GPT-4V 能夠有效地識別這些異常，但在某些情況下也存在局限性，特別是在渲染質(zhì)量較低的情況下。總的來說，GPT-4V 在點云異常檢測中表現(xiàn)出了潛力。

邏輯異常檢測

邏輯異常檢測任務由 MVTec LOCO 數(shù)據(jù)集提出。該任務通常出現(xiàn)在裝配過程中，需要識別各個組件是否正確組合。現(xiàn)有的邏輯異常檢測方法通常依賴于視覺全局 - 局部對應關系，但本質(zhì)上并沒有真正理解圖像內(nèi)容。我們研究了 GPT-4V 在邏輯異常檢測中的應用，探討了其對圖像內(nèi)容的理解能力。

我們展示了 GPT-4V 在邏輯異常檢測中的性能，包括識別復雜的邏輯規(guī)則、檢測邏輯異常并提供詳細的解釋。盡管 GPT-4V 在大多數(shù)情況下能夠準確識別邏輯異常，但在某些復雜情況下存在一定的局限性，尤其是對于細節(jié)問題。不過，結合多輪對話和特定語言提示有望顯著改善 GPT-4V 在這些情況下的性能。

醫(yī)學圖像異常檢測

醫(yī)學圖像異常檢測是醫(yī)學影像領域的關鍵任務，旨在識別不符合預期數(shù)據(jù)分布的異常值。我們研究了 GPT-4V 在醫(yī)學圖像異常檢測中的應用，包括不同疾病和成像模式的醫(yī)學圖像。我們測試了 GPT-4V 的泛化能力，揭示了其在醫(yī)學圖像異常檢測中的性能和局限性。

我們展示了 GPT-4V 在醫(yī)學圖像異常檢測中的性能，包括識別不同疾病和成像模式的異常圖像。即使只提供簡單的語言提示，GPT-4V 能夠有效地識別異常，并提供詳細的解釋。此外，引入更多信息，如疾病信息和專業(yè)知識，可以進一步提高 GPT-4V 的性能。然而，GPT-4V 在某些情況下可能會產(chǎn)生錯誤的異常檢測，因此仍需要醫(yī)生的最終判斷。

醫(yī)學圖像異常定位

在檢測到醫(yī)學異常后，需要進一步精確定位醫(yī)學圖像中存在的異常，例如病灶等。對醫(yī)學圖像異常的準確的定位可有效幫助臨床醫(yī)生理解病理的程度和性質(zhì)。然而，在現(xiàn)實世界的醫(yī)學圖像異常定位任務中使用 GPT-4V 直接預測異常掩膜十分困難。受到 SoM 的啟發(fā)，我們希望測試 GPT-4V 模型在視覺提示下的異常定位能力。

結合 SoM，我們標定了醫(yī)療圖像中可能存在的異常位置。在圖像中的視覺提示指導下，GPT-4V 傾向于學習和描述標記周圍的區(qū)域。對于容易識別和定位的案例，GPT-4V 可以清楚地區(qū)分異常區(qū)域和背景。但在一個人工合成異常的案例中，由于感興趣區(qū)域與背景具有相似的紋理和形狀，GPT4V 的判斷出現(xiàn)了偏差。這表明該模型在對抗攻擊和復雜背景下仍需要增強其檢測和定位能力。

交通檢測

交通檢測是城市交通管理和自動駕駛領域的關鍵任務，它旨在監(jiān)測交通情況，檢測交通違規(guī)行為和危險情況。我們研究了 GPT-4V 在交通檢測中的應用，包括車輛識別、交通標志識別和交通違規(guī)檢測。我們測試了 GPT-4V 在不同場景下的性能，展示了其潛力和局限性。

我們展示了 GPT-4V 在交通檢測中的性能，包括識別不同類型的車輛、檢測各種交通標志和識別交通違規(guī)行為。GPT-4V 能夠有效地處理這些任務，尤其是在規(guī)范場景下。然而，在復雜交通環(huán)境中，性能可能會下降，因為它需要理解并解釋復雜的情境。

行人檢測

行人檢測是自動駕駛、安全監(jiān)控和智能城市等領域的關鍵任務，它旨在識別圖像或視頻中的行人。我們研究了 GPT-4V 在行人檢測中的應用，測試了其對行人的識別能力和性能。

我們展示了 GPT-4V 在行人檢測中的性能，包括檢測行人在不同背景下的能力。GPT-4V 通常能夠識別行人，但在復雜背景下可能會出現(xiàn)錯誤。與專門的行人檢測模型相比，性能可能相對較差，但它的優(yōu)勢在于它能夠提供更多的語言解釋。

時序檢測

時序檢測是一種涉及到時間序列數(shù)據(jù)的異常檢測任務，例如傳感器數(shù)據(jù)、金融時間序列等。我們研究了 GPT-4V 在時序檢測中的應用，測試了其在分析和檢測時間序列異常方面的能力。

我們展示了 GPT-4V 在時序檢測中的性能，包括檢測傳感器數(shù)據(jù)中的異常、金融交易數(shù)據(jù)中的異常等。GPT-4V 在分析時間序列數(shù)據(jù)方面表現(xiàn)出色，能夠識別不同類型的異常情況。然而，需要注意的是，時序檢測通常需要更多的領域專業(yè)知識，而 GPT-4V 在這些情況下可能需要結合專家的建議。

結論

GPT-4V 在工業(yè)圖像異常檢測、工業(yè)圖像異常定位、點云異常檢測、邏輯異常檢測、醫(yī)學圖像異常檢測、交通檢測、行人檢測和時序檢測等領域都展示出了出色的潛力。它能夠理解多模態(tài)數(shù)據(jù)，對圖像內(nèi)容進行有效理解，并在很多情況下都能準確檢測并解釋異常。然而，在復雜場景中，GPT-4V 的異常檢測能力仍然存在一定的局限性。綜合來看，GPT-4V 為通用異常檢測提供了全新的研究范式，但其實際應用仍需要進一步的研究和改進。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關注

關注
4

文章
1236

瀏覽量
26196
GPT

GPT

+關注

關注
0

文章
368

瀏覽量
16873
OpenAI

OpenAI

+關注

關注
9

文章
1245

瀏覽量
10073

原文標題：GPT-4V在異常檢測上有多少強？華科大等最新測評來了！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

搜索歷史

GPT-4V在異常檢測上有多少強？華科大等最新測評來了！

評論