來源:PaperWeekly
TL;DR:本研究提出了一種可跨不同領域、適用于特征維度各異且特征空間異構的數據集的異常檢測通用模型。
論文標題:
UniOD: A Universal Model for Outlier Detection across Diverse Domains
論文作者:
付達智,樊繼聰
收錄會議:
ICLR 2026
論文鏈接:
https://arxiv.org/abs/2507.06624
Highlights:
提出一種新穎的異常點檢測方法 UniOD:可利用歷史數據集中的知識,在面對全新、未見過的數據集時無需訓練即可直接識別異常點。
相較于其他深度學習異常檢測方法,UniOD 僅需單一模型覆蓋多數據集場景;同時由于跳過重新訓練,檢測階段計算開銷更低。
我們為 UniOD 的有效性提供了理論保證,并通過數值實驗驗證與理論結論相吻合。
在來自 ADbench 的 57 個來自多個不同領域的數據集上對比 17 種基線方法,UniOD 在多數場景下取得更優性能。
引言
異常點(Outliers)是指在數據集中顯著偏離其他正常數據分布的觀測樣本,通常表明其可能來源于不同的生成機制。
在日益數據驅動的時代背景下,識別異常模式或偏離正常行為的現象——即異常檢測——已成為多個領域中的關鍵問題。
這類異常數據往往指示著關鍵事件的發生,例如金融欺詐、安全入侵、系統故障,或潛在的新知識發現,因此對其進行準確而及時的檢測對于快速干預與科學決策具有至關重要的意義。
離群點檢測或異常檢測旨在發現完全無標簽數據集中的異常數據,在各個領域中有廣泛的應用。

如圖 1 所示,以往的異常檢測方法往往需要針對不同的數據集訓練不同的模型。這意味著當面對一個新的數據集——尤其是來自不同領域的數據集時——我們通常需要從零開始訓練異常檢測模型,由此帶來以下局限性:
高成本的模型選擇與超參數調優: 尤其對于基于深度學習的異常檢測方法,需要確定網絡深度、網絡寬度、學習率以及方法特定的超參數。
如圖 2 所示,不同數據集對應的最優超參數組合差異顯著,從而帶來較大的調參與模型選擇難度。

評估前計算開銷大、等待時間長:訓練或擬合過程往往耗時,尤其是在模型規模和數據規模較大時更為明顯,導致部署前需要付出較高的計算成本并產生較長的等待周期。
未能有效利用歷史數據集中的知識:歷史數據集通常蘊含關于正常樣本與異常樣本模式的有用且可遷移知識,但傳統異常檢測方法難以將這些知識有效復用與遷移。
方法
為了解決上述問題,我們提出了一個通用異常檢測模型 - UniOD,該方法的核心思想是:該方法能夠利用來自不同領域的、帶標簽的歷史數據集(在大數據時代通常易于獲取)訓練一個通用模型,從而在面對任意未見過領域的數據集時,無需進行任何重新訓練即可檢測其中的異常點。
該方法的框架如下圖 3 所示。

2.1 Data Unification-構建通用的數據
考慮到數據集尤其是表格數據集往往在維度、特征語義以及樣本規模等方面存在較大差異,如何統一特征空間是訓練通用模型的關鍵步驟。
我們首先進行預處理,以統一其特征空間——標準化特征維度數量,并對每個特征的語義含義進行對齊與規范化。
我們的做法分為兩步:
將數據集表示為樣本級的相似度矩陣(即圖結構)。
對于數據集中的任意兩點,我們使用多個不同帶寬的高斯核函數計算其相似度。
基于相似度矩陣構建統一特征。
我們對相似度矩陣使用奇異值分解得到每一個數據的特征。這樣得到的特征都是對相似度矩陣結構的描述,因此不同數據集之間是可比的。
2.2 基于圖神經網絡的模型設計
現在我們得到了數據的統一特征,需要解決的問題是:如何設計模型進行訓練?
一個直接的想法是用 MLP 在歷史數據集上訓練一個分類器,然而該方法不能充分利用相似度矩陣中所包含的有價值信息。
為了充分利用樣本間的相似度信息,我們把每一個數據集當作圖結構的數據,這樣樣本級的異常檢測任務可以被轉化為圖節點級的異常檢測任務,同時可以使用 GIN(圖同構網絡)和 transformer 并行的結構作為我們的分類器。
2.3 理論分析

我們提出了如定理 4.1 所示的關于期望泛化誤差和平均訓練誤差理論分析,該定理具有以下重要意義:
當訓練數據集數量更多(即 更大)時,理論上界會更緊,從而使得泛化誤差更小。
增大 GIN 與 transformer 的數量可以降低訓練誤差,從而提高測試準確率
當 GIN 和 transformer 的層數過大時,UniOD 的泛化能力會減弱。
實驗
3.1 主要實驗結果
本文在常用的異常檢測基準 ADBench 的 30 個數據集上進行了測試,在歷史數據集的劃分上,我們隨機將這 30 個數據集劃分為兩組,其中一組作為歷史數據集,一組作為評估數據集,并做了交叉驗證。
評測指標采用了 AUROC 和 AUPRC,對所有基線方法均基于歷史數據集進行了超參數搜索。

Table2 和 Table3 所示的實驗結果表明:UniOD 比起其他基線方法在大多數數據集以及平均性能上有較大優勢。

同時,我們也在 ADBench 的另外 27 個數據集上進行了測試,這 27 個數據集中包含圖像數據集與文本數據集(使用 ViT 和 BERT 提取特征),
Table19 中的實驗結果表明 UniOD 可以泛化到其他模態的數據集上,盡管只使用表格數據集訓練。

3.2 領域魯棒性分析
我們評估 UniOD 在物理、航天與圖像領域數據集上的表現時,同時在訓練階段系統性移除所有來自相同領域/方向的歷史數據集。
在 Table15 中,排除這些領域特定的訓練數據并未導致對應測試領域的性能出現顯著下降。

我們將這種魯棒性歸因于兩點關鍵因素:
即便同屬一個領域的數據集,其特征空間與數據特性也可能存在顯著差異;
UniOD 并不直接依賴原始特征,而是利用相似度矩陣來構建跨數據集、維度一致的特征。因此,不同領域的數據集在其相似度矩陣中仍可能呈現相近的結構模式,從而支持有效的跨領域泛化。
3.3 消融實驗
我們評估了在使用 1、3、5、10、15 個歷史訓練數據集的情況下 UniOD 的性能變化,如圖 4(a) 所示。可以明顯觀察到,隨著歷史數據集數量的增加,模型的泛化性能相應提升。

我們進一步分析了帶寬數量 對 UniOD 性能的影響。更大的 能夠帶來更少的信息損失,從而提升模型的泛化能力,如圖 4(b) 所示。上述實驗結果與定理的理論分析一致。
結論
本文提出了一種新穎且高效的異常點檢測方法 UniOD。其核心思想是利用歷史數據集訓練一個通用深度模型,從而在無需重新訓練的情況下,對來自不同領域的全新未見數據集進行異常檢測。
通過將每個數據集轉換為圖結構數據并生成維度統一的節點特征,UniOD 使得單一模型即可處理異構數據集成為可能。
我們從理論分析與實證實驗兩方面系統性地驗證了 UniOD 的有效性與高效性。
盡管 UniOD 主要面向傳導式(transductive)異常檢測場景設計,但其同樣可以擴展到歸納式(inductive)異常檢測:即通過將訓練集與每個測試樣本轉換為圖結構數據,并計算其對應的異常分數,從而實現對新樣本的異常判別。
從研究的角度出發,本文提出了異常檢測的新研究方向——通用異常檢測模型或異常檢測基礎模型。從工程與應用的角度出發,UniOD 不需要依賴于專業能力的調參或訓練步驟,可以即插即用,降低了模型的使用門檻。
-
模型
+關注
關注
1文章
3772瀏覽量
52169 -
數據集
+關注
關注
4文章
1238瀏覽量
26226
原文標題:ICLR 2026 | 無需訓練跨界泛化,UniOD用單一模型打通全領域異常檢測
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
使用商用電流檢測變壓器設計一種可抗飽和的電路
基于危險模式的異常檢測模型
基于隱馬爾可夫模型的視頻異常檢測模型
云模型的網絡異常流量檢測
基于Greenshield模型的異常節點檢測機制
一種全新的高光譜數據異常檢測方法
一種可跨不同領域的異常檢測通用模型UniOD介紹
評論