国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SparseViT:以非語義為中心、參數高效的稀疏化視覺Transformer

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2025-01-15 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景簡介

隨著圖像編輯工具和圖像生成技術的快速發展,圖像處理變得非常方便。然而圖像在經過處理后不可避免的會留下偽影(操作痕跡),這些偽影可分為語義和非語義特征。因此目前幾乎所有的圖像篡改檢測模型(IML)都遵循“語義分割主干網絡”與“精心制作的手工制作非語義特征提取”相結合的設計,這種方法嚴重限制了模型在未知場景的偽影提取能力。

b60b7928-d0b2-11ef-9310-92fbcf53809c.png

論文標題: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer

作者單位:

四川大學(呂建成團隊),澳門大學

論文鏈接:

https://arxiv.org/abs/2412.14598

代碼鏈接:

https://github.com/scu-zjz/SparseViT

研究內容

利用非語義信息往往在局部和全局之間保持一致性,同時相較于語義信息在圖像不同區域表現出更大的獨立性,SparseViT 提出了以稀疏自注意力為核心的架構,取代傳統 Vision Transformer(ViT)的全局自注意力機制,通過稀疏計算模式,使得模型自適應提取圖像篡改檢測中的非語義特征。

研究團隊在統一的評估協議下復現并對比多個現有的最先進方法,系統驗證了 SparseViT 的優越性。同時,框架采用模塊化設計,用戶可以靈活定制或擴展模型的核心模塊,并通過可學習的多尺度監督機制增強模型對多種場景的泛化能力。

此外,SparseViT 極大地降低了計算量(最高減少 80% 的 FLOPs),實現了參數效率與性能的兼顧,展現了其在多基準數據集上的卓越表現。SparseViT 有望為圖像篡改檢測領域的理論與應用研究提供新視角,為后續研究奠定基礎。

SparseViT 總體架構的設計概覽圖如下所示:

b633e8ae-d0b2-11ef-9310-92fbcf53809c.png

▲ 圖1:SparseViT 總體架構

主要的組件包含:

1. 負責高效特征捕獲的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心組件,專注于在減少計算復雜度的同時高效捕獲篡改圖像中的關鍵特征即非語義特征。傳統的自注意力機制由于 patch 進行 token-to-token 的注意力計算,導致模型對語義信息過度擬合,使得非語義信息在受到篡改后表現出的局部不一致性被忽視。 為此,Sparse Self-Attention 提出了基于稀疏編碼的自注意力機制,如圖 2 所示,通過對輸入特征圖施加稀疏性約束,設輸入的特征圖 ,我們不是對 的整個特征上應用注意力,而是將特征分成形狀為的張量塊,表示將特征圖分解為 個大小為的不重疊的張量塊,分別在這些張量塊上進行自注意力計算。

b6460c3c-d0b2-11ef-9310-92fbcf53809c.png

▲ 圖2:稀疏自注意力

這一機制通過對特征圖進行區域劃分,使模型在訓練中專注于非語義特征的提取,提升了對圖像篡改偽影的捕捉能力。相比傳統自注意力,Sparse Self-Attention 減少了約 80% 的 FLOPs,同時保留了高效的特征捕獲能力,特別是在復雜場景中表現卓越。模塊化的實現方式還允許用戶根據需求對稀疏策略進行調整,從而滿足不同任務的需求。

2. 負責多尺度特征融合的 Learnable Feature Fusion(LFF)

Learnable Feature Fusion(LFF)是 SparseViT 中的重要模塊,旨在通過多尺度特征融合機制提高模型的泛化能力和對復雜場景的適應性。不同于傳統的固定規則特征融合方法,LFF 模塊通過引入可學習參數,動態調整不同尺度特征的重要性,從而增強了模型對圖像篡改偽影的敏感度。

LFF 通過從稀疏自注意力模塊輸出的多尺度特征中學習特定的融合權重,優先強化與篡改相關的低頻特征,同時保留語義信息較強的高頻特征。模塊設計充分考慮了 IML 任務的多樣化需求,既能針對微弱的非語義偽影進行細粒度處理,又能適應大尺度的全局特征提取。

LFF 的引入顯著提升了 SparseViT 在跨場景、多樣化數據集上的性能,同時減少了無關特征對模型的干擾,為進一步優化 IML 模型性能提供了靈活的解決方案。

研究總結

簡而言之,SparseViT 具有以下四個貢獻:

1. 我們揭示了篡改圖像的語義特征需要連續的局部交互來構建全局語義,而非語義特征由于其局部獨立性,可以通過稀疏編碼實現全局交互。

2. 基于語義和非語義特征的不同行為,我們提出使用稀疏自注意機制自適應地從圖像中提取非語義特征。

3. 為了解決傳統多尺度融合方法的不可學習性,我們引入了一種可學習的多尺度監督機制。

4. 我們提出的 SparseViT 在不依賴手工特征提取器的情況下保持了參數效率,并在四個公共數據集上實現了最先進的(SoTA)性能和出色的模型泛化能力。

SparseViT 通過利用語義特征和非語義特征之間的差異性,使模型能夠自適應地提取在圖像篡改定位中更為關鍵的非語義特征,為篡改區域的精準定位提供了全新的研究思路。

相關代碼和操作文檔、使用教程已完全開源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。該代碼有著完善的更新計劃,倉庫將被長期維護,歡迎全球研究者使用和提出改進意見。

SparseViT 的主要科研成員來自四川大學呂建成團隊,合作方為澳門大學潘治文教授團隊。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42325
  • IML
    IML
    +關注

    關注

    0

    文章

    14

    瀏覽量

    11733
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6937

原文標題:AAAI 2025 | SparseViT:以非語義為中心、參數高效的稀疏化視覺Transformer

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer 入門:從零理解 AI 大模型的核心原理

    /值,用搜索引擎來理解 多頭注意力 多個專家從不同角度分析 MLP 對每個詞進行深度加工 溫度 控制輸出的隨機程度 GPT-2 參數量計算 GPT-2 (small) 例: ini 體驗AI
    發表于 02-10 16:33

    MUN12AD05-SMFL:隔離DC/DC電源模塊的國產替代新選擇

    MUN12AD05-SMFL:隔離DC/DC電源模塊的國產替代新選擇在當前芯片國產替代加速的背景下,MUN12AD05-SMFL作為Cyntec(乾坤)推出的一款高效
    發表于 01-22 10:04

    機器視覺系統關鍵硬件之一-工業相機(Dalsa例)

    機器視覺系統的硬件之一工業相機的原理及主要參數
    的頭像 發表于 01-15 17:31 ?199次閱讀
    機器<b class='flag-5'>視覺</b>系統關鍵硬件之一-工業相機(<b class='flag-5'>以</b>Dalsa<b class='flag-5'>為</b>例)

    炎核開源開放平臺上架推出OpenSparseBlas高性能稀疏計算庫

    。該庫極致性能為核心,支持多種數據類型,提供便捷的API調用,旨在為專業計算場景提供穩定、高效稀疏運算支撐。
    的頭像 發表于 12-15 15:18 ?630次閱讀

    數據中心配電房智能設計:高效穩定

    配電房正從傳統“被動維護”模式向“主動智能”模式轉型,數據中心提供更安全、更高效的電力支撐。智能監控系統:全維度狀態感知智能配電房的核心在于構建實時監測網絡。
    的頭像 發表于 12-12 09:18 ?240次閱讀
    數據<b class='flag-5'>中心</b>配電房智能<b class='flag-5'>化</b>設計:<b class='flag-5'>高效</b>穩定

    思奧特智能機器視覺光源:筆,繪就工業檢測新圖景

    專業的研發團隊與豐富的行業經驗,打造出多款高性能機器視覺光源產品,工業檢測領域注入了新的活力。 一、技術突破:媒,破解檢測難題 思奧特智能機器
    的頭像 發表于 11-21 09:16 ?323次閱讀
    思奧特智能機器<b class='flag-5'>視覺</b>光源:<b class='flag-5'>以</b>光<b class='flag-5'>為</b>筆,繪就工業檢測新圖景

    自動駕駛中如何將稀疏地圖與視覺SLAM相結合?

    [首發于智駕最前沿微信公眾號]在自動駕駛場景中,稀疏地圖通常是由一系列關鍵幀和若干三維稀疏特征點構成的地圖,每個特征點包含三維坐標和描述外觀的描述子;而視覺SLAM是運行在車輛上的實時算法,它一邊
    的頭像 發表于 10-28 09:07 ?682次閱讀
    自動駕駛中如何將<b class='flag-5'>稀疏</b>地圖與<b class='flag-5'>視覺</b>SLAM相結合?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    Transformer視覺Transformer模型。 ViTA是一種高效數據流AI加速器,用于在邊緣設備上部署計算密集型視覺
    發表于 09-12 17:30

    iTOF技術,多樣的3D視覺應用

    and 應用場景, 飛行時間 (TOF) 傳感器三大三大三維傳感技術中,在不同領域的功能和商業場景的實現越來越多。它們用于各種專業應用,最終用戶提供高效、安全的環境并節省勞動力
    發表于 09-05 07:24

    睿海光電高效交付與廣泛兼容助力AI數據中心800G光模塊升級

    400G/800G光模塊已實現規模量產,并基于AI工廠與AI云的核心需求進行深度優化: 速率突破:采用PAM4調制技術,單通道速率達100Gbps,整模塊實現800Gbps傳輸能力,GPU集群的高效協同
    發表于 08-13 19:01

    小型數據中心晶振選型關鍵參數全解

    小型數據中心的定義與應用 小型數據中心通常是中小型企業、邊緣計算、物聯網(IoT)設備及其他特定業務需求提供計算、存儲和網絡服務的設施。與大型數據中心相比,小型數據
    發表于 06-11 13:37

    【「# ROS 2智能機器人開發實踐」閱讀體驗】視覺實現的基礎算法的應用

    的Cartographer以其高效的子地圖管理和回環檢測能力著稱。書中通過實例演示了如何配置Cartographer的Lua參數文件,適應不同場景。 在真實機器人測試中,運動噪聲(如輪子打滑)可能導致建圖漂移,因此需要
    發表于 05-03 19:41

    融媒體IP新標桿:千視助力武威市融媒體中心打造全新遺直播體驗

    遺文化的獨特風采,更是融媒體IP轉型的標桿案例,傳統文化的音視頻傳播開辟了全新路徑。1大規模遺直播的挑戰隨著遺直播活動的蓬勃發展,直播場地的擴大和信號數量
    的頭像 發表于 03-11 19:58 ?818次閱讀
    融媒體IP<b class='flag-5'>化</b>新標桿:千視助力武威市融媒體<b class='flag-5'>中心</b>打造全新<b class='flag-5'>非</b>遺直播體驗

    OpenVINO? Toolkit中如何保持模型稀疏性?

    OpenVINO? Toolkit 中支持的優化方法,保持模型稀疏性。
    發表于 03-06 06:47

    華為發布AI中心的網絡解決方案

    在MWC25巴塞羅那期間舉辦的產品與解決方案發布會上,華為董事、ICT BG CEO楊超斌發布了AI中心的網絡解決方案(AI-Centric Network)。
    的頭像 發表于 03-05 10:02 ?1153次閱讀