7777久久香蕉成人影院,亚洲一区二区三区精品漫画,亚洲乱色熟一区二区三

論文鏈接：https://arxiv.org/abs/2305.10299

代碼鏈接1：

https://github.com/caiyuanhao1998/BiSCI

代碼鏈接2：

https://github.com/caiyuanhao1998/MST

▲ 圖1 BiSRNet 與當前最先進的二值網(wǎng)絡(luò)的性能對比

目前所有的代碼，預(yù)訓(xùn)練模型和測試結(jié)果均已開源在我們開發(fā)的一個二值化光譜壓縮重建工具包 BiSCI 內(nèi)，該工具包支持八類最主要的二值網(wǎng)絡(luò)，歡迎大家來使用。同時，我們還將 BiSRNet 嵌入到了我們之前開發(fā)的光譜重建工具箱 MST 當中。目前 MST 工具包已支持超過 12 類深度學(xué)習算法，并包含各種配套的可視化函數(shù)，歡迎大家來對比。

光譜壓縮重建任務(wù)介紹

相比于常規(guī)的三通道 RGB 圖像，高光譜圖像包含幾十上百個波段，從而捕獲了關(guān)于成像場景更豐富的信息。也正因為這一重要特性，高光譜圖像被廣泛地應(yīng)用于醫(yī)療，地形勘探，農(nóng)業(yè)等領(lǐng)域。如圖 2 所示，在醫(yī)院進行檢查時，如果只看常規(guī)的 RGB 圖像可能很難診斷病因，但是如果采用高光譜圖像捕獲并在特定波長下渲染的話，就可以看清楚各類血管，骨骼結(jié)構(gòu)等，從而輔助醫(yī)生診斷。同樣的原理也可應(yīng)用在遙感地形勘探和農(nóng)業(yè)病蟲害檢測。

▲圖2 高光譜圖像的應(yīng)用

然而高光譜圖像并容易獲取，傳統(tǒng)的成像設(shè)備采用光譜儀對成像場景進行逐波段的掃描，費時費力，難以捕捉運動場景。近些年，科學(xué)家們專門設(shè)計了單曝光壓縮成像（Snapshot Compressive Imaging，SCI）系統(tǒng)來解決這一問題。其光路結(jié)構(gòu)如圖 3 所示。

該系統(tǒng)首先通過一個編碼孔徑掩膜對成像場景的各光譜通道進行調(diào)制，然后通過一個三棱鏡進行色散后在相機上捕獲到一個二維的快照估計圖（compressive measurement）。通過這個光路系統(tǒng)，我們便可將三維的光譜立方塊壓縮成一個二維的圖像。而光譜壓縮重建的任務(wù)便是從這個二維的壓縮估計圖上恢復(fù)出三維的高光譜數(shù)據(jù)。

▲圖3 單曝光壓縮成像系統(tǒng)

當前的主流方法是采用的是全精度模型如 CNN 或者 Transformer 來學(xué)一個從壓縮估計圖到三維光譜立方塊的映射。幾個比較經(jīng)典算法有我們之前的工作 MST，MST++，CST，DAUHST，HDNet 等（這些方法全部都開源在我們的工具箱 MST 當中）。

這類方法雖然取得了很好的重建效果，但卻難以部署到移動端設(shè)備（如智能手機、相機、無人機等）上，因為移動端設(shè)備的內(nèi)存空間，計算資源和電力均有限，無法運轉(zhuǎn)全精度模型。另一方面，全精度模型的一些計算單元如深度展開算子和多頭自注意力機制等相對復(fù)雜，移動端設(shè)備無法支持。為了推動光譜重建算法的實際應(yīng)用，本文做了如下貢獻：

（1）提出了光譜壓縮重建領(lǐng)域內(nèi)首個基于二值神經(jīng)網(wǎng)絡(luò)（Binarized Neural Network，BNN）的算法——二值化光譜重分布網(wǎng)絡(luò)（Binarized Spectral-Redistribution Network，BiSRNet）。

（2）設(shè)計了一個新的二值化卷積單元——二值化光譜重分布卷積（Binarized Spectral-Redistribution Convolution，BiSR-Conv）。該卷積單元可以調(diào)整光譜表征的強度和分布，同時在反向傳播中更好地逼近二值化符號（Sign）函數(shù)，從而讓求得的梯度更加準確。

（3）制作了四個二值化卷積模塊來解決特征圖形變過程中的維度不匹配問題，從而讓全精度信息能流通整個模型的每一層卷積單元以彌補二值卷積造成的信息損失。

（4）我們的 BiSRNet 顯著地超越了當前最先進的二值化算法，甚至取得了能與全精度 CNN 比肩的效果，然而我們的 BiSRNet 算法卻只需要極低的存儲空間（約 0.06 %）和計算代價（約 1 %）。

本文方法

2.1 基礎(chǔ)模型

一般來說，用于二值化的全精度模型應(yīng)該是比較輕量的且它的計算單元可以再移動端設(shè)備上運行。然而，現(xiàn)存的 CNN 或 Transformer 模型均不滿足這一要求。為此，我們重新設(shè)計了一個簡單，輕量，易于部署的基礎(chǔ)模型（Base Model）。

受到之前工作 MST，MST++，CST，DAUHST 的啟發(fā)，我們設(shè)計的基礎(chǔ)模型也采用一個 U 形結(jié)構(gòu)，如圖 4 所示。

▲圖4 基礎(chǔ)模型的網(wǎng)絡(luò)結(jié)構(gòu)

在這個基礎(chǔ)模型中，采用的所有計算單元都可以被移動端設(shè)備支持，同時也不涉及計算復(fù)雜度高的操作。

2.2 二值化光譜重分布卷積單元

二值化光譜重分布卷積的細節(jié)如圖 4（c）所示。將輸入的全精度激活信號記為。我們注意到，受到特定成像波長的限制，高光譜信號沿著光譜維度有著不同的強度與分布。為了適應(yīng)光譜圖像的這一特性，我們提議在二值化激活之前，按通道對高光譜圖像表示進行重分布：

其中的表示重分布后的激活。和表示可學(xué)習參數(shù)。然后經(jīng)過一個符號函數(shù)后被量化到 1 位的激活：

如圖 5（b）和（c）所示，由于符號函數(shù)是不可導(dǎo)的，之前的方法大都采用一個分段線性函數(shù) Clip（x）或者二次函數(shù) Quad（x）來在反向傳播中擬合符號函數(shù)。

▲圖 5 符號函數(shù)與各類逼近函數(shù)的對比圖

Clip（x）與 Quad（x）的具體表達式如下：

然而分段線性函數(shù)知識一個粗略的估計，它與符號函數(shù)之間依舊有著很大的誤差。圖 5 中的陰影部分面積就表示這個誤差的大小，Clip（x）的誤差是 1。此外，一旦激活或者權(quán)重的值落在了 [-1,1] 之外，他們就不會再被更新。盡管分段二次函數(shù)是一個更精確的逼近（誤差為 2/3），上述的兩個問題依舊存在。為此，我們設(shè)計了一個可縮放的雙曲正切函數(shù)來在反向傳播中擬合符號函數(shù)：

其中是一個可學(xué)習的參數(shù)，自適應(yīng)地調(diào)整 Tanh（）與 Sign（）之間的距離。我們證明當時，Tanh（）→ Sign（）如下：

我們仿照之前的二值化算法，定義：。然后我們可以得到：

我們計算圖 5（d）中的陰影面積：

由此可見，當足夠大時，Tanh（）可以任意地逼近 Sign（）。同時，我們的 Tanh（）既不是分段函數(shù)，也不會因為 x 落在 [-1,1] 之外而無法更新。

更進一步，我們比較三個逼近函數(shù)的一階導(dǎo)數(shù)。如圖 5 下邊一行所示，與的取值范圍均為，這與有著本質(zhì)的區(qū)別。而我們的可以通過改變參數(shù) 來調(diào)整它的取值范圍和形狀，從而更加靈活地逼近。

在二值化卷積層當中，32 位的權(quán)重也被二值化到一位的權(quán)重：

其中的表示取均值。由此，計算繁重的全精度卷積操作便可由純邏輯異或非運算（XNOR）與位計數(shù)（bit-count）操作替換如下：

因為全精度信息的取值范圍與二值卷積的輸出差別較大，直接引入殘差連接將兩者相加容易導(dǎo)致的信息被淹沒掉，所以先采用一個 RPReLU 激活函數(shù)來重塑的取值范圍：

然后再引入殘差鏈接：

通過我們的設(shè)計，全精度信息流就不會被二值卷積給阻斷，從而能夠順暢地流過我們設(shè)計的 BiSR-Conv 單元，如圖 4 (c) 中的紅色箭頭所示。

▲圖6 本文卷積二值卷積塊與普通二值卷積塊在處理特征圖維度變化時的對比

全精度信息流在二值化算法中非常重要，因為它在一定程度上彌補了量化導(dǎo)致的信息損失。然而在特征圖的上下采樣過程中，由于維度發(fā)生了變化，難以直接引入殘差鏈接以補充全精度信息，如圖 6 中每個子圖的左半部分所示。藍色箭頭表示二值信號，紅色箭頭表示全精度信息流。普通的二值卷積模塊會在特征度維度改變的同時阻斷全精度信息流的傳遞。然而我們的二值卷積模塊通過采用分割合并的技巧，讓全精度信息流不被阻斷，從而在整個二值模型中流通。

實驗結(jié)果

3.1 量化指標

▲表1 BiSRNet 與 SOTA BNN，傳統(tǒng)方法，全精度CNN方法的量化指標對比表 1 展示了我們的 BiSRNet 與 SOTA BNN，傳統(tǒng)方法，全精度 CNN 方法的量化指標對比。可以看到，我們的 BiSRNet 顯著超越了當前最先進的 BNN 算法 BTM 2.55 dB。同時超越了所有的 64 位傳統(tǒng)算法，增幅超過了 4.49 dB。值得注意的是，我們的 BiSRNet 取得了能與全精度 CNN 方法比肩的性能，比如超過了 1.23 dB，然而卻只占用了 0.06 % 的存儲空間和 1 % 計算代價。

3.2 視覺對比

▲圖7 BiSRNet 與其他 BNN 方法在仿真數(shù)據(jù)及上的視覺對比

▲??圖8 BiSRNet 與其他 BNN 方法在真實數(shù)據(jù)集上的視覺對比

總結(jié)

本文首次探索了壓縮量化在光譜壓縮重建領(lǐng)域的應(yīng)用，提出了該領(lǐng)域首個二值化卷積神經(jīng)網(wǎng)絡(luò) BiSRNet，在量化指標和視覺結(jié)果上都顯著地超越了當前最先進的二值化模型。代碼，預(yù)訓(xùn)練權(quán)重，重建結(jié)果均開源在：https://github.com/caiyuanhao1998/BiSCI ·

原文標題：NeurIPS 2023 | 清華ETH提出首個二值化光譜重建算法

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴