国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

計算機視覺的損失函數是什么?

汽車玩家 ? 來源: AI公園 ? 作者:Sowmya Yellapragad ? 2020-03-13 16:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

損失函數在模型的性能中起著關鍵作用。選擇正確的損失函數可以幫助你的模型學習如何將注意力集中在數據中的正確特征集合上,從而獲得最優和更快的收斂。

計算機視覺的損失函數是什么?

計算機視覺是計算機科學的一個領域,主要研究從數字圖像中自動提取信息。

在過去的十年中,在深度學習方面的創新,大量數據的方便獲取以及GPU的使用已經將計算機視覺領域推到了聚光燈下。它甚至開始在一些任務中實現“超人”的性能,比如人臉識別和手寫文本識別。(事實上,如今登機的自動人臉驗證已經變得越來越普遍了。)

近年來,我們在網絡架構、激活函數、損失函數等計算機視覺領域看到了許多創新。

損失函數在模型的性能中起著關鍵作用。選擇正確的損失函數可以幫助你的模型學習如何將注意力集中在數據中的正確特征集合上,從而獲得最優和更快的收斂。

這篇文章的主要目的是總結一些重要的損失函數在計算機視覺中的使用。

你可以在這里:https://github.com/sowmyay/medium/blob/master/CV-LossFunctions.ipynb找到這里討論的所有損失函數的PyTorch實現。

Pixel-wise損失函數

顧名思義,這種損失函數計算預測圖像和目標圖像的像素間損失。損失函數,如MSE或L2損失、MAE或L1損失、交叉熵損失等,大部分都可以應用于在目標變量的每一對像素之間進行預測。

由于這些損失函數分別對每個像素向量的類預測進行評估,然后對所有像素進行平均,因此它們斷言圖像中的每個像素都具有相同的學習能力。這在圖像的語義分割中特別有用,因為模型需要學習像素級的密集預測。

在U-Net等模型中也使用了這些損失函數的變體,在用于圖像分割時采用加權的像素級交叉熵損失來處理類間不平衡問題。

類不平衡是像素級分類任務中常見的問題。當圖像數據中的各種類不平衡時,就會出現這種情況。由于像素方面的損失是所有像素損失的平均值,因此訓練會被分布最多的類來主導。

Perceptual損失函數

Johnson et al (2016),Perceptual損失函數用于比較看起來相似的兩個不同的圖像,就像相同的照片,但移動了一個像素或相同的圖像使用了不同的分辨率。在這種情況下,雖然圖像非常相似,pixel-wise損失函數將輸出一個大的誤差值。而Perceptual損失函數比較圖像之間的高級感知和語義差異。

考慮一個圖像分類網絡如VGG,已經在ImageNet的數以百萬計的圖像數據集上訓練過,第一層的網絡往往提取底層的特征(如線,邊緣或顏色漸變)而最后的卷積層應對更復雜的概念(如特定的形狀和模式)。根據Johnson等人的觀點,這些在前幾層捕獲的低層次特征對于比較非常相似的圖像非常有用。

例如,假設你構建了一個網絡來從輸入圖像重構一個超分辨圖像。在訓練期間,你的目標圖像將是輸入圖像的超分辨率版本。你的目標是比較網絡的輸出圖像和目標圖像。為此,我們將這些圖像通過一個預先訓練好的VGG網絡傳遞,并提取VGG中前幾個塊的輸出值,從而提取圖像的底層特征信息。這些低級的特征張量可以通過簡單的像素級損失來進行比較。

計算機視覺的損失函數是什么?

用于圖像分類的預訓練的損失網絡

Perceptual損失的數學表示

計算機視覺的損失函數是什么?

其中,V_j(Y)表示VGG網絡第j層在處理圖像Y時的激活情況,其形狀為(C_j, H_j, W_j)。我們使用L2損失的平方,根據圖像的形狀歸一化,比較了ground truth圖像Y和預測圖像Y^的激活情況。

如果你想使用VGG網絡的多個特征映射作為你的損失計算的一部分,只需為多個j添加L_j值。

內容-風格損失函數—神經網絡風格轉換

風格轉換是將圖像的語義內容轉換成不同風格的過程。風格轉換模型的目標是,給定一個內容圖像(C)和一個風格圖像(S),生成包含C的內容和S的風格的輸出圖像。

在這里,我們將討論content-style損失函數的最簡單實現之一,該函數用于訓練這種風格的轉換模型。后來的研究中使用了許多內容-風格損失函數的變體。下一節將討論一個這樣的損失函數,稱為“紋理損失”。

內容/風格損失的數學表示

已經發現,CNNs在較高的層次上捕獲內容的信息,而較低的層次更關注單個像素值。

因此,我們使用一個或多個CNN頂層,計算原始內容圖像(C)和預測輸出(P) 的激活圖。

計算機視覺的損失函數是什么?

同樣,通過計算預測圖像(P)和風格圖像(S)的下一級特征圖的L2距離,可以計算出風格損失,得到的損失函數定義為:

計算機視覺的損失函數是什么?

alpha和beta是超參數。

注意:只有減少樣式和內容損失的優化會導致高像素化和噪聲輸出。為了解決這個問題,我們引入了total variation loss來保證生成的圖像的空間連續性和平滑性。

紋理損失

Gatys et al (2016)首次引入的用于圖像風格轉換的風格損失組件。紋理損失是一種引入的損失函數,是對感知損失的改進,特別適用于捕獲圖像的風格。Gatys et al發現,我們可以通過查看激活或特征圖(來自VGG網絡)內的值的空間相關性來提取圖像的風格表示。這是通過計算Gram矩陣來實現的:

計算機視覺的損失函數是什么?

Gram矩陣(對于VGG網絡的l層)是向量化特征映射F_i和F_j(在l層)的內積,它捕捉了特征在圖像不同部分同時出現的趨勢。

紋理損失的數學表示

計算機視覺的損失函數是什么?

這里,G^l^和A^l^分別是模型輸出的l層和目標圖像的l層的風格樣式表示。N~l~是層l中不同特征映射的數量,M~l~是層l(i)中特征映射的容量(也就是通道的寬和高)。最后,E~l~是圖層l的紋理損失。

網絡的紋理損失是所有紋理損失的加權和,表示為:

計算機視覺的損失函數是什么?

這里a是原始圖像,x是預測圖像。

注意:雖然這里的數學看起來有點復雜,但請理解紋理損失只是應用在特征圖的gram矩陣上的感知損失。

拓撲感知損失函數

Mosinska等人(2017)介紹了最近文獻中另一個有趣的損失函數,即拓撲感知損耗函數。這可以被認為是感知損失的延伸,應用于分割mask預測。

Mosinska等人認為,在圖像分割問題中使用的像素級損失,如交叉熵損失,只依賴于局部測度,而不考慮拓撲結構的特征,如連接組件或孔的數量。因此,傳統的分割模型如U-Net往往會對薄的結構進行錯誤的分類。這是因為對薄層像素的錯誤分類在像素損失方面的代價很低。作為對像素損失的改進,他們建議引入一個懲罰項,該懲罰項基于VGG-19網絡生成的特征圖(類似于感知損失),以考慮拓撲信息。

(c)使用像素級丟失檢測神經元膜后獲得的分割,(d)利用拓撲損耗檢測細胞膜后得到的分割

這種方法在從衛星圖像中進行道路分割時也特別有用,例如,樹木的遮擋。

拓撲感知損失的數學表示

計算機視覺的損失函數是什么?

這里,在RHS上,l(m,n)表示VGG19網絡第n層的第m個feature map。Mu是衡量像素損失和拓撲損失相對重要性的標量。

對比損失/三元組損失

計算機視覺的損失函數是什么?

Triplet loss是由Florian Schroff等人在FaceNet(2015)中提出的,其目的是在有限的小數據集(如辦公室中的人臉識別系統)上構建一個人臉識別系統。傳統的CNN人臉識別架構在這種情況下總是失敗。

Florian Schroff et al關注的事實是,在人臉識別的小樣本空間中,我們不僅要正確識別匹配的人臉,還要準確區分兩個不同的人臉。為了解決這個問題,FaceNet的論文引入了一個名為“Siamese網絡”的概念。

在Siamese網絡中,我們通過網絡傳遞一個圖像A,并將其轉換成一個更小的表示,稱為嵌入。現在,在不更新網絡的任何權值或偏差的情況下,我們對不同的圖像B重復這個過程并提取其嵌入。如果圖像B與圖像A中的人是同一個人,那么它們相應的嵌入必須非常相似。如果它們屬于不同的人,那么它們相應的嵌入一定是非常不同的。

重申一下,Siamese網絡的目標是確保一個特定的人的圖像(錨點)與同一個人的所有其他圖像(positive)的距離要比與任何其他人的圖像(negative)的距離更近。

為了訓練這樣一個網絡,他們引入了三元組損失函數。考慮一個三元組:[anchor, positive, negative] 。

三元組損失定義為:
1. 定義距離度量d=L2范數
2. 計算anchor圖像與positive圖像的嵌入距離=d(a, p)
3. 計算anchor圖像嵌入到negative圖像的距離=d(a, n)
4. 三元組損失= d(a, p) - d(a, n) + offset

三元組的數學表示

計算機視覺的損失函數是什么?

這里, x^a^ -> anchor, x^p^ -> positive,x^n^ -> negative

注:為了快速收斂,必須選取正確的三元組進行損失計算。FaceNet的論文討論了實現這一目標的兩種方法——離線三元組生成和在線三元組生成。關于這個話題的詳細討論我們將留到以后討論。

GAN損失

由Ian Goodfellow等人(https://arxiv.org/abs/1406.2661)(2014)首先提出的生成式對抗網絡是目前最流行的圖像生成任務解決方案。GANs的靈感來自博弈論,并使用一個對抗的方案,使它可以用無監督的方式訓練。

GANs可以被看作是一個兩個人的游戲,我們讓生成器(比如產生一個超分辨率的圖像)與另一個網絡 —— 判別器進行較量。判別器的任務是評估一個圖像是來自原始數據集(真實圖像)還是來自另一個網絡(假圖像)。判別器模型像任何其他深度學習神經網絡一樣k可以被更新,生成器使用判別器作為損失函數,這意味著生成器的損失函數是隱式的,是在訓練過程中學習的。對于典型的機器學習模型,收斂可以看作是在訓練數據集上讓所選損失函數最小化。在GAN中,收斂標志著雙人博弈的結束,是尋求生成器和判別器損失之間的平衡。

對于GAN來說,生成器和判別器是兩個參與者,它們輪流更新各自的模型權值。在這里,我們將總結一些用于GAN網絡的損失函數

1. Min-Max損失函數

計算機視覺的損失函數是什么?

然而,在實踐中發現,這種生成器的損失函數會飽和。也就是說,如果它不能像判別器學習得那么快,判別器贏了,游戲就結束了,模型就不能得到有效的訓練。

2. 不飽和的GAN損失

不飽和GAN損失是一種改進的生成器損失,以克服飽和的問題,使用了一個微妙的變化。該生成器不是最小化所生成圖像的負判別器概率的對數,而是最大化所生成圖像的判別器概率的對數。

計算機視覺的損失函數是什么?

3. 最小均方GAN損失

由Xudong Mao, et al (2016)提出,當生成的圖像與真實圖像非常不同時,這種損失函數特別有用,因為此時會導致梯度非常小或梯度消失,進而導致模型很少或沒有更新。

計算機視覺的損失函數是什么?

4. Wasserstein GAN損失

Martin Arjovsky等人(2017)。他們觀察到,傳統GAN的目的是最小化真實圖像和生成圖像的實際概率分布和預測概率分布之間的距離,即所謂的Kullback-Leibler (KL)散度。相反,他們建議在Earth-Mover’s distance上對問題進行建模,該模型根據將一個分布轉換成另一個分布的成本來計算兩個概率分布之間的距離。

使用Wasserstein損失的GAN涉及到將判別器的概念改變為一個更改評估器,比生成器模型更新得更頻繁(例如,更新頻率是生成器模型的五倍)。評估器用實際的數字而不是預測概率來給圖像打分。它還要求模型的權重保持較小。該得分的計算使得真假圖像的得分之間的距離最大程度地分離。Wasserstein的損失的好處是,它提供了一個有用幾乎無處不在的梯度,允許模型的繼續訓練。

計算機視覺的損失函數是什么?

5. 循環一致性損失

圖像到圖像的轉換是一個圖像合成的任務,需要對給定的圖像進行有控制的修改,生成一個新的圖像。例如,把馬轉換成斑馬(或反過來),把繪畫轉換成照片(或反過來),等等。

juno - yan Zhu et al (2018)介紹。訓練用于圖像到圖像轉換的模型通常需要大量成對的樣本數據集,這些樣本很難找到。CycleGAN是一種不需要配對實例的自動訓練技術。這些模型以一種無監督的方式進行訓練,使用來自源和目標域的圖像集合,這些圖像不需要以任何方式關聯。

CycleGAN是GAN體系結構的擴展,它同時訓練兩個生成器模型和兩個判別器模型。一個生成器從第一個域獲取圖像作為第二個域的輸入和輸出圖像,另一個生成器從第二個域獲取圖像作為輸入并生成第一個域的圖像。然后使用判別器模型來確定生成的圖像是否可信,并相應地更新生成器模型。

循環一致性是指第一個生成器輸出的圖像可以用作第二個生成器的輸入,而第二個生成器的輸出應該與原始圖像匹配。反之亦然。

CycleGAN通過增加額外的損失來測量第二個生成器生成的輸出與原始圖像之間的差異,從而趨向于循環一致性。該損失作為正則化項用于生成模型,指導新領域的圖像生成過程向圖像轉換方向發展。

計算機視覺的損失函數是什么?

計算機視覺的損失函數是什么?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135432
  • 計算機視覺
    +關注

    關注

    9

    文章

    1715

    瀏覽量

    47625
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    上海計算機視覺企業行學術沙龍走進西井科技

    12月5日,由中國圖象圖形學學會青年工作委員會(下簡稱“青工委”)、上海市計算機學會計算機視覺專委會(下簡稱“專委會”)聯合主辦,上海西井科技股份有限公司、江蘇路街道商會承辦的“上海計算機
    的頭像 發表于 12-16 15:39 ?579次閱讀

    使用代理式AI激活傳統計算機視覺系統的三種方法

    當前的計算機視覺系統擅長于識別物理空間與流程中的事件,卻難以詮釋場景細節及其意義,也無法推理后續可能發生的情況。
    的頭像 發表于 12-01 09:44 ?635次閱讀

    工控機與普通計算機的核心差異解析

    在工業自動化和智能制造領域,計算機設備作為核心控制單元,其選擇直接影響整個系統的穩定性與可靠性。工控機與普通計算機雖同屬計算設備,但其設計目標、性能側重和應用場景存在根本性差異。準確理解這些差異,是進行正確設備選型的基礎。
    的頭像 發表于 11-25 14:45 ?1781次閱讀
    工控機與普通<b class='flag-5'>計算機</b>的核心差異解析

    STM32計算機視覺開發套件:B-CAMS-IMX攝像頭模塊技術解析

    STMicroelectronics用于 STM32開發板的B-CAMS-IMX攝像頭模塊提供強大的硬件集,可處理多種計算機視覺場景和用例。該模塊具有高分辨率500萬像素IMX335LQN
    的頭像 發表于 10-20 09:46 ?1263次閱讀
    STM32<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>開發套件:B-CAMS-IMX攝像頭模塊技術解析

    【作品合集】賽昉科技VisionFive 2單板計算機開發板測評

    賽昉科技VisionFive 2單板計算機開發板測評作品合集 產品介紹: 昉·星光 2是全球首款集成了3D GPU的高性能量產RISC-V單板計算機,搭載昉·驚鴻-7110(型號:JH-7110
    發表于 09-04 09:08

    易控智駕榮獲計算機視覺頂會CVPR 2025認可

    近日,2025年國際計算機視覺與模式識別頂級會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美國田納西州納什維爾召開。
    的頭像 發表于 07-29 16:54 ?1209次閱讀

    工業計算機的重要性

    工業計算機對某些行業至關重要。我們將在下面詳細解釋這些行業中的工業計算機應用。1.制造與工業自動化工業級計算機非常適合制造工廠,特別是那些想要自動化裝配過程的工廠。在這樣的環境中,工業計算機
    的頭像 發表于 07-28 16:07 ?563次閱讀
    工業<b class='flag-5'>計算機</b>的重要性

    自動化計算機經過加固后有什么好處?

    讓我們討論一下部署堅固的自動化計算機的一些好處。1.溫度范圍寬自動化計算機經過工程設計,配備了支持寬溫度范圍的組件,使自動化計算解決方案能夠在各種不同的極端環境中運行。自動化計算機能夠
    的頭像 發表于 07-21 16:44 ?616次閱讀
    自動化<b class='flag-5'>計算機</b>經過加固后有什么好處?

    自動化計算機的功能與用途

    工業自動化是指利用自動化計算機來控制工業環境中的流程、機器人和機械,以制造產品或其部件。工業自動化的目的是提高生產率、增加靈活性,并提升制造過程的質量。工業自動化在汽車制造中體現得最為明顯,其中許多
    的頭像 發表于 07-15 16:32 ?742次閱讀
    自動化<b class='flag-5'>計算機</b>的功能與用途

    工業計算機與商用計算機的區別有哪些

    工業計算機是一種專為工廠和工業環境設計的計算系統,具有高可靠性和穩定性,能夠應對惡劣環境下的自動化、制造和機器人操作。其特點包括無風扇散熱技術、無電纜連接和防塵防水設計,使其在各種工業自動化場景中
    的頭像 發表于 07-10 16:36 ?740次閱讀
    工業<b class='flag-5'>計算機</b>與商用<b class='flag-5'>計算機</b>的區別有哪些

    利用邊緣計算和工業計算機實現智能視頻分析

    IVA的好處、實際部署應用程序以及工業計算機如何實現這些解決方案。一、什么是智能視頻分析(IVA)?智能視頻分析(IVA)集成了復雜的計算機視覺,通常與卷積神經網
    的頭像 發表于 05-16 14:37 ?832次閱讀
    利用邊緣<b class='flag-5'>計算</b>和工業<b class='flag-5'>計算機</b>實現智能視頻分析

    一文帶你了解工業計算機尺寸

    工業計算機是現代自動化、人工智能(AI)和邊緣計算的支柱。這些堅固耐用的系統旨在承受惡劣的環境,同時為關鍵應用提供可靠的性能。然而,由于有這么多可用的外形尺寸,為您的工業計算機選擇合適的尺寸可能是
    的頭像 發表于 04-24 13:35 ?1033次閱讀
    一文帶你了解工業<b class='flag-5'>計算機</b>尺寸

    計算機網絡入門指南

    計算機網絡是指將地理位置不同且具有獨立功能的多臺計算機及其外部設備,通過通信線路連接起來,在網絡操作系統、網絡管理軟件及網絡通信協議的管理和協調下,實現資源共享和信息傳遞的計算機系統。
    的頭像 發表于 04-22 14:29 ?2243次閱讀
    <b class='flag-5'>計算機</b>網絡入門指南

    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對計算機視覺的支持

    計算機視覺的支持,擴大了當前對音頻、雷達和其他時間序列信號數據的支持范圍。在增加這項支持后,該平臺將能夠用于開發低功耗、低內存的邊緣AI視覺模型。這將給諸多應用領域的機器學習開發人員帶來極大的便利,例如工廠可以借此實現對零件的
    的頭像 發表于 03-11 15:11 ?813次閱讀
    英飛凌邊緣AI平臺通過Ultralytics YOLO模型增加對<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的支持