国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NeurIPS 2023 | 如何從理論上研究生成式數據增強的效果?

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-11-05 20:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

論文鏈接:https://arxiv.org/abs/2305.17476

代碼鏈接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式數據擴增通過條件生成模型生成新樣本來擴展數據集,從而提高各種學習任務的分類性能。然而,很少有人從理論上研究生成數據增強的效果。為了填補這一空白,我們在這種非獨立同分布環境下構建了基于穩定性的通用泛化誤差界。基于通用的泛化界,我們進一步了探究了高斯混合模型和生成對抗網絡的學習情況。

在這兩種情況下,我們證明了,雖然生成式數據增強并不能享受更快的學習率,但當訓練集較小時,它可以在一個常數的水平上提高學習保證,這在發生過擬合時是非常重要的。最后,高斯混合模型的仿真結果和生成式對抗網絡的實驗結果都支持我們的理論結論。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理論結果

2.1 符號與定義

作為數據輸入空間, 作為標簽空間。定義 上的真實分布。給定集合 ,我們定義 為去掉第 個數據后剩下的集合, 為把第 個數據換成 后的集合。我們用 表示 total variation distance。

我們讓 為所有從 的所有可測函數, 為學習算法從數據集 中學到的映射。對于一個學到的映射 和損失函真實誤差 被定義相應的經驗的誤差 被定義

我們文章理論推導采用的是穩定性框架,我們稱算法 相對于損失函數 是一致 穩定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式數據增強

給定帶有 個 i.i.d. 樣本的 數據集,我們能訓練一個條件生成模型 ,并將學到的分布定義為 。基于訓練得到的條件生成模型,我們能生成一個新的具有 個 i.i.d. 樣本的數據集 。我們記增廣后的數據集 大小為 。我們可以在增廣后的數據集上學到映射 。為了理解生成式數據增強,我們關心泛化誤差 。據我們所知,這是第一個理解生成式數據增強泛化誤差的工作。

2.3 一般情況

我們可以對于任意的生成器和一致 穩定的分類器,推得如下的泛化誤差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般來說,我們比較關心泛化誤差界關于樣本數 的收斂率。將 看成超參數,并將后面兩項記為 generalization error w.r.t. mixed distribution,我們可以定義如下的“最有效的增強數量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在這個設置下,并和沒有數據增強的情況進行對比(),我們可以得到如下的充分條件,它刻畫了生成式數據增強何時(不)能夠促進下游分類任務,這和生成模型學習分的能力息息相關:

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型為了驗證我們理論的正確性,我們先考慮了一個簡單的高斯混合模型的 setting。 混合高斯分布。我們考慮二分類任務 。我們假設真實分布滿足 and 。我們假設 的分布是已知的。 線性分類器。我們考慮一個被 參數化的分類器,預測函數為 。給定訓練集, 通過最小化負對數似然損失函數得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

學習算法將會推得 ,which satisfies 條件生成模型。我們考慮參數為 的條件生成模型,其中 以及 。給定訓練集,讓 為第 類的樣本量,條件生成模型學到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它們是 的無偏估計。我們可以從這個條件模型中進行采樣,即 ,其中 我們在高斯混合模型的場景下具體計算 Theorem 3.1 中的各個項,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 當數據量 足夠時,即使我們采用“最有效的增強數量”,生成式數據增強也難以提高下游任務的分類性能。
  2. 當數據量 較小的,此時主導泛化誤差的是維度等其他項,此時進行生成式數據增強可以常數級降低泛化誤差,這意味著在過擬合的場景下,生成式數據增強是很有必要的。

2.5 生成對抗網絡

我們也考慮了深度學習的情況。我們假設生成模型為 MLP 生成對抗網絡,分類器為 層 MLP 或者 CNN。損失函數為二元交叉熵,優化算法為 SGD。我們假設損失函數平滑,并且第 層的神經網絡參數可以被 控制。我們可以推得如下的結論:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 當數據量 足夠時,生成式數據增強也難以提高下游任務的分類性能,甚至會惡化。
  2. 當數據量 較小的,此時主導泛化誤差的是維度等其他項,此時進行生成式數據增強可以常數級降低泛化誤差,同樣地,這意味著在過擬合的場景下,生成式數據增強是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

實驗

3.1 高斯混合模型模擬實驗

我們在混合高斯分布上驗證我們的理論,我們調整數據量 ,數據維度 以及 。實驗結果如下圖所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 觀察圖(a),我們可以發現當 相對于 足夠大的時候,生成式數據增強的引入并不能明顯改變泛化誤差。
  2. 觀察圖(d),我們可以發現當 固定時,真實的泛化誤差確實是 階的,且隨著增強數量 的增大,泛化誤差呈現常數級的降低。
  3. 另外 4 張圖,我們選取了兩種情況,驗證了我們的 bound 能在趨勢上一定程度上預測泛化誤差。
這些結果支持了我們理論的正確性。3.2 深度生成模型實驗我們使用 ResNet 作為分類器,cDCGAN、StyleGANv2-ADA 和 EDM 作為深度生成模型,在 CIFAR-10 數據集上進行了實驗。實驗結果如下所示。由于訓練集上訓練誤差都接近 0,所以測試集上的錯誤率是泛化誤差的一個比較好的估計。我們利用是否做額外的數據增強(翻轉等)來近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在沒有額外數據增強的時候, 較小,分類器陷入了嚴重的過擬合。此時,即使選取的 cDCGAN 很古早(bad GAN),生成式數據增強都能帶來明顯的提升。
  2. 在有額外數據增強的時候, 充足。此時,即使選取的 StyleGAN 很先進(SOTA GAN),生成式數據增強都難以帶來明顯的提升,在 50k 和 100k 增強的情況下甚至都造成了一致的損害。
  3. 我們也測試了一個 SOTA 的擴散模型 EDM,發現即使在有額外數據增強的時候,生成式數據增強也能提升分類效果。這意味著擴散模型學習分布的能力可能會優于 GAN。


原文標題:NeurIPS 2023 | 如何從理論上研究生成式數據增強的效果?

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2945

    文章

    47820

    瀏覽量

    415051

原文標題:NeurIPS 2023 | 如何從理論上研究生成式數據增強的效果?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    生成AI賦能工程師挖掘非結構化數據價值

    您是否知道,生成 AI(GenAI)可以幫助工程師在幾秒鐘內診斷汽車故障,甚至在設備出現問題之前預測潛在失效?GenAI 正在通過加速數據分析和算法開發,讓這些場景設想走向現實,使
    的頭像 發表于 02-28 10:24 ?426次閱讀

    RAG(檢索增強生成)原理與實踐

    引言 在大語言模型(LLM)蓬勃發展的今天,如何讓AI更準確地回答特定領域的問題成為了一個關鍵挑戰。RAG(Retrieval-Augmented Generation,檢索增強生成)技術應運而生
    發表于 02-11 12:46

    芯華章助力2025中國研究生創“芯”大賽EDA精英挑戰賽圓滿舉辦

    作為深化產教融合的重要載體,中國研究生創 “芯” 大賽?EDA 精英挑戰賽為校企協同育人機制創新提供了關鍵平臺。
    的頭像 發表于 12-19 09:38 ?397次閱讀
    芯華章助力2025中國<b class='flag-5'>研究生</b>創“芯”大賽EDA精英挑戰賽圓滿舉辦

    2026年NVIDIA研究生獎學金名單公布

    25 年來,NVIDIA 研究生獎學金計劃致力于為在與 NVIDIA 技術相關的前沿領域開展研究的碩博研究生提供支持。近日,該計劃公布了最新一批獎學金授予結果:10 位博士生脫穎而出,每人將獲得最高 6 萬美元的資助,他們的
    的頭像 發表于 12-13 09:44 ?1053次閱讀

    普華基礎軟件走進清華大學研究生課堂

    近日,普華基礎軟件走進清華大學車輛與運載學院,在《車輛控制工程》課堂上開展研究生專題授課和交流。本次授課聚焦智能駕駛汽車基礎軟件發展與關鍵技術,旨在搭建校企知識傳遞橋梁,為高校學子帶來產業前沿視角,助力培養符合行業需求的復合型人才。
    的頭像 發表于 11-26 15:53 ?394次閱讀

    openDACS 2025 開源EDA與芯片賽項 賽題七:基于大模型的生成原理圖設計

    、分布式數據庫;(2)人工智能領域:AI加速芯片及人工智能軟件框架規劃;(3)CAD&CG領域:幾何建模、網格生成、結構優化、計算圖分割&分布批處理,2D梯度約簡
    發表于 11-13 11:49

    不只有AI協作編程(Vibe Coding):生成系統級芯片(GenSoC)將如何把生成設計推向硬件層面

    但是否能將這種生成的、目標驅動的方法軟件層向下延伸呢?這一理念是否可以直接應用于硬件本身呢?通過GenSoC,開發者可用自然語言或高級模型描述系統行為,XMOS的工具鏈將自動生成
    的頭像 發表于 11-07 14:04 ?537次閱讀

    新思科技連續八年助力中國研究生創“芯”大賽

    作為中國研究生創 “芯” 大賽的創始合作方,新思科技始終秉持初心,連續八年全力支持這一賽事,致力于為中國本土集成電路設計領域培育后備力量,以實際行動推動產業人才生態建設。
    的頭像 發表于 08-15 15:40 ?1039次閱讀

    Cadence連續八年助力中國研究生創“芯”大賽

    中國研究生創“芯”大賽是中國研究生創新實踐系列賽事之一,是一項面向全國高等院校和科研院所在讀研究生的團體性集成電路設計創意實踐活動。大賽以“創芯、選星、育芯”為宗旨,配合國家集成電路產業發展戰略,切實提高
    的頭像 發表于 08-06 15:05 ?1291次閱讀

    NVIDIA recsys-examples在生成推薦系統中的高效實踐

    生成 AI 浪潮的推動下,推薦系統領域正經歷深刻變革。傳統的深度學習推薦模型 (DLRMs) 雖已展現出一定效果,但在捕捉用戶興趣偏好和動態行為序列變化時,常面臨可擴展性挑戰。生成
    的頭像 發表于 07-04 14:43 ?1136次閱讀
    NVIDIA recsys-examples在<b class='flag-5'>生成</b><b class='flag-5'>式</b>推薦系統中的高效實踐

    Gartner報告看Atlassian在生成AI領域的創新路徑與實踐價值

    Atlassian入選Gartner 2025生成AI技術"新興領導者"!其核心AI產品Rovo依托Teamwork Graph,支持團隊知識庫中提取情境化的個性答案與洞察
    的頭像 發表于 06-05 15:59 ?1142次閱讀
    <b class='flag-5'>從</b>Gartner報告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI領域的創新路徑與實踐價值

    利用LT8361做一個將30V輸入轉為-70V或-80V或-90V輸出,它可以在理論上實現嗎?

    您好,我想咨詢一個問題,我看LT8361手冊里寫的他是100V的開關,這個100V是指輸出電壓至地還是指 輸出電壓至輸入,即我想利用LT8361做一個將30V輸入轉為-70V或-80V或-90V輸出,它可以在理論上實現嗎? 期待您的回復,感謝!
    發表于 04-18 07:57

    IBM如何基于SAP平臺和數據推動生成AI的成功應用

    “近日,IBM 商業價值研究院(IBV)與 SAP 研究洞察中心聯合開展了一項大規模調研,覆蓋全球 1200余位全球企業高管,其中 200位來自大中華區,以深入洞察組織如何基于 SAP 平臺和數據推動
    的頭像 發表于 04-17 10:20 ?1001次閱讀

    浙江大學與大華股份共建研究生聯合培育基地

    近日,浙江大學研究生產教融合人才培養工作會議在杭州召開,會上舉行了校級聯合培養基地授牌儀式暨行業導師聘書頒發儀式,大華股份作為校級聯合培養基地代表參會,標志著“浙江大學-大華股份研究生聯合培養基地”正式成立。
    的頭像 發表于 03-27 15:34 ?820次閱讀

    ?Diffusion生成動作引擎技術解析

    開發、虛擬現實、影視動畫和機器人控制等領域具有廣泛應用前景。以下是其核心原理、技術實現和應用方向的詳細解析: 一、核心原理 擴散模型基礎 Diffusion模型通過逐步添加噪聲破壞數據(正向過程),再學習逆向去噪過程(逆向過程),最終隨機噪聲中
    的頭像 發表于 03-17 15:14 ?3058次閱讀