国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何解決樣本不均的問題?

深度學習自然語言處理 ? 來源:煉丹筆記 ? 作者:時晴 ? 2021-05-26 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

樣本不均的問題大家已經很常見了,我們總是能看到某一個類目的數量遠高于其他類目,舉個例子,曝光轉化數遠低于曝光未轉化數。樣本不均嚴重影響了模型的效果,甚至影響到我們對模型好壞的判斷,因為模型對占比比較高的類目準確率非常高,對占比很低的類目預估的偏差特別大,但是由于占比較高的類目對loss/metric影響較大,我們會認為得到了一個較優的模型。比如像是異常檢測問題,我們直接返回沒有異常,也能得到一個很高的準確率。

重采樣

這個是目前使用頻率最高的方式,可以對“多數”樣本降采樣,也可以對“少數”樣本過采樣,如下圖所示:

cf82abcc-bd58-11eb-9e57-12bb97331649.png

重采樣的缺點也比較明顯,過采樣對少數樣本“過度捕撈”,降采樣會丟失大量信息。

重采樣的方案也有很多,最簡單的就是隨機過采樣/降采樣,使得各個類別的數量大致相同。還有一些復雜的采樣方式,比如先對樣本聚類,在需要降采樣的樣本上,按類別進行降采樣,這樣能丟失較少的信息。過采樣的話,可以不用簡單的copy,可以加一點點“噪聲”,生成更多的樣本。

Tomek links

Tomek連接指的是在空間上“最近”的樣本,但是是不同類別的樣本。刪除這些pair中,占大多數類別的樣本。通過這種降采樣方式,有利于分類模型的學習,如下圖所示:

cf95388c-bd58-11eb-9e57-12bb97331649.png

SMOTE

這個方法可以給少數樣本做擴充,SMOTE在樣本空間中少數樣本隨機挑選一個樣本,計算k個鄰近的樣本,在這些樣本之間插入一些樣本做擴充,反復這個過程,知道樣本均衡,如下圖所示:

cfa3f39a-bd58-11eb-9e57-12bb97331649.png

NearMiss

這是個降采樣的方法,通過距離計算,刪除掉一些無用的點。

NearMiss-1:在多數類樣本中選擇與最近的3個少數類樣本的平均距離最小的樣本。

NearMiss-2:在多數類樣本中選擇與最遠的3個少數類樣本的平均距離最小的樣本。

NearMiss-3:對于每個少數類樣本,選擇離它最近的給定數量的多數類樣本。

NearMiss-1考慮的是與最近的3個少數類樣本的平均距離,是局部的;NearMiss-2考慮的是與最遠的3個少數類樣本的平均距離,是全局的。NearMiss-1方法得到的多數類樣本分布也是“不均衡”的,它傾向于在比較集中的少數類附近找到更多的多數類樣本,而在孤立的(或者說是離群的)少數類附近找到更少的多數類樣本,原因是NearMiss-1方法考慮的局部性質和平均距離。NearMiss-3方法則會使得每一個少數類樣本附近都有足夠多的多數類樣本,顯然這會使得模型的精確度高、召回率低。

評估指標

為了避免對模型的誤判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標。

懲罰項

對少數樣本預測錯誤增大懲罰,是一個比較直接的方式。

使用多種算法

模型融合不止能提升效果,也能解決樣本不均的問題,經驗上,樹模型對樣本不均的解決幫助很大,特別是隨機森林,Random Forest,XGB,LGB等。因為樹模型作用方式類似于if/else,所以迫使模型對少數樣本也非常重視。

正確的使用K-fold

當我們對樣本過采樣時,對過采樣的樣本使用k-fold,那么模型會過擬合我們過采樣的樣本,所以交叉驗證要在過采樣前做。在過采樣過程中,應當增加些隨機性,避免過擬合。

使用多種重采樣的訓練集

這種方法可以使用更多的數據獲得一個泛化性較強的模型。用所有的少數樣本,和多種采樣的多數樣本,構建多個模型得到多個模型做融合,可以取得不錯的效果。

重采樣使用不同rate

這個方法和上面的方法很類似,嘗試使用各種不同的采樣率,訓練不同的模型。

沒有什么解決樣本不均最好的方法,以上內容也沒有枚舉出所有的解決方案,最好的方案就是嘗試使用各種方案。

原文標題:對“樣本不均衡”一頓操作

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265299
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099
  • 深度學習
    +關注

    關注

    73

    文章

    5598

    瀏覽量

    124396

原文標題:對"樣本不均衡"一頓操作

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    登臨科技成功獲選人工智能賽道樣本企業

    近日,中央廣播電視總臺首屆《直通未來年度盛典》在央視財經頻道播出。盛典以“未來的產業 產業的未來”為主題,展示未來產業樣本,分享新興技術產業化模式,描繪中國經濟發展新圖景。
    的頭像 發表于 02-26 15:59 ?680次閱讀

    電機轉子磁場不均勻的原因有哪些?

    電機轉子是電機的核心部件,其負責將電能轉化為機械能,實現電動機的工作。在電機轉子的運轉過程中,磁場是其較為關鍵的因素之一。然而,由于各種因素的影響,轉子磁場不均勻已成為電機運行中的高頻問題,若未及
    的頭像 發表于 12-30 08:46 ?376次閱讀

    TDK 2022樣本套件中的NTC熱敏電阻:工業溫度測量的理想之選

    TDK 2022樣本套件中的NTC熱敏電阻:工業溫度測量的理想之選 作為電子工程師,在工業應用的溫度測量設計中,選擇合適的NTC熱敏電阻至關重要。TDK推出的2022樣本套件中的NTC熱敏電阻,為
    的頭像 發表于 12-26 14:40 ?279次閱讀

    TDK PTC熱敏電阻:低壓應用加熱元件樣本套件解析

    TDK PTC熱敏電阻:低壓應用加熱元件樣本套件解析 在電子設備的設計中,加熱元件的選擇至關重要,尤其是在低壓應用場景下。今天我們來詳細了解一下TDK的PTC熱敏電阻加熱元件樣本套件,它為低壓
    的頭像 發表于 12-25 16:55 ?705次閱讀

    無線傾角傳感器在貨架監測中應對長期載荷不均導致的隱性形變

    直川科技無線傾角傳感器以高精度傳感、長期數據追蹤與智能預警算法,將載荷不均導致的隱性形變轉化為可量化的風險指標。其價值在于通過持續監測替代被動響應,幫助企業從源頭上規避因緩慢形變引發的結構性風險,為倉儲安全提供前瞻性保障。
    的頭像 發表于 12-09 09:19 ?665次閱讀
    無線傾角傳感器在貨架監測中應對長期載荷<b class='flag-5'>不均</b>導致的隱性形變

    經世智能復合機器人,助力實驗室檢測樣本上下料,提升實驗效率

    在生命科學、醫藥研發、環境監測等前沿領域的實驗室中,樣本檢測的準確性與時效性直接關系到實驗成果的產出效率。然而,傳統人工進行檢測樣本上下料時,常面臨“樣本種類繁雜易混淆、微量樣本操作誤
    的頭像 發表于 11-18 13:43 ?1788次閱讀
    經世智能復合機器人,助力實驗室檢測<b class='flag-5'>樣本</b>上下料,提升實驗效率

    【新啟航】碳化硅襯底 TTV 厚度不均勻性測量的特殊采樣策略

    摘要 本文聚焦碳化硅襯底 TTV 厚度不均勻性測量需求,分析常規采樣策略的局限性,從不均勻性特征分析、采樣點布局優化、采樣頻率確定等方面提出特殊采樣策略,旨在提升測量效率與準確性,為碳化硅襯底
    的頭像 發表于 08-28 14:03 ?668次閱讀
    【新啟航】碳化硅襯底 TTV 厚度<b class='flag-5'>不均</b>勻性測量的特殊采樣策略

    碳化硅襯底 TTV 厚度不均勻性測量的特殊采樣策略

    摘要 本文聚焦碳化硅襯底 TTV 厚度不均勻性測量需求,分析常規采樣策略的局限性,從不均勻性特征分析、采樣點布局優化、采樣頻率確定等方面提出特殊采樣策略,旨在提升測量效率與準確性,為碳化硅襯底
    的頭像 發表于 08-27 14:28 ?1140次閱讀
    碳化硅襯底 TTV 厚度<b class='flag-5'>不均</b>勻性測量的特殊采樣策略

    智慧實驗室行業|復合機器人樣本轉運及上下料解決方案

    經世智能復合機器人在智慧實驗室行業主要應用于實驗樣本自動化轉運、高通量實驗流程銜接、危險物料與廢棄物處理等環節,通過“AGV移動底盤+協作機械臂+視覺系統”一體化控制方案實現高效自動化作業。機器人
    的頭像 發表于 08-14 09:40 ?1223次閱讀
    智慧實驗室行業|復合機器人<b class='flag-5'>樣本</b>轉運及上下料解決方案

    太陽光模擬器丨輻照不均勻度的定義和標準

    在材料光電性能表征、新能源器件研發及空間環境模擬等前沿領域,太陽光模擬器已成為模擬真實光照環境的核心工具。輻照不均勻度作為衡量太陽光模擬器性能的關鍵指標,直接影響測試結果的準確性與可靠性。本文將結合
    的頭像 發表于 07-24 10:23 ?755次閱讀
    太陽光模擬器丨輻照<b class='flag-5'>不均</b>勻度的定義和標準

    三防漆涂覆不均勻怎么解決

    三防漆涂覆不均勻是常見問題,主要表現為局部堆積、邊緣漏涂、元器件周圍厚薄不一,直接影響防護效果。這種問題并非單純因操作不當,而是漆料、設備、基材等多環節協同作用的結果,針對性解決才能讓涂層均勻致密
    的頭像 發表于 07-18 17:04 ?822次閱讀
    三防漆涂覆<b class='flag-5'>不均</b>勻怎么解決

    嵌入式AI技術漫談:怎么為訓練AI模型采集樣本數據

    Q 需要為嵌入式AI模型提供多少樣本數據? 我在向客戶介紹如何使用AI方法設計一款客戶產品時,客戶理解,AI嵌入式項目的開發都是圍繞數據展開的,如此,我經常會被問到這樣的問題:客戶的工程師需要采集
    的頭像 發表于 06-11 16:30 ?1371次閱讀

    西門子伺服電機簡明樣本

    西門子伺服電機簡明樣本
    發表于 04-14 15:36 ?2次下載

    當RFID技術遇上液氮罐——看如何解決“找管難”問題?

    傳統液氮罐的存取過程需手動進行,存在樣品管直接暴露在環境溫度下的情況。樣本暴露時間、暴露期的溫度變化曲線無法監控和追溯;在取出選定樣品管時往往連帶其他樣本暴露在環境溫度下,長期的反復存取過程使其
    的頭像 發表于 03-21 18:03 ?566次閱讀
    當RFID技術遇上液氮罐——看如<b class='flag-5'>何解</b>決“找管難”問題?

    請問是否有任何OpenVINO?樣本可以推斷批次大小大于1的檢測模型?

    是否有任何OpenVINO?樣本可以推斷批次大小大于 1 的檢測模型?
    發表于 03-06 07:19