国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Calibration: 一個工業價值極大,學術界卻鮮有研究的問題

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:kid丶 ? 2021-02-14 09:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

319df206-549c-11eb-8b86-12bb97331649.png

盡管深度學習給工業界帶來了一波上線春天,但是總有很多比較難的業務,模型反復迭代后準確率依然達不到預期的產品標準,難以滿足用戶期望。

以下為工業界常見討(si)論(b)場景:

R&D小哥哥一頓調參輸出,RoBERTa都用上了,終于將模型從80%準確率提升到了90%,但是PM小姐姐說,“不行!咱們必須要達到95%準確率才能上線!否則就是對用戶和產品逼格的傷害!”

怎么辦呢?

熟悉工業界上線套路的小伙伴馬上就能給出答案,那就是提高模型決策的閾值!PM小姐姐只是根據產品標準定義了模型準確率(或者說精確率,precision),但是并不在乎召回率有多高(畢竟模型只要沒上線,就相當于召回率為0)。

那么基于上面的思路:假如模型的softmax輸出可靠,比如二分類場景,模型softmax之后1類的輸出是0.92,能表征模型有92%的把握說這是個正例,并且模型的這個把握是精準的,那么PM小姐姐說要達到95%準確率,那我們就瘋狂提高模型的決策閾值就好了,這樣把那些不確定性高的樣本砍掉了,模型準確率自然就上來了。

然而,神經網絡并不一定這么靠譜,你看模型的測試集輸出的話,卻常常發現模型要么以99.999的概率輸出來判定正例,要么0.0001的概率輸出來判定負例,基本沒有樣本落在0.1~0.9區間內。那么這時候上面的思路就失效了。

那么有沒有辦法讓模型的softmax輸出能真實的反映決策的置信度呢?這個問題,就被稱為Calibration問題(直譯是叫“校準”)。

故事要從一篇發表于2017年的ICML頂會論文開始,目前這篇論文引用量1001。

論文標題:

On Calibration of Modern Neural Networks

鏈接:

https://arxiv.org/pdf/1706.04599.pdf

神經網絡的 overconfidence

31f2dc8a-549c-11eb-8b86-12bb97331649.jpg

首先,讓咱們來思考一個普通圖像分類任務。對于一張“koala”的圖像,在經過神經網絡后會得到 logits 輸出 ,經過 softmax 層后得到對各類別的預測的后驗概率,接著我們選擇概率最大的類別( koala)輸出為最后的預測類別。這里,最終的預測類別 ,其對應的置信度為 。在大多情況下,我們只關心類別的預測 有多準,根本不 care 置信度是怎樣的。然而,在一些實際應用場景下,置信度的度量也同樣重要。例如:

3248be66-549c-11eb-8b86-12bb97331649.jpg

如上圖,對于自動駕駛中的目標識別任務,車輛的前方出現了一個人,神經網絡會將其識別成塑料袋,此時輸出的置信度為50%(低于閾值),則可通過其它傳感器進行二次的正確識別(識別為人)。但想想看,若神經網絡對塑料袋預測的置信度為90%會怎樣?再例如:

327d70b6-549c-11eb-8b86-12bb97331649.jpg

使用 Resnet 模型簡單的對一些圖片任務進行訓練,收斂后的模型對測試集的平均置信度高達80%-85%,然而只有將近70%的圖片能被正確分對(紅色代表分錯,綠色代表分對)。這意味著啥?訓練好的模型好像有點盲目自信,即出現overconfidence現象,或者可以稱為模型的準確率和置信度不匹配(miscalibration)。

預期校準誤差(ECE)

直觀的來看,模型的準確率應當和置信度相匹配。一個完美校準的模型可定義成如下所示:

即,模型置信度 等于概率 的條件下模型的預測 為真實標記 的概率同樣也為 。因此,本文提出一個新的度量方式叫做預期校準誤差(Expected Calibrated Error, ECE)來描述模型學習的匹配程度:

很簡單,其實就是將前面那個完美校準模型的等式寫成差的期望的形式。我們將期望進一步展開可得到:

其中:

這里的 代表著一個個根據置信度區間劃分的一個個桶(用來裝樣本的),如下圖所示:

32a8aede-549c-11eb-8b86-12bb97331649.jpg

例如,我們將置信區間平均劃分成5份,然后將樣本按照其置信度挨個送到對應的桶中,分別計算每個桶中的平均置信度和準確率,兩者的差值(Gap)的期望就是所定義的ECE。

讀到這的讀者應該能逐步體會本文想干一件啥事了。本文首先引出這樣一個問題,深度模型在學習過程中出現準確率和置信度的嚴重不匹配問題,接著提出了一個合理的評價指標來描述模型學習的匹配程度,所以接下來,它要提出方法來想辦法最小化期望校準誤差(ECE)。

什么原因導致神經網絡出現準確率與置信度不匹配?

然而ECE是沒辦法直接最小化的,因此本文嘗試著做一些探索性的實驗來觀察啥因素會使得模型的 ECE 變大。本文分別從三個方面上去進行實驗:

32d8c998-549c-11eb-8b86-12bb97331649.jpg

▲網絡復雜度對ECE的影響

網絡復雜度對 ECE 的影響:首先,作者使用兩個模型(LeNet和ResNet)分別對CIFAR-100數據集進行了訓練,準確率分別為55.1%和69.4%,ResNet 在預測性能上完爆LeNet。然而,ResNet 置信度(右圖藍色+紅色部分)的分布和準確率(右圖藍色部分)出現了嚴重的不匹配,導致二者的 Gap (紅色部分)非常大。注意完美校準模型的分布應當是藍色部分剛好和對角線重合,且沒有紅色 Gap 部分。

32f9d5d4-549c-11eb-8b86-12bb97331649.jpg

▲網絡的寬度和深度對ECE的影響

網絡寬度和深度對 ECE 的影響:在得知模型復雜度會影響模型的 ECE 后,作者緊接著做了網絡寬度和深度對模型 ECE 和錯誤率(Error)的影響。可以看到,在控制變量前提下,單方面的增加網絡的深度和寬度均會使得模型的 Error 降低,這是我們所期望的;然而,ECE也會同樣的隨著上升。換句話來說,一昧的增加模型復雜度能有效的提高模型的預測性能,但同樣帶來的問題是模型的 overconfidence 問題愈發嚴重。

333021ac-549c-11eb-8b86-12bb97331649.jpg

▲歸一化和權重衰減對ECE的影響

normalization 和 weight decay 對 ECE 的影響:接著的實驗也是我們為提高模型性能經常使用的 batch normalization 和 loss regularization。左圖:使用 batch normalization 會有效的提升模型的性能,但同時也會提升模型的 ECE。右圖:weight decay 通常用來調節 L2 正則的權重衰減系數,隨著其系數的增加相當于更多的強調模型參數 w 要盡可能的小,能有效的防止模型過擬合。該現象表明,模型越不過擬合,其ECE是越小的,也就是說模型越不會 overconfidence ;換句話說,模型對樣本的擬合程度和對樣本的置信度是息息相關的,擬合得越好,置信度越高,所以 ECE 越大。(個人理解,歡迎評論區指正~)

我們該如何對模型進行校準呢?

335ecf2a-549c-11eb-8b86-12bb97331649.jpg

作者接下來又做了一個很有意思的實驗,在CIFAR-100上訓練模型500個 epoch,其中在第250個 epoch 和第375個 epoch 下調節學習率,觀察測試集上的 test error 和 test NLL 的變化情況。Test NLL 的定義如圖中所示,它其實等價于測試集上的交叉熵。這個實驗啥意思呢?我調節了一下學習率后,測試性能得到了提升,但是測試集上的交叉熵卻出現了過擬合現象(出現了反常的上升現象)。有意思的點來了!有人肯定會 argue 不是說好本文研究的是overconfidence嘛?

即模型的置信度太高而準確率過低,這里對 NLL overfitting 豈不是好事,因為負對數似然上升了等價于模型的置信度的降低了。注意:這里的是對正確類上的置信度,而前面的實驗是對預測類的置信度!其實認真想想,是一個意思,前面之所以 confident 很高的樣本準確率很低,正是因為其在正確類別上的置信度太低導致的!!(這部分卡了很久)

該結果可以表明,模型置信度和準確率的不匹配很大可能的原因來自于模型對 NLL 的過擬合導致的。所以,咋辦呢?最小化 NLL 唄。

3389ee8a-549c-11eb-8b86-12bb97331649.jpg

此時,本文提出在驗證集上對帶 temperature 參數的 softmax 函數進行校準。即我們訓練完模型后,最小化 NLL 來學習 temperature 參數,注意到對該項的優化并不會影響模型預測的準確率,只會對模型的 confidence 進行校準。最終的結果是這樣的,詳細可參考論文。

33b6ee30-549c-11eb-8b86-12bb97331649.jpg

討論

上述得實驗結果我覺得對很多研究領域都是很有啟發意義的。

模型的置信度應當是和準確率匹配的,這樣的模型我覺得才是有意義的,否則以很高置信度進行很離譜的預測錯誤的模型會讓人感覺這個模型好像什么都會、又好像什么都不會。

ECE 的指標是否能反應樣本的一些性質,例如難易程度、是否為噪聲等。

該文章是間接的去優化ECE的,能否有直接優化的形式,或者主動學習里面能否考慮這一點來挑選樣本?

責任編輯:xj

原文標題:Calibration: 一個工業價值極大,學術界卻鮮有研究的問題!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107800
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124400

原文標題:Calibration: 一個工業價值極大,學術界卻鮮有研究的問題!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    資料] 汽車軟件質量躍遷的系統性路徑:基于ISO 26262標準的單元測試體系重構與中日實踐深度對比(2026學術研究報告)

    各位伙伴,請問問題,[資料] 汽車軟件質量躍遷的系統性路徑:基于ISO 26262標準的單元測試體系重構與中日實踐深度對比(2026學術研究報告),這份數據誰有源參考文獻,有酬感謝
    發表于 01-08 10:09

    是德科技RISC-V芯片完整驗證鏈路解決方案

    RISC-V 作為新代開放指令集架構(ISA),已經從學術界的概念研究快速走向全球產業化浪潮。在短短數年內,它從“開源替代方案”成長為全球半導體生態的重要力量,成為 CPU 架構演進中最具活力的選項之
    的頭像 發表于 12-10 09:35 ?630次閱讀
    是德科技RISC-V芯片完整驗證鏈路解決方案

    工業互聯網的重要價值

    工業互聯網作為新代信息通信技術與工業經濟深度融合的新型基礎設施、應用模式和工業生態,其重要價值體現在經濟、產業、社會和技術四
    的頭像 發表于 11-20 09:51 ?383次閱讀

    多模態與智能體:學術界與產業界共話邊緣智能新未來-2025安凱微電子開發者技術論

    2025年10月24日,在“2025安凱微電子開發者技術論壇”(ADF 2025)期間,多位學術界專家與產業界行業資深人士齊聚H大廈多功能廳,圍繞“從多媒體到多模態,從智能硬件到智能體”的核心議題
    的頭像 發表于 10-29 10:15 ?3571次閱讀
    多模態與智能體:<b class='flag-5'>學術界</b>與產業界共話邊緣智能新未來-2025安凱微電子開發者技術論

    工業網關的價值在哪?如何解讀?

    工業網關作為連接工業設備與云端平臺的核心樞紐,其價值體現在技術融合、管理優化、價值創造三維度,通過打破數據孤島、提升系統效率、驅動業務創新
    的頭像 發表于 08-30 14:04 ?909次閱讀

    Secure-IC 將參加中國密碼學會主辦的密碼芯片學術會議-CryptoIC 2025

    CryptoIC是一年一度的重要會議,專注于密碼硬件領域的最新研究和技術進展。它為學術界工業界提供了
    的頭像 發表于 08-15 12:31 ?1003次閱讀
    Secure-IC 將參加中國密碼學會主辦的密碼芯片<b class='flag-5'>學術</b>會議-CryptoIC 2025

    安泰電壓放大器賦能聚合物穩定膽甾相液晶智能窗口研究

    實驗名稱: 膽甾液晶的光學性能,其反射譜、透射譜以及在不同條件下的光學響應研究 研究方向: 可見光透過率可調的mnSmart窗因其易于控制、外觀美觀、顯著提高建筑居民的舒適度而受到學術界工業
    的頭像 發表于 08-14 11:33 ?492次閱讀

    知存科技邀您相約第二十一屆全國容錯計算學術會議

    7月18日至20日,由中國計算機學會主辦的第二十一屆全國容錯計算學術會議(CCF CFTC 2025)將在杭州舉行。作為國內容錯計算領域一年一度的盛會,此次會議匯聚了來自學術界和產業界的眾多精英,知存科技將作為存算
    的頭像 發表于 07-16 15:20 ?1056次閱讀

    小鵬汽車在全球AI頂會展示下代自動駕駛模型

    Driving),與Waymo、英偉達、加利福尼亞大學洛杉磯分校(UCLA)、圖賓根大學(University of Tuebingen)等來自工業界和學術界的自動駕駛同行共同探討業界最新AI技術。
    的頭像 發表于 06-23 09:13 ?1160次閱讀

    工業通信的“月老”:CC\\-Link IE和DeviceNet如何牽起機器人的“紅線”

    工業自動化的“相親角”,耐達訊通信技術CC-Link IE和DeviceNet就像兩位性格迥異的“單身青年”。一個是精通高速數據傳輸的“技術宅”,一個是擅長設備兼容的“社交達人”。誰能想到,在
    發表于 06-12 14:35

    Arm與學術界密切合作培養AI人才

    人工智能 (AI) 的廣泛采用正在重塑全球各行各業,它在帶來空前機遇的同時,也引發了前所未有的挑戰。其中最緊迫的問題之就是技能缺口,這意味著人才在有效整合和運用 AI 技術所需的專業知識方面尚存不足。
    的頭像 發表于 05-28 14:23 ?710次閱讀

    工業通信“黑科技”來襲Modbus轉Profinet,主打 “泰酷辣”

    為Profinet網關設備后,可使現有設備更好地融入未來的工業網絡架構中,為工廠的持續升級和發展奠定基礎 。 簡化網絡管理 在工廠中,可能同時存在多種通信協議的設備。如果Modbus設備和Profinet設備
    發表于 05-19 15:44

    宏微科技亮相2025德國紐倫堡電力電子系統及元器件展覽會

    業界。來自學術界工業界的專家、廠商在這里發布和展示最新的研究成果和產品,內容從半導體、元器件、封裝技術到終端系統,涵蓋整個生態鏈。
    的頭像 發表于 05-13 18:24 ?1102次閱讀

    SOLIDWORKS科研版?面向學術界的解決方案

    學術界提供了套全方面、有效、靈活的計算機輔助設計(CAD)解決方案,助力科研人員突破設計瓶頸,加速科研成果的轉化。 SOLIDWORKS科研版?面向學術界的解決方案 、SOLIDW
    的頭像 發表于 04-16 16:12 ?963次閱讀
    SOLIDWORKS科研版?面向<b class='flag-5'>學術界</b>的解決方案

    NVIDIA攜手合作伙伴成立開放電力AI聯盟

    這個全球性聯盟匯聚了公用事業公司、科技企業、學術界等多方力量,共同構建開放 AI 模型,以變革發電、輸電和用電的方式。
    的頭像 發表于 03-28 10:05 ?1118次閱讀