国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

我們對目前機器學習進展的衡量有多可靠?

jmiy_worldofai ? 來源:未知 ? 作者:胡薇 ? 2018-06-08 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們對機器學習的發展認識,很大程度上取決于少數幾個標準基準,比如CIFAR-10,ImageNet或MuJoCo。

近年來人工智能發展,大的,比如一項又一項“超越人類水平”的進步,以及小的、甚至幾乎每天都在發生的(這要感謝Arxiv),比如在各種論文中不斷被刷新的“state-of-the-art”,無不讓人感嘆領域的蓬勃。

但是,實際情況或許并沒有這么美好。

一項伯克利和MIT合作的新研究,對過去近十年中提出的一些經典分類器(比如VGG和ResNet)進行再測試后發現,由于測試集過擬合,很多分類器的精度實際并沒有宣稱的那么高;在新的數據集上測試結果表明,這些分類器的精度普遍都有下降,幅度4%~10%不等。

研究者表示,這一結果可以被視為證據,證明模型的精度這個數字是不可靠的,并且容易受到數據分布中微小的自然變化的影響。

這項新的研究也提出了一個值得反思的問題——我們目前用來衡量機器學習進展的手段和方法,究竟有多可靠?

重復使用相同的測試集,無法推廣到新數據

作者在論文中寫道,在過去五年里,機器學習已經成為一個實驗領域。在深度學習的推動下,大多數發表的論文都采用了同一種套路,那就是看一種新的方法在幾個關鍵基準上性能有多少提升。換句話說,就是簡單粗暴地對比數值,很少有人去解釋為什么。

而在對比數值的時候,大多數研究的評估都取決于少數幾個標準的基準,例如CIFAR-10、ImageNet或MuJoCo。不僅如此,由于Ground truth的數據分布一般很難得到,所以研究人員只能在單獨的測試集上評估模型的性能。

“現在,在整個算法和模型設計過程中,多次重復使用相同的測試集的做法已經被普遍接受。盡管將新模型與以前的結果進行比較是很自然的想法,但顯然目前的研究方法破壞了分類器獨立于測試集這一關鍵假設?!?/p>

這種不匹配帶來了明顯的危害,因為研究人員可以很容易地設計出只能在特定測試集上運行良好,但實際上無法推廣到新數據的模型。

CIFAR-10可重復性實驗:VGG、ResNet等經典模型精度普遍下降

為了審視這種現象造成的后果,研究人員對CIFAR-10以及相關分類器做了再調查。研究的主要目標是,衡量新進的分類器在泛化到來自相同分布的、未知新數據時能做得多好。

選擇標準CIFAR-10數據集,是因為它透明的創建過程使其特別適合于這個任務。此外,CIFAR-10已經成為近10年來研究的熱點,在調查適應性(adaptivity)是否導致過擬合這個問題上,它是一個很好的測試用例。

在實驗中,研究人員首先用新的、確定是模型沒有見過的大約2000幅圖像,制作了一個新的測試集,并將新測試集的子類分布與原始 CIFAR-10 數據集仔細地做匹配,盡可能保持一致。

然后,在新測試集上評估了30個圖像分類器的性能,包括經典的VGG、ResNet,最近新提出的ResNeXt、PyramidNet、DenseNet,以及在ICLR 2018發布的Shake-Drop,這個Shake-Drop正則化方法結合以前的分類器,取得了目前的state-of-art。

結果如下表所示。原始CIFAR-10測試集和新測試集的模型精度,Gap是兩者精度的差異。ΔRank表示排名的變化,比如“-2”意味著在新測試集中的排名下降了兩個位置。

由結果可知,新測試集上模型的精度相比原始測試集有明顯下降。例如,VGG和ResNet這兩個模型在原始數據集上準確率為93%,而在新測試集上降為了85%左右。此外,作者還表示,他們發現現有測試集上模型的性能相比新測試集更加具有預測性。

對于出現這種結果的原因,作者設定了多個假設并一一進行了討論,除了統計誤差、調參等之外,主要還是過擬合。

作者表示,他們的結果展現了當前機器學習進展令人意外的一面。盡管CIFAR-10測試集已經被不斷適應(adapting)了很多年,但這種趨勢并沒有停滯。表現最好的模型仍然是最近提出的Shake-Shake網絡(Cutout正則化)。而且,在新的測試集置上,Shake-Shake比標準ResNet的優勢從4%增加到8%。這表明,瞄準一個測試集猛攻的研究方法對過擬合而言是十分有效的。

同時,這個結果也對當前分類器的魯棒性提出了質疑。盡管新數據集只做了微小的改變(分布轉移),但現有的被廣泛使用的模型,分類準確性普遍顯著下降。例如,前面提到的VGG和ResNet的精度損失對應于CIFAR-10的多年進展。

作者特別指出,他們的實驗引起的分布轉移(distributional shift)既不是對抗性的(adversarial),也不是不同數據源導致的結果。因此,即使在良性環境中,分布轉移也會帶來嚴峻的挑戰,研究人員需要思考,目前的模型真正能泛化到什么程度。

機器學習研究也需要注意可重復性

Python Machine Learning 一書作者Sebastian Raschka評論這項研究認為,它再次提醒機器學習研究人員注意測試集重復使用(以及違背獨立性)的問題。

谷歌大腦研究科學家、Twitter賬戶hardmaru表示,對機器學習研究進行可靠評估的方法十分重要。他期待見到有關文本和翻譯的類似研究,并查看PTB,wikitext,enwik8,WMT'14 EN-FR,EN-DE等結構如何從相同分布轉移到新的測試集。

不過,hardmaru表示,如果在PTB上得到類似的結果,那么對于深度學習研究界來說實際上是好事,因為在PTB這個小數據集上進行超級優化的典型過程,確實會讓人發現泛化性能更好的新方法。

作者表示,未來實驗應該探索在其他數據集(例如ImageNet)和其他任務(如語言建模)上是否同樣對過擬合具有復原性。此外,我們應該了解哪些自然發生的分布變化對圖像分類器具有挑戰性。

為了真正理解泛化問題,更多的研究應該收集有洞察力的新數據并評估現有算法在這些數據上的性能表現。類似于招募新參與者進行醫學或心理學的可重復性實驗,機器學習研究也需要對模型性能的可重復多做研究。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • MIT
    MIT
    +關注

    關注

    3

    文章

    254

    瀏覽量

    25005
  • 機器學習
    +關注

    關注

    66

    文章

    8554

    瀏覽量

    136996

原文標題:十年機器學習結果不可靠?伯克利&MIT研究質疑了30個經典模型

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是智能體強化學習
    的頭像 發表于 01-21 16:21 ?201次閱讀
    <b class='flag-5'>多</b>智能體強化<b class='flag-5'>學習</b>(MARL)核心概念與算法概覽

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要
    的頭像 發表于 01-07 15:37 ?211次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    Progress-Think框架賦能機器人首次實現語義進展推理

    在視覺語言導航(VLN)中,機器人長期缺乏一種關鍵能力:它能持續前進,卻無法判斷自己的任務推進到了哪一步。導航在空間中不斷展開,畫面節節推進,但模型并不知道自己在自然語言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認為,引入語義
    的頭像 發表于 12-03 09:27 ?358次閱讀
    Progress-Think框架賦能<b class='flag-5'>機器</b>人首次實現語義<b class='flag-5'>進展</b>推理

    應用光譜數字圖像區分苗期作物與雜草的研究進展

    處理與機器學習算法,為自動化、智能化的雜草管理提供了新思路。本文綜述該技術的研究現狀、核心方法、挑戰及未來發展方向。 技術原理與方法 1. 光譜成像技術 光譜成像(Multispe
    的頭像 發表于 10-21 15:25 ?370次閱讀

    光譜圖像顏色特征用于茶葉分類的研究進展

    光譜成像技術結合顏色特征分析為茶葉分類提供了高效、非破壞性的解決方案。本文系統綜述了該技術的原理、方法、應用案例及挑戰,探討了其在茶葉品質分級、品種識別和產地溯源中的研究進展,并展望了未來發展方向
    的頭像 發表于 10-17 17:09 ?606次閱讀
    <b class='flag-5'>多</b>光譜圖像顏色特征用于茶葉分類的研究<b class='flag-5'>進展</b>

    上海光機所在波長同步皮秒光纖激光器方面取得進展

    圖1 實驗裝置示意圖 近期,中國科學院上海光學精密機械研究所空天激光技術與系統部周佳琦研究員團隊,在波長同步皮秒光纖激光器方面取得進展。相關成果以“Synchronized
    的頭像 發表于 09-22 09:21 ?482次閱讀
    上海光機所在<b class='flag-5'>多</b>波長同步皮秒光纖激光器方面取得<b class='flag-5'>進展</b>

    集成摩川磁性編碼器的伺服電機與機器人關節設計創新

    起著決定性作用。今天,我們就來聊聊集成摩川磁性編碼器的伺服電機與機器人關節的設計創新,這可是機器人領域里的一項大突破!
    的頭像 發表于 08-28 18:23 ?787次閱讀

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發展,傳統的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規模數據和復雜模型的需求。FPGA(現場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發表于 07-16 15:34 ?2908次閱讀

    通過NVIDIA Cosmos模型增強機器人學習

    通用機器人的時代已經到來,這得益于機械電子技術和機器人 AI 基礎模型的進步。但目前機器人技術的發展仍面臨一個關鍵挑戰:機器人需要大量的訓練數據來掌握諸如組裝和檢查之類的技能,而手動演
    的頭像 發表于 07-14 11:49 ?1103次閱讀
    通過NVIDIA Cosmos模型增強<b class='flag-5'>機器人學習</b>

    聽得見、想得通、做得到:移遠通信攜手逐際動力,發布Robrain AI機器人解決方案

    在具身智能加速進化、機器人邁向自主交互的關鍵階段,“自主決策”能力與“模態感知”敏銳度,已成為衡量機器人智能化與商業價值的核心標尺。 移遠通信依托其在人工智能領域的深厚積淀與前沿研發
    發表于 06-19 10:28 ?1647次閱讀
    聽得見、想得通、做得到:移遠通信攜手逐際動力,發布Robrain AI<b class='flag-5'>機器</b>人解決方案

    機器學習賦能的智能光子學器件系統研究與應用

    騰訊會議---六月直播 1.機器學習賦能的智能光子學器件系統研究與應用 2.COMSOL聲學物理場仿真技術與應用 3.超表面逆向設計及前沿應用(從基礎入門到論文復現) 4.智能光學計算成像技術
    的頭像 發表于 06-04 17:59 ?649次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>賦能的智能光子學器件系統研究與應用

    【「# ROS 2智能機器人開發實踐」閱讀體驗】視覺實現的基礎算法的應用

    閱讀心得體會:ROS2機器人視覺與地圖構建技術 通過對本書第7章(ROS2視覺應用)和第8章(ROS2地圖構建)的學習,我對機器人視覺感知和自主導航的核心技術了更深入的理解。以下是我
    發表于 05-03 19:41

    機器人主控芯片平臺哪些 機器人主控芯片一文搞懂

    AI芯片在人形機器人中的應用越來越廣泛。這些AI芯片專門設計用于執行人工智能算法,如深度學習、機器學習等。
    的頭像 發表于 04-25 16:26 ?7686次閱讀
    <b class='flag-5'>機器</b>人主控芯片平臺<b class='flag-5'>有</b>哪些  <b class='flag-5'>機器</b>人主控芯片一文搞懂

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節,今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發表于 04-01 00:00

    ?從ISO到UL:捷邦如何確保高端PCB的高可靠性?

    在電子制造領域,高端PCB(印刷電路板)的質量直接決定了產品的性能和可靠性。為了確保PCB的高可靠性和高性能,國際認證標準成為了衡量PCB質量的重要依據。作為全球領先的PCB制造商,捷
    的頭像 發表于 03-20 15:40 ?968次閱讀