国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

吳恩達:一個機器學習團隊80%的工作應該放在數據準備上

新機器視覺 ? 來源:新智元 ? 作者:新智元 ? 2021-04-18 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】模型好就能碾壓一切嗎?吳恩達潑冷水,機器學習發展80%依靠數據集的進步!這也激起了業內對MLOps工具鏈的關注。

機器學習的進步是模型帶來的還是數據帶來的,這可能是一個世紀辯題。 吳恩達對此的想法是,一個機器學習團隊80%的工作應該放在數據準備上,確保數據質量是最重要的工作,每個人都知道應該如此做,但沒人在乎。如果更多地強調以數據為中心而不是以模型為中心,那么機器學習的發展會更快。

當去arxiv上查找機器學習相關的研究時,所有模型都在圍繞基準測試展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,這些模型僅解決了業務問題的20%,在業務場景中取得更好的效果需要更好的數據。 傳統軟件由代碼提供動力,而AI系統是同時使用代碼(模型+算法)和數據構建的。以前的工作方式是,當模型效果不理想,我們就會去修改模型,而沒有想過可能是數據的問題。 機器學習的進步一直是由提高基準數據集性能的努力所推動的。研究人員的常見做法是在嘗試改進代碼的同時保持數據固定,以模型改進為中心對模型性能的提升實際上效率是很低的。但是,當數據集大小適中(<10,000個示例)時,則需要在代碼上進行嘗試改進。 ?

8da3fe6e-9fbb-11eb-8b86-12bb97331649.png

根據劍橋研究人員所做的一項研究,最重要但仍經常被忽略的問題是數據的格式不統一。當數據從不同的源流式傳輸時,這些源可能具有不同的架構,不同的約定及其存儲和訪問數據的方式。對于機器學習工程師來說,這是一個繁瑣的過程,需要將信息組合成適合機器學習的單個數據集。 小數據的劣勢在于少量的噪聲數據就會影響模型效果,而大數據量則會使標注工作變得很困難,高質量的標簽也是機器學習模型的瓶頸所在。 這番話也引起機器學習界對MLOps的重新思索。

MLOps是什么? MLOps,即Machine Learning和Operations的組合,是ModelOps的子集,是數據科學家與操作專業人員之間進行協作和交流以幫助管理機器學習任務生命周期的一種實踐。

8daf7302-9fbb-11eb-8b86-12bb97331649.png

與DevOps或DataOps方法類似,MLOps希望提高自動化程度并提高生產ML的質量,同時還要關注業務和法規要求。 互聯網公司通常用有大量的數據,而如果在缺少數據的應用場景中進行部署AI時,例如農業場景 ,你不能指望自己有一百萬臺拖拉機為自己收集數據。 基于MLOps,吳恩達也提出幾點建議:

MLOps的最重要任務是提供高質量數據。

標簽的一致性也很重要。檢驗標簽是否有自己所管轄的明確界限,即使標簽的定義是好的,缺乏一致性也會導致模型效果不佳。

系統地改善baseline模型上的數據質量要比追求具有低質量數據的最新模型要好。

如果訓練期間出現錯誤,那么應當采取以數據為中心的方法。

如果以數據為中心,對于較小的數據集(<10,000個樣本),則數據容量上存在很大的改進空間。

當使用較小的數據集時,提高數據質量的工具和服務至關重要。

一致性的數據定義,涵蓋所有邊界情況,從生產數據中得到及時的反饋,數據集大小合適。 吳恩達同時建議不要指望工程師去嘗試改善數據集。相反,他希望ML社區開發更多MLOps工具,以幫助產生高質量的數據集和AI系統,并使他們具有可重復性。除此之外,MLOps是一個新生領域,MLOps團隊的最重要目標應該是確保整個項目各個階段的高質量和一致的數據流。

一些MLOps的工具已經取得了不錯的成績。 Alteryx處于自助數據分析運動的最前沿。公司的平臺“ Designer”旨在快速發現、準備和分析客戶的詳細信息。該工具用于易于使用的界面,用戶可以連接和清除數據倉庫。Alteryx的工具還包括空間文件的數據混合,可以將其附加到其他第三方數據。

Paxata提供自適應的信息平臺,它具有靈活的部署和自助操作。它使分析人員和數據科學家可以收集多個原始數據集,并將它們轉換成有價值的信息,這些信息可以立即轉換為執行模型訓練所需要的格式。該平臺是基于所見即所得設計,具有電子表格風格的數據展示,因此用戶無需學習新工具。此外,該平臺能夠提供算法協助以推斷所收集數據的含義。 TIBCO軟件最近在這個快速發展的領域中嶄露頭角。它允許用戶連接、清理、合并和整理來自不同來源的數據,其中還包括大數據存儲。該軟件使用戶可以通過簡單的在線數據整理進行數據分析,并且提供完整的API支持,可以根據自己的個性化需求進行更改。

網友表示,吳恩達老師說的太真實了!

9161d666-9fbb-11eb-8b86-12bb97331649.png

也有網友表示,機器學習更像是數據分析,模型的搭建就是構建pipelines。

916b0434-9fbb-11eb-8b86-12bb97331649.png

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136963
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26201
  • 吳恩達
    +關注

    關注

    0

    文章

    26

    瀏覽量

    7356

原文標題:吳恩達的二八定律:80%的數據+20%的模型=更好的機器學習

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    江智機器人技術核心團隊

    ?江智機器人技術核心團隊是基于江智原有15年以上車輛產品研發團隊基礎,以美國卡耐基梅隆大學CMU留學回國的趙國江為核心,匯聚了批來自人工
    的頭像 發表于 03-05 22:57 ?269次閱讀
    江智<b class='flag-5'>機器</b>人技術核心<b class='flag-5'>團隊</b>

    機器學習和深度學習中需避免的 7 常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作段時間,機器學習和深度學習中都存在些我們需要時
    的頭像 發表于 01-07 15:37 ?196次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 <b class='flag-5'>個</b>常見錯誤與局限性

    深度解讀智浦MCX微控制器產品組合

    智浦不僅為未來做好準備,更以技術主動塑造未來格局。我們對微控制器創新的承諾,既非時的轉向,也非短期策略,而是始于上世紀80年代、延續至今的長期投入,并在當下以更堅定的步伐持續推進。
    的頭像 發表于 12-28 09:33 ?1659次閱讀

    工業數據采集的真相:99%的企業都走錯了第

    大多數企業在數據采集犯的第一個錯誤是:從硬件開始思考。 “我們需要幾個網關?” “哪種型號的采集模塊?” “預算夠買多少臺設備?” 這些看似合理的問題,實際把解決方
    的頭像 發表于 12-26 10:18 ?182次閱讀
    工業<b class='flag-5'>數據</b>采集的真相:99%的企業都走錯了第<b class='flag-5'>一</b>步

    杰SiC器件在數據中心中的應用

    從傳統互聯網數據中心(IDC)到人工智能數據中心(AIDC)的演進,本質場能源效率與算力密度的極限競賽。AI算力的爆發正將數據中心推向
    的頭像 發表于 12-24 15:47 ?2184次閱讀
    派<b class='flag-5'>恩</b>杰SiC器件<b class='flag-5'>在數據</b>中心中的應用

    放在線監測方法的優勢

    放在線監測是應用于電力設備絕緣狀態的評估與故障預防的種技術方法,相較于常規監測(如介損測試、泄漏電流測試等),局放在線監測在監測方式、實時性以及數據精度與處理能力,還有對設備的影響
    的頭像 發表于 09-29 11:05 ?478次閱讀

    當不同的數據放在一個Flash頁面上時,請問如何在不影響其他數據的情況下更改些單獨的數據

    當不同的數據放在一個Flash頁面上時,如何在不影響其他數據的情況下更改些單獨的數據
    發表于 08-22 06:25

    入行嵌入式應該怎么準備?

    想入行嵌入式該怎么準備。很能理解大家對于嵌入式的關注,嵌入式系統是當今科技領域中的重要組成部分,它存在于我們生活的方方面面,各行各業。智能化時代的到來也讓嵌入式技術炙手可熱! SO,你該學習這些
    發表于 08-06 10:34

    工業機器人的特點

    人是實現工業互聯網的基礎,也是第步。 三大優勢:提高產品品質、提高產出、適用范圍廣 機器人在生產上的優勢可以分為提高產品品質、提高產出以及適用范圍廣三方面。提高產品品質 工業機器
    發表于 07-26 11:22

    邊緣計算中的機器學習:基于 Linux 系統的實時推理模型部署與工業集成!

    你好,旅行者!歡迎來到Medium的這角落。在本文中,我們將把機器學習模型(神經網絡)部署到邊緣設備
    的頭像 發表于 06-11 17:22 ?1000次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>:基于 Linux 系統的實時推理模型部署與工業集成!

    【「# ROS 2智能機器人開發實踐」閱讀體驗】機器人入門的引路書

    的限制和調控) 本書還有很多前沿技術項目的擴展 比如神經網絡識別例程,機器學習圖像識別的原理,yolo圖像追蹤的原理 機器學習訓練三大點: 先準備
    發表于 04-30 01:05

    SOLIDWORKS 2025教育版有效的數據管理與團隊協作

    在當今數字化時代,工程設計領域對數據管理和團隊協作的要求日益提高。SOLIDWORKS 2025教育版作為款CAD軟件,以其強大的數據管理和團隊
    的頭像 發表于 04-07 17:28 ?752次閱讀
    SOLIDWORKS 2025教育版有效的<b class='flag-5'>數據</b>管理與<b class='flag-5'>團隊</b>協作

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節,今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發表于 04-01 00:00

    Raspberry Pi Pico 2 實現:實時機器學習(ML)音頻噪音抑制功能

    Arm公司的首席軟件工程師SandeepMistry為我們展示了種全新的巧妙方法:在RaspberryPiPico2如何將音頻噪音抑制應用于麥克風輸入。機器學習(ML)技術徹底改變
    的頭像 發表于 03-25 09:46 ?1228次閱讀
    Raspberry Pi Pico 2 <b class='flag-5'>上</b>實現:實時<b class='flag-5'>機器</b><b class='flag-5'>學習</b>(ML)音頻噪音抑制功能

    深度解讀英偉Newton機器人平臺:技術革新與跨界生態構建

    的基礎,它使機器人能夠學習如何以更高的精度處理復雜的任務,與MuJoCo Playground或 NVIDIA Isaac Lab 等學習框架兼容,這是
    的頭像 發表于 03-20 15:15 ?2858次閱讀
    深度解讀英偉<b class='flag-5'>達</b>Newton<b class='flag-5'>機器</b>人平臺:技術革新與跨界生態構建