国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習實踐中的十條注意點

新機器視覺 ? 來源:上海數據分析 ? 作者:上海數據分析 ? 2022-09-22 15:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對于開發人員而言,基于云的機器學習工具帶來了使用機器學習創造和提供新的功能的可能性。然而,開發者想要在它們的應用程序中融入機器學習,通常會犯一些錯誤,本文列了十條注意點以饗讀者。

在提供發現埋藏數據深層的模式的能力上,機器學習有著潛在的能力使得應用程序更加的強大并且更能響應用戶的需求。精心調校好的算法能夠從巨大的并且互不相同的數據源中提取價值,同時沒有人類思考和分析的限制。對于開發者而言,機器學習為應用業務的關鍵分析提供了希望,從而實現從改善客戶體驗到提供產品推薦上升至超個性化內容服務的任何應用程序。

像Amazon和Micorosoft這樣的云供應商提供云功能的機器學習解決方案,承諾為開發者提供一個簡單的方法,使得機器學習的能力能夠融入到他們的應用程序當中,這也算是最近的頭條新聞了。承諾似乎很好,但開發者還需謹慎。

對于開發人員而言,基于云的機器學習工具帶來了使用機器學習創造和提供新的功能的可能性。然而,當我們使用不當時,這些工具會輸出不好的結果,用戶可能會因此而感到不安。測試過微軟年齡檢測機器學習工具( http://how-old.net/ )的人都會發現,伴隨即插即用的易用性而來的是主要的精度問題——對于關鍵應用程序或者是重大決策,它應該不值得信賴。

想要在應用程序中成功地融入機器學習的開發者,需要注意以下的一些關鍵要點:

1.算法使用的數據越多,它的精度會更加準確,所以如果可能要盡量避免抽樣

機器學習理論在預測誤差上有著非常直觀的描述。簡而言之,在機器學習模型和最優預測(在理論上達到最佳可能的誤差)之間的預測誤差的差距可以被分解為三個部分:

由于沒有找到正確函數形式的模型的誤差

由于沒有找到最佳參數的模型的誤差

由于沒用使用足夠數據的模型的誤差

如果訓練集有限,它可能無法支撐解決這個問題所需的模型復雜性。統計學的基本規律告訴我們,如果我們可以的話,應該利用所有的數據而不是抽樣。

2. 對給定的問題選擇效果最好的機器學習算法是決定成敗的關鍵

例如,梯度提升樹(GBT)是一個非常受歡迎的監督學習算法,由于其精度而被業內開發人員廣泛使用。然而,盡管其高度受歡迎,我們也不能盲目的把這種算法應用于任何問題上。相反,我們使用的算法應該是能夠最佳地擬合數據特征同時能夠保證精度的算法。

為了證明這個觀點,嘗試做這樣一個實驗,在數據集 the popular text categorization dataset rcv1上測試GBT算法和線性支持向量機(SVM)算法,并比較兩者的精度。我們觀察到在這個問題上,就錯誤率而言,線性SVM要優于GBT算法。這是因為在文本領域當中,數據通常是高維的。一個線性分類器能夠在N-1維當中完美的分離出N個樣本,所以,一個樣本模型在這種數據上通常表現的更好。此外,模型越簡單,通過利用有限的訓練樣本來避免過擬合的方式學習參數,并且提供一個精確的模型,產生的問題也會隨之越少。

另一方面,GBT是高度非線性的并且更加強大,但是在這種環境中卻更難學習并且更容易發生過擬合,往往結果精度也較低。

3. 為了得到一個更好的模型,必須選擇最佳的的算法和相關的參數

這對于非數據科學家而言可能不容易。現代的機器學習算法有許多的參數可以調整。例如,對于流行的GBT算法單獨的就有十二個參數可以設置,其中包括如何控制樹的大小,學習率,行或列的采樣方法,損失函數,正則化選項等等。一個特有的項目需要在給定的數據集上為每一個參數找到其最優值并且達到最精準的精度,這確實不是一件容易的事。但是為了得到最佳的結果,數據科學家需要訓練大量的模型,而直覺和經驗會幫助他們根據交叉驗證的得分,然后決定使用什么參數再次嘗試。

4. 機器學習模型會隨著好的數據而變得更好,錯誤的數據收集和數據處理會降低你建立預測和歸納的機器學習模型的能力

根據經驗,建議仔細審查與主題相關的數據,從而深入了解數據和幕后數據的生成過程。通常這個過程可以識別與記錄、特征、值或采樣相關的數據質量問題。

5. 理解數據特征并改進它們(通過創造新的特征或者去掉某個特征)對預測能力有著高度的影響

機器學習的一個基本任務就是找到能夠被機器學習算法充分利用的豐富特征空間來替代原始數據。例如,特征轉換是一種流行的方法,可以通過在原始數據的基礎上使用數學上的轉換提取新的特征來實現。最后的特征空間(也就是最后用來描述數據的特征)要能更好的捕獲數據的多復雜性(如非線性和多種特征之間的相互作用),這對于成功的學習過程至關重要。

6. 在應用中,選擇合適的靈感來自商業價值的目標函數/損失函數對于最后的成功至關重要

幾乎所有的機器學習算法最后都被當成是一種優化問題。根據業務的性質,合理設置或調整優化的目標函數,是機器學習成功的關鍵。

以支持向量機為例,通過假設所有錯誤類型的權重相等,對一個二分類問題的泛化誤差進行了優化。這對損失敏感的問題并不合適,如故障檢測,其中某些類型的錯誤比重可能比其它類型的要高。在這種情況下,建議通過在特定的錯誤類型上,增加更多的懲罰來解釋它們的權重,從而調整SVM的損失函數。

7. 確保正確地處理訓練數據和測試數據

如此當在生產中部署該模型時,測試數據能夠模擬輸入數據。例如,我們可以看到,這對于時間依賴性數據是多么的重要。在這種情況下,使用標準的交叉驗證方法進行訓練,調整,那么測試模型的結果可能會有偏差,甚至會不準確。這是因為在實施平臺上它不能準確的模擬輸入數據的性質。為了糾正這一點,在部署時我們必須仿照模型來部署使用。我們應該使用一個基于時間的交叉驗證,用時間較新的數據來驗證訓練模型。

8. 部署前理解模型的泛化誤差

泛化誤差衡量模型在未知數據上的性能好壞。因為一個模型在訓練數據上的性能好并不意味著它在未知的數據上的表現也好。一個精心設計的模擬實際部署使用的模型評估過程,是估計模型泛化誤差所需要的。

一不留心就很容易違反交叉驗證的規則,并且也沒有一種顯而易見的方法來表現交叉驗證的非正確性,通常在你試圖尋找快捷方式計算時發生。在任何模型部署之前,有必要仔細注意交叉驗證的正確性,以獲得部署性能的科學評估。

9. 知道如何處理非結構化和半結構化數據

如文本、時間序列、空間、圖形或者圖像數據。大多數機器學習算法在處理特征空間中的數據時,一個特征集代表一個對象,特征集的每一個元素都描述對象的一個特點。在實際當中,數據引進時并不是這種格式化的形式,往往來自于最原始的格式,并且最后都必須被改造成機器學習算法能夠識別的理想格式。比如,我們必須知道如何使用各種計算機視覺技術從圖像中提取特征或者如何將自然語言處理技術應用于影片文本。

10. 學會將商業問題轉換成機器學習算法

一些重要的商業問題,比如欺詐檢測、產品推薦、廣告精準投放,都有“標準”的機器學習表達形式并且在實踐當中取得了合理的成就。即使對于這些眾所周知的問題,也還有鮮為人知但功能更強大的表達形式,從而帶來更高的預測精度。對于一般在博客和論壇中討論的小實例的商業問題,適當的機器學習方法則不太明顯。

如果你是一個開發者,學習這十個通往成功的訣竅可能似乎是一個艱難的任務,但是不要氣餒。事實上,開發者不是數據科學家。認為開發人員可以充分利用所有的機學習工具是不公平的。但是這并不意味著開發人員沒有機會去學習一些有水準的數據科學從而改進他們的應用。隨著適當的企業解決方案和自動化程度的提高,開發人員可以做模型構建到實施部署的一切事情,使用機器學習最佳實踐來保持高精度

自動化是在應用程序中擴展機器學習的關鍵。即使你能夠供得起一批小的數據科學家團隊和開發者攜手合作,也沒有足夠的人才。像Skytree的AutoModel(自動化模型)能夠幫助開發者自動地確定最佳的參數并且使得算法得到最大的模型精度。一個易于使用的接口可以引導開發人員通過訓練加工,調整并且測試模型來防止統計上的錯誤。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98074
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52112
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136962

原文標題:機器學習實踐中的10個小秘訣!

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    《Altium Designeder 25電路設計精講實踐》SAM V71章節有感

    全篇讀完,作為軟件的配套教程分的得心應手,每級菜單都配有圖文并茂,實操方便,理解也能到位。其中 閱讀《AD25電路設計精進實踐SAM V71仿真開發板章節,對照書本實際操作一番,對AD25從
    發表于 02-27 15:52

    《Altium Designeder 25電路設計精講實踐》+讀后感

    用不到,但是還是按照書籍進行一番學習,以后用到的。 感謝作者深入細微的講解,使工程師了解很多不知道的細節軟件設計,在精進實踐中提升電路設計技能。
    發表于 02-24 17:07

    實踐赴熱愛:我在深圳技術大學的開源鴻蒙成長之旅

    從對開源技術一知半解的入門者,到能夠獨立參與開源項目、斬獲競賽獎項的實踐者,開源鴻蒙不僅打開了技術探索的大門,更重塑了學習方式與職業認知。 在學校搭建的多梯度開源培養體系,深圳技術大學開源鴻蒙
    的頭像 發表于 02-04 11:06 ?256次閱讀
    以<b class='flag-5'>實踐</b>赴熱愛:我在深圳技術大學的開源鴻蒙成長之旅

    機器學習和深度學習需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注數據、模型架構
    的頭像 發表于 01-07 15:37 ?194次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b><b class='flag-5'>中</b>需避免的 7 個常見錯誤與局限性

    光隔離探頭在工程實踐中的應用指南

    文章總結:光隔離探頭在新能源汽車電驅、光伏逆變器和工業變頻器測試,用于抗干擾、精準測量信號,提升系統性能與故障診斷能力。
    的頭像 發表于 01-05 09:27 ?178次閱讀

    CI/CD實踐中的運維優化技巧

    在數字化轉型的浪潮,CI/CD已經成為現代軟件開發的基石。然而,真正能夠發揮CI/CD威力的,往往在于那些不為人知的運維優化細節。本文將深入剖析CI/CD實踐中的關鍵優化技巧,幫助您構建更高效、更穩定的持續集成與部署體系。
    的頭像 發表于 09-18 15:05 ?1208次閱讀

    AI 驅動三維逆向:云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領域,傳統方法在處理復雜數據和構建高精度模型時面臨諸多挑戰。隨著人工智能(AI)技術的發展,云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創新性解決方案,顯著提升
    的頭像 發表于 08-20 10:00 ?712次閱讀
    AI 驅動三維逆向:<b class='flag-5'>點</b>云降噪算法工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>建模能力的前沿應用

    振弦式土體沉降計鉆孔埋設需要注意什么?

    、確保長期監測穩定性的前提。振弦式土體沉降計鉆孔埋設需要注意什么?關鍵注意事項規避施工風險工程實踐中需重點管控四類風險:鉆孔質量控制:傾斜度偏差需≤2°,防止儀器偏斜
    的頭像 發表于 08-19 13:56 ?597次閱讀
    振弦式土體沉降計鉆孔埋設需要<b class='flag-5'>注意</b>什么?

    具身機器大發展趨勢

    在2025世界機器人大會開幕式上發布了《2025具身智能機器大發展趨勢》,以下為全文。趨勢一第一,物理實踐、物理模擬器與世界模型協同驅動的具身感認知。物理
    的頭像 發表于 08-12 13:22 ?1918次閱讀
    具身<b class='flag-5'>機器</b>人<b class='flag-5'>十</b>大發展趨勢

    FPGA在機器學習的具體應用

    ,越來越多地被應用于機器學習任務。本文將探討 FPGA 在機器學習的應用,特別是在加速神經網
    的頭像 發表于 07-16 15:34 ?2900次閱讀

    【「# ROS 2智能機器人開發實踐」閱讀體驗】視覺實現的基礎算法的應用

    : 一、機器人視覺:從理論到實踐 第7章詳細介紹了ROS2在機器視覺領域的應用,涵蓋了相機標定、OpenCV集成、視覺巡線、二維碼識別以及深度學習目標檢測等內容。通過
    發表于 05-03 19:41

    【「# ROS 2智能機器人開發實踐」閱讀體驗】機器人入門的引路書

    的限制和調控) 本書還有很多前沿技術項目的擴展 比如神經網絡識別例程,機器學習圖像識別的原理,yolo圖像追蹤的原理 機器學習訓練三大
    發表于 04-30 01:05

    5G動態IP地域偽裝技術:突破與實踐中的合規邊界

    在5G網絡加速普及的當下,智能設備的指數級增長正催生著IP地址管理的技術革命。跨境電商、輿情監控等領域對動態住宅IP地域偽裝的需求,已從簡單的協議層操作演變為涉及網絡架構重構的系統工程。本文將聚焦技術演進的主線,探討這一領域的技術突破與合規實踐
    的頭像 發表于 04-29 15:47 ?1139次閱讀

    【「# ROS 2智能機器人開發實踐」閱讀體驗】+ROS2應用案例

    的知識,還需要對ROS 2的節點通信和數據處理有一定的了解。通過實踐這一部分內容,我掌握了如何在ROS 2實現二維碼識別,這對于提高機器人的智能性和交互性具有重要意義。 地圖構建:SLAM技術
    發表于 04-27 11:42

    【「# ROS 2智能機器人開發實踐」閱讀體驗】+內容初識

    《ROS 2智能機器人開發實踐》內容閱讀初體驗 《ROS 2 智能機器人開發實踐》是一本針對 ROS 2(Robot Operating System 2)這一先進
    發表于 04-27 11:24