隨著深度學習模型在現實世界中的業務應用中變得越來越流行以及訓練數據集變得越來越大,機器學習(ML)基礎結構正成為許多公司中的關鍵問題。
為了幫助您了解ML基礎架構的最新研究進展,我們總結了最近在該領域引入的一些最重要的研究論文。閱讀這些摘要時,您將可以從領先的科技公司(包括Google,Microsoft和LinkedIn)的經驗中學習。
我們選擇的論文涵蓋了數據標簽和數據驗證框架,用于ML模型的分布式訓練的不同方法,用于跟蹤生產中ML模型性能的新穎方法等等。
標記培訓數據越來越成為部署機器學習系統的最大瓶頸。我們展示了Snorkel,這是首創??的系統,它使用戶能夠訓練最先進的模型而無需人工標記任何訓練數據。相反,用戶編寫了表示任意試探法的標簽函數,這些試探法可能具有未知的準確度和相關性。通過整合我們最近提出的機器學習范例數據編程的第一個端到端實現,Snorkel對輸出進行了降噪處理而無須了解真實情況。我們根據過去一年與公司,代理商和研究實驗室的合作經驗,提供了一個靈活的接口層來編寫標簽功能。在用戶研究中,主題專家構建模型的速度提高了2.8倍,平均預測性能提高了45倍。相對于7個小時的手工貼標,為5%。我們研究了在這種新設置中的建模權衡,并提出了用于自動權衡決策的優化器,該優化器可使每次管道執行的速度提高1.8倍。通過與美國退伍事務部和美國食品與藥物管理局的兩次合作,在代表其他部署的四個開源文本和圖像數據集上,Snorkel的預測性能比以前的啟發式方法平均提高了132%,并且不超過大型手工策展訓練集的預測性能的3.60%。
-
函數
+關注
關注
3文章
4417瀏覽量
67550 -
機器學習
+關注
關注
66文章
8554瀏覽量
136984
發布評論請先 登錄
人形機器人爆發背后,一個被忽視的核心技術:機器人運動學控制
復合機器人機械結構設計與創新:智能制造的前沿技術與發展趨勢
機器學習和深度學習中需避免的 7 個常見錯誤與局限性
機器視覺的核心技術和應用場景
破解人形機器人投資回報密碼:柔性智造如何重塑回收周期
太陽光模擬關于UV紫外老化測試的七個關鍵問題
機器學習基礎結構正成為許多公司中的關鍵問題
評論