高效的機器學習模型需要高質量的數據。訓練你的機器學習模型并不是過程中的單個有限階段。即使將其部署到生產環境中，也可能需要穩定的新訓練數據流來確保模型隨時間推移的預測準確性。

畢竟，訓練數據會顯式地調用數據集中的屬性，這些屬性代表外部世界中不斷變化的基本事實。如果不進行周期性的重新訓練，隨著現實世界變量的演變，模型的準確性自然會隨時間下降。

在本文中，我們將討論為什么不管你的初始訓練數據過程多么嚴格，繼續訓練你的機器學習模型都是至關重要的。我們還將討論再訓練的方法以及每種方法的優點。

最后，我們將介紹如何在任何機器學習項目開始時預見對后續更新的需求。通過從一開始就建立再訓練流程，幫你設計一個可持續的預測模型。

數據漂移與再訓練需求

為什么大多數機器學習模型都需要更新才能保持準確性？答案在于訓練數據的性質以及它如何告知機器學習模型的預測功能。

訓練數據是一個靜態數據集，機器學習模型可從該數據集中推斷出模式和關系，并形成對未來的預測。

隨著現實世界條件的變化，訓練數據的基本事實方面表示可能會不太準確。想象一下用于預測50個大型都會區租金成本的機器學習模型。從2000年到2019年的訓練數據可能會以驚人的準確性預測2020年的租金價格。在預測2050年的租金價格時，這種方法可能會不太有效，因為房地產市場的基本性質可能在未來幾十年內發生變化。

應用自然語言處理（NLP）來訓練聊天機器人提供了數據漂移的另一個有用的例子。我們使用語言的方式正在不斷演變，因此必須更新用于聊天機器人的訓練數據的語義分析，來反映當前的語言。想象一下，嘗試使用1980年代的培訓數據來訓練聊天機器人與現代消費者進行互動。在40年中，語言可能會發生重大變化，這迫使人們需要更新訓練數據。

這一現象已經有了多種描述方法，包括數據漂移、概念漂移和模型衰減。不管你怎么稱呼它，它都代表了機器學習的硬道理：在未來的某個時候，你的訓練數據將不再為準確的預測提供基礎。

如何應對這個不可避免的挑戰呢？答案是定期使用新的或擴展的數據重新訓練你的模型。實際上，訓練你的模型是一個持續的過程，特別是在質量要求很高的情況下。

你應該如何更新你的機器學習模型？簡單來說，你有兩個選擇：使用更新的輸入手動重新訓練模型，或構建一個旨在從新數據中不斷學習的模型。

手動模型重新訓練方法

手動更新機器學習模型的方法本質上是復制你的初始訓練數據過程，但要使用一組更新的數據輸入。在這種情況下，你可以決定如何以及何時向算法提供新數據。

此選項的可行性取決于你定期獲取和準備新訓練數據的能力。你可以隨時監控模型的性能，確定何時需要更新。如果模型的準確性明顯下降，則可能需要對更新的數據進行重新訓練。

這種方法的優點之一是修修補補通常可以帶來真知灼見和創新。如果密切監視模型并找出缺點，你可能會發現包含額外數據或以更基本的方式修改算法的價值。

模型訓練的持續學習方法

持續學習模型通常會從部署了數據的生產環境中合并新的數據流。

消費者每天都會參與持續學習的機器學習模型。以音樂流媒體平臺Spotify為例，該平臺使用協作過濾功能，根據具有相似愛好的其他用戶的偏好向用戶提供推薦，來創造價值和競爭優勢。

當Spotify用戶收聽音樂時，與他們的選擇有關的數據會反饋到公司的預測算法中。由此產生的反饋循環完善了該應用為其用戶提供的推薦，并允許高級個性化設置，例如機器生成的個性化播放列表。Netflix等其他領先的消費媒體服務提供商也使用類似的持續學習系統。

如你所料，構建這些系統所需的技術專業知識和資源對于許多組織來說根本無法滿足。此外，你需要穩定的數據流來進行自動集成。在持續學習模型中，人為干預是可能的，但它代表了一個真正的瓶頸。例如，Spotify在將其數百萬用戶生成的數據反饋回其算法之前，不需要對其進行清理或格式化。

無論是手動更新還是持續學習似乎都是更有效（可行）的選擇，你需要從戰略上考慮用于生成新數據來進行再培訓的勞動力和技術。如果你打算在可預見的將來使用你的模型，則需要合適的資源來保持該模型最新。

預測進化：選擇團隊

創建訓練數據需要人員、流程和工具的戰略組合。要解決收集、清理和標記數據的模糊性，你需要一個高效的技術人員團隊，其中包括熟練的技術人員和先進的技術。

許多組織無法管理或擴展內部團隊來準備訓練數據，因此他們尋求利用人類智能的替代方法。眾包勞動力是一種常見選擇，它使你可以在短時間內找到數百名匿名工人。

然而，匿名眾包帶來了隱性成本，包括與員工的溝通不暢，這可能導致工作質量低下。而且，如果在開發初期訓練數據集時這些缺點很明顯，那么當你嘗試重新訓練和更新模型時，這些缺點將讓人特別沮喪。

在一群匿名的眾包工人的情況下，幾乎不可能進行監督或轉移機構記憶。每次開發新的訓練數據時，都有發現新的不一致和性能問題的風險。

或許你也可以選擇另一種方式，將這個問題外包給靠譜的、專業解決這種問題的企業，會更有保障。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器學習

機器學習

+關注

關注
66

文章
8554

瀏覽量
136996
數據集

數據集

+關注

關注
4

文章
1236

瀏覽量
26208

搜索歷史

如何在任何機器學習項目開始時預見對后續更新的需求

數據漂移與再訓練需求

手動模型重新訓練方法

模型訓練的持續學習方法

評論