国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習中的幾種數據偏差

Dbwd_Imgtec ? 來源:Imagination Tech ? 作者:Hengtee Lim ? 2021-01-05 17:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器學習中的數據偏差是一種錯誤,其中數據集的某些元素比其他元素具有更大的權重和或表示。有偏見的數據集不能準確地表示模型的用例,從而導致結果偏斜,準確性水平低和分析錯誤。

通常,用于機器學習項目的訓練數據必須代表現實世界。這很重要,因為這些數據是機器學習如何完成其工作的方式。數據偏差可能會發生在從人類報告和選擇偏差到算法和解釋偏差的一系列區域中。

解決機器學習項目中的數據偏差意味著首先確定它在哪里。只有在知道存在偏見的地方之后,你才可以采取必要的措施來糾正它,無論是解決數據不足還是改善注釋過程的問題。考慮到這一點,請務必對數據的范圍,質量和處理保持警惕,以免產生偏差。這不僅影響模型的準確性,而且還會涉及道德,公平和包容性問題。

下面,我列出了機器學習中最常見的7種數據偏見類型,以幫助你分析和了解其發生的位置以及你可以采取的措施。

數據偏差的類型

盡管并不詳盡,但此列表包含了該領域中數據偏見的常見示例,以及其發生位置的示例。

樣本偏差:當數據集不能反映模型將在其中運行的環境的實際情況時,就會發生樣本偏差。這樣的一個例子是某些主要在白人圖像上訓練的面部識別系統。這些模型對婦女和不同種族的人的準確度要低得多。此偏差的另一個名稱是選擇偏差。

排除偏差:排除偏差在數據預處理階段最常見。通常,這是刪除不重要的有價值數據的情況。但是,由于某些信息的系統排除,它也可能發生。例如,假設你有一個在美國和加拿大的客戶銷售數據集。98%的客戶來自美國,因此你選擇刪除不相關的位置數據。但是,這意味著你的模型將不會因為加拿大客戶的消費增加兩倍多這一事實而受到影響。

測量偏差:當為訓練而收集的數據與現實世界中收集的數據不同時,或者當錯誤的測量結果導致數據失真時,就會發生這種偏差。這種偏差的一個很好的例子出現在圖像識別數據集中,其中訓練數據是用一種類型的照相機收集的,而生產數據是用另一種照相機收集的。在項目的數據標記階段,由于注釋不一致也會導致測量偏差。

召回偏差:這是一種測量偏差,在項目的數據標記階段很常見。當你不一致地標記相似類型的數據時,就會產生召回偏差。這導致較低的精度。例如,假設你有一個團隊將電話的圖像標記為損壞,部分損壞或未損壞。如果有人將一張圖像標記為已損壞,但將相似的圖像標記為部分已損壞,則你的數據將不一致。

觀察者偏差:也稱為確認偏差,觀察者偏差是看到你期望在數據中看到或想要看到的結果的效果。當研究人員在有意識或無意識的情況下對自己的研究有主觀想法進入項目時,可能會發生這種情況。當標簽制作者讓主觀思想控制他們的標簽制作習慣,從而導致數據不準確時,你也可以看到這一點。

種族偏見:盡管不是傳統意義上的數據偏見,但由于其在AI技術中的盛行,因此仍然值得一提。當數據偏向特定人群時,就會發生種族偏見。在面部識別和自動語音識別技術中可以看到這一點,該技術無法像白種人那樣準確地識別有色人種。Google的Inclusive Images競賽提供了很好的例子說明了這種情況的發生。

關聯偏差:當機器學習模型的數據加強和/或乘以文化偏差時,就會發生這種偏差。你的數據集可能包含一組工作,其中所有男性都是醫生,所有女性都是護士。這并不意味著女人不能當醫生,男人不能當護士。但是,就你的機器學習模型而言,不存在女醫生和男護士。社交偏見最出名的是造成性別偏見,這在“挖掘人工智能”研究中可見。

如何避免機器學習項目中的數據偏差?

防止機器學習項目中的數據偏差是一個持續的過程。盡管有時很難知道數據或模型何時出現偏差,但是你可以采取許多步驟來幫助防止偏差或及早發現偏差。盡管遠非詳盡的清單,但以下要點為思考機器學習項目的數據偏差提供了入門級指南。

盡你所能,事先研究用戶。請注意你的一般用例和潛在異常值。

確保你的數據科學家和數據標簽團隊是多元化的。

盡可能合并來自多個來源的輸入以確保數據多樣性。

為數據標簽創建黃金標準。黃金標準是一組數據,可以反映任務的理想標記數據。它使你能夠測量團隊的注釋的準確性。

為數據標簽期望制定明確的準則,以便數據標簽保持一致。

對于可能會出現數據準確性偏差的任何項目,請使用多次通過注釋。例如,情感分析,內容審核和意圖識別。

尋求具有領域專業知識的人員的幫助,以查看你收集和/或注釋的數據。團隊外部的人可能會看到團隊忽略的偏見。

定期分析你的數據。跟蹤錯誤和問題區域,以便您快速響應并解決它們。在決定刪除或保留它們之前,請仔細分析數據點。

使偏差測試成為開發周期的一部分。Google,IBM和Microsoft都發布了工具和指南,以幫助分析許多不同數據類型的偏差。

如果你想更深入地了解偏見的產生方式,偏見對機器學習模型的影響以及過去在自動化技術中的偏見,我建議你參考瑪格麗特·米切爾(Margaret Mitchell)的“人工智能的視野和語言偏見”演示。

鏈接:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com

總結

請務必注意任何數據項目在機器學習中的潛在偏見。通過盡早安裝正確的系統并保持數據收集,標記和實施的最頂層,你可以在出現問題之前就注意到它,或者在出現問題時對其進行響應。

責任編輯:xj

原文標題:機器學習中的7種數據偏見

文章出處:【微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94774
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136953

原文標題:機器學習中的7種數據偏見

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器學習特征工程:分類變量的數值化處理方法

    編碼是機器學習流程里最容易被低估的環節之一,模型沒辦法直接處理文本形式的分類數據,尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發表于 02-10 15:58 ?338次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>特征工程:分類變量的數值化處理方法

    人工智能與機器學習在這些行業的深度應用

    自人工智能和機器學習問世以來,多個在線領域的數字化格局迎來了翻天覆地的變化。這些技術從誕生之初就為企業賦予了競爭優勢,而在線行業正是受其影響最為顯著的領域。人工智能(AI)與機器學習
    的頭像 發表于 02-04 14:44 ?478次閱讀

    機器學習和深度學習需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注數據
    的頭像 發表于 01-07 15:37 ?192次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b><b class='flag-5'>中</b>需避免的 7 個常見錯誤與局限性

    電能質量在線監測裝置能測頻率偏差嗎?

    )的波動,輸出頻率偏差值、頻率波動率等關鍵數據,為電網調度、穩定控制提供依據。 一、為什么能測?核心測量原理 電能質量在線監測裝置通過 “ 高精度采樣 + 基波頻率提取算法 ” 實現頻率偏差測量,核心步驟可拆解為 3 步,確保測
    的頭像 發表于 10-13 17:48 ?988次閱讀

    【新啟航】深度學習在玻璃晶圓 TTV 厚度數據智能分析的應用

    一、引言 玻璃晶圓總厚度偏差(TTV)是衡量晶圓質量的關鍵指標,其精確分析對半導體制造、微流控芯片等領域至關重要 。傳統 TTV 厚度數據分析方法依賴人工或簡單算法,效率低且難以挖掘數據潛在規律
    的頭像 發表于 10-11 13:32 ?623次閱讀
    【新啟航】深度<b class='flag-5'>學習</b>在玻璃晶圓 TTV 厚度<b class='flag-5'>數據</b>智能分析<b class='flag-5'>中</b>的應用

    量子機器學習入門:三種數據編碼方法對比與應用

    在傳統機器學習數據編碼確實相對直觀:獨熱編碼處理類別變量,標準化調整數值范圍,然后直接輸入模型訓練。整個過程更像是數據清洗,而非核心算法組
    的頭像 發表于 09-15 10:27 ?774次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學習</b>入門:三<b class='flag-5'>種數據</b>編碼方法對比與應用

    有哪些具體的方法可以減少電能質量監測裝置的數據偏差

    LZ-300C電能質量在線監測裝置 減少電能質量監測裝置的數據偏差,需從硬件設計、校準溯源、環境控制、算法優化、安裝維護等多環節入手,結合新能源并網場景的特殊性(如強電磁干擾、諧波豐富、波動頻繁
    的頭像 發表于 08-21 09:33 ?654次閱讀
    有哪些具體的方法可以減少電能質量監測裝置的<b class='flag-5'>數據</b><b class='flag-5'>偏差</b>?

    實際運行,電能質量監測裝置常見的數據偏差(如漂移、跳變)由哪些原因導致?

    LZ-DZ200A電能質量在線監測裝置 在實際運行,電能質量監測裝置的數據偏差(如漂移、跳變)往往是多因素共同作用的結果,尤其在新能源并網場景,因電力電子設備密集、電磁環境復雜,
    的頭像 發表于 08-21 09:23 ?1095次閱讀
    實際運行<b class='flag-5'>中</b>,電能質量監測裝置常見的<b class='flag-5'>數據</b><b class='flag-5'>偏差</b>(如漂移、跳變)由哪些原因導致?

    高溫季負荷激增,電壓偏差影響電機效率?電能質量監測必不可少

    電壓偏差的成因復雜,可能源于電網供電波動、廠區負荷突變或變壓器分接頭設置不合理等。在缺乏量化數據的情況下,問題溯源往往面臨挑戰。 CET電能質量監測方案提供“全周期、多維度”的數據記錄,為偏差
    的頭像 發表于 08-04 15:09 ?1022次閱讀
    高溫季負荷激增,電壓<b class='flag-5'>偏差</b>影響電機效率?電能質量監測必不可少

    FPGA在機器學習的具體應用

    隨著機器學習和人工智能技術的迅猛發展,傳統的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規模數據和復雜模型的需求。FPGA(現場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發表于 07-16 15:34 ?2897次閱讀

    使用MATLAB進行無監督學習

    無監督學習是一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據
    的頭像 發表于 05-16 14:48 ?1440次閱讀
    使用MATLAB進行無監督<b class='flag-5'>學習</b>

    【「# ROS 2智能機器人開發實踐」閱讀體驗】視覺實現的基礎算法的應用

    相機標定是視覺系統的基石,直接影響后續圖像處理的精度。書中詳細介紹了單目和雙目相機的標定流程,包括標定板的使用、參數優化以及標定文件的應用。 實際應用,標定誤差可能導致機器人定位偏差,因此標定過程
    發表于 05-03 19:41

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    和更多外設接口。無論是運行還是休眠狀態,功耗表現都非常出色! 3. 在傳感器數據采集與AI機器學習的優勢? 答:主頻高、功耗低,內置專用核處理數據
    發表于 04-01 00:00

    貼片電容容值較大偏差的原因分析

    貼片電容作為現代電子設備不可或缺的元件,其容值的準確性對于電路的性能和穩定性至關重要。然而,在實際應用,我們常常會遇到貼片電容容值出現較大偏差的情況。這種偏差不僅可能源于電容本身的
    的頭像 發表于 03-28 14:40 ?1599次閱讀
    貼片電容容值較大<b class='flag-5'>偏差</b>的原因分析

    工業機器人4大控制方式,你知道幾種

    方式和智能控制方式四種,這幾種控制方式的功能要點有哪些。 智慧倉儲物流 01 點位控制方式(PTP) 這種控制方式只對工業機器人末端執行器在作業空間中某些規定的離散點上的位姿進行控制。在控制時,只要求工業機器人能夠快
    的頭像 發表于 03-13 10:11 ?1775次閱讀
    工業<b class='flag-5'>機器</b>人4大控制方式,你知道<b class='flag-5'>幾種</b>?