国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何解決AI應用歧視特定人群的問題?

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-08-15 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當使用谷歌翻譯將西班牙語的新聞翻譯為英語時,涉及到女性的短語通常都會翻譯為“他說”或“他寫道”。常用于處理和分析大量自然語言數(shù)據(jù)的詞嵌入(Word Embedding)算法通常會將歐美名字預測為令人愉快的人物形象,而將非裔美國人名預測為令人不愉快的人物形象。

這些只是AI應用歧視特定人群中的一小部分案例,還有更多未被發(fā)現(xiàn)。

正如很多學者所指出的,偏頗決策并非AI獨有,但隨著AI的影響范圍逐漸擴大,使得這個問題的解決變得尤為重要。實際上,偏見問題的普遍性意味著我們需要系統(tǒng)的解決方案,下文我們列出了幾種可能的策略。

有偏數(shù)據(jù)

無論是在學術界還是工業(yè)界,從發(fā)行的出版物和媒體等公開刊物和報道來看,計算機科學家們均傾向于通過訓練更加復雜的算法而獲得榮譽,而對于數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)組織相對關注較少。

AI產(chǎn)生偏差的主要原因在于訓練數(shù)據(jù)。大部分機器學習任務都基于大規(guī)模的、帶標注的數(shù)據(jù)集進行訓練。例如,針對圖片分類的深度神經(jīng)網(wǎng)絡通常基于ImageNet進行訓練,而ImageNet上有著超過1400萬張的標注圖像集。

在自然語言處理中,標準算法一般基于具有數(shù)十億個單詞的語料庫進行訓練。研究人員通常使用特定查詢關鍵詞通過爬取類似谷歌圖像、谷歌新聞等網(wǎng)頁來搜集數(shù)據(jù),或者通過整合例如維基百科等比較容易獲取的數(shù)據(jù)源上的信息來構建數(shù)據(jù)集。

這些數(shù)據(jù)集后續(xù)通常由研究生或眾包平臺,如亞馬遜眾包平臺(Amazon Mechanical Turk)進行標注處理。這些處理方法可能會無意識地讓數(shù)據(jù)產(chǎn)生性別、種族和文化偏見。通常來說,數(shù)據(jù)中包含的某些群體占比較高,而另一些群體則占比較少。ImageNet作為推動計算機視覺研究的訓練數(shù)據(jù)源,其中超過45% 的數(shù)據(jù)來源于美國用戶,而這些數(shù)據(jù)提供者僅占全世界人口的 4%。

相比之下,中國和印度用戶總共貢獻了 3% 的數(shù)據(jù),而這些國家的人口占據(jù)了全世界人口的36% 。這種地理多樣性的缺乏從某種情況下解釋了為何計算機視覺算法會將一張美國傳統(tǒng)新娘的照片標記為“新娘”、“禮服”、“女人”、“婚禮”,而將另一張北印度新娘的照片則標記為“表演藝術”和“服裝”。

在醫(yī)學領域,機器學習預測器可能特別容易受到有偏數(shù)據(jù)集的影響,因為醫(yī)學數(shù)據(jù)的生產(chǎn)和標注成本非常高。去年,研究人員使用深度學習從照片中識別皮膚癌。

他們在129,450張圖片集上進行模型訓練,其中60% 的圖片來源于從谷歌圖片。但是其中有不到5%的圖片是屬于深色皮膚人群的,并且該算法并未在深色皮膚人群上進行過測試。因此這個分類器對不同人群的性能可能會有顯著變化。

造成偏差的另一個原因是算法本身。

典型的機器學習程序會嘗試最大化訓練數(shù)據(jù)的整體預測準確性。如果訓練數(shù)據(jù)中一組特定群體的出現(xiàn)頻率明顯超過其他群體,則程序?qū)槍Υ祟惾后w的數(shù)據(jù)進行優(yōu)化來提供整體準確率。一般計算機科學家基于“測試數(shù)據(jù)集”進行算法評估,但測試集通常是原始訓練集的隨機子樣本,所以也有可能存在同樣的偏差。

有缺陷的算法可以通過循環(huán)反饋放大偏差。想象一下根據(jù)統(tǒng)計學訓練的系統(tǒng),例如谷歌翻譯,其默認使用的是男性代名詞。這種模式是由英語語料庫中男性與女性代名詞比例2:1的情況造成的。更糟的是,每一次翻譯程序默認翻譯為“他說”,都會增加相應男性代名詞出現(xiàn)在網(wǎng)頁上的幾率——這可能會潛在地影響來之不易數(shù)據(jù)糾偏進展。

得益于大規(guī)模的社會變革,才使得男女代名詞的比例從20世紀60年代的4:1下降到現(xiàn)在的2:1。

平衡傾斜

數(shù)據(jù)中的偏差常常會反映出制度建設和社會權利關系的深層次和隱性失衡。以維基百科為例,它似乎是一個豐富多樣的數(shù)據(jù)源。但是該網(wǎng)站的傳記條目中只有不到18%是關于女性的。從女性文章鏈接到男性文章的次數(shù)遠大于反過來鏈接的次數(shù),這使得男性更容易被搜索引擎獲取到。男性還更多的被浪漫伴侶和家庭的相關文章所提及。

因此,建立訓練數(shù)據(jù)集時必須注意算法調(diào)優(yōu)情況和社會意識行為。具體而言,應該采取措施來確保數(shù)據(jù)集具有多樣性,并且不代表特定群體。

這意味著不能再采用簡單的分類——“男/女”、“黑/白”等等——這些分類很難表達性別和種族身份的復雜性。一些學者已經(jīng)開始對此展開工作。計算機科學家最近發(fā)現(xiàn),商業(yè)面部識別系統(tǒng)在識別膚色較深的女性相比膚色較淺的男性會更容易產(chǎn)生性別分類錯誤,錯誤率分別為35%和0.8%。

為解決這個問題,研究人員重新構建了一個由1,270個人組成的新的圖像數(shù)據(jù)集,來均衡性別和種族比例。使用這些數(shù)據(jù)重新訓練和微調(diào)后的面部分類算法應該可以提高其準確性。為了幫助確定偏差來源,我們建議注釋者使用標準化元數(shù)據(jù)對訓練數(shù)據(jù)集的內(nèi)容進行系統(tǒng)化的標注。一些研究小組已經(jīng)在設計包含機器學習數(shù)據(jù)集的元數(shù)據(jù)和“有效標簽”的“數(shù)據(jù)表”。

含機器學習數(shù)據(jù)集的元數(shù)據(jù)和“營養(yǎng)標

每個訓練數(shù)據(jù)集都應有相關信息來說明該數(shù)據(jù)集是如何收集以及是如何對數(shù)據(jù)進行注釋的。如果數(shù)據(jù)包含有關人員的信息,則應提供有關地理、性別、種族和其他人口統(tǒng)計信息的摘要。如果數(shù)據(jù)標簽是通過眾包完成的,那么應該包括有關人群參與者的基本信息,以及他們給出的確切請求或指示。

數(shù)據(jù)管理者應盡可能提供與數(shù)據(jù)相關的準確描述。例如,在刑事司法數(shù)據(jù)的例子中,了解模型訓練過哪些“犯罪”類型數(shù)據(jù)有助于應用和解釋該模型。

內(nèi)置修復程序

許多期刊已經(jīng)要求作者提供類似的實驗數(shù)據(jù)信息作為出版的先決條件。例如,Nature要求作者將所有微陣列數(shù)據(jù)上傳到開放存取庫Gene Expression Omnibus——這就有需要作者提交實驗協(xié)議的元數(shù)據(jù)。我們鼓勵像國際機器學習會議這樣的會議組織者去提出類似的要求,將標準化的元數(shù)據(jù)作為最終提交和同行評審過程的重要組成部分。數(shù)據(jù)存儲庫的主機(例如OpenML)和AI競爭平臺(例如Kaggle)也應該這樣做。

最重要的是,計算機科學家應該努力開發(fā)更加完善的算法來消除數(shù)據(jù)中存在的人的偏見。目前研究者正在探尋各種方法來解決數(shù)據(jù)偏差的問題,其中之一是納入約束,本質(zhì)上就是推動機器學習模型,以確保它在不同的子群體和類似的個體之間實現(xiàn)公平的算法。一種相關的方法是改變學習算法,以減少其對敏感屬性如種族、性別和收入等以及與這些特征相關的信息的依賴。

這種新產(chǎn)生的去除偏差的方法很有潛力,但需要通過實踐的檢驗與完善。

然而,不可回避的問題是,種族、性別和其他相關信息是需要被準確記錄的。除非有很好的實例,否則很難知道應該對模型施加哪些約束或更正。相關方法也要求算法設計者可以先驗地確定他們想要避免哪些類型的偏差。一種互補的方法是使用機器學習本身來識別和量化算法和數(shù)據(jù)中的偏差。 我們稱之為進行AI審計,其中審計員是一種系統(tǒng)地探測原始機器學習模型,以識別模型和訓練數(shù)據(jù)中的偏差的算法。

以我們最近工作中使用的一種流行的機器學習方法——詞嵌入為例,來量化美國的歷史成見。詞嵌入將每個英語單詞映射到空間中的點(幾何向量),這樣向量之間的距離就能捕獲對應單詞之間的語義相似性。它捕捉了類比關系,例如'man'是'king','woman'是'queen'。我們開發(fā)了一種算法——AI審計員,來查詢其他性別類比的嵌入。這表明“man”是“doctor”,而“woman”是“nurse”;“man”是“computer programmer”,而“woman”是“homemaker”“。

一旦審核員在單詞嵌入和原始文本數(shù)據(jù)中揭示了歷史成見,就可以通過修改單詞向量的位置來減少偏差。此外,通過評估成見的演變過程,對歷史文本進行訓練的算法可能會有消除偏差的作用。例如,從1910年到1990年,谷歌圖書每十年的美國文本數(shù)據(jù)嵌入一次,就會發(fā)現(xiàn)這期間美國人對亞裔的態(tài)度令人非常震驚且變化無常。1910年,美國人對亞裔的描述為“怪異”和“野蠻”。

到1990年,在第二次世界大戰(zhàn)后和20世紀80年代的移民浪潮時期,美國人的態(tài)度發(fā)生了巨大轉(zhuǎn)變,又用“抑制”和“敏感”來描述亞裔。

根源性方法

計算機科學家、倫理學家、社會科學家和其他許多人都在努力提高數(shù)據(jù)和AI的公平性,我們也是時候考慮一下何為公平了。

數(shù)據(jù)展現(xiàn)了這個世界的本來面貌,還是被塑造成人們想要它成為的樣子?同樣,一個人工智能工具是否應該用來評估一份工作的候選人,以及這個人是否能很好地融入工作環(huán)境? 誰又應該決定優(yōu)先考慮哪種公平觀念?

為了解決這些問題并評估訓練數(shù)據(jù)和算法的更廣泛影響,機器學習研究人員必須與社會科學家以及人文、性別、醫(yī)學、環(huán)境和法律等方面的專家進行交流。當前,正在努力促進這種合作,包括我們在加州斯坦福大學參加的“以人為本的AI”計劃。這種參與必須從本科階段開始,這個階段的學生不僅要了解算法的工作原理,同時還要研究AI的社會背景。

設備、程序和流程塑造了我們的態(tài)度、行為和文化。AI正在改變經(jīng)濟和社會,改變我們溝通和工作的方式,重塑治理模式和政治環(huán)境。我們的社會長期忍受著不平等,AI絕不能與此沆瀣一氣。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39866

    瀏覽量

    301511
  • 機器學習
    +關注

    關注

    66

    文章

    8554

    瀏覽量

    136986

原文標題:Nature:AI為什么總是歧視重重?

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用NORDIC AI的好處

    Nordic 的 Edge AI 主要有以下幾個好處(基于官方資料總結(jié)): 極低功耗、延長電池壽命 在本地運行 AI,減少無線傳輸次數(shù),而無線收發(fā)是最耗電的部分。設備只需上傳“結(jié)果/事件”,而不是
    發(fā)表于 01-31 23:16

    純4G?血版AI小智產(chǎn)品方案 #小智AI #AI方案商 #4G通話 #AI終端產(chǎn)品

    AI
    不太正經(jīng)的攻城獅
    發(fā)布于 :2025年12月21日 14:36:55

    行業(yè)特定的生成式 AI 能力如何形成:面向中國企業(yè)的場景化解決方案模型

    需要的不是一個“能對話”的模型,而是一套“能在行業(yè)場景中跑得通、落得下”的生成式 AI 方案。 因此,“哪些生成式 AI 平臺為中國公司提供行業(yè)特定解決方案?”這一問題的本質(zhì),是在評估某個平臺是否具備行業(yè)知識、工程能力、數(shù)據(jù)
    的頭像 發(fā)表于 12-02 09:33 ?463次閱讀

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    AI大家都很了解了吧;AGI是什么呢? AGI:通用人工智能,可以再各個應用領域都具備AI的處理能力。 AGI可以組成能夠24小時連續(xù)工作的優(yōu)秀員工隊伍,他們擁有比人類更強的能力和領導力,能夠
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予了人的智能,科學家們希望在沒有人類的引導下,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅(qū)動科學被認為是科學發(fā)現(xiàn)的第五個范式了,與實驗科學、理論科學、計算科學、數(shù)據(jù)驅(qū)動科學一起構成
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現(xiàn)AI

    21世紀是生命科學的世紀,生物技術的潛力將比電子技術更深遠----- 里卡多-戈蒂爾 半導體實現(xiàn)AI應該沒什么疑問了吧?化學、生物怎么實現(xiàn)AI呢? 生物大腦是一個由無數(shù)神經(jīng)元通過突觸連接而成的復雜
    發(fā)表于 09-15 17:29

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    的不同。隨著AI熱潮的興起,大腦的抽象模型已被提煉成各種的AI算法,并使用半導體芯片技術加以實現(xiàn)。 而大腦是一個由無數(shù)神經(jīng)元通過突觸連接而成的復雜網(wǎng)絡,是極其復雜和精密的。大腦在本質(zhì)上就是一臺濕潤的軟組織
    發(fā)表于 09-06 19:12

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽

    章 具身智能芯片 第9章 從AI芯片到AGI芯片 圖2 各章重點及邏輯框架 該書可供AI和芯片領域的各層次人群閱讀,無論是學習者還是研究人員。 對于本人來說,讀這本書不但是為了豐富這方面的知識,更主要的是為孩子讀研選擇一個有前
    發(fā)表于 09-05 15:10

    AI 芯片浪潮下,職場晉升新契機?

    在科技飛速發(fā)展的當下,AI 芯片已然成為眾多行業(yè)變革的核心驅(qū)動力。從互聯(lián)網(wǎng)巨頭的數(shù)據(jù)中心,到我們?nèi)粘J褂玫闹悄苁謾C、智能家居設備,AI 芯片的身影無處不在,深刻改變著產(chǎn)品形態(tài)與服務模式。而對于身處
    發(fā)表于 08-19 08:58

    關于NanoEdge AI用于n-Class的問題求解

    據(jù)進行分類,請問這是什么原因造成的,應該如何解決?你們是否有AI方面的技術支持工程師,可以解答一下我們的應用疑問?
    發(fā)表于 08-11 06:44

    基于STM32 人群定位、調(diào)速智能風扇設計(程序、設計報告、視頻演示)

    基于STM32 人群定位、調(diào)速智能風扇設計(程序、設計報告、視頻演示),有需要的同學推薦下載!
    發(fā)表于 05-28 21:34

    基于STM32 人群定位、調(diào)速智能風扇設計(程序、設計報告、視頻演示)

    基于STM32 人群定位、調(diào)速智能風扇設計(程序、設計報告、視頻演示)項目下載! 純分享帖,需要者可點擊附件免費獲取完整資料~~~【免責聲明】本文系網(wǎng)絡轉(zhuǎn)載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 05-23 20:35

    海思SD3403邊緣計算AI數(shù)據(jù)訓練概述

    AI數(shù)據(jù)訓練:基于用戶特定應用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練樣本,通過AI訓練服務器,進行
    發(fā)表于 04-28 11:11

    Arm關鍵洞察 芯片新思維 奠定人工智能時代新根基

    哪些策略轉(zhuǎn)變及投資? 為了解決科技企業(yè)的疑慮,Arm 近日發(fā)布《芯片新思維:奠定人工智能時代新根基》報告,針對當前關鍵的行業(yè)轉(zhuǎn)變提供了重要見解,并全面分析了半導體行業(yè)正如何不斷發(fā)展,以滿足 AI 的巨大算力需求,同時解決能效、安全性
    的頭像 發(fā)表于 03-14 15:58 ?872次閱讀