国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google遵循AI原則減少機器翻譯的性別偏見

硬件三人行 ? 來源:TensorFlow ? 作者:Romina Stella ? 2021-08-24 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

得益于神經機器翻譯 (NMT) 的進步,譯文更加自然流暢,但與此同時,這些譯文也反映出訓練數據存在社會偏見和刻板印象。因此,Google 持續致力于遵循 AI 原則,開發創新技術,減少機器翻譯中的性別偏見。

神經機器翻譯

https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

其中一個研究領域是利用句子或段落等上下文,來提高性別表述的準確性。傳統 NMT 方法是單獨翻譯句子,但單獨的句子中并不是總能帶有對性別信息的明確說明,因此這無疑會帶來挑戰。例如,在下方西班牙語(該語言并不總是明確提及主語 (Null-subject language))段落中,第一句話明確將 Marie Curie 視為主語,但第二句話沒有明確提及主語。孤立來看,第二句話可以指任何性別的人。然而,在翻譯成英語時,需要選擇一個代詞,而翻譯準確所需的信息就在第一句話中。

西班牙語文本 英語譯文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

如果想推動翻譯技術,讓其不止步于單句翻譯,則需要新指標來衡量進展,并且需要新數據集,其中包括最常見的上下文錯誤。翻譯性別錯誤(如選擇正確的代詞或性別一致)可能直接涉及到人及自我認同方式,因此尤其敏感。而這一點則進一步加劇了挑戰。

為應對上下文翻譯的常見挑戰(如代詞省略、性別一致和準確使用所有格),我們發布了 Translated Wikipedia Biographies(維基百科傳記譯本)數據集,可用于評估翻譯模型的性別偏見。發布此數據集的目的在于提供衡量模型改變前后的翻譯準確性的基準,從而對翻譯中代詞和性別的 ML 系統進行長期改進。

Translated Wikipedia Biographies(維基百科傳記譯本)

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

常見翻譯錯誤的來源

“維基百科傳記 (Wikipedia:Biographies of living persons) ”經過精心撰寫,涵蓋多個地域,包含多個句子,并以第三人稱指代主語(所以包含大量代詞)。因此極有可能出現性別相關的翻譯錯誤。當文章在段落前幾句中明確提及某人,但在后面的句子中沒有明確提及時,通常會出現性別相關的翻譯錯誤。一些示例如下:

翻譯錯誤 文本 譯文
西班牙語→英語中的代詞省略
(Pro-drop language)
Marie Curie nació en Varsovia.
Recibió el Premio
Nobel en 1903 y en 1911.
Marie Curie
was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.
西班牙語→英語中的中性所有格(Possessive determiner) Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. Marie Curie
was born in Warsaw.Hisprofessional career was developed
in France.
英語→德語中的性別一致(Grammatical gender) Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-
chaftlererhielt1903 und 1911den
Nobelpreis.
英語→西班牙語中的性別一致
(Grammatical gender)
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

構建數據集

如上文所示,Translated Wikipedia Biographies(維基百科傳記譯本)數據集旨在分析機器翻譯中常見的性別表述錯誤。該數據集中的每個實例代表個人(在傳記中被認為是女性或男性)、搖滾樂隊或運動隊(被視為性別無關)。每個實例都均由 8 到 15 個相互關聯的句子組成的長文本翻譯來表示,且這些句子中會提到中心主語(人、搖滾樂隊或運動隊)。文章撰寫的源語言為英語,并由專業人士處理,翻譯成西班牙語和德語。我們已針對代詞省略,對西班牙語譯文進行優化,因此可以使用相同的集合來分析代詞省略(西班牙語→英文)和性別一致(英語→西班牙語)。

我們選擇一組在不同地域和性別之間具有同等代表性的實例構建該數據集。為此,我們根據職業、專業、工作和/或活動,從維基百科中提取傳記。為了確保職業選擇的公平性,我們根據維基百科的統計數據,選擇了九種職業。這些職業代表了一系列刻板的性別聯想(女性、男性或兩者都不是)。為了減輕任何基于地域的偏見,之后我們根據不同地域來劃分所有這些實例。對于每個職業類別,我們希望每個地區(使用 census.gov 中的地區作為不同地域的代表)都有一名人選。在關聯實例與地區時,我們會檢查被選者是否與指定地區的國家具有相關性(國籍、出生地、長期居住之地等等)。該數據集使用此標準,包含了來自世界 90 多個國家和所有地區的個人條目。

雖然性別并非二元化,但我們專注于令“女性”和“男性”實體具有同等代表性。值得一提的是,由于維基百科通過這種方式來表示實體,目前其中的實例還不足以準確反映非二元群體。因此很遺憾,該集合并不包括標識為非二元的個人。為了將每個實例貼上“女性”或“男性”標簽,我們依靠的是維基百科上的傳記信息,其中包含對此人特定性別的參考資料(她、他、女人、兒子、父親等)。

在應用所有這些過濾條件之后,我們會為每個“職業-地區-性別”三元組隨機選擇一個實例。針對七個地理區域的每一種職業,我們都挑選了兩份傳記(一份男性傳記和一份女性傳記)。

最后,我們添加了 12 個性別無關實例。之所以選擇搖滾樂隊和運動隊,是因為它們通常由無性別的第三人稱代詞(如“它”或復數形式的“它們”)所指代。包含這些實例是為了研究過度觸發 (over triggering),即當模型得知其因產生特定性別的代詞而獲得獎勵時,它們會在本不應該的情況下產生這些代詞。

結果和應用

該數據集為降低機器翻譯中的性別偏見提供了一種新的評估方法(前一篇文章中已有所介紹)。每個實例都指向已知性別的主語,因此我們可以計算出指向該主語的、特定性別翻譯的準確性。在翻譯成英語(該語言有代詞省略或中性代詞)時,因為主要計算基于英語的特定性別代詞,所以這種計算更為容易。在這些情況下,與先前模型相比,上下文感知模型利用性別數據集,將錯誤數量減少了 67%。如前所述,我們可利用中性實體,如使用陰性或陽性代詞來指代無性別實體,來發現過度觸發的情況。這個新數據集還為不同類型的職業或地理區域中不同模型的性能提供了新的研究方向。

比如,我們利用該數據集,在翻譯自西班牙語的 Marie Curie 傳記節選中發現了改進之處。

結論

Translated Wikipedia Biographies(維基百科傳記譯本)數據集是我們在研究識別與性別和機器翻譯有關的偏見方面的工作成果。該數據集側重于與性別偏見有關的具體問題,并不旨在涵蓋整個問題。值得一提的是,我們發布此數據集的目的并不在于強調確定解決性別偏見的最佳方法,而是幫助推動全球研究界在應對這一方面挑戰。

致謝

這些數據集的構建得到了以下人員的幫助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111371
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301361
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136929

原文標題:用于研究翻譯中性別偏見的數據集

文章出處:【微信號:yingjiansanrenxing,微信公眾號:硬件三人行】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    單片機系統進行擴展時需要遵循原則有哪些

    結合應用軟件方案一并考慮。硬件結構與軟件方案會產生相互影響,考慮的原則是:軟件能實現的功能盡可能由軟件實殃,以簡化硬件結構。但必需留意,由軟件實現的硬件功能,一般響應時間比硬件實現長,且占用CPU時間
    發表于 12-09 07:56

    視美泰發布AI即時翻譯機解決方案,硬核配置+多語種覆蓋破解跨語言溝通難題

    、機器翻譯、語音合成和大模型四項能力構建高效同聲傳譯鏈路,實現70+種語言全覆蓋的強大能力,為跨境商貿、文化交流、戶外出行等場景提供高效精準的翻譯解決方案,推動AI
    的頭像 發表于 12-03 10:50 ?1069次閱讀
    視美泰發布<b class='flag-5'>AI</b>即時<b class='flag-5'>翻譯</b>機解決方案,硬核配置+多語種覆蓋破解跨語言溝通難題

    VS680 HDMI AI分析解決方案 #目標識別 #視頻翻譯 #AI #芯片

    AI
    深蕾半導體
    發布于 :2025年11月12日 10:29:33

    聲智科技AI翻譯耳機重塑智能聽覺體驗

    在日益緊密的全球化浪潮中,跨語言溝通的障礙正在被前沿的聲學AI技術逐步瓦解。聲智AI翻譯耳機,憑借深厚的聲學AI積累,率先實現了“跨語種音色與情感復刻技術”在實時
    的頭像 發表于 10-21 15:28 ?967次閱讀
    聲智科技<b class='flag-5'>AI</b><b class='flag-5'>翻譯</b>耳機重塑智能聽覺體驗

    vivo攜手Google Cloud推動智能手機邁入AI新時代

    在人們期待更智能、更前瞻手機的時代,vivo 攜手 Google Cloud,迅速推出更安全、更前沿的 AI 功能,共同加速創新,推動智能手機邁入智能、無縫、以人為本的 AI 新時代。
    的頭像 發表于 09-23 16:54 ?1451次閱讀

    為了減少電磁干擾,裝置在硬件設計時應該遵循哪些原則?

    在硬件設計階段減少電磁干擾(EMI)對電能質量在線監測裝置的影響,需遵循 “ 源頭抑制、路徑阻斷、敏感防護 ” 三大核心邏輯,覆蓋元器件選型、電路拓撲、信號隔離、濾波設計、接地布局、PCB 設計等全
    的頭像 發表于 09-19 15:41 ?879次閱讀

    聲智科技出席2025年北京市多語種AI語音翻譯大賽

    8月20日,由北京市科委、中關村管委會主辦,北京語言大學、北京第二外國語學院、北京市翻譯協會、中國人工智能百人會共同承辦的“2025年北京市多語種AI語音翻譯大賽”在中關村展示中心順利啟幕。聲智作為
    的頭像 發表于 08-25 17:18 ?1236次閱讀

    傳音斬獲WMT 2025國際機器翻譯大賽四項冠軍

    近日,在由國際計算語言學協會(ACL)主辦的WMT 2025國際機器翻譯大賽中,傳音在低資源印度語言翻譯任務(Low-Resource Indic Language Translation)中斬獲
    的頭像 發表于 08-06 18:21 ?1227次閱讀

    AI輸出“偏見”,人類能否信任它的“三觀”?

    人工智能(AI)已成為我們不可分割的“伙伴”。從聊天機器人、語音助手到自動翻譯,AI不斷介入人與人之間的交流和理解。然而,它能做到“客觀中立”嗎?據美國《麻省理工科技評論》官網報道,一
    的頭像 發表于 08-04 13:43 ?1351次閱讀
    <b class='flag-5'>AI</b>輸出“<b class='flag-5'>偏見</b>”,人類能否信任它的“三觀”?

    變頻器有哪3大作用?選擇變頻器容量需遵循什么原則?

    的選擇直接關系到系統運行的可靠性與經濟性,需要遵循負載特性匹配、環境適應性和擴展預留三大原則。 ?一、變頻器的三大核心作用 1. 調速節能的革命性突破 傳統電機采用直接啟動方式,能耗恒定且無法根據負載變化調整。變頻器
    的頭像 發表于 07-13 17:36 ?2816次閱讀
    變頻器有哪3大作用?選擇變頻器容量需<b class='flag-5'>遵循</b>什么<b class='flag-5'>原則</b>?

    Google Fast Pair服務簡介

    Google Fast Pair 是一項利用低功耗藍牙(Bluetooth LE)技術,實現設備間快速安全配對及提供多種服務的協議。其主要功能包括: 設備處于配對模式時,顯示半頁通知,便于用戶進行
    發表于 06-29 19:28

    知識點積累——什么是3W原則和20H原則?

    的寄生電容,導致信號衰減和傳輸延遲,影響時序同步性能。 嚴格遵循3W原則會增加PCB面積和布線的難度,因此通常僅對關鍵信號進行強制應用,普通信號可靈活調整。 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內容有幫助可以關注、點贊、評論支持一下哦~)
    發表于 04-16 11:18

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節,今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發表于 04-01 00:00

    Google發布最新AI模型Gemma 3

    Gemma 開放模型系列是 Google 推動實用 AI 技術普惠大眾的重要基石。上個月,Gemma 迎來了首個生日?;赝^去一年,其成果斐然:全球下載量突破 1 億,社區欣欣向榮,衍生模型超過 6 萬個1。Gemma 生態的蓬勃發展,不斷激發我們的創新熱情。
    的頭像 發表于 03-18 09:51 ?1715次閱讀