国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SemEval 2022: 多語種慣用語識別評測冠軍系統簡介

深度學習自然語言處理 ? 來源:哈工大訊飛聯合實驗室 ? 作者:哈工大訊飛聯合實 ? 2022-06-07 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在前不久落下帷幕的第十六屆國際語義評測比賽(The 16th International Workshop on Semantic Evaluation,SemEval 2022)中,哈工大社會計算與信息檢索研究中心(HIT-SCIR)與哈工大訊飛聯合實驗室的聯合團隊在多語種慣用語識別任務子賽道SubtaskA(one-shot)中獲得冠軍。本期我們將對這個任務的奪冠系統進行簡要介紹,更多具體細節請參考我們的論文。

論文標題:HITat SemEval-2022 Task 2: Pre-trained Language Model for Idioms Detection

論文作者:初征,楊子清,崔一鳴,陳志剛,劉銘

論文鏈接:http://arxiv.org/abs/2204.06145

7cdad7dc-e589-11ec-ba43-dac502259ad0.png

7d177a0c-e589-11ec-ba43-dac502259ad0.png

任務介紹

Task 2 Subtask A子賽道是跨語言慣用語檢測任務。任務給出多種語言的含多字短語的語句,參賽隊伍需要利用模型判斷目標句子中的多字短語的使用方法是慣用語用法 (Idiomatic)還是字面用法(Literal)。任務共覆蓋三種語言,包括英語、葡萄牙語和加利西亞語。與普通的慣用語檢測任務相比,該評測更加強調考察模型的跨語言遷移能力。在zero-shot設置下,不提供加利西亞語的訓練數據,需要模型通過英語和葡萄牙語的數據集進行zero-shot遷移;在one-shot下提供少量加利西亞語的訓練數據,需要模型具備在不同語言之下良好的few-shot遷移能力。

圖1是任務數據示例。在第一句中,big fish為字面義,表示大魚;第二句中,big fish為隱含義(慣用語),表示大人物。模型需要利用訓練數據對這兩種用法做出區分。

7d3d43ae-e589-11ec-ba43-dac502259ad0.png

圖1:SemEval-2022 Task2 SubtaskA任務數據示例

系統介紹

提交的系統使用XLM-RoBERTa作為編碼器,在預處理過程中對訓練數據的慣用語短語(MWE)進行特殊標記,在訓練過程中使用R-Drop作為輔助訓練目標,在訓練結束后,根據訓練數據的統計信息制定了啟發式規則對模型預測結果進行校正。此外還嘗試了數據增強、對比學習輔助訓練、對抗訓練等方法,整體結構如圖2所示:

1. 預處理:對輸入的樣本進行截斷、標記MWE、數據增強等操作。

2. 模型訓練:采用XLM-R作為基模型,以cross-entropy損失作為主要訓練目標,以R-drop等方式優化輔助目標。

3. 后處理:根據訓練數據特征對模型預測結果進行校正。

下面將針對部分主要優化技巧進行簡要介紹。

7d8fe2e4-e589-11ec-ba43-dac502259ad0.png

圖2:SemEval-2022 Task2 Subtask A 系統結構

1、數據預處理

數據截斷:為了盡可能地減少截斷所產生的文本信息丟失,在設定句子最大長度前對長度信息進行了統計,最終確定使用128作為最大長度可保證絕大多數句子不被截斷。

短語標記:任務的每一條數據提供了目標句子中要被預測的慣用語短語,為了能夠讓模型能夠關注到慣用語,對句子中的慣用語使用特殊符號進行標記。例如,包含慣用語bigfish的文本 caught some bigfish along the way 將被標記為caught some[SEP] big fish [SEP] along the way。由于預訓練對于命名實體具有識別能力,而在該任務的數據中,命名實體幾乎都進行首字母大寫變形并且標注為非慣用語用法,在后續的實驗中改善了慣用語標注方法,僅標注未經過變形的慣用語短語。對比實驗結果如圖3所示,I表示標記慣用語,C表示使用上下文文本。對比w/ I 和 w/o I的實驗,可驗證這一改動能夠提高性能效果。

上下文信息:此外,我們還發現,不使用任務提供的額外上下文文本數據,而僅使用包含慣用語的句子(w/o C),能取得更優的效果,如圖3第三行所示。原因可能為不包含上下文文本數據的短文本能使模型更聚焦于待判別的慣用短語。

7deafe5e-e589-11ec-ba43-dac502259ad0.png

圖3: 上下文以及標注慣用語對結果的影響

2、模型訓練

訓練過程使用XLM-RoBERTa作為編碼器,接池化層和softmax分類器。對不同池化方法進行了實驗,結果表明池化方法對最終結果沒有顯著影響,為了簡便,使用[SEP]作為句子向量表示。訓練過程中嘗試了多種輔助手段,包括R-Drop、對抗訓練、數據增強、對比學習輔助目標等。實驗結果表明,R-Drop以及對抗訓練能夠顯著提高模型表現,并且相較于對抗訓練,R-Drop能夠取得更大的性能提升,結果詳見下一節。

7e1468ac-e589-11ec-ba43-dac502259ad0.png

圖4:R-Drop示意圖

3、后處理

在訓練結束后,根據訓練數據的分布統計信息制定了啟發式規則。對于在訓練集中僅出現過一次的短語,因缺乏不同標簽對應的訓練數據,我們采用訓練集中僅出現過的標簽作為預測標簽,以減少訓練集的人工標記偏差對結果的影響。

實驗結果

模型的最終效果及消融實驗如圖5所示。

7e66fc70-e589-11ec-ba43-dac502259ad0.png

圖5:不同方法對結果的影響

標記MWE(mark MWE)可以同時提升zero-shot和one-shot效果;我們還嘗試了對比學習方法,然而在zero-shot和one-shot上均沒有提升;AEDA是一個簡單的操作標點符號的數據增強策略,對zero-shot有一定幫助;在兩種提升模型穩定性的方法(對抗訓練和R-drop)中,R-drop有更好的表現。最后,后處理策略對訓練集中出現的偏差做了很好的校正。顯著地提升了效果。

7e951858-e589-11ec-ba43-dac502259ad0.png

多語種慣用語識別任務子賽道Subtask A(one-shot)最終榜單:HIT-SCIR與HFL聯合團隊排名第一

結論

基于多語言預訓練模型,我們構建了一個多語言慣用語識別系統。通過對輸入格式、模型訓練方式、預測結果后處理等方面的優化,最終系統整體性能較baseline有較為顯著的提升,并在one-shot賽道上取得最優成績。在后續研究中,可嘗試探索如何讓預訓練模型利用訓練數據之外的語料,如慣用語詞典等,以進一步提升預測效果,并降低對標注數據資源的需求,發揮多語言模型的zero-shot能力。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142658
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94778

原文標題:競賽 | SemEval 2022: 多語種慣用語識別評測冠軍系統簡介

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    京東多語言質量解決方案

    一、業界多語言面臨的通用挑戰是什么 做這個事之前,我們先看看業界做了什么。 ??阿里巴巴全球化測試技術介紹? ??螞蟻全球化無線端質量解決方案? ??談談多語言測試? 總結下來,需要面臨3個通用
    的頭像 發表于 01-13 16:18 ?929次閱讀
    京東<b class='flag-5'>多語</b>言質量解決方案

    給智能門鎖“裝個移動硬盤”:廣州唯創電子WTV語音芯片外置SPI Flash方案破解多語種語音存儲困局

    廠家,以其創新的WTV系列語音芯片外置SPIFlash方案,如同給門鎖配備了一個“海量移動硬盤”,徹底破解了智能門鎖的多語種語音存儲困局。一、行業痛點:智能門鎖的“
    的頭像 發表于 11-17 07:43 ?770次閱讀
    給智能門鎖“裝個移動硬盤”:廣州唯創電子WTV語音芯片外置SPI Flash方案破解<b class='flag-5'>多語種</b>語音存儲困局

    江蘇省委書記一行到訪思必馳調研

    大模型開啟了人工智能發展的新階段。在思必馳,信長星了解多語種語言大模型、人機對話技術等研發應用,以及向汽車、家電、新能源等行業提供產品解決方案情況。他強調,要推動面向各行業各領域的大模型垂直應用,促進人工智能與實體經濟深度融合。
    的頭像 發表于 11-11 10:37 ?775次閱讀

    AR智能眼鏡定制_ar眼鏡PCBA硬件設計與AI賦能

    千問、DeepSeek、豆包等),可以實現智能提詞、多語種實時翻譯、AI識物、導航、消息提醒和支付等功能,為用戶提供更加智能化的交互體驗。
    的頭像 發表于 11-05 20:27 ?662次閱讀
    AR智能眼鏡定制_ar眼鏡PCBA硬件設計與AI賦能

    聲智科技多語種AI翻譯耳機亮相中美產業交流會

    近日,由商務部投資促進事務局與北京市海淀區人民政府聯合主辦的“共赴新未來——中美地方產業交流會”在北京中關村展示中心成功舉辦。聲智科技作為人工智能與聲學融合領域的領先企業,應邀參會并展示了其面向全球市場的AI聲學產品矩陣,彰顯出中國科技企業在“出海”過程中日益增強的技術話語權與生態整合能力。
    的頭像 發表于 10-14 09:09 ?807次閱讀

    NVIDIA推出多語種語音AI開放數據集與模型

    新發布的 Granary 數據集包含約 100 萬小時音頻,可用于訓練高精度、高吞吐量的 AI 音頻轉錄與翻譯模型。
    的頭像 發表于 09-23 15:34 ?960次閱讀

    云知聲多項業務營收大漲

    依托山海大模型,云知聲不斷開拓陣地,開發了面向東盟等海外市場和國內方言市場的語音大模型,模型顯著提升了在多語種、多方言環境下的語音識別、語義理解和高質量語音生成能力,改善了多語言、語種
    的頭像 發表于 09-10 15:44 ?664次閱讀

    語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰解析

    與一致性校驗,實現高精度、低成本的小語種OCR訓練數據生成。該方案將數據準備周期 從數周縮短至數小時 ,為小語種模型的快速迭代與冷啟動提供了全新范式 一、引言:小語種OCR的“數據之困” 在跨境支付、
    的頭像 發表于 08-29 11:26 ?3643次閱讀
    小<b class='flag-5'>語種</b>OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰解析

    聲智科技出席2025年北京市多語種AI語音翻譯大賽

    8月20日,由北京市科委、中關村管委會主辦,北京語言大學、北京第二外國語學院、北京市翻譯協會、中國人工智能百人會共同承辦的“2025年北京市多語種AI語音翻譯大賽”在中關村展示中心順利啟幕。聲智作為
    的頭像 發表于 08-25 17:18 ?1243次閱讀

    傳音斬獲WMT 2025國際機器翻譯大賽四項冠軍

    佳績,分別在阿薩姆語(Assamese)、曼尼普爾語(Manipuri)、卡西語(Khasi)、米佐語(Mizo)四個語種的機器評測中榮獲冠軍
    的頭像 發表于 08-06 18:21 ?1233次閱讀

    廣和通發布自研端側語音識別大模型FiboASR

    、高效會議記錄、多語種即時翻譯等核心領域實現重大技術突破,致力于為終端用戶帶來更自然、高效、私密的語音交互體驗。
    的頭像 發表于 08-04 11:43 ?1599次閱讀

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    1Whisper簡介Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統。Whisper作為一個通用的語音識別
    的頭像 發表于 07-25 15:21 ?857次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音<b class='flag-5'>識別</b>訓練部署教程

    普強智能語音技術重新定義車載交互邊界

    普強憑借自主研發的智能語音技術,為某國內頭部車企提供的語音前處理、喚醒詞、ASR、TTS等技術模塊,構建覆蓋泰語、俄語、韓語、日語等多語種的語音交互解決方案,助力其海外車型實現無障礙人機交互,更以技術突破重新定義車載語音交互的邊界。
    的頭像 發表于 07-11 14:00 ?1176次閱讀

    給智能門鎖“裝個移動硬盤”:WTV外置SPI Flash方案破解多語種語音存儲困局

    深夜加班回家,疲憊的你走到智能門鎖前,它用溫和的母語輕聲提示:“歡迎回家,電量充足。請驗證指紋...”——當冰冷的門鎖能貼心地說出你熟悉的語言,安全感與歸屬感是否瞬間拉滿?
    的頭像 發表于 07-08 11:03 ?426次閱讀
    給智能門鎖“裝個移動硬盤”:WTV外置SPI Flash方案破解<b class='flag-5'>多語種</b>語音存儲困局

    普強信息入選2024語音識別技術公司TOP30榜單

    企業數字化升級,這一榮譽不僅體現了普強在語音交互、語義理解、多語種識別等核心技術上的領先優勢,更是對普強自主研發的端到端語音識別系統在高噪聲環境、復雜口音等極端場景下仍能保持95%以上識別
    的頭像 發表于 04-18 17:25 ?1214次閱讀