国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟在EMNLP2020上發表最新工作

深度學習自然語言處理 ? 來源:NLPCAB ? 作者:NLPCAB ? 2020-10-22 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自:NLPCAB

句子表示在很多任務中都是重要的一環。尤其是在大數據量的場景下,很多場景都需要召回+排序兩個步驟,如果第一個環節沒有召回候選結果,那最后的排序模型再怎么優秀也沒法給出正確答案。

今天就給大家介紹一個微軟在EMNLP2020上發表的最新工作,利用transformer生成更高質量的句子編碼。

雖然BERT式模型的出現解決了很多判別問題,但直接用無監督語料訓練出的BERT做句子表示并不理想:

如果只取CLS,這個表示是針對NSP進行優化的,表示的信息有限

如果取平均或最大池化,可能會把無用信息計算進來,增加噪聲

所以作者的改進目的是設計一個下游任務,直接優化得到的句子embedding。

那怎么設計目標才能充分利用無監督數據呢?

作者給出了一個巧妙的方法,就是用周邊其他句子的表示預測當前句子的token。

具體的做法是:先利用Transformer抽取句子表示,再對句子表示進行attention,選取相關的句子預測當前token。有點Hierarchical Attention的意思。

比如在預測上圖中最后一句的黃藍兩個token時,明顯第一句的信息就夠用了,那目標函數的設置會讓第一句的權重變大,也會讓抽取出的句子表示去包含這些信息。

接下來詳細介紹一下預訓練和精調的步驟,以及作者加入的其他tricks。

Cross-Thought模型

預訓練

下圖是預訓練的模型結構,計算的步驟是:

將段落按順序拆成獨立短句,通過12層Transformer(藍色半透明的矩形)分別進行編碼。在實際的預訓練中,每個sample包含500個長度為64的短句,batch size是128(16張V100)

取出 ... 等special token的輸出(大紅點)作為句子表示

把每列句子表示作為一個序列輸入到cross-sequence transformer(藍色弧線,每一列的cross-sequence transformer參數都不同),輸出attention分數加權后的新表示

將新的句子表示與第一步的token表示進行拼接,經過一層transformer,預測被mask的15%個token(每個句子都這么處理,圖中只畫了第一個句子的)

整體流程理解起來比較簡單,作者還用了一些額外的tricks提升效果:

為了抽取更多的信息,在句子開頭加入了多個占位token(之前BERT只有一個[CLS]),在實驗結論中發現5個占位的表現較好(但占位token的增加會加大計算量)

占位token的位置表示是固定的,而真實token是隨機從0-564中抽取連續的64個,這樣可以訓練更多的位置表示,方便之后對更長的序列進行編碼

精調

精調主要是考慮和下游任務的銜接。作者選擇了問答和句子對分類來驗證模型的表現。

對于問答任務,假設答案句子的表示都已經編碼好了:

輸入問題,經過12層Transformer得到問題表示

利用cross-sequence transformers,對問題表示與答案表示進行計算,得到各個答案的權重 (每列都會得到一個,作者對所有列取了平均)

根據gold answer的index m,計算Ranking loss(代表第0個答案的權重)

對于句子對分類任務比較簡潔,輸入兩個句子A和B:

分別對A和B進行編碼,取出句子表示,輸入cross-sequence transformers得到融合后的句子表示

將兩個句子的所有表示拼接起來,得到2Nxd的矩陣(N是占位token的個數,d是表示的維度)

把第二步得到的表示flatten,得到一個長度 2Nd 的一維向量,輸入到分類層

實驗效果

作者在不少數據集上都驗證了效果,單純從輸出句子表示的效果來看,不僅是句間關系還是問答的候選召回上都有不小的提升,尤其是召回:

除了指標對比外,作者還展示了兩個無監督預訓練模型的打分結果:

總結

近兩年句子表示的研究越來越少了,因為句子表示經常用于句間關系判斷的任務,而交互式的判別顯然比雙塔效果要好。所以研究者們要不在研究更輕量的句間匹配模型(比如RE2、Deformer),要不就是繼續用BERT類模型做出更好的效果。但對于業界來說,句子表示在召回上的速度還是最快的,效果也比單純的字面匹配要好。

為了充分利用無監督數據、得到更高質量的句子表示,Cross-Thought提供了一個新的預訓練思路:用句子表示預測token。同時也給我們展現出了它在候選召回上的巨大潛力,添加的額外cross-sequence transformer對速度的影響也不會太大。另外,作者只使用了wiki語料進行預訓練,如果有更多語料相信效果會更好。

目前源碼還未放出,希望開源社區的富有大佬們早日訓一個中文的Cross-Thought~

原文標題:【EMNLP2020】超越MLM,微軟打造全新預訓練任務

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6741

    瀏覽量

    107863
  • 函數
    +關注

    關注

    3

    文章

    4417

    瀏覽量

    67519

原文標題:【EMNLP2020】超越MLM,微軟打造全新預訓練任務

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    廣電計量兩大創新工作室喜獲佳績

    建設對象,“張蘭蘭女職工創新工作室”獲評市級“優秀創新工作室”。這兩項榮譽,是對廣電計量產業工人隊伍建設與技術創新領域長期投入與實踐成效的積極肯定。
    的頭像 發表于 12-12 11:14 ?703次閱讀

    能電氣受邀出席2025海上光伏大會并發表精彩演講

    12月5日,由索比光伏網主辦的2025第三屆海上光伏大會在福州隆重召開。大會以“聚焦痛點破局,共創海上光伏高質量發展生態”為主題,眾多業內翹楚齊聚一堂,能電氣受邀出席本次大會并發表精彩演講。
    的頭像 發表于 12-10 14:27 ?746次閱讀

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理(NLP)領域國際權威會議 ——2025 年計算語言學與自然語言處理國際會議(EMNLP 2025)公布論文錄用結果,云知聲提交的《面向門診病歷生成的高質量醫患對話合成技術
    的頭像 發表于 11-10 17:30 ?805次閱讀
    云知聲論文入選自然語言處理頂會<b class='flag-5'>EMNLP</b> 2025

    沐曦聯合香港科技大學登上AI頂會

    近日,沐曦PDE-AI Solution團隊與香港科技大學合作,兩大人工智能頂級會議NeurIPS2025與EMNLP 2025發表重要研究成果,涵蓋大語言模型(LLM)的多樣化解
    的頭像 發表于 10-14 09:46 ?1475次閱讀

    機智云出席新的社會階層人士科技創新工作推進會

    近日,由廣東省委統戰部、廣州市委統戰部指導,廣州大學、廣東省新的社會階層人士聯合會、廣州市新的社會階層人士聯誼會聯合主辦的“新力建功·科創賦能”新的社會階層人士科技創新工作推進會暨IEEE機電一體化與計算機技術工程國際學術會議廣州舉行。
    的頭像 發表于 09-04 15:31 ?687次閱讀

    華為徐直軍出席2025鴻蒙生態大會并發表主旨演講

    2025年8月30日,華為輪值董事長徐直軍“新場景·新體驗”鴻蒙生態大會2025發表了題為“在一起,讓鴻蒙更精彩”的主旨演講。
    的頭像 發表于 09-01 10:43 ?2543次閱讀

    深開鴻與深信大共建“教師工程實踐與創新工作站”,共育開源鴻蒙生態人才

    完成簽約。儀式,許志良副校長代表深信大向深開鴻授予“教師工程實踐與創新工作站”牌匾,標志著校企合作進入實質推進階段,為后續產學研深度融合與項目落地奠定了堅實基礎。
    的頭像 發表于 08-27 16:26 ?968次閱讀
    深開鴻與深信大共建“教師工程實踐與創<b class='flag-5'>新工作</b>站”,共育開源鴻蒙生態人才

    門型展架 創新工坊553閃光系統 商業計劃書.rar

    *附件:門型展架 創新工坊553閃光系統 商業計劃書.rar *附件:12.rar
    發表于 06-21 08:28

    EtherCAT轉CANopen網關與伺服器匯川組態軟件的配置步驟

    EtherCAT轉CANopen網關與伺服器匯川組態軟件的配置步驟 匯川組態軟件工業自動化領域具有廣泛的應用,該軟件能夠有效地實現EtherCAT轉CANopen網關與伺服器的集成配置
    的頭像 發表于 06-12 10:06 ?1220次閱讀
    EtherCAT轉CANopen網關與伺服器<b class='flag-5'>在</b>匯川組態軟件<b class='flag-5'>上</b>的配置步驟

    Arm攜手微軟共筑云計算和PC未來

    計算平臺并從中受益。無論是 Microsoft Azure 的云端還是 Windows on Arm PC 的邊緣側,開發者可以在任何地方加速其應用和工作負載。
    的頭像 發表于 05-28 14:08 ?947次閱讀

    Arm與微軟合作加速邊緣設備的AI體驗

    隨著人工智能 (AI) 成為當今個人電腦 (PC) 和移動設備使用體驗(從聊天機器人到生產力提升)中不可或缺的一部分,這些設備對 CPU 高效、可擴展的推理需求也持續增長。Arm 與微軟正攜手合作
    的頭像 發表于 05-28 13:54 ?829次閱讀

    微軟科技重磅發布兩款企業級AI應用

    和智能體功能,旨在借助AI技術革新工作效率,助力企業的智能化轉型。新增功能涵蓋了定制化智能體、銷售自動化、客戶服務集成和ERP創新等。
    的頭像 發表于 05-12 15:32 ?1176次閱讀

    晶科能源受邀擔任B20南非工業轉型與創新工作組聯席主席

    日前,作為唯一光伏企業,晶科能源受邀擔任B20南非“工業轉型與創新工作組”的聯席主席。B20是G20的官方工商論壇,匯集了全球工商界塑造國際經濟政策方面的建言獻策,以推動可持續和包容性增長。
    的頭像 發表于 04-21 17:44 ?825次閱讀

    如何在VScode使用MCUXpresso下載matter存儲庫?

    我想在 VScode 使用 MCUXpresso 下載 matter 存儲庫。 公司筆記本使用(WIn10) 我嘗試了 3 次以上,但仍然相同的位置失敗。 您能對此
    發表于 04-09 07:14

    無人機消防巡檢的新工作日志

    ? ? ? ?無人機消防巡檢的新工作日志 ? ? ? ?二十層樓高的寫字樓外墻,盤旋著四個旋翼的銀色飛行器。它沿著建筑輪廓勻速移動,鏡頭對準每扇窗戶仔細掃描。這并非科幻電影場景,而是現代城市里每天
    的頭像 發表于 03-10 17:34 ?715次閱讀