国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全球人工智能技術創新大賽短文本語義匹配方案技巧

深度學習自然語言處理 ? 來源:煉丹筆記 ? 作者:DOTA ? 2021-03-29 16:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

好久不打比賽,周末看到“全球人工智能技術創新大賽”已經開打了一段時間,前排分數沖的有點兇,技癢的我看到了一道熟悉的賽題——小布助手對話短文本語義匹配,由于在搜索推薦系統的一些任重中,文本語義匹配子任務也是經常會遇到的一個問題,于是乎掏出那根...咳咳..沉睡了很久的GPU,翻出了祖傳代碼,跑了一波Baseline...

賽題題型不新鮮,在Baseline的的基礎上參考了一些思路做些煉丹技巧上的操作,3次提交之后順利沖進排行榜首頁。針對短文本語義匹配,本文幫大家梳理一波方案技巧。

P.S.發稿之前,看了一眼排行榜,分數已經被大家刷上去了,參加人數還蠻多,有興趣的同學可以去戰一波...

賽題背景

意圖識別是對話系統中的一個核心任務,而對話短文本語義匹配是意圖識別的主流算法方案之一。本賽題要求參賽隊伍根據脫敏后的短文本query-pair,預測它們是否屬于同一語義,提交的結果按照指定的評價指標使用在線評測數據進行評測和排名,得分最優者獲勝。

數據及評估指標

數據

訓練數據包含輸入query-pair,以及對應的真值。初賽訓練樣本10萬,復賽訓練樣本30萬,這份數據主要用于參賽隊伍訓練模型,為確保數據的高質量,每一個樣本的真值都有進行人工標注校驗。每行為一個訓練樣本,由query-pair和真值組成,每行格式如下:

query-pair格式:query以中文為主,中間可能帶有少量英文單詞(如英文縮寫、品牌詞、設備型號等),采用UTF-8編碼,未分詞,兩個query之間使用 分割。

真值:真值可為0或1,其中1代表query-pair語義相匹配,0則代表不匹配,真值與query-pair之間也用 分割。

評估標準

比賽的評估標準由性能標準和效果標準兩部分組成,初賽采用效果標準,AUC 指標,具體定義如下:

54a7756a-8e8f-11eb-8b86-12bb97331649.png

其中:

rank(i):表示i這個樣本的預測得分在測試集中的排序;

M:測試集中語義匹配的樣本的個數;

N:測試集中語義不匹配的樣本的個數。

解決方案與技巧

在BERT橫行的時代,解決方案大同小異,直接梭哈BERT的性價比是很高的,當所有人都會使用這套操作時,你又該怎么辦呢?首先針對此類問題,分享一波煉丹小技巧。由于本賽題開賽前,將文本替換成了加密形式,有些技巧可能無法使用,但不影響學習。

數據增強

1. 標簽傳遞

根據IF A=B and A =C THEN B=C 的規則,對正樣本做了擴充增強。

根據IF A=B and A!=C THEN B!=C的規則,對負樣本做了擴充增強。

554200b2-8e8f-11eb-8b86-12bb97331649.png

2. 隨機刪除,隨機替換, 隨機交換

Query比較短,大約有10-20個字的長度,隨機刪除部分。

很多query僅僅相差一個單詞, 隨機替換部分。

多數屬于問句, 隨機交換部分。

3. 同義詞替換

建模思路

第一個Baseline我沿用了之前計算相似度的方式對問題就行了求解,也做了模型線上的第一次提交,線上0.88的水平。具體思路如下:

55c5ee86-8e8f-11eb-8b86-12bb97331649.png

1. SIF Sentence Embedding

SIF Sentence Embedding 使用預訓練好的詞向量,使用加權平均的方法,對句子中所有詞對應的詞向量進行計算,得到整個句子的embedding向量。

SIF的計算分為兩步:

對句子中的每個詞向量,乘以一個獨特的權重b,權重b是一個常數 a除以a與該詞頻率的和,這種做法的會對出現頻率高詞進行降權,也就是說出現頻次越高,其權重也就越小;

計算句向量矩陣的第一主成分u,讓每個Sentence Embedding減去它在u上的投影;

這里,利用該方法做召回,在驗證集上的準確性要比其他兩種方式效果好。

對句子中所有單詞求平均得到sentence embedding;

對句子中所有單詞利用IDF值加權后求平均得到sentence embedding。

2. InferSent

564378ce-8e8f-11eb-8b86-12bb97331649.png

InferSent相似度模型是Facebook提出了一種通過不同的encoder得到Sentence Embedding,然后計算兩個Sentence Embedding的差值、點乘得到交互向量,計算兩者之間的相似度。

這里,對原始論文方法做了兩處修改:其一是針對這個問題對3-way softmax層(entailment,contradiction,neutral)做了相應的修改變為2-way softmax;其二是中間層去掉了u和v,只使用差值和內積兩種特征表征方式;同時在7中編碼器:1)LSTM, 2)GRU, 3)bi-GRU, 4)bi-LSTM(mean pooling), 5)bi-LSTM(max pooling), 6)self-attention, 7)CNN 中選用了Bi-LSTM MaxPooling的方式。

開源方案

本賽題蘇劍林開源了一套方案,這套方案讓脫敏數據,也能使用BERT。脫敏數據對于BERT來說,其實就是Embedding層不一樣而已,其他層還是很有價值的。所以重用BERT主要還是通過預訓練重新對齊Embedding層。

56e80ace-8e8f-11eb-8b86-12bb97331649.png

在這個過程中,初始化很重要。首先,我們把BERT的Embedding層中的[UNK]、[CLS]、[SEP]等特殊標記拿出來,這部分不變;然后,我們分別統計密文數據和明文數據的字頻,明文數據指的是任意的開源通用語料,不一定要密文數據對應的明文數據;接著按照頻率簡單對齊明文字表和密文字表。這樣一來,我們就可以按照明文的字來取出BERT的Embedding層來作為相應的初始化。

簡單來說,就是蘇劍林用最高頻的明文字對應的BERT Embedding,來初始化最高頻的密文字,依此類推來做一個基本的字表對齊。對比實驗表明,這個操作可以明顯加快模型的收斂速度。

我的第2次提交是對該方案增加了FGM部分進行了提交測試,因為FGM帶了百一的得分收益,線上0.87+的水平,跟蘇兄開源時公布的0.86+得分相對一致。

FGM對抗訓練

上面提到了FGM的對抗訓練,其實也算是一個煉丹小技巧,這里做一下見到介紹。

578a9ba4-8e8f-11eb-8b86-12bb97331649.png

對抗訓練(Adversarial Training),顧名思義,就是在訓練過程中產生一些攻擊樣本,早期是FGSM和I-FGSM攻擊,目前當前最優的攻擊手段是PGD。對抗訓練,相當于是加了一層正則化,給神經網絡的隨機梯度優化限制了一個李普希茨的約束。

傳統上認為,這個訓練方式會犧牲掉一定的測試精度,因為卷積模型關注局部特性,會學到一些敏感于擾動的特征,對抗訓練是一種去偽存真的過程,這是目前像素識別的視覺算法的局限性。這里蘇建林在kexue.fm里實現是很簡單的,詳情參看引用鏈接。

總結

最后,第3次提交將前兩次的提交的結果,做了一個簡單的線性融合,線上到了當時排行榜的首頁,Ensemble的方式其實很多,由于時間的關系并沒去堆很多模型,對此感興趣的同學,可以去看一下《Kaggle競賽寶典》的系列文章。

比賽結束還有一段時間,感興趣的同學可以去嘗試一波。數據競賽作為一種保持競技狀態(戰斗狀態)的一種方式,在工作中直接應用的層面的可能很少,但是它能帶給選手的更多是一種對問題的深層次思考,一種解決問題的實戰訓練能力,如果你有時間,不妨一試。這次全球人工智能技術創新大賽是清華大學劉強老師負責跟的,劉老師的負責態度和對選手的正面鼓勵,我想很多接觸過的人都會印象深刻。哈哈哈,依稀的記得2017年首次參賽,劉老師送的清華大學百年紀念郵票。

工作之后,時間會過很快,考慮更多的可能是做一件事是否能有結果,考慮的事情多了,也就沒有了當年肝肝肝的勇氣。偶爾回到賽場提醒一下自己,懷念一下過去....ALL in BERT,便是這份高效利用自己時間的體現,簡單、有效、奧卡姆剃刀...

原文標題:【比賽經驗】ALL in BERT:一套操作沖進排行榜首頁

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265427

原文標題:【比賽經驗】ALL in BERT:一套操作沖進排行榜首頁

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    云知聲斬獲2025全國人工智能應用場景典型案例

    生成系統》項目憑借前沿的技術創新與顯著的臨床價值,獲評“2025全國人工智能應用場景典型案例”,彰顯了公司在人工智能技術與醫療場景深度融合領域的領先實力。
    的頭像 發表于 02-06 09:07 ?415次閱讀

    主線科技入選“人工智能+”創新應用實踐案例

    日前,由新華網主辦的“人工智能+”創新應用案例征集評選結果揭曉,主線科技“基于 AI 技術力的自動駕駛卡車在智慧物流的創新應用”案例憑借技術創新
    的頭像 發表于 01-12 09:23 ?385次閱讀

    成都華微出席人工智能技術創新能力供需對接活動

    近日,成都華微電子科技股份有限公司受邀參加了由成都市科技局主辦,四川省人工智能行業協會、四川省人工智能研究院承辦的“科創天府·智匯蓉城”成都市人工智能技術創新能力供需對接活動。作為西南地區集成電路
    的頭像 發表于 12-10 16:17 ?562次閱讀

    微軟與新思科技分享智能人工智能技術的行業影響

    (Agentic AI)技術的行業影響,以及未來跨界合作的前景。此次圓桌討論不僅展現了雙方的戰略協同,以及他們在開發市場領先解決方案方面的共同努力,也勾勒出人工智能是如何驅動工程、電信、制藥等行業變革的新藍圖。
    的頭像 發表于 11-30 09:48 ?410次閱讀

    何同學“AI尋牛”硬件激發創意,2025 SparkS全球AI硬件創新大賽啟動

    11月18日杭州,“2025 SparkS全球AI硬件創新大賽”正式啟動。大賽是由屬地政府和杭州市人才集團、杭創(人工智能)營、涂鴉
    的頭像 發表于 11-19 18:01 ?1190次閱讀
    何同學“AI尋牛”硬件激發創意,2025 SparkS<b class='flag-5'>全球</b>AI硬件<b class='flag-5'>創新</b><b class='flag-5'>大賽</b>啟動

    恭賀!同星智能TSMaster項目榮獲2025全國顛覆性技術創新大賽優勝獎

    近日,同星智能憑借“軟硬件解耦、快速迭代、可不斷被軟件定義的汽車電子基礎工具鏈”項目,榮膺2025全國顛覆性技術創新大賽優勝獎。這是同星智能在獲得金輯獎、AITX領航
    的頭像 發表于 11-07 20:05 ?578次閱讀
    恭賀!同星<b class='flag-5'>智能</b>TSMaster項目榮獲2025全國顛覆性<b class='flag-5'>技術創新</b><b class='flag-5'>大賽</b>優勝獎

    中軟國際攜手昇騰推動人工智能在金融業務中的規模化落地

    ? 在“全力打造全球引領性金融科技中心”的政策驅動下,《上海高質量推進全球金融科技中心建設行動方案》明確提出,要聚焦人工智能等領域推動金融科技底層
    的頭像 發表于 10-12 09:45 ?1428次閱讀

    中科創達旗下創通聯達即將舉辦RUBIK Pi 3端側人工智能技術巡演

    人工智能技術加速向端側滲透,驅動產業智能化轉型的戰略機遇期,全球領先的智能物聯網產品和解決方案提供商Thundercomm(創通聯達)將于
    的頭像 發表于 08-15 15:56 ?1194次閱讀

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    的深度學習,構建起從基礎到前沿的完整知識體系,一門實驗箱就能滿足多門課程的學習實踐需求,既節省經費又不占地 。 五、代碼全開源,學習底層算法 所有實驗全部開源,這對于想要深入學習人工智能技術的人來說
    發表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    的深度學習,構建起從基礎到前沿的完整知識體系,一門實驗箱就能滿足多門課程的學習實踐需求,既節省經費又不占地 。 五、代碼全開源,學習底層算法 所有實驗全部開源,這對于想要深入學習人工智能技術的人來說
    發表于 08-07 14:23

    中科創達入選2025北京市人工智能賦能行業發展典型案例

    近日,2025全球數字經濟大會人工智能融合應用發展論壇于北京啟幕。會上,《北京市人工智能賦能行業發展典型案例(2025)》正式發布,中科創達基于 “端 - 邊 - 云” 一體化技術架構
    的頭像 發表于 07-17 17:10 ?1871次閱讀

    人工智能技術的現狀與未來發展趨勢

    人工智能技術的現狀與未來發展趨勢 ? ? 近年來,人工智能(AI)技術迅猛發展,深刻影響著各行各業。從計算機視覺到自然語言處理,從自動駕駛到醫療診斷,AI的應用場景不斷擴展,推動社會向智能
    的頭像 發表于 07-16 15:01 ?1877次閱讀

    CES Asia 2025同期低空智能感知與空域管理技術論壇即將啟幕

    安全、UTM/UAM管理系統發展與互操作性、人工智能在空域動態管理中的應用等前沿議題,將匯聚全球頂尖專家、企業代表,共同探索低空領域的未來發展方向。 低空通信導航監視技術作為低空飛行的關鍵支撐
    發表于 07-10 10:16

    中科曙光亮相2025全球人工智能技術大會

    此前,6月7日-8日,2025全球人工智能技術大會(GAITC 2025)在杭州舉辦。中科曙光攜全棧AI基礎設施多項核心成果深度參與本次大會,并攜手中國人工智能學會成功舉辦“大模型時代的AI基礎設施”專題活動,全方位展示在
    的頭像 發表于 06-10 16:19 ?1284次閱讀

    2025英特爾人工智能創新應用大賽正式啟動

    近日,2025英特爾人工智能創新應用大賽(以下簡稱“大賽”)正式啟動。本屆大賽以“‘碼’上出發,‘芯’創未來”為主題,在賽制、規模、獎項和賽
    的頭像 發表于 04-02 15:24 ?1110次閱讀