国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

雙塔模型擴量負樣本的方法比較

深度學習自然語言處理 ? 來源:NewBeeNLP ? 作者:雨下 ? 2022-07-08 10:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

之前有一段時間做過雙塔的召回模型[1],線上各個指標有了不錯的提升。目前雙塔模型也是被各大公司鐘愛的召回模型。對主流召回模型的分享整理在:總結(jié)下自己做過的深度召回模型

雙塔模型在訓練時是對一個batch內(nèi)樣本訓練。一個batch內(nèi)每個樣本 (user和item對)為正樣本,該user與batch內(nèi)其它item為負樣本。這樣訓練的方式可能有以下問題:

負樣本的個數(shù)不足。訓練時負樣本個數(shù)限制在了batch內(nèi)樣本數(shù)減1,而線上serving時需要在所有候選集中召回用戶感興趣的樣本。模型只能從當前batch內(nèi)區(qū)分出batch內(nèi)正樣本,無法很好地從所有候選集中區(qū)分正樣本。

未點擊的item沒有做負樣本。由于batch內(nèi)的item都是被點擊過的,因此沒有被點擊item無法成為負樣本,在線上serving容易它們被召回出來。一種解決方法是之前沒被點擊過的item不導(dǎo)出到候選集中,然而這樣存在的問題是召回的item很多是之前點擊的熱門item,而很多冷門的item沒有機會召回。

最近,有兩篇文章提出了雙塔模型擴量負樣本的方法。這兩種方法我也曾嘗試過,線下線上指標也有一定的提升。

一、Two Tower Model

再介紹其它方法之前,先回顧一下經(jīng)典的雙塔模型建模過程。

用 表示雙塔模型計算的user 和item 的相似性:

是表示user塔,輸出user表示向量; 是item,輸出item表示向量。最后相似性是兩個向量的余弦值。batch內(nèi)概率計算公式為:表示一個batch的意思。損失函數(shù)是交叉熵。

作者在計算user和item的相似度時,用了兩個優(yōu)化方法:

。 可以擴大相似度范圍,擴大差距。

。 是item 在隨機樣本中被采樣的概率,也就是被點擊的概率。

關(guān)于優(yōu)化2的解釋有很多。論文中說熱門item出現(xiàn)在batch內(nèi)概率較大,因此會被大量做負樣本。另一種解釋是增加對冷門item的相似度。相比熱門item,冷門item更能反映用戶興趣。

圖1反映了雙塔模型的batch采樣過程。query也可以表示user。我們采樣一個batch的user和對應(yīng)正樣本的item,計算各自的embedding后,通過點乘得到logits(B*B)的矩陣。label矩陣是一個單位矩陣。logit矩陣與label矩陣的每對行向量一起求交叉熵。

e387cbe6-f6d4-11ec-ba43-dac502259ad0.png

圖1:雙塔模型batch采樣

二、Mixed Negative Samping(MNS)

MNS[2]與雙塔模型[1]出自谷歌團隊的同一批作者。用一個batch數(shù)據(jù)訓練時,MNS還會在所有的數(shù)據(jù)集中采樣出 個item。這樣可以讓所有的item參與到訓練中,一些曝光未點擊的item也會當作負樣本。同時,雙塔模型中使用的 等于訓練樣本中的頻率加上所有數(shù)據(jù)集中的頻率分布。概率公式重新定義如下:

作者在這里只對負樣本的相似性減去了頻率的log值。

MNS的batch采樣方法見圖2。最終計算的logits和label矩陣是一個B*(B+B')維的。其實就是在圖1展示的基礎(chǔ)上再增加B'列。logits的最后B'列是user與B‘內(nèi)的item計算的相似性,label的最后B'列是全0矩陣。

相比于每個樣本都隨機采樣出一定量的負樣本,為每個batch都采樣出B‘個負樣本的不僅有先前雙塔模型的計算效率,也緩和負樣本不足的問題,并且讓每個樣本均有機會做負樣本。

e3a3695a-f6d4-11ec-ba43-dac502259ad0.png

圖2:MNS的batch采樣

三、Cross Batch Negative Samping(CBNS)

CBNS[2]是清華大學和華為合作提出的方法。文中提到,雙塔模型的計算優(yōu)勢在于利用了batch內(nèi)的負樣本,減小的計算量。如果我們想擴大batch內(nèi)樣本個數(shù),加大負樣本個數(shù),需要很多的內(nèi)存。因此,作者提出一個使用之前訓練過的item作為負樣本的方法。

神經(jīng)網(wǎng)絡(luò)訓練達到一定輪數(shù)后,會對相同的樣本產(chǎn)生穩(wěn)定的向量。作者在論文中定義了這個想法。因此把之前訓練過的item作為當前訓練的負樣本時,模型只需要把這些item的向量拿過來使用,不需要再輸出到神經(jīng)網(wǎng)絡(luò)中產(chǎn)生新的向量,畢竟這兩種向量的差距較小。

作者使用了FIFO(先進先出)隊列,item塔輸出向量時,會放進FIFO中。當warm-up training達到一定的輪數(shù)后,訓練模型時,會從FIFO拿出一批向量作為負樣本的向量。這樣做不僅減少了計算量,在擴充負樣本的時候也減少了內(nèi)存的使用。計算公式與MNS差別不大:

也就是內(nèi)容一中的優(yōu)化2。B'在這里是從FIFO中取出的一批向量。

圖3展示了CBNS與只用batch內(nèi)負樣本的不同。CBNS維持了一個memory bank。在訓練時,會從里面拿出一定量的向量。

然而,CBNS的負樣本只有點擊過的樣本,未點擊的樣本無法作為負樣本。

e3b87548-f6d4-11ec-ba43-dac502259ad0.png

圖3:CBNS采樣方法

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107770
  • fifo
    +關(guān)注

    關(guān)注

    3

    文章

    407

    瀏覽量

    45748

原文標題:雙塔模型如何選擇負樣本?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模型 ai coding 比較

    第三方裁判更客觀 樣本說明:當前樣本30題,統(tǒng)計意義有限,建議后續(xù)擴大到100+題 數(shù)據(jù)污染風險:評估經(jīng)典題目被模型訓練集見過的可能性
    發(fā)表于 02-19 13:43

    請問單片機程序存儲器64KB是外的還是外加內(nèi)部的呢?

    單片機程序存儲器64KB是外的還是外加內(nèi)部的呢?
    發(fā)表于 01-06 08:24

    模板驅(qū)動 無需訓練數(shù)據(jù) SmartDP解決小樣本AI算法模型開發(fā)難題

    。但是這個平臺不適用于小樣本AI模型開發(fā),特別是一些特殊行業(yè),數(shù)據(jù)本來就不多,但又有著需求,因此陷于兩難。面臨這種市場困境,慧視光電推出了一個全新的AI平臺Sma
    的頭像 發(fā)表于 09-09 17:57 ?1402次閱讀
    模板驅(qū)動  無需訓練數(shù)據(jù)  SmartDP解決小<b class='flag-5'>樣本</b>AI算法<b class='flag-5'>模型</b>開發(fā)難題

    模型推理顯存和計算估計方法研究

    過程中需要占用大量顯存,導(dǎo)致推理速度變慢,甚至無法進行。 計算量過大:大模型的計算較大,導(dǎo)致推理速度慢,難以滿足實時性要求。 為了解決這些問題,本文將針對大模型推理顯存和計算的估計
    發(fā)表于 07-03 19:43

    提高SEA模型PBNR計算精度的方法及策略

    方案即聲學包對整車噪聲傳遞的影響,同時克服了NR方法中由于聲源特性、聲源處麥克風安裝位置等因素給測試帶來的不利影響,PBNR已廣泛用應(yīng)用于整車SEA模型對標及聲學包目標的設(shè)定及分解工作中,故而在數(shù)字開發(fā)階段,提高整車SEA 模型
    的頭像 發(fā)表于 06-30 09:30 ?1312次閱讀
    提高SEA<b class='flag-5'>模型</b>PBNR計算精度的<b class='flag-5'>方法</b>及策略

    碳化硅襯底切割進給與磨粒磨損狀態(tài)的協(xié)同調(diào)控模型

    摘要:碳化硅襯底切割過程中,進給與磨粒磨損狀態(tài)緊密關(guān)聯(lián),二者協(xié)同調(diào)控對提升切割質(zhì)量與效率至關(guān)重要。本文深入剖析兩者相互作用機制,探討協(xié)同調(diào)控模型構(gòu)建方法,旨在為優(yōu)化碳化硅襯底切割工藝提供理論與技術(shù)
    的頭像 發(fā)表于 06-25 11:22 ?737次閱讀
    碳化硅襯底切割進給<b class='flag-5'>量</b>與磨粒磨損狀態(tài)的協(xié)同調(diào)控<b class='flag-5'>模型</b>

    EastWave應(yīng)用:折射現(xiàn)象實時演示

    本案例使用“自定義模式”演示折射現(xiàn)象。 模型示意圖 本案例為二維結(jié)構(gòu),將Y、Z 方向設(shè)置為周期邊界,即Y、Z 方向為無限大拓展的平板,X 方向設(shè)置開放邊界。本案例主要采用點光源入射到平板上來實時
    發(fā)表于 06-13 08:41

    嵌入式AI技術(shù)漫談:怎么為訓練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶介紹如何使用AI方法設(shè)計一款客戶產(chǎn)品時,客戶理解,AI嵌入式項目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經(jīng)常會被問到這樣的問題:客戶的工程師需要采集
    的頭像 發(fā)表于 06-11 16:30 ?1383次閱讀

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數(shù)據(jù)讀寫功能都包含客戶端和服務(wù)端兩部分。 FA
    發(fā)表于 06-04 07:53

    Stage模型綁定FA模型ServiceAbility的方法

    Stage模型綁定FA模型ServiceAbility 本小節(jié)介紹Stage模型的兩種應(yīng)用組件如何綁定FA模型ServiceAbility組件。 UIAbility關(guān)聯(lián)訪問
    發(fā)表于 06-04 06:54

    Stage模型啟動FA模型PageAbility方法

    Stage模型啟動FA模型PageAbility 本小節(jié)介紹Stage模型的兩種應(yīng)用組件如何啟動FA模型的PageAbility組件。 UIAbility啟動PageAbility
    發(fā)表于 06-04 06:36

    西門子伺服電機簡明樣本

    西門子伺服電機簡明樣本
    發(fā)表于 04-14 15:36 ?2次下載

    西門子PLC-模擬采集計算使用方法

    西門子PLC-模擬采集計算使用方法,很實用
    發(fā)表于 04-09 15:29 ?1次下載

    MCXN947如何配置和外PSRAM?

    mcxn947自帶的ram太小了,無法滿足需求,想外一塊psram,比如樂鑫的esp-psram64芯片,這個需求有哪個案例可以參考嗎?
    發(fā)表于 03-31 06:54

    ADHV4702壓電路和流電路是否可以同時使用嗎?

    ADHV4702壓電路和流電路是否可以同時使用嗎,芯片8腳和5腳是否可以NC
    發(fā)表于 03-21 06:25