国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)算法那家強(qiáng) 因子分解機(jī)(FM算法)工業(yè)落地能力最強(qiáng)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-12-31 00:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文 | 石塔西

源 | 夕小瑤的賣萌屋

盡管BERT為代表的預(yù)訓(xùn)練模型大肆流行,但是身處工業(yè)界才會(huì)知道它落地有多難,尤其是QPS動(dòng)輒幾百的在線推薦、搜索系統(tǒng),哪怕在大廠也很難在線上系統(tǒng)見到它們。

今天就想反其道而行之,談?wù)劰I(yè)界搜索、推薦、廣告這類核心場(chǎng)景中落地能力最強(qiáng)的算法(之一):因子分解機(jī)(FM)。我不敢說它是最簡(jiǎn)單的(FM的確很簡(jiǎn)單),但是作為一個(gè)推薦算法調(diào)參工程師,掌握FM一定是性價(jià)比最高的。我推崇FM算法的原因,有以下三點(diǎn):

功能齊全

眾所周知,推薦算法有三個(gè)應(yīng)用領(lǐng)域:召回、粗排、精排。推薦算法千千萬,但是有的算法只能用于召回,有的算法只能用于排序。像FM這樣實(shí)現(xiàn)三個(gè)領(lǐng)域全覆蓋的多面手,目前為止,孤陋寡聞的我尚不知道有第二個(gè)。但是需要強(qiáng)調(diào)的是,我們不能只訓(xùn)練一個(gè)FM排序模型 ,然后直接拿這個(gè)排序模型用于召回。盡管都是基于FM算法,但是FM召回與排序,有以下不同:

使用的特征不同

FM召回,由于未來要依賴Faiss進(jìn)行線上檢索,所以不能使用user與doc的交叉特征。只有如此,我們才能獨(dú)立計(jì)算user embedding與doc embedding

FM排序,則沒有這方面的限制,可以使用user與doc的交叉特征。是的,你沒看錯(cuò)。因?yàn)镕M所實(shí)現(xiàn)自動(dòng)二階交叉,僅能代表“共現(xiàn)”。但是user與doc之間還有其他形式的交叉,比如user tag與doc tag之間的重合度,喂入這樣的交叉,對(duì)于排序性能提升,仍然有很大幫助。

使用的樣本不同

訓(xùn)練FM做排序時(shí),必須使用“曝光未點(diǎn)擊”這樣的“真負(fù)”樣本。

訓(xùn)練FM做召回時(shí),起碼不能只使用“曝光未點(diǎn)擊”做負(fù)樣本。大部分的負(fù)樣本必須通過隨機(jī)采樣得到。個(gè)中原因見我的文章《負(fù)樣本為王:評(píng)Facebook的向量化召回算法》。

使用的Loss不同

FM排序時(shí),由于負(fù)樣本是真實(shí)的,可以采用CTR預(yù)估那樣的point-wise loss

FM召回時(shí),由于負(fù)樣本是隨機(jī)采樣得到的,存在一定的噪聲,最好采用BPR, hinge這樣的pair-wise loss。

性能優(yōu)異

推薦系統(tǒng)的兩大永恒主題,“記憶”與“擴(kuò)展”,F(xiàn)M也能實(shí)現(xiàn)全覆蓋。

FM存在一階項(xiàng),實(shí)際就是LR,能夠“記憶”高頻、常見模式

FM存在feature embedding。如我在《無中生有:論推薦算法中的Embedding思想》據(jù)說,Embedding是提升推薦算法“擴(kuò)展性”的法寶。FM通過feature embedding,能夠自動(dòng)挖掘低頻、長尾模式。在這一點(diǎn)上,基于embedding的二階交叉,并不比DNN的高階交叉,遜色多少。

便于上線

現(xiàn)在深度學(xué)習(xí)是推薦領(lǐng)域的寵兒,LR/FM/GBDT這樣的傳統(tǒng)機(jī)器學(xué)習(xí)算法,不招人待見。

DNN雖然性能優(yōu)異,但是它有一個(gè)致命缺點(diǎn),就是上線困難。訓(xùn)練的時(shí)候,各位調(diào)參俠,把各種酷炫的結(jié)構(gòu),什么attention, transformer, capsule,能加上的都給它加上,看著離線指標(biāo)一路上漲,心里和臉上都樂開了花,卻全然無視旁邊的后端工程師恨得咬緊了牙根。模型越復(fù)雜,離線和線上指標(biāo)未必就更好,但是線上的時(shí)間開銷肯定會(huì)增加,輕則影響算法與后端的同事關(guān)系(打工人何苦為難打工人),重則你那離線指標(biāo)完美的模型壓根沒有上線的機(jī)會(huì)。雖說,目前已經(jīng)有TF Serving這樣的線上serving框架,但是它也不是開箱即用的,也需要一系列的性能調(diào)優(yōu),才能滿足線上的實(shí)時(shí)性要求。

所以,如果你身處一個(gè)小團(tuán)隊(duì),后端工程人員的技術(shù)能力不強(qiáng),DNN的線上實(shí)時(shí)預(yù)測(cè),就會(huì)成為一個(gè)難題,這個(gè)時(shí)候,F(xiàn)M這樣的傳統(tǒng)機(jī)器學(xué)習(xí)算法,就凸顯出其優(yōu)勢(shì)。

FM排序,雖然理論上需要所有特征進(jìn)行二階交叉,但是通過公式化簡(jiǎn),可以在 O(n)的時(shí)間復(fù)雜度下完成。n是樣本中非零的特征數(shù)目,由于推薦系統(tǒng)中的特征非常稀疏,所以預(yù)測(cè)速度是非常快的。

召回,由于候選集巨大,對(duì)于實(shí)時(shí)性的要求更高。很多基于DNN的召回算法,由于無法滿足線上實(shí)時(shí)生成user embedding的需求,只能退而離線生成user embedding ,對(duì)于用戶實(shí)時(shí)興趣的捕捉大打折扣。FM召回,這時(shí)就顯現(xiàn)其巨大的優(yōu)勢(shì)。事先把doc embedding計(jì)算好,存入Faiss建立索引,user embedding只需要把一系列的feature embedding相加就可以得到,再去faiss中進(jìn)行top-k近鄰搜索。FM召回,可以實(shí)現(xiàn)基于用戶最新的實(shí)時(shí)興趣,從千萬量級(jí)候選doc中完成實(shí)時(shí)召回。

總結(jié)與參考

由于以上優(yōu)點(diǎn),我心目中,將FM視為推薦、搜索領(lǐng)域的"瑞士軍刀"。風(fēng)頭上雖然不及DNN那么搶眼,但是論在推薦系統(tǒng)中發(fā)揮的作用,絲毫不比DNN遜色,有時(shí)還能更勝一籌。FM有如此眾多的優(yōu)點(diǎn),優(yōu)秀的調(diào)參俠+打工人,還等什么,還不趕快學(xué)起來。想迅速掌握FM,我推薦如下參考文獻(xiàn):

掌握FM原理,推薦讀美團(tuán)的博客《深入FFM原理與實(shí)踐》。FFM的部分可以忽略,在我看來,F(xiàn)FM更像是為了Kaggle專門訓(xùn)練的比賽型選手,損失了FM的很多優(yōu)點(diǎn)。這就好比,奧運(yùn)會(huì)上的射擊冠軍,未必能夠勝任當(dāng)狙擊手一樣。

FM用于召回,推薦讀《推薦系統(tǒng)召回四模型之:全能的FM模型》。注意,如我所述,F(xiàn)M雖然萬能,但是FM排序與FM召回,在特征、樣本、Loss都存在不同,不可能訓(xùn)練一個(gè)FM排序就能直接拿來做召回。這一點(diǎn),《全能FM》一文沒有提到,需要讀者特別注意。

如果想親手實(shí)踐,可以嘗試alphaFM。該項(xiàng)目只不過是作者八小時(shí)之外的課外作品,卻被很多公司拿來投入線上實(shí)際生產(chǎn)環(huán)境,足見該項(xiàng)目性能之優(yōu)異和作者功力之深厚,令人佩服。強(qiáng)烈建議不滿足只當(dāng)“調(diào)參俠”的同學(xué),通讀一遍alphaFM的源代碼,一定收獲滿滿。

[1] https://zhuanlan.zhihu.com/p/165064102

[2] https://zhuanlan.zhihu.com/p/320196402

[3] https://link.zhihu.com/?target=https%3A//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

[4] https://zhuanlan.zhihu.com/p/58160982

[5] https://link.zhihu.com/?target=https%3A//github.com/CastellanZhang/alphaFM

原文標(biāo)題:談?wù)劰I(yè)界落地能力最強(qiáng)的機(jī)器學(xué)習(xí)算法

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98064
  • FM
    FM
    +關(guān)注

    關(guān)注

    1

    文章

    196

    瀏覽量

    61346
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136955
  • dnn
    dnn
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    9501

原文標(biāo)題:談?wù)劰I(yè)界落地能力最強(qiáng)的機(jī)器學(xué)習(xí)算法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    算法工程師需要具備哪些技能?

    算法工程師需要掌握一系列跨學(xué)科的技能,涵蓋數(shù)學(xué)基礎(chǔ)、編程能力算法理論、工程實(shí)踐以及業(yè)務(wù)理解等多個(gè)方面。 以下是具體技能及學(xué)習(xí)建議: 線性代數(shù)核心內(nèi)容:矩陣運(yùn)算、特征值
    發(fā)表于 02-27 10:53

    深演智能入選2025大鯨榜GenAI最強(qiáng)落地公司

    近日,由虎嗅智庫發(fā)起的 “2025 大鯨榜?GenAI 最強(qiáng)落地公司” 評(píng)選結(jié)果正式揭曉。憑借在智能營銷領(lǐng)域的技術(shù)創(chuàng)新實(shí)力、規(guī)模化商業(yè)落地成果及顯著的價(jià)值創(chuàng)造能力,深演智能成功入選企業(yè)
    的頭像 發(fā)表于 12-28 15:45 ?1060次閱讀

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    ,形成\"傳統(tǒng)視覺算法→深度學(xué)習(xí)建模→工業(yè)級(jí)部署\"的完整技術(shù)鏈,幫助學(xué)員掌握從0到1搭建缺陷檢測(cè)系統(tǒng)的能力,響應(yīng)制造業(yè)\"提質(zhì)降本增效\"的核心需求。 團(tuán)購課程
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    ,形成\"傳統(tǒng)視覺算法→深度學(xué)習(xí)建模→工業(yè)級(jí)部署\"的完整技術(shù)鏈,幫助學(xué)員掌握從0到1搭建缺陷檢測(cè)系統(tǒng)的能力,響應(yīng)制造業(yè)\"提質(zhì)降本增效\"的核心需求。 團(tuán)購課程
    發(fā)表于 12-03 13:50

    SM4算法實(shí)現(xiàn)分享(一)算法原理

    SM4分組加密算法采用的是非線性迭代結(jié)構(gòu),以字為單位進(jìn)行加密、解密運(yùn)算,每次迭代稱為一輪變換,每輪變換包括S盒變換、非線性變換、線性變換、合成變換。加解密算法與密鑰擴(kuò)展都是采用32輪非線性迭代結(jié)構(gòu)
    發(fā)表于 10-30 08:10

    曠視借助大模型與智能體推動(dòng)算法落地

    當(dāng)下,AI技術(shù)繁榮無比,但無數(shù)企業(yè)卻陷入“叫好不叫座”的困境:算法模型很先進(jìn),但一到真實(shí)的行業(yè)場(chǎng)景中就“水土不服”。問題究竟出在哪?大模型和智能體的興起,又為我們提供了怎樣的新解題思路?本文將深入探討算法落地的核心痛點(diǎn),并闡述我
    的頭像 發(fā)表于 10-11 14:04 ?590次閱讀

    25年11月上海FPGA算法實(shí)現(xiàn)與應(yīng)用技術(shù)高級(jí)研修分享

    進(jìn)行了詳細(xì)的分解和論述,同時(shí)對(duì)數(shù)字中頻處理涉及的許多概念和應(yīng)用場(chǎng)景進(jìn)行闡述,不僅幫助大家結(jié)合工程設(shè)計(jì)去深入了解算法,也為后續(xù)的課程學(xué)習(xí)建立良好的基礎(chǔ)。   第二章: 離散傅里葉變換補(bǔ)充說明:結(jié)合現(xiàn)實(shí)中
    發(fā)表于 10-11 11:55

    思必馳聲音轉(zhuǎn)換算法通過國家備案

    近日,國家互聯(lián)網(wǎng)信息辦公室公告第十三批深度合成服務(wù)算法備案信息,思必馳聲音轉(zhuǎn)換算法通過備案,這也是思必馳第7項(xiàng)通過備案的算法,標(biāo)志著思必馳在人工智能算法合規(guī)化與場(chǎng)景
    的頭像 發(fā)表于 09-18 14:05 ?936次閱讀

    AI 驅(qū)動(dòng)三維逆向:點(diǎn)云降噪算法工具與機(jī)器學(xué)習(xí)建模能力的前沿應(yīng)用

    在三維逆向工程領(lǐng)域,傳統(tǒng)方法在處理復(fù)雜數(shù)據(jù)和構(gòu)建高精度模型時(shí)面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術(shù)的發(fā)展,點(diǎn)云降噪算法工具與機(jī)器學(xué)習(xí)建模能力的應(yīng)用,為三維逆向工程帶來了創(chuàng)新性解決方案,
    的頭像 發(fā)表于 08-20 10:00 ?708次閱讀
    AI 驅(qū)動(dòng)三維逆向:點(diǎn)云降噪<b class='flag-5'>算法</b>工具與<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>建模<b class='flag-5'>能力</b>的前沿應(yīng)用

    PID控制算法學(xué)習(xí)筆記資料

    用于新手學(xué)習(xí)PID控制算法
    發(fā)表于 08-12 16:22 ?7次下載

    單片機(jī)常用算法源碼下載!

    單片機(jī)常用算法源碼下載!
    發(fā)表于 06-10 20:44

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    學(xué)習(xí)建議 對(duì)于初學(xué)者,建議先通過仿真(如Gazebo)驗(yàn)證算法,再遷移到真實(shí)機(jī)器人,以降低硬件調(diào)試成本。 多參與開源社區(qū)(如ROS2的GitHub項(xiàng)目),學(xué)習(xí)前沿技術(shù)并貢獻(xiàn)代碼
    發(fā)表于 05-03 19:41

    復(fù)合機(jī)器人為什么要使用單點(diǎn)糾偏算法

    復(fù)合機(jī)器人單點(diǎn)糾偏算法
    的頭像 發(fā)表于 04-20 14:59 ?697次閱讀
    復(fù)合<b class='flag-5'>機(jī)器</b>人為什么要使用單點(diǎn)糾偏<b class='flag-5'>算法</b>?

    具身智能工業(yè)機(jī)器人路徑規(guī)劃算法成為破局關(guān)鍵

    工業(yè)4.0與智能制造深度融合的今天,傳統(tǒng)路徑規(guī)劃算法已難以滿足動(dòng)態(tài)生產(chǎn)環(huán)境的需求。面對(duì)復(fù)雜場(chǎng)景下的高精度避障、實(shí)時(shí)決策與多任務(wù)協(xié)同挑戰(zhàn),具身智能工業(yè)機(jī)器人路徑規(guī)劃
    的頭像 發(fā)表于 03-28 15:01 ?1052次閱讀

    請(qǐng)問STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?

    STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?
    發(fā)表于 03-13 07:34