国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

愛奇藝個性化推薦系統(tǒng)排序實踐

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-10 21:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.背景

在當前這個移動互聯(lián)網(wǎng)時代,除了專業(yè)內容的豐富,UGC內容更是爆發(fā)式發(fā)展,每個用戶既是內容的消費者,也成為了內容的創(chuàng)造者。這些海量的內容在滿足了我們需求的同時,也使我們尋找所需內容更加困難,在這種情況下個性化推薦應運而生。

個性化推薦是在大數(shù)據(jù)分析和人工智能技術的基礎上,通過研究用戶的興趣偏好,進行個性化計算,從而給用戶提供高質量的個性化內容,解決信息過載的問題,更好的滿足用戶的需求。

2.愛奇藝推薦系統(tǒng)介紹

我們的推薦系統(tǒng)主要分為兩個階段,召回階段和排序階段。召回階段根據(jù)用戶的興趣和歷史行為,同千萬級的視頻庫中挑選出一個小的候選集(幾百到幾千個視頻)。這些候選都是用戶感興趣的內容,排序階段在此基礎上進行更精準的計算,能夠給每一個視頻進行精確打分,進而從成千上萬的候選中選出用戶最感興趣的少量高質量內容(十幾個視頻)。

推薦系統(tǒng)的整體結構如圖所示,各個模塊的作用如下:

(1)用戶畫像:包含用戶的人群屬性、歷史行為、興趣內容和偏好傾向等多維度的分析,是個性化的基石

(2)特征工程:包含了了視頻的類別屬性,內容分析,人群偏好和統(tǒng)計特征等全方位的描繪和度量,是視頻內容和質量分析的基礎

(3)召回算法:包含了多個通道的召回模型,比如協(xié)同過濾,主題模型,內容召回和SNS等通道,能夠從視頻庫中選出多樣性的偏好內容

(4)排序模型:對多個召回通道的內容進行同一個打分排序,選出最優(yōu)的少量結果除了這些之外推薦系統(tǒng)還兼顧了推薦結果的多樣性,新鮮度,逼格和驚喜度等多個維度,更能夠滿足用戶多樣性的需求。

3.推薦排序系統(tǒng)架構

在召回階段,多個通道的召回的內容是不具有可比性的,并且因為數(shù)據(jù)量太大也難以進行更加精確的偏好和質量評估,因此需要在排序階段對召回結果進行統(tǒng)一的準確的打分排序。

用戶對視頻的滿意度是有很多維度因子來決定的,這些因子在用戶滿意度中的重要性也各不相同,甚至各個因子之間還有多層依賴關系,人為制定復雜的規(guī)則既難以達到好的效果,又不具有可維護性,這就需要借助機器學習的方法,使用機器學習模型來綜合多方面的因子進行排序。

排序系統(tǒng)的架構如圖所示,主要由用戶行為收集,特征填充,訓練樣本篩選,模型訓練,在線預測排序等多個模塊組成。機器學習的主體流程是比較通用的,設計架構并不需要復雜的理論,更多的是需要對細節(jié),數(shù)據(jù)流和架構邏輯的仔細推敲

這個架構設計吸取了以前的經(jīng)驗和教訓,在通用機器學習的架構基礎上解決了兩個問題:

(1)訓練預測的一致性:

機器學習模型在訓練和預測之間的差異會對模型的準確性產(chǎn)生很大的影響,尤其是模型訓練與在線服務時特征不一致,比如用戶對推薦結果的反饋會實時影響到用戶的偏好特征,在訓練的時候用戶特征的狀態(tài)已經(jīng)發(fā)生了變化,模型如果依據(jù)這個時候的用戶特征就會產(chǎn)生非常大的誤差。我們的解決辦法是,將在線服務時的特征保存下來,然后填充到收集的用戶行為樣本中,這樣就保證了訓練和預測特征的一致性。

(2)持續(xù)迭代:

互聯(lián)網(wǎng)產(chǎn)品持續(xù)迭代上線是常態(tài),在架構設計的時候,數(shù)據(jù)準備,模型訓練和在線服務都必須能夠對持續(xù)迭代有良好的支持。我們的解決方案是,數(shù)據(jù)準備和模型訓練各階段解耦,并且策略配置化,這種架構使模型測試變得非常簡單,可以快速并行多個迭代測試。

4.推薦機器學習排序算法演進

4.1上古時期

我們第一次上線機器學習排序模型時,選用了比較簡單的LogisticRegression,將重點放到架構設計上,盡量保證架構的正確性。除此之外,LR模型的解釋性強,方便debug,并且通過特征權重可以解釋推薦的內容,找到模型的不足之處。

在模型訓練之前,我們首先解決的是評測指標和優(yōu)化目標的問題。

(1)評測指標(metrics)

線上效果的評測指標需要與長遠目標相匹配,比如使用用戶的投入程度和活躍度等。在我們的實驗中,業(yè)界流行的CTR并不是一個好的評測指標,它會更偏向于較短的視頻,標題黨和低俗內容。

離線評測指標是按照業(yè)務來定制的,以便與在線評測指標匹配,這樣在離線階段就能夠淘汰掉無效策略,避免浪費線上流量。

(2)優(yōu)化目標(objective)

機器學習會按照優(yōu)化目標求解最優(yōu)解,如果優(yōu)化目標有偏差,得到的模型也存在偏差,并且在迭代中模型會不斷地向這個偏差的方向學習,偏差會更加嚴重。我們的方法是給樣本添加權重,并且將樣本權重加到lossfunction中,使得優(yōu)化目標與評測指標盡可能的一致,達到控制模型的目的。

LR是個線性分類模型,要求輸入是線性獨立特征。我們使用的稠密的特征(維度在幾十到幾百之間)往往都是非線性的,并且具有依賴性,因此需要對特征進行轉換。特征轉換需要對特征的分布,特征與label的關系進行分析,然后采用合適的轉換方法,我們用到的有以下幾種:PolynomialTransformation,LogarithmicorExponentialTransformation,InteractionTransformation和CumulativeDistributionFunction等。

雖然LR模型簡單,解釋性強,不過在特征逐漸增多的情況下,劣勢也是顯而易見的。

(1)特征都需要人工進行轉換為線性特征,十分消耗人力,并且質量不能保證

(2)特征兩兩作Interaction的情況下,模型預測復雜度是O(n^2)。在100維稠密特征的情況下,就會有組合出10000維的特征,復雜度高,增加特征困難

(3)三個以上的特征進行Interaction幾乎是不可行的

4.2中古時期

為了解決LR存在的上述問題,我們把模型升級為Facebook的GBDT+LR模型,模型結構如圖所示。

GBDT是基于Boosting思想的ensemble模型,由多顆決策樹組成,具有以下優(yōu)點:

(1)對輸入特征的分布沒有要求

(2)根據(jù)熵增益自動進行特征轉換、特征組合、特征選擇和離散化,得到高維的組合特征,省去了人工轉換的過程,并且支持了多個特征的Interaction

(3)預測復雜度與特征個數(shù)無關

假設特征個數(shù)n=160決策數(shù)個數(shù)k=50,樹的深度d=6,兩代模型的預測復雜度對比如下,升級之后模型復雜度降低到原來的2.72%

GBDT與LR的stacking模型相對于只用GBDT會有略微的提升,更大的好處是防止GBDT過擬合。升級為GBDT+LR后,線上效果提升了約5%,并且因為省去了對新特征進行人工轉換的步驟,增加特征的迭代測試也更容易了。

4.3近代歷史

GBDT+LR排序模型中輸入特征維度為幾百維,都是稠密的通用特征。這種特征的泛化能力良好,但是記憶能力比較差,所以需要增加高維的(百萬維以上)內容特征來增強推薦的記憶能力,包括視頻ID,標簽,主題等特征。GBDT是不支持高維稀疏特征的,如果將高維特征加到LR中,一方面需要人工組合高維特征,另一方面模型維度和計算復雜度會是O(N^2)級別的增長。所以設計了GBDT+FM的模型如圖所示,采用FactorizationMachines模型替換LR。

FactorizationMachines(FM)模型如下所示,具有以下幾個優(yōu)點:

i.模型公式

ii.前兩項為一個線性模型,相當于LR模型的作用

iii.第三項為一個二次交叉項,能夠自動對特征進行交叉組合

iv.通過增加隱向量,模型訓練和預測的計算復雜度降為了O(N)

v.支持稀疏特征

這幾個優(yōu)點,使的GBDT+FM具有了良好的稀疏特征支持,F(xiàn)M使用GBDT的葉子結點和稀疏特征(內容特征)作為輸入,模型結構示意圖如下,GBDT+FM模型上線后相比GBDT+LR在各項指標的效果提升在4%~6%之間。

典型的FM模型中使用userid作為用戶特征,這會導致模型維度迅速增大,并且只能覆蓋部分熱門用戶,泛化能力比較差。在此我們使用用戶的觀看歷史以及興趣標簽代替userid,降低了特征維度,并且因為用戶興趣是可以復用的,同時也提高了對應特征的泛化能力。

我們主要嘗試使用了L-BFGS、SGD和FTRL(Follow-the-regularized-Leader)三種優(yōu)化算法進行求解:

(1)SGD和L-BFGS效果相差不大,L-BFGS的效果與參數(shù)初始化關系緊密

(2)FTRL,較SGD有以下優(yōu)勢:

[1]帶有L1正則,學習的特征更加稀疏

[2]使用累計的梯度,加速收斂

[3]根據(jù)特征在樣本的出現(xiàn)頻率確定該特征學習率,保證每個特征有充分的學習

FM模型中的特征出現(xiàn)的頻次相差很大,F(xiàn)TRL能夠保證每個特征都能得到充分的學習,更適合稀疏特征。線上測試表明,在稀疏特征下FTRL比SGD有4.5%的效果提升。

4.4當代模型

GBDT+FM模型,對embedding等具有結構信息的深度特征利用不充分,而深度學習(DeepNeuralNetwork)能夠對嵌入式(embedding)特征和普通稠密特征進行學習,抽取出深層信息,提高模型的準確性,并已經(jīng)成功應用到眾多機器學習領域。因此我們將DNN引入到排序模型中,提高排序整體質量。

DNN+GBDT+FM的ensemble模型架構如圖所示,F(xiàn)M層作為模型的最后一層,即融合層,其輸入由三部分組成:DNN的最后一層隱藏層、GBDT的輸出葉子節(jié)點、高維稀疏特征。DNN+GBDT+FM的ensemble模型架構介紹如下所示,該模型上線后相對于GBDT+FM有4%的效果提升。

i.DNN模型

a)使用全連接網(wǎng)絡,共三個隱藏層

b)隱藏節(jié)點數(shù)目分別為1024,512和256

c)預訓練好的用戶和視頻的Embedding向量,包含基于用戶行為以及基于語義內容的兩種Embedding

d)DNN能從具有良好數(shù)學分布的特征中抽取深層信息,比如embedding特征,歸一化后統(tǒng)計特征等等

e)雖然DNN并不要求特征必須歸一化,不過測試發(fā)現(xiàn)有些特征因為outlier的波動范圍過大,會導致DNN效果下降

ii.GBDT模型

a)單獨進行訓練,輸入包含歸一化和未歸一化的稠密特征

b)能處理未歸一化的連續(xù)和離散特征

c)能根據(jù)熵增益自動對輸入特征進行離散和組合

iii.FM融合層

a)FM模型與DNN模型作為同一個網(wǎng)絡同時訓練

b)將DNN特征,GBDT輸出和稀疏特征進行融合并交叉

iv.使用分布式的TensorFlow進行訓練

v.使用基于TensorFlowServing的微服務進行在線預測

DNN+GBDT+FM的ensemble模型使用的是Adam優(yōu)化器。Adam結合了TheAdaptiveGradientAlgorithm(AdaGrad)和RootMeanSquarePropagation(RMSProp)算法,具有更優(yōu)的收斂速率,每個變量有獨自的下降步長,整體下降步長會根據(jù)當前梯度進行調節(jié),能夠適應帶噪音的數(shù)據(jù)。實驗測試了多種優(yōu)化器,Adam的效果是最優(yōu)的。

4.5工業(yè)界DNNranking現(xiàn)狀

(1)Youtube于2016年推出DNN排序算法

(2)上海交通大學和UCL于2016年推出Product-basedNeuralNetwork(PNN)網(wǎng)絡進行用戶點擊預測。PNN相當于在DNN層做了特征交叉,我們的做法是把特征交叉交給FM去做,DNN專注于深層信息的提取

(3)Google于2016年推出WideAndDeepModel,這個也是我們當前模型的基礎,在此基礎上使用FM替換了CrossFeatureLR,簡化了計算復雜度,提高交叉的泛化能力

(4)阿里今年使用attention機制推出了DeepInterestNetwork(DIN)進行商品點擊率預估,優(yōu)化embedding向量的準確性,值得借鑒

5.總結

推薦系統(tǒng)的排序是一個經(jīng)典的機器學習場景,對于推薦結果影響也十分重大,除了對模型算法的精益求精之外,更需要對業(yè)務的特征,工程的架構,數(shù)據(jù)處理的細節(jié)和pipeline的流程進行仔細推敲和深入的優(yōu)化。Ranking引入DNN僅僅是個開始,后續(xù)還需要在模型架構、Embedding特征、多樣性、冷啟動和多目標學習中做更多的嘗試,提供更準確,更人性化的推薦,優(yōu)化用戶體驗。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    高通生態(tài)伙伴樂Rokid祝銘明的創(chuàng)新實踐與戰(zhàn)略思考

    歡迎來到《高朋滿座話未來》,本期我們特邀樂Rokid創(chuàng)始人&CEO祝銘明 (Misa)先生,一同聆聽他的創(chuàng)新實踐與戰(zhàn)略思考。
    的頭像 發(fā)表于 01-26 14:09 ?449次閱讀

    廣州唯創(chuàng)電子WTR096A-16S語音芯片:豐富IO口實現(xiàn)個性化定制功能詳解

    設計,為多行業(yè)提供了全新的定制化解決方案。本文將深入解析該芯片如何通過豐富的IO口實現(xiàn)個性化功能,滿足用戶對智能、人性產(chǎn)品的需求。二、強大的硬件支持:IO口的多樣
    的頭像 發(fā)表于 11-12 08:42 ?511次閱讀
    廣州唯創(chuàng)電子WTR096A-16S語音芯片:豐富IO口實現(xiàn)<b class='flag-5'>個性化</b>定制功能詳解

    芯元智榮獲2025金輯獎最佳技術實踐應用獎

    2025年蓋世汽車第七屆“金輯獎”揭曉,芯元智憑借全球輔助駕駛芯片M57系列榮獲“最佳技術實踐應用獎”。
    的頭像 發(fā)表于 11-02 09:17 ?717次閱讀

    紅外測溫傳感器在智能馬桶中的創(chuàng)新應用:領麥微技術驅動的節(jié)能與個性化升級

    智能馬桶已從基礎功能設備升級為集健康監(jiān)測、節(jié)能環(huán)保與個性化體驗于一體的智能終端。其中,領麥微紅外測溫傳感器憑借其高精度、毫秒級響應、非接觸式測溫等核心技術優(yōu)勢,成為破解傳統(tǒng)馬桶圈“能耗高、體驗差
    的頭像 發(fā)表于 10-22 15:35 ?703次閱讀
    紅外測溫傳感器在智能馬桶中的創(chuàng)新應用:領麥微技術驅動的節(jié)能與<b class='flag-5'>個性化</b>升級

    蘑菇街 API 接口:開啟時尚電商個性化推薦新潮流

    在當今數(shù)字化時代,時尚電商平臺正經(jīng)歷著前所未有的變革。蘑菇街作為中國領先的時尚社交電商平臺,憑借其創(chuàng)新的 API 接口,正在引領個性化推薦的新潮流。這篇文章將逐步解析蘑菇街 API 接口的核心
    的頭像 發(fā)表于 09-04 15:19 ?691次閱讀

    利用小紅書電商 API 接口,實現(xiàn)小紅書店鋪商品推薦個性化

    據(jù)、商品信息和交互行為。通過合理利用這些接口,店鋪可以實現(xiàn)高度個性化的商品推薦系統(tǒng),從而精準匹配用戶需求。本文將逐步介紹如何基于小紅書電商 API 實現(xiàn)這一目標,涵蓋技術原理、實現(xiàn)步驟和實際應用,確保內容真實可靠。 1. 理解小紅書電商 API 接口
    的頭像 發(fā)表于 08-27 15:31 ?1068次閱讀
    利用小紅書電商 API 接口,實現(xiàn)小紅書店鋪商品推薦<b class='flag-5'>個性化</b>

    復雜裝備研發(fā)設計中利用數(shù)據(jù)實現(xiàn)大規(guī)模個性化定制

    在復雜裝備研發(fā)設計中,利用數(shù)據(jù)實現(xiàn)大規(guī)模個性化定制已成為提升企業(yè)競爭力、滿足多樣市場需求的關鍵路徑。其核心在于通過數(shù)據(jù)驅動的個性化需求識別、模塊設計、柔性生產(chǎn)、智能決策及閉環(huán)反饋,
    的頭像 發(fā)表于 08-06 17:17 ?718次閱讀

    利用API提升電商用戶體驗:個性化推薦系統(tǒng)

    ? 在當今競爭激烈的電商環(huán)境中,個性化推薦系統(tǒng)已成為提升用戶粘性和轉化率的核心工具。通過API(Application Programming Interface)集成,電商平臺能夠高效接入先進
    的頭像 發(fā)表于 07-14 14:45 ?599次閱讀
    利用API提升電商用戶體驗:<b class='flag-5'>個性化</b>推薦<b class='flag-5'>系統(tǒng)</b>

    2025年電商API發(fā)展趨勢:智能個性化

    ? 引言 隨著數(shù)字經(jīng)濟的深化,電商API(應用程序接口)已成為連接平臺、商家與用戶的核心樞紐。2025年,在人工智能與大數(shù)據(jù)驅動下,電商API將加速向 智能決策 與 個性化服務 演進,重構用戶
    的頭像 發(fā)表于 07-11 14:26 ?628次閱讀
    2025年電商API發(fā)展趨勢:智能<b class='flag-5'>化</b>與<b class='flag-5'>個性化</b>

    聲紋解鎖個性化!啟明云端硅思物語AI平臺讓設備“認準你的聲音”

    啟明云端依托旗下硅思物語AI平臺,通過聲紋采集技術,在ESP32-S3潮玩手辦伴侶上構建的個性化智能助手的真實落地應用場景。聲紋采集:你的聲音就是“生物密碼”什么是聲紋?聲紋如同指
    的頭像 發(fā)表于 06-17 18:02 ?1505次閱讀
    聲紋解鎖<b class='flag-5'>個性化</b>!啟明云端硅思物語AI平臺讓設備“認準你的聲音”

    EM儲能網(wǎng)關 ZWS智慧儲能云應用(13) — 企業(yè)個性化配置

    儲能公有云平臺,企業(yè)用戶如何自主個性化配置?ZWS智慧儲能云通過靈活的多級配置功能,實現(xiàn)個性化系統(tǒng)配置,幫助強化儲能企業(yè)獨特性。簡介儲能企業(yè)在使用智慧儲能云平臺時,常面臨企業(yè)個性化和品
    的頭像 發(fā)表于 05-23 11:39 ?802次閱讀
    EM儲能網(wǎng)關 ZWS智慧儲能云應用(13) — 企業(yè)<b class='flag-5'>個性化</b>配置

    賦能個性化表達!eSUN易生3D打印材料在時尚設計領域的應用

    3D打印技術可以突破傳統(tǒng)材料和工藝的限制,為用戶提供個性化且高效便捷的使用體驗。從華麗的T臺到人們的日常生產(chǎn)生活,3D打印技術都正在發(fā)揮更大的作用。eSUN易生豐富多樣的3D打印材料也一起見證了許多優(yōu)質應用的誕生!
    的頭像 發(fā)表于 05-20 14:11 ?802次閱讀
    賦能<b class='flag-5'>個性化</b>表達!eSUN易生3D打印材料在時尚設計領域的應用

    個性化醫(yī)療的挑戰(zhàn),微流液體監(jiān)測

    現(xiàn)代醫(yī)學已能夠極大改善全球人口的生活質量。脊髓灰質炎、梅毒、肺結核或鼠疫等疾病幾乎已經(jīng)根除,并且可以成功治療或治愈。下一個里程碑則是個性化醫(yī)療。這門新穎的學科針對的并非廣泛人群,而是專注于個體患者
    的頭像 發(fā)表于 05-19 13:25 ?571次閱讀
    <b class='flag-5'>個性化</b>醫(yī)療的挑戰(zhàn),微流液體監(jiān)測

    AI賦能,健康無界:WT2605C語音芯片智能血壓計的個性化設計方案

    :數(shù)據(jù)如何解讀?異常如何干預?風險如何預防?WT2605C芯片方案的誕生,通過“AI對話+云端互聯(lián)+個性化服務”三重技術突破,重新定義了血壓計的價值邊界——它不僅是一
    的頭像 發(fā)表于 04-16 08:57 ?791次閱讀
    AI賦能,健康無界:WT2605C語音芯片智能血壓計的<b class='flag-5'>個性化</b>設計方案

    AWTK:一鍵切換皮膚,打造個性化UI

    不同使用場景和用戶的個性化需求,許多軟件都加入了切換皮膚的功能。例如,當夜晚使用手機時,屏幕亮度可能會讓人感到刺眼,此時用戶可以將APP切換為夜間模式;而在戶外強光環(huán)
    的頭像 發(fā)表于 04-09 13:00 ?915次閱讀
    AWTK:一鍵切換皮膚,打造<b class='flag-5'>個性化</b>UI