国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探索無限可能:生成式推薦的演進、前沿與挑戰

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-10-20 16:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TL;DR

過去一年間,生成式推薦取得了長足的實質性進展,特別是在憑借大型語言模型強大的序列建模與推理能力提升整體推薦性能方面。基于LLM(Large Language Models, LLMs)的生成式推薦(Generative Recommendations, GRs)正逐步形成一種區別于判別式推薦的新范式,展現出替代依賴復雜手工特征的傳統推薦系統的強大潛力。本文系統全面地介紹了基于LLM的生成式推薦系統(GRs)的演進歷程、前沿核心技術要點、關鍵工程落地挑戰以及未來探索方向等內容,旨在幫助讀者系統理解GRs在“是什么”(What)、“為什么”(Why)和“怎么做”(How)三個關鍵維度上的內涵。

一、引言:傳統推薦的困境與LLM的破局

隨著推薦系統的發展,建模算法大致經歷了三種不同的技術范式:

?基于機器學習的推薦(Machine Learning-based Recommendation,MLR);

?基于深度學習的推薦(Deep Learning-based Recommendation,DLR);

?生成式推薦(Generative Recommendations,GRs)。

1.1 傳統推薦范式的瓶頸

傳統推薦范式(即MLR和DLR),側重于基于手工特征工程和復雜的級聯建模結構來預測相似性或排序分數:

?MLR 主要依賴傳統的機器學習算法,通常建立在顯式的特征工程之上。關鍵技術包括協同過濾(基于與其他用戶或物品的相似性預測用戶偏好)和基于內容的過濾(基于物品屬性推薦與用戶喜歡過的物品相似的物品)。

?DLR 主要利用深度神經網絡的力量,直接從原始或稀疏特征中自動學習復雜的非線性表示。在工業推薦系統中,DLR已被使用了近十年。

wKgZO2j19eyAItSHABKYAWDlkLc049.png

圖一:DLRM模型逐漸復雜化

如上圖,展示了DLRM模型從簡單到復雜的演進:從早期的DWE(Deep Wide and Embedding)模型,到DIN(Deep Interest Network)模型,再到SIM(Search-based user Interest Model)長序列建模,傳統推薦對特征和模型結構做了大量迭代和極致挖掘,現階段暴露了“模型越復雜,優化邊際效益越低”的問題,遭遇了明顯的增長瓶頸。

wKgZPGj19e2AB2opAAaHCpv4C2Y190.png

圖二:多階段級聯架構

一線算法工程師普遍面臨一個困境:簡單地增加一些特征或擴大現有模型規模,并不能帶來預期的效果提升,模型本身也難以有效“變大”

分析背后深層次的原因,可以概括成以下幾點:

?特征工程依賴:成熟業務特征工程“礦山”基本被挖掘殆盡,“精心”設計的手工特征(如用戶/物品統計特征、交叉特征等),迭代成本驟升且泛化性差;

?模型工程天花板:現有架構無法有效建模“世界知識”、“用戶意圖Reasoning”,對多領域、多模態、用戶行為等吸收、表達有限;

?級聯架構導致誤差放大:級聯多階段架構(如上圖二所示,召回-粗排-精排-重排),算法目標被分散到不同階段和不同算法團隊去優化,出現了嚴重的目標割裂和誤差傳播。

同時系統架構中還發現以下問題:

?在級聯架構中,資源存在嚴重浪費。各模塊之間的通信、緩存的代價越來越大,以某實際場景為例:線上服務超過50%的資源消耗在模塊間的通信和數據存儲上,而非核心的模型計算上。

?核心的模型計算GPU資源利用率低。大模型的爆火催動了硬件芯片TensorCore(矩陣乘)的配比提升,但傳統CTR模型難以對其有效利用,業界普遍存在訓推資源利用率低的情況。以某實際場景為例,訓練MFU(Model FLOPs Utilization,模型浮點運算利用率) 4.6%,推理MFU 11.2%。相比之下,大語言模型(LLM)在H100上訓練時MFU可高達40-50% 。

針對上述問題,大語言模型(LLM)提供了解決問題的新思路。

?

1.2 LLM的顛覆性潛力

大語言模型(LLM)和視覺語言模型(VLM)等領域已經出現了關鍵技術突破,如Scaling Law和先進的強化學習(RL)方法等。

wKgZO2j19e6AYeKiAAR2n_jQKjo396.png

大模型研究熱點

同時大語言模型的鏈式推理能力涌現,帶來了推薦范式躍遷新契機,可重構推薦系統的“推理邏輯”:

?長序列建模強化:將用戶行為視作時序信號(如[點擊A, 收藏B, 購買C]),通過自回歸預測捕捉復雜依賴,解決用戶行為深度挖掘的瓶頸;

?世界知識注入:LLM/VLM預訓練語料蘊含跨領域、多模態知識(如“滑雪板與護具的關聯性”),破解新用戶、新商品的冷啟動難題;

?端到端生成:單一模型直接輸出排序列表,消除級聯誤差。

范式變革的本質:從“預測相似性”到“推理用戶需求”,LLM可讓推薦系統具備推理與創造能力

?

1.3 為什么是現在?

生成式推薦在2025年迎來爆發并非偶然,而是LLM技術成熟度與推薦工業場景需求共振的結果。

1、LLM生態成熟

?訓練能力提升:分布式訓練框架,通過數據并行、模型并行和流水線并行策略,結合混合精度訓練、梯度累積等優化技術,顯著縮短了模型訓練周期。同時,融合監督微調(Supervised Fine-Tuning,SFT)與人類反饋強化學習(Reinforcement Learning from Human Feedback, RLHF)技術棧,有效提升了模型與復雜業務目標(如點擊、轉化)的對齊能力。

?推理性能優化:大模型推理框架,通過 FlashAttention/PagedAttention、連續批處理(Continuous Batching)和分布式并行等核心技術,顯著降低了千億級大模型的推理延遲,提升了吞吐量并減少了資源消耗,有力支撐了其大規模、低成本的生產部署。

京東自研大模型推理引擎xLLM優化: https://aicon.infoq.cn/2025/beijing/presentation/6530 xLLM已經開源, https://github.com/jd-opensource/xllm/,敬請關注!

?

2、工業級驗證

在過去一年中,Scaling Law在推薦場景的驗證打破了傳統DLRM的性能天花板,各種GRs系統在實際工業場景中取得了較好的線上效果提升,驗證了商業價值。這其中包括Meta GR、美團MTGR、百度COBRA、字節RankMixer和快手OneRec等公司的工作,

工業屆落地: 召回: Google TIGER [2023.5]:https://arxiv.org/pdf/2305.05065 Meta LIGER [2024.11]:https://arxiv.org/pdf/2411.18814 百度 COBRA [2025.3]:https://arxiv.org/pdf/2503.02453v1 排序: Meta GR [2024.2]:https://arxiv.org/pdf/2402.17152 美團MTGR [2025.5]:https://zhuanlan.zhihu.com/p/1906722156563394693 百度GRAB [2025.5]:https://mp.weixin.qq.com/s/mT8DmHzgc3ag57PVMqZ3Rw 字節RankMixer [2025.7]:https://www.arxiv.org/abs/2507.15551 端到端生成: OneRec Technical Report [2025.6]:https://arxiv.org/abs/2506.13695 (2月份初版:https://arxiv.org/abs/2502.18965) 美團EGA-v2 [2025.5]:https://arxiv.org/abs/2505.17549

迎來爆發的前提本質是生產力的躍遷,LLM能同時解決效果、效率和冷啟動三大難題,為傳統架構升級提供了新方案。

?

二、技術演進:從模塊化到端到端的生成式架構

2.1 LLM4Rec:技術探索前夜

LLM爆火伊始,學術界和工業屆便有不少嘗試和探索:

wKgZPGj19e-AcL_FAAcQBPwRna4252.png

reference: 《A Survey on Large Language Models for Recommendation》

總的來說有三種探索范式:

1、LLM Embeddings + RS

?將大型語言模型(LLM)作為特征抽取器,輸入用戶(User)或物品(Item)的特征,LLM輸出對應特征的嵌入向量(Embedding)。推薦系統(RS)隨后利用這些Embedding進行推薦。

?生產應用(Production Use): 主要在離線環境下預先生成Embedding,例如為物品的文本描述或圖像生成Embedding。

2、LLM Tokens + RS

?向LLM輸入用戶和物品的特征,LLM生成蘊含潛在偏好信息的特定標識符(Token)。推薦系統則基于這些Token執行推薦任務。

?生產應用(Production Use): 在離線階段預生成Token(也可稱作標簽,Tag),用于推薦系統的標簽到物品(tag2item)召回策略或作為模型輸入特征。

3、LLM as RS

?直接將LLM作為推薦系統核心。輸入包括用戶偏好、用戶歷史行為以及明確的任務指令(Instruction),由LLM生成最終的推薦結果列表。

?現狀: 目前基本尚未達到生產可用水平,主要應用于學術研究領域。

小結:探索落地主要集中在離線鏈路的預加工任務,未對推薦系統(RS)的在線鏈路產生實質影響。 范式3(LLM as RS)直接引入原生LLM的成本過高,實際落地難度大。

?

2.2 生成式推薦Online應用范式

LLM4Rec之后,最近半年在線鏈路GRs的應用落地如雨后春筍,目前業界主流有兩大類方式:

1、與傳統級聯系統的相應模塊協作或模塊替換

?召回策略增加,開山代表工作:Google TIGER [2023.5]

?精排模型升級,開山代表工作:Meta GR [2024.2]

2、直接應用生成模型進行端到端推薦

?召排一體,用一個模型直接生成推薦列表,避免傳統方法中的誤差傳播和目標不一致的問題。

?開山代表工作:快手OneRec [2025.6]

本文后續章節將結合核心技術要點,對幾個開山代表作Paper做簡要介紹。

?

2.3 GRs核心技術要點:抽絲剝繭

2.3.1 判別式->生成式的轉變

2.3.1.1 什么是生成式推薦?

判別式推薦:

?給定用戶、物品和上下文特征,模型預估一個用戶喜歡物品的概率。

?例如:用戶A、物品B —→ 模型預測點擊概率是0.76,把候選集中的物品逐個預估點擊率,取出top N個推薦給用戶。

生成式推薦:

?利用用戶的行為歷史序列,基于生成式模型的結構,在無輸入候選的情況下直接生成若干用戶最有可能交互的物品。

?例如電影推薦,用戶歷史:[電影A, 電影B, 電影C] —→生成下一個或者下面N個用戶最有可能看的電影 D, E, F。

總的來說,判別式推薦是封閉式的,從圈定的候選集合中去排序,產生用戶喜歡的物品列表。而生成式推薦是開放式的,無中生有的生成用戶喜歡的物品列表。

那么,“無中生有”的生成具體是怎么做的呢?

2.3.1.2 Google TIGER:召回階段用自回歸生成式模型

wKgZO2j19fCASoBRAAK3caHiEVo095.png

核心價值:首次將自回歸生成引入召回階段,通過語義 ID 壓縮 Item 空間,為生成式推薦提供了“無中生有”的技術范式。 局限性:僅適用于召回階段,未解決精排與重排的端到端問題。 Paper:《Recommender Systems with Generative Retrieval》

作者借鑒LLM的模型結構以及自回歸生成的方法,以自回歸方式直接預測標識下一個item的編碼詞組,因此它被視為生成式檢索模型。

?生成式模型結構:基于Transformer的T5模型。

?輸入與輸出:均為語義ID序列(Semantic ID Sequence)。

?自回歸生成過程:Transformer解碼器塊(Decoder Block)計算得到隱狀態(hidden_states),將其與全庫詞嵌入(Vocab Embedding)計算得到logits,再進行TopK采樣,進而得到可能要輸出的Token ID。

?采用束搜索(Beam Search)采樣策略。

詞嵌入(Vocab Embedding):以LLM為例,詞嵌入規模即所有Token ID大小(與英文單詞有對應關系,約15萬規模)。

“無中生有”的生成過程本質是與整個詞嵌入計算概率分布,再根據概率取Top。

?

2.3.1.3 Meta GR:精排階段發現Scaling Law

核心價值:驗證了推薦場景的 Scaling Law,在特征構建、模型結構和訓練方法上采用了生成式模型的理念和方法論,推動生成式推薦向精排階段滲透。 局限性:特征工程簡化過度導致復現難度高,需結合傳統 DLRM 特征才能提升效果。另外它是精排模型的替換升級,并非端到端直接生成推薦結果。 Paper:《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》

wKgZPGj19fKAXdWsABB4NKB0fLw849.png

Meta GR模型結構創新HSTU

wKgZO2j19fSAOP7vABF5ekDSd2o724.png

Meta GR特征設計

?模型架構設計:提出一種新的HSTU(Hierarchical Sequential Transduction Units,層級序貫轉導單元),針對高基數、非平穩的流式推薦數據設計,通過修改注意力機制和利用推薦數據集特性,在長序列上比FlashAttention2-based Transformers快5.3x到15.2x。

?推理優化:提出一種新的推理算法M-FALCON,通過微批處理(micro-batching)完全分攤計算成本,在相同的推理預算下,能夠服務復雜度高285x的模型,同時實現1.50x-2.99x的速度提升。

?Scaling Law:模型參數量高達萬億,計算量提升1000x,第一次達到GPT-3 175B/LLaMa-2 70B等LLM訓練算力,且第一次在推薦模態觀測到了語言模態的Scaling Law。

?

2.3.2 基于語義ID的生成:壓縮Item空間,提升泛化性與生成效率

自Google TIGER提出后, 基于語義ID(Semantic ID)方式的生成式推薦就成為了近兩年的研究熱點,各大公司也提出了不少優化方案,例如百度的COBRA、快手的OneRec等都使用了語義ID的方案,并做了微創新。

1、為什么語義ID這么受青睞?

前文提到自回歸生成過程需與整個Vocab Embedding進行 Logits 計算。當前大語言模型(如Qwen3,多國語言)的Vocab Embedding大小約為 15 萬 Token。若將生成計算依賴的全庫Vocab Embedding替換為京東的40億商品

?這將導致詞嵌入存儲與計算開銷爆炸;

?且已知大規模稀疏 Embedding 易引發過擬合與訓練不充分問題,進而也影響模型效果;

因此,要實現高效的商品“無中生有”式生成,必須壓縮Vocab Embedding規模。

?

語義ID(Semantic ID)通過將十億級稀疏Item ID抽象、歸納為更高層的萬級別語義表示,實現了Vocab Embedding規模的顯著壓縮,其核心目的有二:

(1)大幅減少稀疏參數規模、降低過擬合風險:將item參數體量與傳統LLM的Vocab Embedding對齊至同一量級(從40億壓縮到萬級),有效降低過擬合風險,結合多模態提取item語義ID,提升模型泛化能力;

(2)支持高效生成式范式:語義ID即Token的總量可控(萬級別),不僅支撐生成式訓練,更能實現高效的生成推理。通過語義ID將Item空間從40億壓縮至萬級,使自回歸生成的logits計算開銷降低 99.9%。

?

2、語義ID的生成過程

wKgZPGj19fWAGfa3AAGulTGC6j4427.png

基于語義ID的生成式推薦過程

如上圖所示,基于語義ID的生成式推薦主要分為兩個階段:

1)Item提取Embedding,再量化成語義ID

使用預訓練LLM/LVM(文本、圖像多模態)對Item提取Embedding之后, 業界最常用以下兩種量化方式來提取語義ID:

?RQ-VAE(Residual Quantized VAE): 基于殘差量化, 會有多層的語義ID, 每一層對應一套Codebook。

?RQ-Kmeans: 沒有了VAE的部分, 并且Codebook是由Kmeans聚類算法得到。

語義ID提取完成后,每個item會被表示為類似<32, 61, 55>的三元組,該三元組與item一一對應。

2)Next語義ID生成預測

基于Beam Search的自回歸生成方式,可生成多個Semantic ID三元組(如<12, 23, 8>、<4, 28, 9>等)。實際在生成階段可能會遇到“模型幻覺”問題,并不是所有的三元組都能映射成真實的item_id,需要邊生成邊做有效性過濾。

?

2.3.3 稀疏特征依然很重要

生成式模型結構以及基于Semantic語義ID的自回歸生成提供了很好的范式,但輸入信號表達上很快發現了瓶頸。

1、Meta GR效果難以復現

分析原因是對特征工程簡化太厲害,只保留了行為序列item id和action,其余dense特征、item side info等特征全部刪除,導致輸入信號表達有限。

美團MTGR基于Meta GR基礎上,保留了全部DLRM原始特征,線上效果有大幅提升。

?保留全部DLRM原始特征,并針對樣本進行無損壓縮,同時建設稀疏化存儲以及計算框架將padding導致的冗余計算降低至0。

?利用Group LayerNorm以及動態混合掩碼策略,實現用統一的HSTU架構針對不同語義空間的Token信息進行編碼。

wKgZPGj19faAMfGaAAMicNH5gO4762.png

MTGR模型架構圖

2、快手OneRec在最新技術方案里也加上了稀疏特征

OneRec 2月份技術方案( https://arxiv.org/pdf/2502.18965 )模型輸入為Semantic ID序列(與TIGER一致,由用戶行為序列item id轉化而來),而四個月后,OneRec Technical Report和OneRec V2方案輸入已改為稀疏ID特征,主要原因還是Semantic ID的表達能力有限。

wKgZPGj19feAWKt0AAJEd1iyLiE798.png

OneRec V2技術架構

OneRec沿用了Encoder-Decoder結構,相較于Google TIGER原生方案,主要異同點如下:

?變化1:Encoder結構輸入調整為傳統DLRM稀疏模型結構(含用戶基礎屬性、偏好及行為序列等)。

?變化2:Decoder結構保留了Cross Attention(本質上類似于Target Attention),FFN替換為MoE(Mixture of Experts)結構(推測受DeepSeek模型啟發)。

?變化3:Semantic ID生成階段,利用miniCPM-V-8B模型聯合建模item文本與圖像信息,采用RQ-Kmeans量化算法。

需要注意的是OneRec V2模型架構換稱“Lazy Decoder-Only”,在筆者看來仍然是Encoder-Decoder結構,只是Encoder部分去掉了雙向Attention變簡單了,用戶行為序列還需要與CrossAttention結合,這個是與LLM Decoder-Only最關鍵的區別。

?

從工程視角看

?稀疏圖(Encoder輸入): 特征設計沿用傳統長序列建模方案,采用稀疏特征及Embedding。這其中涉及用戶行為序列的高性能存儲/查詢,以及10TB級、流式更新的大規模稀疏Embedding高性能存儲是長序列建模效果提升的關鍵依賴。

?稠密圖(Encoder-Decoder): 采用類T5結構(Encoder-Decoder),包含Self Attention、Cross Attention、MoE、自回歸解碼及Beam Search采樣策略等技術。當前模型規模在0.1B~1B之間,目前已經驗證MoE Scaling Up可帶來大幅的效果提升,預計模型規模很快會擴展到10B規模。

?

2.3.4 Encoder-Decoder vs Decoder-Only

目前基于Next Token預測的生成式模型架構主要分為兩類:

?Decoder-Only架構:LLM的廣泛實踐,如Llama、Qwen、DeepSeek等模型均采用此架構;

?Encoder-Decoder架構:而目前工業屆生成式推薦廣泛應用的是Encoder-Decoder架構,例如Google TIGER和快手OneRec等。

在當前階段,Encoder-Decoder架構在推薦系統中處理長用戶行為序列以編碼用戶興趣的任務上效果可能更優(注:目前尚缺消融實驗對比,結論將持續更新)。相比于LLM Decoder-Only架構,Decoder采用Fully Visible Cross Attention,核心在于關聯用戶興趣與候選Item。其計算復雜度顯著低于自注意力,有效降低了長序列建模的資源消耗與推理時延,是實現高性能推薦的關鍵設計。

不過Decoder-Only架構在LLM大語言建模上取得了巨大成功,基于開源模型做微調天然可保留“世界知識”的能力,同時隨著GRs模型規模的持續擴大和訓練數據的積累,其在推薦領域的潛力仍需密切關注和探索。

?

三、工程攻堅:主要考量和挑戰

作為推薦領域的新范式,GRs在工業應用中面臨諸多挑戰。

3.1 模型的演變驅動工程架構升級

3.1.1 LLM/DLRM/GRs異同點

?
DLRM 傳統推薦模型 LLM 大語言模型 GRs 生成式推薦模型
Feature Engineering ID化、分桶、交叉組合統計特征... ? ? 稀疏長序列建模,需求與特性同DLRM
? Tokenizer,token字符到token id的轉換 ? Tokenizer/DeTokenizer,原始用戶行為序列與Semantic ID(int)的轉換
Feature Store 100G~10T量級,用戶屬性、用戶行為序列、商品信息等 ? ? 行為序列特征,量級同DLRM
? Tokenizer詞表,M級別 ? Tokenizer詞表,用戶序列Item ID與Semantic ID的KV映射,量級十GB級
Embedding 稀疏ID Embedding:10G~1TB級大規模稀疏參數 ? ? 稀疏ID同DLRM
? Vocab Embedding(即Token Embedding): <10G ? Semantic ID(Vocab Embedding)大小基本同LLM,GB級大小
Model 復雜模型結構: DNN+Attention等變種結合; Dense大小幾十M ? ? 行為序列建模同DLRM
? Transformer為主體,模型結構收斂; Dense參數量1B~1T ? Dense Transformer/HSTU等,Dense大小0.1B~10B
生成方式 Point-wise Scoring Autoregressive generation Autoregressive generation

從上述歸納表格可以看到,在特征抽取、特征存儲、Embedding規模以及Dense模型復雜度以及結果生成方式等角度,GRs融合了DRLM的稀疏處理和LLM的稠密生成特性,這使得AI Infra工程實現面臨獨特的復雜性和資源挑戰。

?

3.1.2 生成式推薦GRs的發展趨勢

結合以上特點,我們大膽地對生成式推薦GRs的發展趨勢做了預判,總結成了Dense Scaling UpSparse Scaling Up和生成范式三個技術象限,如何在三維技術象限上既要、又要、還要是個亟需解決的技術命題。

wKgZO2j19fiAc3PvAATSiekdbSk378.png

生成式推薦GRs發展趨勢研判

(1)Sparse Scaling Up:由于用戶序列中的稀疏特征仍然非常重要,生成式推薦系統(GRs)仍需應對大規模稀疏Embedding的分布式擴展與Online Learning在線學習時效性的挑戰。在全站全域數據以及全生命周期用戶長序列建模的加持下,實現10TB級別Embedding的秒級流式更新,仍是一個值得持續深入探索的技術方向。

(2)Dense Scaling Up:目前傳統的DLRM或類似Meta GR的精排模型中,稠密參數規模大多不到百兆,而大語言模型(LLM)已經達到了幾百B甚至上T的參數量級。未來若要實現基于世界知識的全場景聯動甚至推理能力,必然需要引入圖像、文本更多模態,擴大模型參數規模。同時考慮到推理計算資源成本,結合混合專家(MoE)結構達到10B參數規模是一條可行路徑。

(3)Generation Paradigm:傳統DLRM的輸入是預先確定的候選目標(Target),對每個Target與公共的用戶/上下文信息進行兩兩打分,這是一種逐點打分(Point-wise Scoring)范式。當前生成式推薦已采用廣度優先的束搜索(Beam Search)生成方式,但這僅是一個起點,束搜索的自回歸生成方式調度開銷較大,導致生成效率偏低。借鑒大語言模型(如DeepSeek)中的MTP并行解碼技術,以及擴散模型(Diffusion Model)的并行生成能力,我們相信未來會出現更高效的并行生成方案。

小結:我們的初衷是工程先行,借鑒大語言模型(LLM)領域的前沿技術能力(如MLA/NSA、MTP/Diffusion等),構建能夠同時支持Sparse Scaling Up、Dense Scaling Up以及多種生成范式的高效生成與推理系統。這不僅涵蓋若干前沿技術點,更是一條具備高度可行性的技術發展路徑!

?

3.2 訓練策略升級:多階段訓練與強化學習

3.2.1 TensorFlow到PyTorch的技術棧轉變

傳統DLRM模型的訓練與推理主要基于TensorFlow技術棧,而LLM模型則普遍采用PyTorch技術棧,其在低精度量化、FlashAttention加速、TP/DP/PP等多維分布式并行訓練能力建設較為完善。

在生成式推薦的新范式下,Dense模型的訓練與推理優化若基于PyTorch技術棧迭代、復用LLM能力,將具有較高的ROI。

理論上這些工作沒有可行性風險,但工作量巨大,包括但不限于以下內容:

?基于PyTorch生態構建稀疏Embedding參數服務器(PS)能力;

?基于PyTorch生態構建特征準入、淘汰、展現/點擊(Show/Click)統計等能力;

?解決離線(Offline)到在線(Online)原生圖化導出的交付與約束等問題。

PyTorch動態圖便于離線靈活構圖,允許純Python邏輯與PyTorch代碼混合編寫,但在線推理無法執行Python代碼,因此必須從離線導出僅包含原生PyTorch OP表達的靜態圖(類似于TensorFlow)。如何有效約束算法邏輯,以及如何高效、自動化地導出原生計算圖,是務必解決的關鍵問題。

3.2.2 多階段聯合訓練與強化學習

wKgZPGj19fmAPgVcAAKeqh7MFKs065.png

The overall process of GRs post-training

GRs 的核心問題在于如何設計訓練方法和目標以適配推薦任務,需要從傳統的單階段訓練,躍遷式的往多階段訓練模式升級。

單階段訓練:模型在一個階段完成推薦任務, 通常專注于召回或排序。

多階段訓練:分為預訓練和微調兩階段。根據微調方式不同,又分為:

?基于表征的微調:如字節跳動的 HLLM、快手的 LEARN 通過對比學習生成用戶和物品表征,再用于傳統排序模型。

?基于模型的微調:如快手的 OneRec 和 OneSug 等采用端到端框架,結合GRPO強化學習提升排序能力、通過精巧的獎勵系統設計,為多目標優化、業務策略調控和團隊協作模式提供了全新的、更高效的解決方案。

這些訓練模式、解決方案的升級,極大的增加了離線鏈路的復雜性。

?

3.3 推理性能瓶頸:工業級在線的百毫秒級生死線

推薦系統在線鏈路時延要求較高,通常全鏈路在百毫秒級別要求,同時用戶流量在幾萬~幾十萬QPS。伴隨LLMs復雜架構帶來的是推理時延和資源成本的增加,這是GRs落地的極大挑戰和阻礙。

wKgZO2j19fqAeAD_AAKKWTkNuSo855.png

生成式推薦在線架構示意

3.3.1 用戶行為序列的高效生產、存儲與查詢

用戶行為序列(如瀏覽、點擊、收藏、加工等時序事件)是生成式推薦范式的核心驅動數據,相比于傳統推薦,生成式推薦由于去掉了很多item相關的特征,這使得用戶行為數據的重要性成為核中核。

在新范式下,

?如何采集整個APP全域場景的更多、更全面用戶行為事件(包括頁面停留軌跡等);

?如何把行為序列做到更長,萬級->十萬級->甚至Life Long全生命周期;

為實現上述目標,對數據時序保證、毫秒級時效性、通信數據量、存儲資源量等都提出了較大的挑戰。

?

3.3.2 生成式推理優化

盡管可借鑒 LLM 的成熟經驗,但在訓練和推理環節仍需大量結合特定場景和模型結構的針對性優化工作,LLM 技術并不是總能開箱即用于 GRs

目前在深入探索并實踐多項關鍵技術路徑:

?高性能計算Kernel: 針對模型關鍵算子(如Self-Attention、Cross-Attention及上Transformer變體)進行深度硬件感知優化。通過開發高度融合的計算核心,將訪存密集與計算密集操作深度結合,最大化利用硬件(如GPU/NPU)的計算單元和顯存帶寬,顯著提升算子的執行效率。

?序列表征壓縮:動態識別并保留序列中的高價值信息,顯著縮短有效處理長度。在保證模型效果的前提下,將冗長輸入序列精煉為緊湊的表征,大幅降低長序列帶來的計算與存儲開銷。

?端到端推理流程優化:整體生成過程的效率與資源協同,其中包括CPU/GPU異構計算并行Overlap、高效的Beam Search實現、有效性過濾早停機制(及早終止低潛力分支)等,提高整個推理流水線的高吞吐與低延遲等。

?模型架構革新: 通過設計創新的稀疏激活機制、狀態傳遞機制或特征解耦架構,將Transformer核心組件的計算復雜度從O(N2)顯著降至線性O(N)或近似線性水平等。

如下圖所示,借鑒LLM大模型推理目前在系統、模型和硬件層面的深水區優化工作和進展,生成式推薦GRs也是如此:未來的核心優化技術手段,都需要深刻理解業務場景、深入理解模型結構,挖掘場景、模型和硬件的性能極限

wKgZO2j19fuAYKOLAANphACRA48553.png

LLM大模型推理核心優化方向

限于篇幅原因,未來會將更多的工程實現解密,與大家分享這一路以來的優秀工程優化實踐經驗。

四、未來方向

未來GRs的探索將聚焦于以下幾個前沿方向:

?從“生成”到“深度推理”(Reasoning): 當前生成式模型仍處初級階段,具備基礎生成能力但缺乏真正的“思考”與“深度推理”能力。提升模型的復雜推理能力,做到不僅能根據用戶歷史購買“滑雪板”推薦相似商品,還能進一步推理用戶可能計劃去極限運動,進而推薦“護具”這類具有深層關聯或場景延伸性的商品。

?獎勵機制的前沿探索: “什么是好的推薦?”,目前仍是開放性問題。生成式端到端架構極大凸顯了獎勵系統的核心作用,使其成為極具價值的研究焦點。超越簡單的點擊率(CTR)/ 轉化率(CVR),設計能捕捉用戶長期滿意度、探索價值以及平臺生態(如多樣性、公平性)等的復合獎勵信號,是構建真正智能GRs系統的關鍵。

?真正的多模態對齊: 將“用戶行為”視為一種模態,與文本、圖像、視頻等在統一強大的LLM基礎模型中實現對齊。達成此目標,推薦模型有望在文本空間進行思考與推理,達到全新智能高度。

?并行生成優化: 探索 MTP(Multi-Token Prediction,在DeepSeek模型中大放異彩)等并行解碼策略,以及LLaDA(Large Language Diffusion Models)之類的Diffusion Models在GRs場景的應用,充分發揮其并行生成潛力以大幅提升推理效率。

?全鏈路聯動與決策:實現首頁→推薦→商詳→支付→售后等全鏈路的端到端生成與實時聯合優化決策,達成跨場景全局收益最大化。

?

五、結語:技術拐點已至

生成式推薦并非簡單的漸進式優化,而是推薦系統的一次認知升維:

?突破天花板:Scaling Law 拓展性能邊界,世界知識破解冷啟動難題,端到端架構根除級聯誤差;

?重構價值鏈:從“猜你喜歡”走向“懂你所想”,甚至創造未知需求。

未來十年,生成式推薦將重新定義人、貨、場的連接方式——這要求我們在算法創新、工程實踐與業務洞察上持續突破,共同打造推薦系統智能化的新紀元。

?

附錄參考:

?https://aicon.infoq.cn/2025/beijing/presentation/6530?

?https://arxiv.org/abs/2506.13695?

?https://arxiv.org/pdf/2305.05065?

?https://arxiv.org/abs/2507.06507?

?https://arxiv.org/abs/2503.02453?

?https://arxiv.org/abs/2402.17152

?https://mp.weixin.qq.com/s/eS01m0pam0boYC4WQdZ-lA?

?https://zhuanlan.zhihu.com/p/1906722156563394693?

?https://zhuanlan.zhihu.com/p/1918350919508140128?

?https://mp.weixin.qq.com/s/mT8DmHzgc3ag57PVMqZ3Rw?

?https://www.arxiv.org/abs/2507.15551?

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    90

    文章

    38414

    瀏覽量

    297701
  • LLM
    LLM
    +關注

    關注

    1

    文章

    341

    瀏覽量

    1272
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    生成AI加速向終端側演進,NPU、異構計算提供強大算力支持

    的400億美元,增長至2032年的1.3萬億美元,年復合增速達到42%。 ? 生成AI 向終端快速演進 ? 當前大部分生成AI的開發工作
    的頭像 發表于 03-16 00:16 ?3666次閱讀

    峰會回顧第7期 | 視窗繪制技術演進和新趨勢

    ;(4)沉浸場景的新的交互范式的4個趨勢進行探索演進。 04?總結 應用場景及用戶需求的變化是視窗繪制技術演進的主要驅動力,期待大家一起關注和參與視窗繪制技術創新,共同助力OS視窗
    發表于 08-22 16:33

    InfinX?:創造高速板對板應用的無限可能

    InfinX?:創造高速板對板應用的無限可能
    的頭像 發表于 07-02 15:30 ?3177次閱讀

    應用前沿 | 浩亭Han?匠心傳承 連接你的無限可能

    應用前沿 | 浩亭Han?匠心傳承 連接你的無限可能
    的頭像 發表于 07-02 14:16 ?2748次閱讀

    探索兩大芯片巨頭的演進之道

    在本文中我們將拆解分析AMD的“Ryzen 7000”和Intel的“第13代Intel Core”系列,以探索兩大芯片巨頭的演進之道。
    的頭像 發表于 11-30 10:34 ?1652次閱讀

    美的樓宇科技探索數智電梯的無限可能,李建國剖析優勢

    轉型后,也將打開電梯應用場景智能化的廣闊想象空間。美的樓宇科技順應智慧城市時代背景,探索數智電梯的無限可能,發布了數智電梯最新戰略。 2022年6月,美的樓宇科技發布全新數智電梯戰略、首款數智乘客電梯——“云航”無機
    的頭像 發表于 01-05 17:45 ?1234次閱讀

    虹科方案 | 工業樹莓派的Socket通信之旅:探索智能工業應用的無限可能

    科IIoT虹科工業樹莓派的Socket通信之旅探索智能工業應用的無限可能HongKeTechnology虹/科/方/案01什么是Socket通信Socket通信是一種網絡通信協議,用于在計算機之間
    的頭像 發表于 06-12 10:39 ?1120次閱讀
    虹科方案 | 工業樹莓派的Socket通信之旅:<b class='flag-5'>探索</b>智能工業應用的<b class='flag-5'>無限</b><b class='flag-5'>可能</b>

    亞馬遜云科技中國峰會聚焦生成AI等前沿科技,探討當下時代的挑戰與機遇

    6月27日,“2023亞馬遜云科技中國峰會”在上海世博中心盛大啟幕! 亞馬遜全球副總裁、亞馬遜云科技大中華區執行董事張文翊全面闡述了在當下這個挑戰與機遇并存的時代,面對生成AI等前沿
    的頭像 發表于 06-28 14:42 ?1069次閱讀

    利用 NVIDIA Jetson 實現生成 AI

    近日,NVIDIA 發布了 Jetson 生成 AI 實驗室(Jetson Generative AI Lab),使開發者能夠通過 NVIDIA Jetson 邊緣設備在現實世界中探索生成
    的頭像 發表于 11-07 21:25 ?2107次閱讀
    利用 NVIDIA Jetson 實現<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI

    駕馭創造的力量: 生成 AI 時代的 MLOps 演進

    以下文章來源于谷歌云服務,作者 Google Cloud 駕馭創造的力量: 生成?AI?時代的?MLOps?演進? MLOps 是一種將機器學習模型從實驗室推向生產的系統方法,它能夠通過全面
    的頭像 發表于 12-21 18:05 ?723次閱讀

    博世與微軟攜手探索生成人工智能應用新領域

    博世正致力于應用生成人工智能來進一步優化自動駕駛功能。作為此舉的一部分,博世和微軟正探索合作機會,以充分發揮生成人工智能潛力。
    的頭像 發表于 02-29 10:11 ?1571次閱讀
    博世與微軟攜手<b class='flag-5'>探索</b><b class='flag-5'>生成</b><b class='flag-5'>式</b>人工智能應用新領域

    亞馬遜云科技推出由前沿生成AI技術驅動的創新服務

    發布了Amazon App Studio,一款由前沿生成AI技術驅動的創新服務,它正以革命性的方式重塑應用程序開發的未來。
    的頭像 發表于 07-11 17:14 ?1209次閱讀

    智慧綜合桿路燈與物聯網融合與發展 車路協同——探索智慧路燈系統的無限可能

    智慧綜合桿路燈與物聯網融合與發展 車路協同——探索智慧路燈系統的無限可能
    的頭像 發表于 10-29 16:24 ?1098次閱讀
    智慧綜合桿路燈與物聯網融合與發展 車路協同——<b class='flag-5'>探索</b>智慧路燈系統的<b class='flag-5'>無限</b><b class='flag-5'>可能</b>

    車路協同——探索智慧路燈系統的無限可能

    車路協同——探索智慧路燈系統的無限可能
    的頭像 發表于 11-07 12:40 ?814次閱讀
    車路協同——<b class='flag-5'>探索</b>智慧路燈系統的<b class='flag-5'>無限</b><b class='flag-5'>可能</b>

    解鎖全球網絡:探索海外靜態IP的無限可能

    海外靜態IP作為網絡連接的重要工具,為用戶解鎖了全球網絡的無限可能
    的頭像 發表于 11-15 08:33 ?936次閱讀