在電商推薦系統中,推薦模型長期面臨著兩個核心矛盾:一方面,傳統的多階段級聯推薦系統存在目標不一致和誤差累積的問題;另一方面,直接引入大型語言模型LLM雖然能帶來強大的推理能力,但其高昂的延遲和計算成本在工業級應用中難以承受。更重要的是,現有的生成式推薦方法在多場景擴展性上面臨巨大瓶頸--每個場景都需要獨立訓練和部署,導致資源利用率低下、維護成本高昂。
京東零售OxygenREC團隊在論文《OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation》中提出了一種全新的解決方案:OxygenREC。這是一個基于“快慢思考”的指令跟隨生成式推薦框架,不僅解決了推理能力與延遲之間的矛盾,更實現了“一次訓練,多處部署”的多場景統一高效解決方案。

一、 關鍵挑戰
OxygenREC 旨在解決當前推薦系統,特別是生成式推薦范式下的三大核心難題:
1.有限的演繹推理能力:現有的生成式推薦方法主要從用戶海量行為中進行歸納學習,但在需要結合現實世界知識進行深度演繹推理的場景下表現不佳。比如下邊兩個例子:
1.當推薦的時空背景和用戶畫像是“成都冬至時的年輕寶媽”時,傳統模型可能只是推薦“冬季外套”這樣的商品,而無法深度推理出此時成都是“冷濕環境”,這位年輕母親潛在的需求可能是“嬰兒排汗睡衣”。
2.有個戶外運動vlogger在購物行為中反復對比華為Mate 70和iPhone 16 Pro兩款手機,傳統系統因為用戶頻繁的交互歷史,只會不斷加強重復推薦這兩款商品進行比價,而無法推理出其真正訴求可能是“高質量的移動影像”,從而模型未能精準推薦‘華為Pura’系列這一真正符合用戶訴求的目標商品。
2.多場景適應與資源效率的矛盾:大部分推薦平臺擁有首頁、頻道流、購物車、搜索等多種推薦場景。現有生成式推薦模型如果為每個場景訓練獨立模型,會帶來巨大的運營和計算成本,而使用簡單的統一模型又會面臨“負遷移”問題--不同場景間的知識相互干擾,導致性能下降。
3.工業級部署的工程挑戰:將LLM的深度推理能力與推薦系統的大規模稀疏特征、嚴格延遲要求相結合,是一個巨大的系統工程挑戰。它需要同時處理推薦系統典型的TB級稀疏嵌入和LLM典型的十億級稠密參數,這對訓練框架和推理引擎都提出了極高要求。
二、 核心貢獻
面對這些挑戰,京東零售OxygenREC團隊提出了一個基于指令跟隨的生成式推薦框架-OxygenREC,首次把LLM中的“快慢思考”模式引入到生成式推薦中來。在OxygenREC框架中,通過基于Transformer 的Encoder-Decoder 作為骨干網絡,能夠根據特定指令生成語義化物品序列,來執行推薦場景的”快思考"方式。在“慢思考”模式中,引入上下文推理指令--由近線LLM pipeline 生成,將用戶行為與上下文合成為可解釋的指令。同時多場景對齊中,通過場景指令與基于強化學習的對齊機制,實現“一次訓練,多場景部署”。

1. “快慢思考”架構:知識注入與低延遲的平衡
這是整個OxygenREC的基礎,其核心思想是將復雜的推理過程“離線化”,保證在線服務的低延遲。
?慢思考:一個近線的LLM pipeline,綜合分析用戶的時空上下文、個性化特征和歷史行為,生成高質量的“上下文推理指令”。這個過程融合了世界知識,能進行深度演繹推理,但因其是近線批量處理,不增加在線請求的延遲。
?快思考:一個高效的編碼器-解碼器骨干網絡。它接收“慢思考”生成的指令,結合實時用戶信號,在嚴格的延遲限制下生成推薦序列。該骨干網絡本身輕量、高效,專為實時推理優化。

?
2. 語義對齊的指令控制機制:讓指令真正發揮作用
僅僅生成指令是不夠的,還必須確保模型能夠準確理解并遵循指令。OxygenREC通過兩項關鍵技術實現精準指令控制:
?查詢到物品的對齊損失:在訓練階段,通過一個輔助的Query-to-Item (Q2I) 損失函數,將指令嵌入與目標物品嵌入在同一個語義空間中對齊。這使得指令能夠“理解”物品,并用于檢索:

?指令引導檢索(IGR):在生成推薦時,利用對齊后的指令作為查詢,從用戶長期歷史行為中檢索出最相關的部分,過濾掉無關的噪聲。這確保了模型生成時專注在與當前指令意圖最相關的歷史信息上,大大提升了可控性和準確性。
?
3. 基于指令與強化學習的多場景統一對齊:Train-Once-Deploy-Everywhere
這是解決多場景擴展性的關鍵。OxygenREC摒棄了為每個場景獨立建模的思路。
?場景指令化:將不同的場景信息(如首頁、購物車)和可選的觸發物品(如用戶點擊的入口商品)統一編碼為“場景指令”,作為模型的條件輸入。

?統一獎勵映射與策略優化:設計了一個統一的獎勵映射服務,將不同場景、不同業務目標(如GMV,轉化率,合法性,多樣性)的獎勵信號歸一化。在此基礎上,提出了Soft Adaptive Group Clip Policy Optimization (SA-GCPO) 算法進行強化學習訓練:

?該算法用自適應門控函數替代傳統基于GRPO的硬截斷方式(hard clip):

?并以基于用戶真實反饋的獎勵分數作為閾值區分正負advantage樣本,顯著提升了多任務、多場景下策略學習的穩定性和效率:

?
4. 大規模生產級系統實現
為了支撐以上創新,團隊構建了完整的工程體系:
??統一訓練框架:基于PyTorch,深度融合了工業級稀疏嵌入引擎和LLM稠密訓練引擎,在128張H800 GPU集群上實現了40%的模型FLOPs利用率。?
?高性能推理引擎xLLM:針對生成式推薦長上下文、大候選集的特點,定制開發了xLLM推理框架,通過xSchedule(系統調度)、xAttention(算子優化)、xBeam(束搜索優化)三級優化,滿足線上嚴格的服務級別目標。
?近線指令服務:推理指令通過近線服務批量生成并存入KV數據庫,線上推薦模型直接讀取,實現了零在線LLM調用,兼顧了語義豐富性和低延遲。
?
三、 實驗成果
OxygenREC在京東幾個核心場景的大量離線實驗和在線A/B測試中取得了顯著效果,證明OxygenREC 基于生成式推薦的方法在大規模工業級推薦系統中的有效性。
1. 基于快慢思考的生成式框架有效性驗證
?語義ID:通過多源對比學習(文本、圖像、行為關聯)構建的層次化語義ID,在保持高類別純度(92.8%)的同時,實現了極低的ID碰撞,證明了其強大的表達和區分能力。
?指令跟隨:消融實驗證明,在BOS右側插入指令的方式為最佳;融合了場景ID和觸發物品ID的指令效果顯著優于單一組件;IGR和Q2I對齊機制共同作用帶來了顯著的性能提升。

?統一模型 vs. 獨立模型:在六個核心場景的對比中,統一的OxygenREC模型全面超越了為每個場景獨立微調的基線模型,驗證了OxygenREC框架在場景間正向遷移的有效性。

2. 基于SA-GCPO后訓練的有效性驗證
在后續訓練階段,提出的SA-GCPO算法在合成數據比例變化時表現更穩定,且性能顯著優于傳統的GRPO及其變體GSPO。例如,在33%合成數據比例下,SA-GCPO在HR@1和HR@10上有顯著提升。

3. 電商場景在線A/B測試的商業效果
OxygenREC已在京東App上形成覆蓋用戶購物全鏈路的部署閉環:首頁導流(場景1、2)-> 頻道瀏覽(場景3、4)-> 商品結算轉化(場景5、6)。在線測試結果表明,該模型在所有關鍵業務指標上均帶來顯著提升:
?首頁場景:GMV提升4.52%-8.40%。
?頻道流場景:其中一個場景的訂單量提升了8.03%,顯示出模型精準匹配購買意圖的能力。
?結算路徑場景:在用戶強購買意圖下,GMV提升高達11.80%。

與行業上其他生成式推薦方式對比:

OxygenREC 在幾個關鍵維度上進行了生成式推薦的范式革新:
?架構上,用“快慢思考”破解了推理與延遲的死結。
?效率上,用“統一指令模型”破解了多場景訓練的困局。
?控制上,用“語義對齊與引導檢索”構建了生成式推薦模型的指令跟隨能力。
?優化上,用“SA-GCPO”和全棧系統優化,確保了技術在工業巨量流量下的可行性、穩定性和卓越性能。
?
總結與展望
OxygenREC的成功,標志著生成式推薦在工業落地上邁出了關鍵一步。它通過“快慢思考”巧妙平衡了深度推理與低延遲,通過“指令跟隨”實現了對推薦過程的精準可控,并通過統一的獎勵與策略學習破解了多場景擴展的難題,真正實現了“一次訓練,多場景部署”的pipeline。
未來,京東零售OxygenREC團隊計劃從兩個方向繼續探索:
?一是向基于語言擴散模型的非自回歸生成范式演進,從根本上突破序列生成延遲與列表長度的線性關系,滿足更高吞吐需求;
?二是開展跨場景用戶軌跡建模,從用戶在首頁、搜索、購物車、結算等多場景的連貫行為中挖掘更深層的用戶意圖,實現更長周期的價值推薦。
OxygenREC不僅是一個高效的推薦系統,更為工業級生成式AI應用的大模型設計提供了寶貴范式--如何將大模型的“腦”與小模型的“身手”結合,如何在復雜多目標任務中實現穩定高效的學習,這其中的思想值得廣泛借鑒。
-
京東
+關注
關注
2文章
1108瀏覽量
50076 -
電商
+關注
關注
1文章
474瀏覽量
29909
發布評論請先 登錄
基于CW32L083的AT指令框架的創建
生成式人工智能會讓自動駕駛更靈活嗎?
大模型中常提的快慢思考會對自動駕駛產生什么影響?
單基站360度UWB智能跟隨解決方案,打破角度限制,360°全向檢測,無盲區!
打破角度限制,穩傳測控全新推出單基站360°UWB跟隨方案(MK8000芯片) 智能出行 智慧物流新突破
突破傳統桎梏,PPEC Workbench 開啟電源智能化設計新路徑
智能體化AI和生成式AI的區別
生成式 AI 重塑自動駕駛仿真:4D 場景生成技術的突破與實踐
磁編技術賦能工業控制系統:突破傳統傳感限制
電商API速率限制的應對策略
API如何賦能電商營銷:自動化促銷活動生成
抖音電商 API 接口和傳統電商接口,直播數據處理誰更快?
一種多模態駕駛場景生成框架UMGen介紹
突破傳統限制:OxygenREC--一個基于指令跟隨的“快慢思考”電商生成式推薦框架
評論