一本大道香蕉大久在红桃,国产偷拍一区二区,久久精品一区二区东京热

在電商推薦系統中，推薦模型長期面臨著兩個核心矛盾：一方面，傳統的多階段級聯推薦系統存在目標不一致和誤差累積的問題；另一方面，直接引入大型語言模型LLM雖然能帶來強大的推理能力，但其高昂的延遲和計算成本在工業級應用中難以承受。更重要的是，現有的生成式推薦方法在多場景擴展性上面臨巨大瓶頸--每個場景都需要獨立訓練和部署，導致資源利用率低下、維護成本高昂。

京東零售OxygenREC團隊在論文《OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation》中提出了一種全新的解決方案：OxygenREC。這是一個基于“快慢思考”的指令跟隨生成式推薦框架，不僅解決了推理能力與延遲之間的矛盾，更實現了“一次訓練，多處部署”的多場景統一高效解決方案。

一、關鍵挑戰

OxygenREC 旨在解決當前推薦系統，特別是生成式推薦范式下的三大核心難題：

1.有限的演繹推理能力：現有的生成式推薦方法主要從用戶海量行為中進行歸納學習，但在需要結合現實世界知識進行深度演繹推理的場景下表現不佳。比如下邊兩個例子：

1.當推薦的時空背景和用戶畫像是“成都冬至時的年輕寶媽”時，傳統模型可能只是推薦“冬季外套”這樣的商品，而無法深度推理出此時成都是“冷濕環境”，這位年輕母親潛在的需求可能是“嬰兒排汗睡衣”。

2.有個戶外運動vlogger在購物行為中反復對比華為Mate 70和iPhone 16 Pro兩款手機，傳統系統因為用戶頻繁的交互歷史，只會不斷加強重復推薦這兩款商品進行比價，而無法推理出其真正訴求可能是“高質量的移動影像”，從而模型未能精準推薦‘華為Pura’系列這一真正符合用戶訴求的目標商品。

2.多場景適應與資源效率的矛盾：大部分推薦平臺擁有首頁、頻道流、購物車、搜索等多種推薦場景。現有生成式推薦模型如果為每個場景訓練獨立模型，會帶來巨大的運營和計算成本，而使用簡單的統一模型又會面臨“負遷移”問題--不同場景間的知識相互干擾，導致性能下降。

3.工業級部署的工程挑戰：將LLM的深度推理能力與推薦系統的大規模稀疏特征、嚴格延遲要求相結合，是一個巨大的系統工程挑戰。它需要同時處理推薦系統典型的TB級稀疏嵌入和LLM典型的十億級稠密參數，這對訓練框架和推理引擎都提出了極高要求。

二、核心貢獻

面對這些挑戰，京東零售OxygenREC團隊提出了一個基于指令跟隨的生成式推薦框架-OxygenREC，首次把LLM中的“快慢思考”模式引入到生成式推薦中來。在OxygenREC框架中，通過基于Transformer 的Encoder-Decoder 作為骨干網絡，能夠根據特定指令生成語義化物品序列，來執行推薦場景的”快思考"方式。在“慢思考”模式中，引入上下文推理指令--由近線LLM pipeline 生成，將用戶行為與上下文合成為可解釋的指令。同時多場景對齊中，通過場景指令與基于強化學習的對齊機制，實現“一次訓練，多場景部署”。

1. “快慢思考”架構：知識注入與低延遲的平衡

這是整個OxygenREC的基礎，其核心思想是將復雜的推理過程“離線化”，保證在線服務的低延遲。

?慢思考：一個近線的LLM pipeline，綜合分析用戶的時空上下文、個性化特征和歷史行為，生成高質量的“上下文推理指令”。這個過程融合了世界知識，能進行深度演繹推理，但因其是近線批量處理，不增加在線請求的延遲。

?快思考：一個高效的編碼器-解碼器骨干網絡。它接收“慢思考”生成的指令，結合實時用戶信號，在嚴格的延遲限制下生成推薦序列。該骨干網絡本身輕量、高效，專為實時推理優化。

2. 語義對齊的指令控制機制：讓指令真正發揮作用

僅僅生成指令是不夠的，還必須確保模型能夠準確理解并遵循指令。OxygenREC通過兩項關鍵技術實現精準指令控制：

?查詢到物品的對齊損失：在訓練階段，通過一個輔助的Query-to-Item (Q2I) 損失函數，將指令嵌入與目標物品嵌入在同一個語義空間中對齊。這使得指令能夠“理解”物品，并用于檢索：

?指令引導檢索(IGR)：在生成推薦時，利用對齊后的指令作為查詢，從用戶長期歷史行為中檢索出最相關的部分，過濾掉無關的噪聲。這確保了模型生成時專注在與當前指令意圖最相關的歷史信息上，大大提升了可控性和準確性。

3. 基于指令與強化學習的多場景統一對齊：Train-Once-Deploy-Everywhere

這是解決多場景擴展性的關鍵。OxygenREC摒棄了為每個場景獨立建模的思路。

?場景指令化：將不同的場景信息（如首頁、購物車）和可選的觸發物品（如用戶點擊的入口商品）統一編碼為“場景指令”，作為模型的條件輸入。

?統一獎勵映射與策略優化：設計了一個統一的獎勵映射服務，將不同場景、不同業務目標（如GMV，轉化率，合法性，多樣性）的獎勵信號歸一化。在此基礎上，提出了Soft Adaptive Group Clip Policy Optimization (SA-GCPO) 算法進行強化學習訓練:

?該算法用自適應門控函數替代傳統基于GRPO的硬截斷方式(hard clip):

?并以基于用戶真實反饋的獎勵分數作為閾值區分正負advantage樣本，顯著提升了多任務、多場景下策略學習的穩定性和效率：

4. 大規模生產級系統實現

為了支撐以上創新，團隊構建了完整的工程體系：

??統一訓練框架：基于PyTorch，深度融合了工業級稀疏嵌入引擎和LLM稠密訓練引擎，在128張H800 GPU集群上實現了40%的模型FLOPs利用率。?

?高性能推理引擎xLLM：針對生成式推薦長上下文、大候選集的特點，定制開發了xLLM推理框架，通過xSchedule（系統調度）、xAttention（算子優化）、xBeam（束搜索優化）三級優化，滿足線上嚴格的服務級別目標。

?近線指令服務：推理指令通過近線服務批量生成并存入KV數據庫，線上推薦模型直接讀取，實現了零在線LLM調用，兼顧了語義豐富性和低延遲。

三、實驗成果

OxygenREC在京東幾個核心場景的大量離線實驗和在線A/B測試中取得了顯著效果，證明OxygenREC 基于生成式推薦的方法在大規模工業級推薦系統中的有效性。

1. 基于快慢思考的生成式框架有效性驗證

?語義ID：通過多源對比學習（文本、圖像、行為關聯）構建的層次化語義ID，在保持高類別純度（92.8%）的同時，實現了極低的ID碰撞，證明了其強大的表達和區分能力。

?指令跟隨：消融實驗證明，在BOS右側插入指令的方式為最佳；融合了場景ID和觸發物品ID的指令效果顯著優于單一組件；IGR和Q2I對齊機制共同作用帶來了顯著的性能提升。

?統一模型 vs. 獨立模型：在六個核心場景的對比中，統一的OxygenREC模型全面超越了為每個場景獨立微調的基線模型，驗證了OxygenREC框架在場景間正向遷移的有效性。

2. 基于SA-GCPO后訓練的有效性驗證

在后續訓練階段，提出的SA-GCPO算法在合成數據比例變化時表現更穩定，且性能顯著優于傳統的GRPO及其變體GSPO。例如，在33%合成數據比例下，SA-GCPO在HR@1和HR@10上有顯著提升。

3. 電商場景在線A/B測試的商業效果

OxygenREC已在京東App上形成覆蓋用戶購物全鏈路的部署閉環：首頁導流（場景1、2）-> 頻道瀏覽（場景3、4）-> 商品結算轉化（場景5、6）。在線測試結果表明，該模型在所有關鍵業務指標上均帶來顯著提升：

?首頁場景：GMV提升4.52%-8.40%。

?頻道流場景：其中一個場景的訂單量提升了8.03%，顯示出模型精準匹配購買意圖的能力。

?結算路徑場景：在用戶強購買意圖下，GMV提升高達11.80%。

與行業上其他生成式推薦方式對比:

OxygenREC 在幾個關鍵維度上進行了生成式推薦的范式革新：

?架構上，用“快慢思考”破解了推理與延遲的死結。

?效率上，用“統一指令模型”破解了多場景訓練的困局。

?控制上，用“語義對齊與引導檢索”構建了生成式推薦模型的指令跟隨能力。

?優化上，用“SA-GCPO”和全棧系統優化，確保了技術在工業巨量流量下的可行性、穩定性和卓越性能。

總結與展望

OxygenREC的成功，標志著生成式推薦在工業落地上邁出了關鍵一步。它通過“快慢思考”巧妙平衡了深度推理與低延遲，通過“指令跟隨”實現了對推薦過程的精準可控，并通過統一的獎勵與策略學習破解了多場景擴展的難題，真正實現了“一次訓練，多場景部署”的pipeline。

未來，京東零售OxygenREC團隊計劃從兩個方向繼續探索：

?一是向基于語言擴散模型的非自回歸生成范式演進，從根本上突破序列生成延遲與列表長度的線性關系，滿足更高吞吐需求；

?二是開展跨場景用戶軌跡建模，從用戶在首頁、搜索、購物車、結算等多場景的連貫行為中挖掘更深層的用戶意圖，實現更長周期的價值推薦。

OxygenREC不僅是一個高效的推薦系統，更為工業級生成式AI應用的大模型設計提供了寶貴范式--如何將大模型的“腦”與小模型的“身手”結合，如何在復雜多目標任務中實現穩定高效的學習，這其中的思想值得廣泛借鑒。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

京東

京東

+關注

關注
2

文章
1126

瀏覽量
50133
電商

電商

+關注

關注
1

文章
474

瀏覽量
29939

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

突破傳統限制：OxygenREC--一個基于指令跟隨的“快慢思考”電商生成式推薦框架

評論