色综合久久久久综合,17c国产传媒,亚洲欧美一区久久

作者：京東零售馮偉

WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models

論文鏈接：https://arxiv.org/pdf/2502.06823?

代碼鏈接：https://github.com/Chenguoz/CAIG?

摘要：在電商平臺中，廣告圖片對于吸引用戶注意力和提高廣告效果至關重要。大多數現有的方法在為商品生成背景時主要關注美學質量，這可能無法實現令人滿意的在線表現。為了解決這一局限性，我們探索使用多模態大型語言模型（MLLMs）來生成廣告圖片，并將優化點擊率（CTR）作為主要目標。首先，我們構建了針對性的預訓練任務，并利用大規模的電商多模態數據集，為MLLMs提供廣告圖片生成任務的初始能力。為了進一步提高生成圖片的CTR，我們提出了一種新穎的獎勵模型，通過強化學習（RL）對預訓練的MLLMs進行微調，該模型能夠聯合利用多模態特征并準確反映用戶的點擊偏好。同時，我們開發了一種以商品為中心的偏好優化策略，以確保微調后生成的背景內容與商品特征一致，從而增強廣告圖片的整體相關性和效果。大量實驗表明，我們的方法在在線和離線指標上均達到了最先進的性能。

一、背景及現狀

隨著圖像生成技術的發展，為商品生成和諧且逼真的背景成為可能。然而，大多數現有的廣告圖像生成方法主要關注離線指標，如圖像質量或語義一致性，而沒有充分考慮視覺內容與場域目標（如點擊率）之間的重要聯系。這導致生成的廣告圖像與符合實際用戶偏好的理想圖像之間存在顯著差異。

受最近RLHF方法的啟發，我們可以訓練一個獎勵模型（RM），再使用強化學習（RL）算法來微調生成模型，由RM提供獎勵以指導優化過程。這個流程的一個關鍵方面是RM能夠準確反映用戶對圖像的點擊偏好。然而，先前結合視覺內容進行點擊率（CTR）預測的方法圖像理解能力有限，且難以融合多模態特征（如下圖所示）。

此外，廣告圖像生成中考慮背景與商品之間的相關性至關重要。現有的強化學習算法僅專注于優化獎勵值，忽視了視覺吸引力和背景相關性之間的平衡。這種疏忽可能導致背景與商品不協調，誤導用戶并導致糟糕的購物體驗。如下圖所示，雖然動態、運動風格的背景可能會提高運動鞋的點擊率，但模型可能錯誤地將類似的背景應用于化妝品等無關商品，從而破壞視覺和諧性和商品相關性。

二、整體方案

在本文中，我們提出了一種點擊率驅動廣告圖像生成（CAIG）的新方法，旨在生成能夠吸引用戶興趣的引人注目的廣告圖像，如下圖所示。首先，我們在大規模多模態電商數據集上預訓練多模態大語言模型（MLLM），將領域特定知識注入模型中。這為我們的提示模型（PM）和獎勵模型（RM）奠定了基礎。然后，我們從預訓練的MLLM初始化RM，并在大量多模態在線用戶點擊數據上進一步訓練RM，使RM能夠模擬人類反饋。最后，我們引入了一個點擊率驅動的偏好優化階段，該階段采用以商品為中心的偏好優化（PCPO）作為核心策略。該階段利用RM的反饋對PM進行微調，最終生成既具吸引力又與商品相關的廣告圖像。

三、電商知識預訓練

為了應對高效且可擴展的廣告創意生成的挑戰，我們通過在大規模多模態電商數據集上進行預訓練，在多模態大語言模型（MLLMs）強大功能的基礎上，注入了特定于電商領域的知識。該數據集包含來自京東電商平臺的120萬個樣本，如下表所示。具體來說，預訓練任務包括三個主要任務：

(1) 圖像理解：根據商品圖像描述商品或背景。

(2) 多模態內容理解：根據多模態商品信息（例如標題、類別、標簽）描述商品背景或生成商品標題。

(3) 提示詞生成：根據多模態商品信息生成或重寫提示詞。

四、基于MLLM的reward model

為了減輕不同商品類別之間CTR絕對值變化的影響，我們將CTR預測任務重新定義為圖像對之間的相對比較任務。具體來說，我們從用戶點擊數據中構建成對的訓練樣本，每對樣本包含同一商品的兩張廣告圖像及其對應的CTR。對于共享商品屬性的圖片對（I1,I2），我們首先將商品屬性與RM特定的問題模板Q_RM結合，使用提示工程函數f_instruct生成一個指令提示C_RM。然后將兩張圖像的視覺表征與文本表征連接起來，形成多模態輸入。

接下來，我們使用大語言模型（LLM）處理多模態輸入，生成隱藏狀態H。按照使用LLM進行序列分類的常規做法，我們利用H的最后一個token作為判別性表示，捕捉整個輸入序列的上下文信息。最后我們使用一個分類頭FC_cls，將最后一個token 映射到一個二維概率分布p上。此外，為了使模型能夠在復合圖像中對左圖和右圖的CTR進行精細的預測，我們引入了一個點級別的損失函數，通過一個獨立的CTR回歸分支來實現。最終，RM的損失函數是二元交叉熵損失和點級別損失的組合：

五、CTR驅動優化

為了生成高CTR廣告圖像的，我們將該任務形式化為一個偏好選擇問題，鼓勵生成模型選擇更具吸引力的廣告圖像，并拒絕吸引力較低的廣告圖像。這一過程包含兩個關鍵步驟：(1) 生成圖像對并使用RM比較它們的CTR，(2) 根據RM的反饋對生成模型進行微調，如下算法所示。

為了生成廣告圖像，我們將PM生成的背景描述詞輸入Stable Diffusion，并使用ControlNet的inpaint操作來為商品生成背景。考慮到收集真實CTR反饋耗時且資源需求大，我們利用RM實時區分更具吸引力的和吸引力較低的圖像，以微調生成流程。這里我們采用直接偏好優化（DPO）作為基本策略，該過程可表示為：

其中I_o和C表示商品的原始圖形和對應的指令。

值得注意的是，在DPO訓練過程中過度關注CTR優化可能會忽略偏好數據中的商品信息，導致生成圖像中前景和背景不匹配。因此，我們引入了以商品為中心的偏好優化（PCPO）。PCPO的核心機制是在訓練過程中將商品信息作為唯一變量，并構建額外的偏好數據對，從而鼓勵模型生成與商品特征相匹配的背景描述。具體來說，給定一個商品圖像I_o和指令C，我們構建偏好數據對 (I_o, y^+, y^-) ，其中y^+是與商品特征更匹配的背景描述，而y^-則是匹配度較低的背景描述。通過這種方式，我們確保生成的背景描述不僅吸引人，而且與商品信息一致。PCPO的目標可寫作：

最終，DPO和PCPO損失被用于聯合優化模型。

六、實驗結果

（1）Reward Model性能

我們在商業和公開數據集上進行了廣泛的實驗，將我們的方法與各種基于多模態大語言模型（MLLM）的開源和閉源模型進行了比較。如下圖所示，現有的閉源模型（如GLM4V、Claude3.5 Sonnet、GPT4o和GPT4V）在比較廣告圖像CTR方面表現不佳，準確率接近隨機水平（約50%的配對準確率），這表明這些模型盡管在通用任務上表現出色，但在廣告CTR任務中并未得到專門優化。開源模型如VAM和CG4CTR雖然有所改進，但由于其視覺表示能力較弱且無法有效整合多模態信息，表現仍然有限。相比之下，我們提出的方法在商業和公開數據集上均取得了最先進的性能。

（2）商品-背景相關性

為了確保公平比較，我們在CTR驅動優化過程中使用相同的RM進行CTR反饋，并且訓練輪數相同，來評估PCPO與標準DPO的性能。下圖展示了兩種方法在訓練過程中的表現。值得注意的是，標準DPO在訓練5個epoch后，匹配率顯著下降，從0.842降至0.597。而我們的PCPO則表現出更為平緩的下降趨勢，在第5個epoch時保持了0.798的匹配率，這比標準DPO在同一階段的表現高出33.7%。

下圖為我們的方案與DPO方案對比的定性分析：

（3）線上實驗

為了驗證我們提出的CAIG方法在提高生成廣告圖像CTR方面的有效性，我們在推薦廣告上進行了一周的在線實驗。我們為44個類目的商品生成了兩張圖像，這些類目幾乎涵蓋了所有常見的商品，遠超之前方法僅覆蓋的五個類目。我們在下表中報告了不同方法在所有類目和五個常見類目中的結果，其中CTR的提升是相對于直接使用預訓練的MLLM而言的。我們的RM在所有類目和五個常見類目中均優于之前的方法，證明了更準確的CTR預測能夠驅動生成模型產生CTR更高的圖像。我們還比較了僅使用DPO作為優化算法的效果，結果表明使用我們的PCPO可以使生成模型更加關注商品特征，從而提高CTR。