国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

京東零售廣告創意:引入場域目標的創意圖片生成

京東云 ? 來源:京東零售 馮偉 ? 作者:京東零售 馮偉 ? 2025-03-18 14:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:京東零售 馮偉

wKgZO2fZC_yAc6vuAAKQTjIphLI530.png

WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models

論文鏈接:https://arxiv.org/pdf/2502.06823?

代碼鏈接:https://github.com/Chenguoz/CAIG?

摘要:在電商平臺中,廣告圖片對于吸引用戶注意力和提高廣告效果至關重要。大多數現有的方法在為商品生成背景時主要關注美學質量,這可能無法實現令人滿意的在線表現。為了解決這一局限性,我們探索使用多模態大型語言模型(MLLMs)來生成廣告圖片,并將優化點擊率(CTR)作為主要目標。首先,我們構建了針對性的預訓練任務,并利用大規模的電商多模態數據集,為MLLMs提供廣告圖片生成任務的初始能力。為了進一步提高生成圖片的CTR,我們提出了一種新穎的獎勵模型,通過強化學習(RL)對預訓練的MLLMs進行微調,該模型能夠聯合利用多模態特征并準確反映用戶的點擊偏好。同時,我們開發了一種以商品為中心的偏好優化策略,以確保微調后生成的背景內容與商品特征一致,從而增強廣告圖片的整體相關性和效果。大量實驗表明,我們的方法在在線和離線指標上均達到了最先進的性能。

?

一、背景及現狀

隨著圖像生成技術的發展,為商品生成和諧且逼真的背景成為可能。然而,大多數現有的廣告圖像生成方法主要關注離線指標,如圖像質量或語義一致性,而沒有充分考慮視覺內容與場域目標(如點擊率)之間的重要聯系。這導致生成的廣告圖像與符合實際用戶偏好的理想圖像之間存在顯著差異。

受最近RLHF方法的啟發,我們可以訓練一個獎勵模型(RM),再使用強化學習(RL)算法來微調生成模型,由RM提供獎勵以指導優化過程。這個流程的一個關鍵方面是RM能夠準確反映用戶對圖像的點擊偏好。然而,先前結合視覺內容進行點擊率(CTR)預測的方法圖像理解能力有限,且難以融合多模態特征(如下圖所示)。

wKgZPGfZC_6Ab-7IAAxMtZ2hrWE346.png

此外,廣告圖像生成中考慮背景與商品之間的相關性至關重要。現有的強化學習算法僅專注于優化獎勵值,忽視了視覺吸引力和背景相關性之間的平衡。這種疏忽可能導致背景與商品不協調,誤導用戶并導致糟糕的購物體驗。如下圖所示,雖然動態、運動風格的背景可能會提高運動鞋的點擊率,但模型可能錯誤地將類似的背景應用于化妝品等無關商品,從而破壞視覺和諧性和商品相關性。

wKgZO2fZDACAQR5FAAZUPovqCrw046.png

?

二、整體方案

在本文中,我們提出了一種點擊率驅動廣告圖像生成(CAIG)的新方法,旨在生成能夠吸引用戶興趣的引人注目的廣告圖像,如下圖所示。首先,我們在大規模多模態電商數據集上預訓練多模態大語言模型(MLLM),將領域特定知識注入模型中。這為我們的提示模型(PM)和獎勵模型(RM)奠定了基礎。然后,我們從預訓練的MLLM初始化RM,并在大量多模態在線用戶點擊數據上進一步訓練RM,使RM能夠模擬人類反饋。最后,我們引入了一個點擊率驅動的偏好優化階段,該階段采用以商品為中心的偏好優化(PCPO)作為核心策略。該階段利用RM的反饋對PM進行微調,最終生成既具吸引力又與商品相關的廣告圖像。

wKgZPGfZDAGAX6UQAAUM0QzeqXc987.png

三、電商知識預訓練

為了應對高效且可擴展的廣告創意生成的挑戰,我們通過在大規模多模態電商數據集上進行預訓練,在多模態大語言模型(MLLMs)強大功能的基礎上,注入了特定于電商領域的知識。該數據集包含來自京東電商平臺的120萬個樣本,如下表所示。具體來說,預訓練任務包括三個主要任務:

(1) 圖像理解:根據商品圖像描述商品或背景。

(2) 多模態內容理解:根據多模態商品信息(例如標題、類別、標簽)描述商品背景或生成商品標題。

(3) 提示詞生成:根據多模態商品信息生成或重寫提示詞。

wKgZO2fZDAKAUuTTAAMHJWmakyw969.png

四、基于MLLM的reward model

為了減輕不同商品類別之間CTR絕對值變化的影響,我們將CTR預測任務重新定義為圖像對之間的相對比較任務。具體來說,我們從用戶點擊數據中構建成對的訓練樣本,每對樣本包含同一商品的兩張廣告圖像及其對應的CTR。對于共享商品屬性的圖片對(I1,I2),我們首先將商品屬性與RM特定的問題模板Q_RM結合,使用提示工程函數f_instruct生成一個指令提示C_RM。然后將兩張圖像的視覺表征與文本表征連接起來,形成多模態輸入。

wKgZPGfZDAOATO6lAAAsWM05fZ0846.png

接下來,我們使用大語言模型(LLM)處理多模態輸入,生成隱藏狀態H。按照使用LLM進行序列分類的常規做法,我們利用H的最后一個token作為判別性表示,捕捉整個輸入序列的上下文信息。最后我們使用一個分類頭FC_cls,將最后一個token 映射到一個二維概率分布p上。此外,為了使模型能夠在復合圖像中對左圖和右圖的CTR進行精細的預測,我們引入了一個點級別的損失函數,通過一個獨立的CTR回歸分支來實現。最終,RM的損失函數是二元交叉熵損失和點級別損失的組合:

wKgZO2fZDAOAJ33LAAASQBGF5QQ540.png

?

五、CTR驅動優化

為了生成高CTR廣告圖像的,我們將該任務形式化為一個偏好選擇問題,鼓勵生成模型選擇更具吸引力的廣告圖像, 并拒絕吸引力較低的廣告圖像。這一過程包含兩個關鍵步驟:(1) 生成圖像對并使用RM比較它們的CTR,(2) 根據RM的反饋對生成模型進行微調,如下算法所示。

wKgZPGfZDASABWleAALbBUxLDMA922.png

為了生成廣告圖像,我們將PM生成的背景描述詞輸入Stable Diffusion,并使用ControlNet的inpaint操作來為商品生成背景。考慮到收集真實CTR反饋耗時且資源需求大,我們利用RM實時區分更具吸引力的和吸引力較低的圖像,以微調生成流程。這里我們采用直接偏好優化(DPO) 作為基本策略,該過程可表示為:

wKgZO2fZDAWAcxU9AABfAcelww0112.png

其中I_o和C表示商品的原始圖形和對應的指令。

值得注意的是,在DPO訓練過程中過度關注CTR優化可能會忽略偏好數據中的商品信息,導致生成圖像中前景和背景不匹配。因此,我們引入了以商品為中心的偏好優化(PCPO)。PCPO的核心機制是在訓練過程中將商品信息作為唯一變量,并構建額外的偏好數據對,從而鼓勵模型生成與商品特征相匹配的背景描述。具體來說,給定一個商品圖像I_o和指令C,我們構建偏好數據對 (I_o, y^+, y^-) ,其中y^+是與商品特征更匹配的背景描述,而y^-則是匹配度較低的背景描述。通過這種方式,我們確保生成的背景描述不僅吸引人,而且與商品信息一致。PCPO的目標可寫作:

wKgZPGfZDAaAfHI9AABnbAlCm_I255.png

最終,DPO和PCPO損失被用于聯合優化模型。

?

六、實驗結果

(1)Reward Model性能

我們在商業和公開數據集上進行了廣泛的實驗,將我們的方法與各種基于多模態大語言模型(MLLM)的開源和閉源模型進行了比較。如下圖所示,現有的閉源模型(如GLM4V、Claude3.5 Sonnet、GPT4o和GPT4V)在比較廣告圖像CTR方面表現不佳,準確率接近隨機水平(約50%的配對準確率),這表明這些模型盡管在通用任務上表現出色,但在廣告CTR任務中并未得到專門優化。開源模型如VAM和CG4CTR雖然有所改進,但由于其視覺表示能力較弱且無法有效整合多模態信息,表現仍然有限。相比之下,我們提出的方法在商業和公開數據集上均取得了最先進的性能。

wKgZPGfZDAeAXUi_AAFjIhFJogg694.png

(2)商品-背景相關性

為了確保公平比較,我們在CTR驅動優化過程中使用相同的RM進行CTR反饋,并且訓練輪數相同,來評估PCPO與標準DPO的性能。下圖展示了兩種方法在訓練過程中的表現。值得注意的是,標準DPO在訓練5個epoch后,匹配率顯著下降,從0.842降至0.597。而我們的PCPO則表現出更為平緩的下降趨勢,在第5個epoch時保持了0.798的匹配率,這比標準DPO在同一階段的表現高出33.7%。

wKgZO2fZDAiAEjT1AAGW5miBwLM975.png

下圖為我們的方案與DPO方案對比的定性分析:

wKgZO2fZEbKAYP5wAAt19jY2MjE946.png

(3)線上實驗

為了驗證我們提出的CAIG方法在提高生成廣告圖像CTR方面的有效性,我們在推薦廣告上進行了一周的在線實驗。我們為44個類目的商品生成了兩張圖像,這些類目幾乎涵蓋了所有常見的商品,遠超之前方法僅覆蓋的五個類目。我們在下表中報告了不同方法在所有類目和五個常見類目中的結果,其中CTR的提升是相對于直接使用預訓練的MLLM而言的。我們的RM在所有類目和五個常見類目中均優于之前的方法,證明了更準確的CTR預測能夠驅動生成模型產生CTR更高的圖像。我們還比較了僅使用DPO作為優化算法的效果,結果表明使用我們的PCPO可以使生成模型更加關注商品特征,從而提高CTR。

wKgZO2fZDAyASRBMAAEoSH7f6fU324.png

?審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301362
  • DPO
    DPO
    +關注

    關注

    0

    文章

    16

    瀏覽量

    13853
  • 京東
    +關注

    關注

    2

    文章

    1108

    瀏覽量

    50076
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    軟通國際首次亮相NRF 2026美國紐約零售

    1月11日至13日,由全美零售業聯盟(NRF)主辦的年度全球零售業盛會NRF 2026: Retail's Big Show在美國紐約隆重舉行,聚焦AI與智能體技術對零售未來的重塑。軟
    的頭像 發表于 01-21 16:19 ?300次閱讀

    京東零售廣告創意:統一的布局生成和評估模型

    :https://arxiv.org/abs/2508.02374? 代碼鏈接:https://github.com/JD-GenX/Uni-Layout? ? ? 摘要:布局生成在電商圖片的設計中起到
    的頭像 發表于 01-13 16:18 ?1019次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b><b class='flag-5'>廣告創意</b>:統一的布局<b class='flag-5'>生成</b>和評估模型

    云邊云科技參與發布《生成式人工智能零售業全景探索白皮書》

    一、云邊云科技入選生成式人工智能零售業全景探索白皮書生成式人工智能在生產力和效率優化、關鍵風險防控、產品和服務提升等方面可以發揮重要作用,本次發布的《生成式人工智能
    的頭像 發表于 12-15 09:58 ?527次閱讀
    云邊云科技參與發布《<b class='flag-5'>生成</b>式人工智能<b class='flag-5'>零售</b>業全景探索白皮書》

    高格欣壁掛廣告機:新零售連鎖的品牌實力“放大器”

    當新零售連鎖進入“體驗制勝”的時代,終端展示設備已不再是簡單的廣告載體,更成為品牌實力的直觀名片。深圳市高格欣科技的壁掛廣告機,憑借工業級品質、智能交互能力與場景適配性,正成為連鎖品牌破局流量困境
    的頭像 發表于 11-22 17:03 ?576次閱讀
    高格欣壁掛<b class='flag-5'>廣告</b>機:新<b class='flag-5'>零售</b>連鎖的品牌實力“放大器”

    理想汽車首個海外零售中心正式開業

    近日,理想汽車海外首家授權零售中心——烏茲別克斯坦首都塔什干零售中心正式開業,面向當地市場主要銷售三款增程電動產品理想L9、理想L7和理想L6。區別于國內的直營銷售,理想汽車海外銷售目前采取授權
    的頭像 發表于 10-14 16:25 ?854次閱讀

    安卓工控一體機在智慧新零售市場領域的應用分析

    在智慧零售市場規模突破2000億的賽道上,安卓工控一體機正以 “隱形中樞” 的角色,重塑無人零售的運營邏輯與消費體驗。
    的頭像 發表于 09-22 11:28 ?731次閱讀
    安卓工控一體機在智慧新<b class='flag-5'>零售</b>市場領域的應用分析

    智慧零售全面爆發,BLE芯片趁勢而起

    ?2025年,全球智慧零售市場預計突破1.2萬億美元,年均增速約15%,其中亞太地區(以中國為主)占全球市場的40%以上。中國市場規模預計達到8500億元人民幣,占全球的35%,年均增速20%,領先
    的頭像 發表于 09-19 16:20 ?647次閱讀
    智慧<b class='flag-5'>零售</b>全面爆發,BLE芯片趁勢而起

    高格欣廣告機:重構商業領域新零售消費鏈路的 “智能營銷樞紐”

    不知你是否留意到,商業零售領域正經歷著大變革,越來越多的數字化新零售體系在逐步取代傳統的商業模式,顯示與智能交互功能為一體的顯示設備終端,已成為推動新零售發展的關鍵力量,從根本上重塑了購物體驗與商業
    的頭像 發表于 08-29 17:26 ?793次閱讀
    高格欣<b class='flag-5'>廣告</b>機:重構商業領域新<b class='flag-5'>零售</b>消費鏈路的 “智能營銷樞紐”

    零售行業出海數據回流,如何選擇SDWAN

    >全球零售網絡的擴張正面臨關鍵轉折點:**數據回流的效率與安全**,已成為出海企業增長的核心瓶頸,而SD-WAN技術正通過智能化的網絡重構,成為破局的關鍵利器。隨著零售企業加速全球化布局
    的頭像 發表于 08-21 14:09 ?1481次閱讀
    <b class='flag-5'>零售</b>行業出海數據回流,如何選擇SDWAN

    京東零售在智能供應鏈領域的前沿探索與技術實踐

    近日,“智匯運河 智算未來”2025人工智能創新創業大會在杭州召開。香港工程科學院院士、香港大學副校長、研究生院院長、講座教授、京東零售供應鏈首席科學家申作軍教授與供應鏈算法團隊技術總監戚永志博士
    的頭像 發表于 08-04 16:10 ?1036次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>在智能供應鏈領域的前沿探索與技術實踐

    融智興科技:RFID超高頻零售標簽解析

    融智興科技推出的RFID超高頻零售標簽,專為零售場景高頻次、多品類、快速周轉而設計,具備遠距離群讀、批量寫入、耐環境干擾等特點,并通過了ARC(Auburn RFID Lab)認證,滿足沃爾瑪、山姆會員店等全球零售巨頭的標準。
    的頭像 發表于 07-30 16:32 ?794次閱讀
    融智興科技:RFID超高頻<b class='flag-5'>零售</b>標簽解析

    重構零售數智化:Splashtop 8大核心場景應用實踐

    當下,零售業正加速擁抱智慧化轉型。面對門店設備管理分散、IT運維成本高企、跨區域協同效率低下、數據安全風險攀升等諸多挑戰,零售企業急需通過技術創新實現設備高效管理、降低運維成本、保障業務連續性。從
    的頭像 發表于 06-23 17:36 ?944次閱讀
    重構<b class='flag-5'>零售</b>數智化:Splashtop 8大核心場景應用實踐

    RFID零售標簽:革新服裝和鞋類庫存管理

    率先部署 RFID 的企業,已經開始收獲成效;而行動遲緩的企業,可能將無可挽回地被智能零售時代甩在身后。
    的頭像 發表于 06-05 17:11 ?625次閱讀
    RFID<b class='flag-5'>零售</b>標簽:革新服裝和鞋類庫存管理

    從校園實驗室到京東零售:一位算法工程師的風控實戰錄

    大家好,我是王曉婷,在京東零售研究廣告反作弊算法設計、實現與優化,結合LLM、深度學習、強化學習賦能反作弊系統,用算法識別和打擊數字廣告領域的欺詐行為。本文與大家分享我從高校實驗室到
    的頭像 發表于 05-22 16:39 ?725次閱讀
    從校園實驗室到<b class='flag-5'>京東</b><b class='flag-5'>零售</b>:一位算法工程師的風控實戰錄

    吉方工控攜手英特爾推動零售行業高質量發展

    第二十五屆中國零售業博覽會同期舉辦的英特爾“從芯到質,AI重塑新零售”創新論壇上,英特爾中國網絡與邊緣技術產品總監王景佳和中國連鎖經營協會(CCFA)副秘書長楊雯發表致辭,英特爾零售行業高級技術經理夏耿、海石商用副總經理李昊旻、
    的頭像 發表于 05-12 14:24 ?871次閱讀