国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

京東零售廣告創(chuàng)意:統(tǒng)一的布局生成和評估模型

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2026-01-13 16:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZPGll_92AeZLCAAFq24ROlPo233.png

MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

論文鏈接:https://arxiv.org/abs/2508.02374?

代碼鏈接:https://github.com/JD-GenX/Uni-Layout?

?

摘要:布局生成在電商圖片的設(shè)計中起到至關(guān)重要的作用。當(dāng)前的布局生成方法在能力上具有任務(wù)特定性,并且評估標(biāo)準(zhǔn)與人類感知不一致,導(dǎo)致其應(yīng)用范圍有限且評估效果不佳。為了解決這些問題,Uni-Layout實(shí)現(xiàn)了統(tǒng)一生成、模擬人類的評估以及二者之間的對齊。針對通用生成,該框架將各種布局任務(wù)整合到一個統(tǒng)一的分類系統(tǒng)中,并開發(fā)了一個統(tǒng)一的生成器,通過自然語言提示處理背景或元素內(nèi)容受限的任務(wù)。為了引入人類反饋以有效評估布局,我們構(gòu)建了Layout-HF100k,這是首個包含10萬個人工標(biāo)注布局的大規(guī)模人類反饋數(shù)據(jù)集。基于Layout-HF100k,我們引入了一種模擬人類的評估器,該評估器結(jié)合視覺和幾何信息,采用思維鏈機(jī)制進(jìn)行定性評估,并通過信心估計模塊提供定量測量。為了更好地對齊生成器和評估器,我們采用動態(tài)邊距偏好優(yōu)化(DMPO)技術(shù),將二者整合為一個協(xié)調(diào)系統(tǒng),以更好地符合人類判斷。

一、背景及現(xiàn)狀

布局生成旨在為給定的元素設(shè)計吸引人的視覺排版,涵蓋從海報和文檔設(shè)計到用戶界面布局和雜志排版等廣泛任務(wù)。雖然生成模型取得了顯著進(jìn)展,但現(xiàn)有方法通常專注于狹義任務(wù),導(dǎo)致解決方案缺乏靈活性和普適性。此外,盡管現(xiàn)有的評估指標(biāo)基于布局設(shè)計原則精心設(shè)計,但它們常常與人類的感知不一致。如圖1所示,高評分的布局可能在視覺質(zhì)量上較差,這揭示了現(xiàn)有指標(biāo)與真實(shí)人類感知之間的差距。為了解決這些挑戰(zhàn),我們提出了Uni-Layout,一個通過統(tǒng)一生成器、模擬人類的評估器和動態(tài)邊距對齊機(jī)制來整合布局生成、評估和對齊的整體框架。為了詳細(xì)闡述Uni-Layout,本文圍繞三個核心研究問題展開。

wKgZO2ll_9-APJ_UAArZM0ELzKk529.png

圖1:布局生成任務(wù)的分類體系與動機(jī)闡述

二、如何實(shí)現(xiàn)跨任務(wù)的統(tǒng)一布局生成?

為了系統(tǒng)地統(tǒng)一當(dāng)前分散的布局生成任務(wù)領(lǐng)域,我們提出了一個基于兩個維度的精心組織的分類法:背景和元素內(nèi)容是自由的還是受限的。如圖1所示,我們將現(xiàn)有的布局任務(wù)分為四種代表性類型:BFEF、BCEF、BFEC和BCEC。當(dāng)前的任務(wù)特定方法在統(tǒng)一布局生成方面存在困難,但多模態(tài)大型語言模型(MLLMs)由于其通用的視覺-語言理解能力,提供了有前景的解決方案。利用MLLMs,我們提出了一個統(tǒng)一的布局生成器,其工作方式類似于一名熟練的設(shè)計師。該生成器結(jié)合視覺約束和文本指令來生成連貫的布局,能夠處理背景和元素內(nèi)容既可以受限也可以自由的多種場景。通過在各種布局任務(wù)上的聯(lián)合訓(xùn)練,它為布局生成提供了一個靈活且統(tǒng)一的解決方案。

為了統(tǒng)一多種布局任務(wù),一個通用的布局任務(wù)指令可寫作:

wKgZPGll_-CAa35nAAAmeqnutRU901.png

其中T為任務(wù)描述,b表示背景的內(nèi)容和屬性,e表示元素的內(nèi)容和屬性,O是指定的輸出格式。注意背景和元素的屬性是必須的,但其內(nèi)容可為空。為了清楚起見,我們針對BCEC任務(wù)提供了一個說明示例,其中下劃線部分對應(yīng)上式中的對應(yīng)項(xiàng)。

wKgZO2ll_-GAXEdJAAC_ECRcmMY877.png

?

三、如何模擬人類來評估布局?

盡管人類感知在布局設(shè)計中非常重要,但現(xiàn)有數(shù)據(jù)集中缺乏對布局質(zhì)量的人類反饋。為彌補(bǔ)這一缺口,我們匯總了統(tǒng)一生成器的輸出,并編制了Layout-HF100k,這是首個專為布局生成策劃的全面人類反饋數(shù)據(jù)集,包含10萬個精心標(biāo)注的高質(zhì)量示例,涵蓋代表性布局任務(wù)。該數(shù)據(jù)集的示例如圖2所示。

wKgZPGll_-KAZa8MAAc0B2W331E020.png

圖2:Layout-HF100k示例。第一/二行分別為合格/不合格布局。

基于這一全新的數(shù)據(jù)集,我們開發(fā)了一種評估器,結(jié)構(gòu)如圖3(b)和(c)所示。其通過視覺和幾何信息兩個分支處理布局,以有效模擬人類判斷模式。此外,該評估器結(jié)合了一個輸出定量置信度估計的分類頭,以及定性“思維鏈”(CoT)推理,使其能夠捕捉微妙的審美偏好,并提供與人類感知模式緊密對齊的可解釋評估。通過結(jié)合多模態(tài)分析和CoT推理,我們的評估器不僅能夠做出準(zhǔn)確判斷,還能闡明其決策背后的理由,類似于人類專家如何評估布局。

具體來說,CoT包含以下四個步驟:

(1) 布局概覽:對布局可視化結(jié)果快速而全面的掃描,通過簡潔的文本描述捕捉布局的第一印象,概述整體構(gòu)圖和上下文元素。

(2) 空間解構(gòu):系統(tǒng)地分解布局的基本組成部分,分析幾何屬性和空間關(guān)系。它檢查對齊模式、識別潛在重疊,并評估間距一致性,以揭示潛在的結(jié)構(gòu)框架。

(3) 美學(xué)評估:對布局的視覺質(zhì)量進(jìn)行詳細(xì)評估,重點(diǎn)關(guān)注藝術(shù)價值和設(shè)計原則。這包括對比例平衡、空間和諧和視覺節(jié)奏的評估,同時考慮這些元素如何對整體美學(xué)效果產(chǎn)生影響。

(4) 全面評估:最后階段綜合所有先前分析的見解,以提供對布局有效性的全面評估,最后給出“合格”或“不合格”的明確判斷。

wKgZO2ll_-SAAp6mAAZJHBZVroE720.png

圖3:Uni-Layout框架概覽

四、如何有效對齊人類反饋和布局生成?

現(xiàn)有的對齊方法要么直接最大化人類偏好的輸出可能性,要么在其偏好學(xué)習(xí)目標(biāo)中使用固定邊距。這些傳統(tǒng)方法未能反映人類偏好的不同程度,因?yàn)樗鼈儗?qiáng)偏好和弱偏好一視同仁。為了解決這一限制,我們提出了一種新的對齊方法,稱為動態(tài)邊距偏好優(yōu)化(DMPO)。具體而言,當(dāng)評估者在成對樣本之間表現(xiàn)出更強(qiáng)烈的偏好時,DMPO會自動增加邊距,以在勝出和失敗的響應(yīng)之間強(qiáng)制產(chǎn)生更大的分?jǐn)?shù)差異,而對于不太明顯的偏好則應(yīng)用較小的邊距。這種信心引導(dǎo)的自適應(yīng)邊距策略更好地捕捉了人類判斷的范圍,從而實(shí)現(xiàn)與布局生成和人類偏好的更精確對齊。

如圖3(d)所示,給定任務(wù)指令和可選的背景或元素內(nèi)容,生成器產(chǎn)生兩個候選布局l1和l2。之后通過雙分支處理器將布局結(jié)果轉(zhuǎn)化為視覺和幾何信息,并通過布局評估器產(chǎn)出候選布局的得分。我們將兩種布局的分?jǐn)?shù)差距定義如下:

wKgZPGll_-WAFBe7AAAeF71_ugQ786.png

wKgZO2ll_-WAZ8dSAAAOvhT6aho889.png

其中I+和l+分別表示高分布局的視覺和幾何信息。為了進(jìn)一步增強(qiáng)對邊距的感知,我們應(yīng)用了非線性變換f()來處理分?jǐn)?shù)差距。最終,DMPO的損失形式可寫作:

wKgZPGll_-aAeIlfAAB5IE6nXLI543.png

通過將生成和評估整合到反饋循環(huán)中,DMPO彌合了布局生成和人類審美偏好之間的差距,產(chǎn)生了更具視覺吸引力的布局。

五、實(shí)驗(yàn)結(jié)果

(1)布局評估模型性能

為了驗(yàn)證我們的評估器,我們將其與一些領(lǐng)先的閉源(M)LLM模型進(jìn)行比較,包括GPT-4o、Claude3.5 Sonnet(Claude3.5)、GLM-4v和DeepSeek-R1。這些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和視覺輸入,除了DeepSeek-R1,它只處理文本。如表1所示,我們的模型表現(xiàn)出色,達(dá)到85.5%的準(zhǔn)確率,比現(xiàn)有的MLLMs高出25-35%。一些MLLMs的表現(xiàn)接近隨機(jī)(約50%),突顯了它們在布局評估中的局限性。

wKgZO2ll_-aAXhPpAACDWLf4P6U686.png

表1 :布局評估模型對比

(2)布局生成模型性能

在本小節(jié)中,我們與三類基線方法進(jìn)行了比較:(1) 針對單個布局任務(wù)設(shè)計的任務(wù)特定SOTA模型(例如,LayoutDM);(2) 閉源模型,包括GPT-4o、Claude3.5和DeepSeek-R1;(3) 開源的多模態(tài)大語言模型(MLLMs),如聯(lián)合訓(xùn)練四個任務(wù)的LLaVA。

在表2展示的任務(wù)特定評估中,我們的方法在多個指標(biāo)上表現(xiàn)出色。值得注意的是,在BFEF任務(wù)中,我們實(shí)現(xiàn)了最低的Ove(0.001)和Ali(0.00004),與專用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任務(wù)中,我們的方法以最小的Ove(0.00045)和最高的Max.(0.439)創(chuàng)下新紀(jì)錄。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 京東
    +關(guān)注

    關(guān)注

    2

    文章

    1108

    瀏覽量

    50076
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1329
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    云邊云科技SD-WAN智慧網(wǎng)絡(luò),打通零售連鎖終端運(yùn)營“最后公里”

    前言全國上百家門店的收銀數(shù)據(jù)、庫存同步和視頻監(jiān)控如何實(shí)現(xiàn)統(tǒng)一管理?面對數(shù)字化轉(zhuǎn)型的浪潮,零售連鎖企業(yè)正通過SD-WAN技術(shù)找到答案。在線上線下深度融合的新零售時代,門店P(guān)OS交易、庫存實(shí)時同步、會員
    的頭像 發(fā)表于 12-22 14:12 ?348次閱讀
    云邊云科技SD-WAN智慧網(wǎng)絡(luò),打通<b class='flag-5'>零售</b>連鎖終端運(yùn)營“最后<b class='flag-5'>一</b>公里”

    云邊云科技參與發(fā)布《生成式人工智能零售業(yè)全景探索白皮書》

    、云邊云科技入選生成式人工智能零售業(yè)全景探索白皮書生成式人工智能在生產(chǎn)力和效率優(yōu)化、關(guān)鍵風(fēng)險防控、產(chǎn)品和服務(wù)提升等方面可以發(fā)揮重要作用,本次發(fā)布的《
    的頭像 發(fā)表于 12-15 09:58 ?527次閱讀
    云邊云科技參與發(fā)布《<b class='flag-5'>生成</b>式人工智能<b class='flag-5'>零售</b>業(yè)全景探索白皮書》

    高格欣壁掛廣告機(jī):新零售連鎖的品牌實(shí)力“放大器”

    當(dāng)新零售連鎖進(jìn)入“體驗(yàn)制勝”的時代,終端展示設(shè)備已不再是簡單的廣告載體,更成為品牌實(shí)力的直觀名片。深圳市高格欣科技的壁掛廣告機(jī),憑借工業(yè)級品質(zhì)、智能交互能力與場景適配性,正成為連鎖品牌破局流量困境
    的頭像 發(fā)表于 11-22 17:03 ?575次閱讀
    高格欣壁掛<b class='flag-5'>廣告</b>機(jī):新<b class='flag-5'>零售</b>連鎖的品牌實(shí)力“放大器”

    JDD Oxygen智能零售論壇 | 《大模型時代的廣告營銷變革與實(shí)踐》

    核心觀點(diǎn) 1. 通用大模型想解決營銷領(lǐng)域問題需向垂類模型轉(zhuǎn)型。 “全才”通用大模型難覆蓋廣告營銷全流程,需升級為“懂營銷”的垂直模型,實(shí)現(xiàn)從
    的頭像 發(fā)表于 10-27 17:18 ?935次閱讀
    JDD Oxygen智能<b class='flag-5'>零售</b>論壇 | 《大<b class='flag-5'>模型</b>時代的<b class='flag-5'>廣告</b>營銷變革與實(shí)踐》

    理想汽車首個海外零售中心正式開業(yè)

    經(jīng)銷商模式。今年11月,理想汽車在哈薩克斯坦第大城市阿拉木圖和首都阿斯塔納的零售中心也將陸續(xù)開業(yè)。理想汽車將為通過授權(quán)零售中心購車的海外用戶提供官方質(zhì)保,以及專業(yè)的檢查維修、高效的原廠備件配送、技術(shù)支持、OTA升級等官方服務(wù)。
    的頭像 發(fā)表于 10-14 16:25 ?854次閱讀

    SD-WAN智慧網(wǎng)絡(luò)賦能,打通零售連鎖終端運(yùn)營“最后公里”

    前言全國上百家門店的收銀數(shù)據(jù)、庫存同步和視頻監(jiān)控如何實(shí)現(xiàn)統(tǒng)一管理?面對數(shù)字化轉(zhuǎn)型的浪潮,零售連鎖企業(yè)正通過SD-WAN技術(shù)找到答案。在線上線下深度融合的新零售時代,門店P(guān)OS交易、庫存實(shí)時同步、會員
    的頭像 發(fā)表于 10-14 10:49 ?1324次閱讀
    SD-WAN智慧網(wǎng)絡(luò)賦能,打通<b class='flag-5'>零售</b>連鎖終端運(yùn)營“最后<b class='flag-5'>一</b>公里”

    安卓工控體機(jī)在智慧新零售市場領(lǐng)域的應(yīng)用分析

    在智慧零售市場規(guī)模突破2000億的賽道上,安卓工控體機(jī)正以 “隱形中樞” 的角色,重塑無人零售的運(yùn)營邏輯與消費(fèi)體驗(yàn)。
    的頭像 發(fā)表于 09-22 11:28 ?731次閱讀
    安卓工控<b class='flag-5'>一</b>體機(jī)在智慧新<b class='flag-5'>零售</b>市場領(lǐng)域的應(yīng)用分析

    智慧零售全面爆發(fā),BLE芯片趁勢而起

    ?2025年,全球智慧零售市場預(yù)計突破1.2萬億美元,年均增速約15%,其中亞太地區(qū)(以中國為主)占全球市場的40%以上。中國市場規(guī)模預(yù)計達(dá)到8500億元人民幣,占全球的35%,年均增速20%,領(lǐng)先
    的頭像 發(fā)表于 09-19 16:20 ?646次閱讀
    智慧<b class='flag-5'>零售</b>全面爆發(fā),BLE芯片趁勢而起

    高格欣廣告機(jī):重構(gòu)商業(yè)領(lǐng)域新零售消費(fèi)鏈路的 “智能營銷樞紐”

    不知你是否留意到,商業(yè)零售領(lǐng)域正經(jīng)歷著大變革,越來越多的數(shù)字化新零售體系在逐步取代傳統(tǒng)的商業(yè)模式,顯示與智能交互功能為體的顯示設(shè)備終端,已成為推動新零售發(fā)展的關(guān)鍵力量,從根本上重塑了
    的頭像 發(fā)表于 08-29 17:26 ?793次閱讀
    高格欣<b class='flag-5'>廣告</b>機(jī):重構(gòu)商業(yè)領(lǐng)域新<b class='flag-5'>零售</b>消費(fèi)鏈路的 “智能營銷樞紐”

    零售行業(yè)出海數(shù)據(jù)回流,如何選擇SDWAN

    >全球零售網(wǎng)絡(luò)的擴(kuò)張正面臨關(guān)鍵轉(zhuǎn)折點(diǎn):**數(shù)據(jù)回流的效率與安全**,已成為出海企業(yè)增長的核心瓶頸,而SD-WAN技術(shù)正通過智能化的網(wǎng)絡(luò)重構(gòu),成為破局的關(guān)鍵利器。隨著零售企業(yè)加速全球化布局
    的頭像 發(fā)表于 08-21 14:09 ?1479次閱讀
    <b class='flag-5'>零售</b>行業(yè)出海數(shù)據(jù)回流,如何選擇SDWAN

    京東零售在智能供應(yīng)鏈領(lǐng)域的前沿探索與技術(shù)實(shí)踐

    近日,“智匯運(yùn)河 智算未來”2025人工智能創(chuàng)新創(chuàng)業(yè)大會在杭州召開。香港工程科學(xué)院院士、香港大學(xué)副校長、研究生院院長、講座教授、京東零售供應(yīng)鏈?zhǔn)紫茖W(xué)家申作軍教授與供應(yīng)鏈算法團(tuán)隊(duì)技術(shù)總監(jiān)戚永志博士
    的頭像 發(fā)表于 08-04 16:10 ?1035次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>在智能供應(yīng)鏈領(lǐng)域的前沿探索與技術(shù)實(shí)踐

    融智興科技:RFID超高頻零售標(biāo)簽解析

    融智興科技推出的RFID超高頻零售標(biāo)簽,專為零售場景高頻次、多品類、快速周轉(zhuǎn)而設(shè)計,具備遠(yuǎn)距離群讀、批量寫入、耐環(huán)境干擾等特點(diǎn),并通過了ARC(Auburn RFID Lab)認(rèn)證,滿足沃爾瑪、山姆會員店等全球零售巨頭的標(biāo)準(zhǔn)。
    的頭像 發(fā)表于 07-30 16:32 ?792次閱讀
    融智興科技:RFID超高頻<b class='flag-5'>零售</b>標(biāo)簽解析

    從校園實(shí)驗(yàn)室到京東零售位算法工程師的風(fēng)控實(shí)戰(zhàn)錄

    大家好,我是王曉婷,在京東零售研究廣告反作弊算法設(shè)計、實(shí)現(xiàn)與優(yōu)化,結(jié)合LLM、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)賦能反作弊系統(tǒng),用算法識別和打擊數(shù)字廣告領(lǐng)域的欺詐行為。本文與大家分享我從高校實(shí)驗(yàn)室到
    的頭像 發(fā)表于 05-22 16:39 ?724次閱讀
    從校園實(shí)驗(yàn)室到<b class='flag-5'>京東</b><b class='flag-5'>零售</b>:<b class='flag-5'>一</b>位算法工程師的風(fēng)控實(shí)戰(zhàn)錄

    絕味20歲生日會,鴨廠鵝廠聯(lián)手發(fā)布中國零售連鎖AI垂直場景大模型

    絕味×騰訊,首個中國零售連鎖AI垂直場景大模型的破殼之路
    的頭像 發(fā)表于 04-23 19:18 ?1414次閱讀
    絕味20歲生日會,鴨廠鵝廠聯(lián)手發(fā)布中國<b class='flag-5'>零售</b>連鎖AI垂直場景大<b class='flag-5'>模型</b>

    京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成

    作者:京東零售 馮偉 WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models
    的頭像 發(fā)表于 03-18 14:00 ?806次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b><b class='flag-5'>廣告創(chuàng)意</b>:引入場域目標(biāo)的<b class='flag-5'>創(chuàng)意</b>圖片<b class='flag-5'>生成</b>