
MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation
論文鏈接:https://arxiv.org/abs/2508.02374?
代碼鏈接:https://github.com/JD-GenX/Uni-Layout?
?
摘要:布局生成在電商圖片的設(shè)計中起到至關(guān)重要的作用。當(dāng)前的布局生成方法在能力上具有任務(wù)特定性,并且評估標(biāo)準(zhǔn)與人類感知不一致,導(dǎo)致其應(yīng)用范圍有限且評估效果不佳。為了解決這些問題,Uni-Layout實(shí)現(xiàn)了統(tǒng)一生成、模擬人類的評估以及二者之間的對齊。針對通用生成,該框架將各種布局任務(wù)整合到一個統(tǒng)一的分類系統(tǒng)中,并開發(fā)了一個統(tǒng)一的生成器,通過自然語言提示處理背景或元素內(nèi)容受限的任務(wù)。為了引入人類反饋以有效評估布局,我們構(gòu)建了Layout-HF100k,這是首個包含10萬個人工標(biāo)注布局的大規(guī)模人類反饋數(shù)據(jù)集。基于Layout-HF100k,我們引入了一種模擬人類的評估器,該評估器結(jié)合視覺和幾何信息,采用思維鏈機(jī)制進(jìn)行定性評估,并通過信心估計模塊提供定量測量。為了更好地對齊生成器和評估器,我們采用動態(tài)邊距偏好優(yōu)化(DMPO)技術(shù),將二者整合為一個協(xié)調(diào)系統(tǒng),以更好地符合人類判斷。
一、背景及現(xiàn)狀
布局生成旨在為給定的元素設(shè)計吸引人的視覺排版,涵蓋從海報和文檔設(shè)計到用戶界面布局和雜志排版等廣泛任務(wù)。雖然生成模型取得了顯著進(jìn)展,但現(xiàn)有方法通常專注于狹義任務(wù),導(dǎo)致解決方案缺乏靈活性和普適性。此外,盡管現(xiàn)有的評估指標(biāo)基于布局設(shè)計原則精心設(shè)計,但它們常常與人類的感知不一致。如圖1所示,高評分的布局可能在視覺質(zhì)量上較差,這揭示了現(xiàn)有指標(biāo)與真實(shí)人類感知之間的差距。為了解決這些挑戰(zhàn),我們提出了Uni-Layout,一個通過統(tǒng)一生成器、模擬人類的評估器和動態(tài)邊距對齊機(jī)制來整合布局生成、評估和對齊的整體框架。為了詳細(xì)闡述Uni-Layout,本文圍繞三個核心研究問題展開。

圖1:布局生成任務(wù)的分類體系與動機(jī)闡述
二、如何實(shí)現(xiàn)跨任務(wù)的統(tǒng)一布局生成?
為了系統(tǒng)地統(tǒng)一當(dāng)前分散的布局生成任務(wù)領(lǐng)域,我們提出了一個基于兩個維度的精心組織的分類法:背景和元素內(nèi)容是自由的還是受限的。如圖1所示,我們將現(xiàn)有的布局任務(wù)分為四種代表性類型:BFEF、BCEF、BFEC和BCEC。當(dāng)前的任務(wù)特定方法在統(tǒng)一布局生成方面存在困難,但多模態(tài)大型語言模型(MLLMs)由于其通用的視覺-語言理解能力,提供了有前景的解決方案。利用MLLMs,我們提出了一個統(tǒng)一的布局生成器,其工作方式類似于一名熟練的設(shè)計師。該生成器結(jié)合視覺約束和文本指令來生成連貫的布局,能夠處理背景和元素內(nèi)容既可以受限也可以自由的多種場景。通過在各種布局任務(wù)上的聯(lián)合訓(xùn)練,它為布局生成提供了一個靈活且統(tǒng)一的解決方案。
為了統(tǒng)一多種布局任務(wù),一個通用的布局任務(wù)指令可寫作:

其中T為任務(wù)描述,b表示背景的內(nèi)容和屬性,e表示元素的內(nèi)容和屬性,O是指定的輸出格式。注意背景和元素的屬性是必須的,但其內(nèi)容可為空。為了清楚起見,我們針對BCEC任務(wù)提供了一個說明示例,其中下劃線部分對應(yīng)上式中的對應(yīng)項(xiàng)。

?
三、如何模擬人類來評估布局?
盡管人類感知在布局設(shè)計中非常重要,但現(xiàn)有數(shù)據(jù)集中缺乏對布局質(zhì)量的人類反饋。為彌補(bǔ)這一缺口,我們匯總了統(tǒng)一生成器的輸出,并編制了Layout-HF100k,這是首個專為布局生成策劃的全面人類反饋數(shù)據(jù)集,包含10萬個精心標(biāo)注的高質(zhì)量示例,涵蓋代表性布局任務(wù)。該數(shù)據(jù)集的示例如圖2所示。

圖2:Layout-HF100k示例。第一/二行分別為合格/不合格布局。
基于這一全新的數(shù)據(jù)集,我們開發(fā)了一種評估器,結(jié)構(gòu)如圖3(b)和(c)所示。其通過視覺和幾何信息兩個分支處理布局,以有效模擬人類判斷模式。此外,該評估器結(jié)合了一個輸出定量置信度估計的分類頭,以及定性“思維鏈”(CoT)推理,使其能夠捕捉微妙的審美偏好,并提供與人類感知模式緊密對齊的可解釋評估。通過結(jié)合多模態(tài)分析和CoT推理,我們的評估器不僅能夠做出準(zhǔn)確判斷,還能闡明其決策背后的理由,類似于人類專家如何評估布局。
具體來說,CoT包含以下四個步驟:
(1) 布局概覽:對布局可視化結(jié)果快速而全面的掃描,通過簡潔的文本描述捕捉布局的第一印象,概述整體構(gòu)圖和上下文元素。
(2) 空間解構(gòu):系統(tǒng)地分解布局的基本組成部分,分析幾何屬性和空間關(guān)系。它檢查對齊模式、識別潛在重疊,并評估間距一致性,以揭示潛在的結(jié)構(gòu)框架。
(3) 美學(xué)評估:對布局的視覺質(zhì)量進(jìn)行詳細(xì)評估,重點(diǎn)關(guān)注藝術(shù)價值和設(shè)計原則。這包括對比例平衡、空間和諧和視覺節(jié)奏的評估,同時考慮這些元素如何對整體美學(xué)效果產(chǎn)生影響。
(4) 全面評估:最后階段綜合所有先前分析的見解,以提供對布局有效性的全面評估,最后給出“合格”或“不合格”的明確判斷。

圖3:Uni-Layout框架概覽
四、如何有效對齊人類反饋和布局生成?
現(xiàn)有的對齊方法要么直接最大化人類偏好的輸出可能性,要么在其偏好學(xué)習(xí)目標(biāo)中使用固定邊距。這些傳統(tǒng)方法未能反映人類偏好的不同程度,因?yàn)樗鼈儗?qiáng)偏好和弱偏好一視同仁。為了解決這一限制,我們提出了一種新的對齊方法,稱為動態(tài)邊距偏好優(yōu)化(DMPO)。具體而言,當(dāng)評估者在成對樣本之間表現(xiàn)出更強(qiáng)烈的偏好時,DMPO會自動增加邊距,以在勝出和失敗的響應(yīng)之間強(qiáng)制產(chǎn)生更大的分?jǐn)?shù)差異,而對于不太明顯的偏好則應(yīng)用較小的邊距。這種信心引導(dǎo)的自適應(yīng)邊距策略更好地捕捉了人類判斷的范圍,從而實(shí)現(xiàn)與布局生成和人類偏好的更精確對齊。
如圖3(d)所示,給定任務(wù)指令和可選的背景或元素內(nèi)容,生成器產(chǎn)生兩個候選布局l1和l2。之后通過雙分支處理器將布局結(jié)果轉(zhuǎn)化為視覺和幾何信息,并通過布局評估器產(chǎn)出候選布局的得分。我們將兩種布局的分?jǐn)?shù)差距定義如下:


其中I+和l+分別表示高分布局的視覺和幾何信息。為了進(jìn)一步增強(qiáng)對邊距的感知,我們應(yīng)用了非線性變換f()來處理分?jǐn)?shù)差距。最終,DMPO的損失形式可寫作:

通過將生成和評估整合到反饋循環(huán)中,DMPO彌合了布局生成和人類審美偏好之間的差距,產(chǎn)生了更具視覺吸引力的布局。
五、實(shí)驗(yàn)結(jié)果
(1)布局評估模型性能
為了驗(yàn)證我們的評估器,我們將其與一些領(lǐng)先的閉源(M)LLM模型進(jìn)行比較,包括GPT-4o、Claude3.5 Sonnet(Claude3.5)、GLM-4v和DeepSeek-R1。這些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和視覺輸入,除了DeepSeek-R1,它只處理文本。如表1所示,我們的模型表現(xiàn)出色,達(dá)到85.5%的準(zhǔn)確率,比現(xiàn)有的MLLMs高出25-35%。一些MLLMs的表現(xiàn)接近隨機(jī)(約50%),突顯了它們在布局評估中的局限性。

表1 :布局評估模型對比
(2)布局生成模型性能
在本小節(jié)中,我們與三類基線方法進(jìn)行了比較:(1) 針對單個布局任務(wù)設(shè)計的任務(wù)特定SOTA模型(例如,LayoutDM);(2) 閉源模型,包括GPT-4o、Claude3.5和DeepSeek-R1;(3) 開源的多模態(tài)大語言模型(MLLMs),如聯(lián)合訓(xùn)練四個任務(wù)的LLaVA。
在表2展示的任務(wù)特定評估中,我們的方法在多個指標(biāo)上表現(xiàn)出色。值得注意的是,在BFEF任務(wù)中,我們實(shí)現(xiàn)了最低的Ove(0.001)和Ali(0.00004),與專用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任務(wù)中,我們的方法以最小的Ove(0.00045)和最高的Max.(0.439)創(chuàng)下新紀(jì)錄。
審核編輯 黃宇
-
京東
+關(guān)注
關(guān)注
2文章
1108瀏覽量
50076 -
LLM
+關(guān)注
關(guān)注
1文章
346瀏覽量
1329
發(fā)布評論請先 登錄
云邊云科技SD-WAN智慧網(wǎng)絡(luò),打通零售連鎖終端運(yùn)營“最后一公里”
云邊云科技參與發(fā)布《生成式人工智能零售業(yè)全景探索白皮書》
高格欣壁掛廣告機(jī):新零售連鎖的品牌實(shí)力“放大器”
JDD Oxygen智能零售論壇 | 《大模型時代的廣告營銷變革與實(shí)踐》
理想汽車首個海外零售中心正式開業(yè)
SD-WAN智慧網(wǎng)絡(luò)賦能,打通零售連鎖終端運(yùn)營“最后一公里”
安卓工控一體機(jī)在智慧新零售市場領(lǐng)域的應(yīng)用分析
智慧零售全面爆發(fā),BLE芯片趁勢而起
高格欣廣告機(jī):重構(gòu)商業(yè)領(lǐng)域新零售消費(fèi)鏈路的 “智能營銷樞紐”
零售行業(yè)出海數(shù)據(jù)回流,如何選擇SDWAN
京東零售在智能供應(yīng)鏈領(lǐng)域的前沿探索與技術(shù)實(shí)踐
融智興科技:RFID超高頻零售標(biāo)簽解析
從校園實(shí)驗(yàn)室到京東零售:一位算法工程師的風(fēng)控實(shí)戰(zhàn)錄
京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成
京東零售廣告創(chuàng)意:統(tǒng)一的布局生成和評估模型
評論