久久人人97超碰caoporen,久久久国产精华液2025 ,亚洲精品久久中文字幕网站

MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

論文鏈接：https://arxiv.org/abs/2508.02374?

代碼鏈接：https://github.com/JD-GenX/Uni-Layout?

摘要：布局生成在電商圖片的設(shè)計中起到至關(guān)重要的作用。當(dāng)前的布局生成方法在能力上具有任務(wù)特定性，并且評估標(biāo)準(zhǔn)與人類感知不一致，導(dǎo)致其應(yīng)用范圍有限且評估效果不佳。為了解決這些問題，Uni-Layout實(shí)現(xiàn)了統(tǒng)一生成、模擬人類的評估以及二者之間的對齊。針對通用生成，該框架將各種布局任務(wù)整合到一個統(tǒng)一的分類系統(tǒng)中，并開發(fā)了一個統(tǒng)一的生成器，通過自然語言提示處理背景或元素內(nèi)容受限的任務(wù)。為了引入人類反饋以有效評估布局，我們構(gòu)建了Layout-HF100k，這是首個包含10萬個人工標(biāo)注布局的大規(guī)模人類反饋數(shù)據(jù)集。基于Layout-HF100k，我們引入了一種模擬人類的評估器，該評估器結(jié)合視覺和幾何信息，采用思維鏈機(jī)制進(jìn)行定性評估，并通過信心估計模塊提供定量測量。為了更好地對齊生成器和評估器，我們采用動態(tài)邊距偏好優(yōu)化（DMPO）技術(shù)，將二者整合為一個協(xié)調(diào)系統(tǒng)，以更好地符合人類判斷。

一、背景及現(xiàn)狀

布局生成旨在為給定的元素設(shè)計吸引人的視覺排版，涵蓋從海報和文檔設(shè)計到用戶界面布局和雜志排版等廣泛任務(wù)。雖然生成模型取得了顯著進(jìn)展，但現(xiàn)有方法通常專注于狹義任務(wù)，導(dǎo)致解決方案缺乏靈活性和普適性。此外，盡管現(xiàn)有的評估指標(biāo)基于布局設(shè)計原則精心設(shè)計，但它們常常與人類的感知不一致。如圖1所示，高評分的布局可能在視覺質(zhì)量上較差，這揭示了現(xiàn)有指標(biāo)與真實(shí)人類感知之間的差距。為了解決這些挑戰(zhàn)，我們提出了Uni-Layout，一個通過統(tǒng)一生成器、模擬人類的評估器和動態(tài)邊距對齊機(jī)制來整合布局生成、評估和對齊的整體框架。為了詳細(xì)闡述Uni-Layout，本文圍繞三個核心研究問題展開。

圖1：布局生成任務(wù)的分類體系與動機(jī)闡述

二、如何實(shí)現(xiàn)跨任務(wù)的統(tǒng)一布局生成？

為了系統(tǒng)地統(tǒng)一當(dāng)前分散的布局生成任務(wù)領(lǐng)域，我們提出了一個基于兩個維度的精心組織的分類法：背景和元素內(nèi)容是自由的還是受限的。如圖1所示，我們將現(xiàn)有的布局任務(wù)分為四種代表性類型：BFEF、BCEF、BFEC和BCEC。當(dāng)前的任務(wù)特定方法在統(tǒng)一布局生成方面存在困難，但多模態(tài)大型語言模型（MLLMs）由于其通用的視覺-語言理解能力，提供了有前景的解決方案。利用MLLMs，我們提出了一個統(tǒng)一的布局生成器，其工作方式類似于一名熟練的設(shè)計師。該生成器結(jié)合視覺約束和文本指令來生成連貫的布局，能夠處理背景和元素內(nèi)容既可以受限也可以自由的多種場景。通過在各種布局任務(wù)上的聯(lián)合訓(xùn)練，它為布局生成提供了一個靈活且統(tǒng)一的解決方案。

為了統(tǒng)一多種布局任務(wù)，一個通用的布局任務(wù)指令可寫作：

其中T為任務(wù)描述，b表示背景的內(nèi)容和屬性，e表示元素的內(nèi)容和屬性，O是指定的輸出格式。注意背景和元素的屬性是必須的，但其內(nèi)容可為空。為了清楚起見，我們針對BCEC任務(wù)提供了一個說明示例，其中下劃線部分對應(yīng)上式中的對應(yīng)項(xiàng)。

三、如何模擬人類來評估布局？

盡管人類感知在布局設(shè)計中非常重要，但現(xiàn)有數(shù)據(jù)集中缺乏對布局質(zhì)量的人類反饋。為彌補(bǔ)這一缺口，我們匯總了統(tǒng)一生成器的輸出，并編制了Layout-HF100k，這是首個專為布局生成策劃的全面人類反饋數(shù)據(jù)集，包含10萬個精心標(biāo)注的高質(zhì)量示例，涵蓋代表性布局任務(wù)。該數(shù)據(jù)集的示例如圖2所示。

圖2：Layout-HF100k示例。第一/二行分別為合格/不合格布局。

基于這一全新的數(shù)據(jù)集，我們開發(fā)了一種評估器，結(jié)構(gòu)如圖3（b）和（c）所示。其通過視覺和幾何信息兩個分支處理布局，以有效模擬人類判斷模式。此外，該評估器結(jié)合了一個輸出定量置信度估計的分類頭，以及定性“思維鏈”（CoT）推理，使其能夠捕捉微妙的審美偏好，并提供與人類感知模式緊密對齊的可解釋評估。通過結(jié)合多模態(tài)分析和CoT推理，我們的評估器不僅能夠做出準(zhǔn)確判斷，還能闡明其決策背后的理由，類似于人類專家如何評估布局。

具體來說，CoT包含以下四個步驟：

(1) 布局概覽：對布局可視化結(jié)果快速而全面的掃描，通過簡潔的文本描述捕捉布局的第一印象，概述整體構(gòu)圖和上下文元素。

(2) 空間解構(gòu)：系統(tǒng)地分解布局的基本組成部分，分析幾何屬性和空間關(guān)系。它檢查對齊模式、識別潛在重疊，并評估間距一致性，以揭示潛在的結(jié)構(gòu)框架。

(3) 美學(xué)評估：對布局的視覺質(zhì)量進(jìn)行詳細(xì)評估，重點(diǎn)關(guān)注藝術(shù)價值和設(shè)計原則。這包括對比例平衡、空間和諧和視覺節(jié)奏的評估，同時考慮這些元素如何對整體美學(xué)效果產(chǎn)生影響。

(4) 全面評估：最后階段綜合所有先前分析的見解，以提供對布局有效性的全面評估，最后給出“合格”或“不合格”的明確判斷。

圖3：Uni-Layout框架概覽

四、如何有效對齊人類反饋和布局生成？

現(xiàn)有的對齊方法要么直接最大化人類偏好的輸出可能性，要么在其偏好學(xué)習(xí)目標(biāo)中使用固定邊距。這些傳統(tǒng)方法未能反映人類偏好的不同程度，因?yàn)樗鼈儗?qiáng)偏好和弱偏好一視同仁。為了解決這一限制，我們提出了一種新的對齊方法，稱為動態(tài)邊距偏好優(yōu)化（DMPO）。具體而言，當(dāng)評估者在成對樣本之間表現(xiàn)出更強(qiáng)烈的偏好時，DMPO會自動增加邊距，以在勝出和失敗的響應(yīng)之間強(qiáng)制產(chǎn)生更大的分?jǐn)?shù)差異，而對于不太明顯的偏好則應(yīng)用較小的邊距。這種信心引導(dǎo)的自適應(yīng)邊距策略更好地捕捉了人類判斷的范圍，從而實(shí)現(xiàn)與布局生成和人類偏好的更精確對齊。

如圖3（d）所示，給定任務(wù)指令和可選的背景或元素內(nèi)容，生成器產(chǎn)生兩個候選布局l1和l2。之后通過雙分支處理器將布局結(jié)果轉(zhuǎn)化為視覺和幾何信息，并通過布局評估器產(chǎn)出候選布局的得分。我們將兩種布局的分?jǐn)?shù)差距定義如下：

其中I+和l+分別表示高分布局的視覺和幾何信息。為了進(jìn)一步增強(qiáng)對邊距的感知，我們應(yīng)用了非線性變換f()來處理分?jǐn)?shù)差距。最終，DMPO的損失形式可寫作：

通過將生成和評估整合到反饋循環(huán)中，DMPO彌合了布局生成和人類審美偏好之間的差距，產(chǎn)生了更具視覺吸引力的布局。

五、實(shí)驗(yàn)結(jié)果

（1）布局評估模型性能

為了驗(yàn)證我們的評估器，我們將其與一些領(lǐng)先的閉源（M）LLM模型進(jìn)行比較，包括GPT-4o、Claude3.5 Sonnet（Claude3.5）、GLM-4v和DeepSeek-R1。這些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和視覺輸入，除了DeepSeek-R1，它只處理文本。如表1所示，我們的模型表現(xiàn)出色，達(dá)到85.5%的準(zhǔn)確率，比現(xiàn)有的MLLMs高出25-35%。一些MLLMs的表現(xiàn)接近隨機(jī)（約50%），突顯了它們在布局評估中的局限性。

表1 ：布局評估模型對比

（2）布局生成模型性能

在本小節(jié)中，我們與三類基線方法進(jìn)行了比較：(1) 針對單個布局任務(wù)設(shè)計的任務(wù)特定SOTA模型（例如，LayoutDM）；(2) 閉源模型，包括GPT-4o、Claude3.5和DeepSeek-R1；(3) 開源的多模態(tài)大語言模型（MLLMs），如聯(lián)合訓(xùn)練四個任務(wù)的LLaVA。

在表2展示的任務(wù)特定評估中，我們的方法在多個指標(biāo)上表現(xiàn)出色。值得注意的是，在BFEF任務(wù)中，我們實(shí)現(xiàn)了最低的Ove（0.001）和Ali（0.00004），與專用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任務(wù)中，我們的方法以最小的Ove（0.00045）和最高的Max.（0.439）創(chuàng)下新紀(jì)錄。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴