來自華南理工大學、香港理工大學、跨維智能、鵬城實驗室等機構(gòu)的研究團隊提出了一種基于文本驅(qū)動的三維模型風格化方法,該方法可對輸入的三維模型根據(jù)文本進行更具真實性和魯棒性的風格化。
根據(jù)給定輸入創(chuàng)建 3D 內(nèi)容(例如,根據(jù)文本提示、圖像或 3D 形狀)在計算機視覺和圖形領域具有重要應用。然而這個問題是具有挑戰(zhàn)性的,現(xiàn)實中通常需要專業(yè)藝術(shù)家(Technical Artist)耗費大量的時間成本去創(chuàng)作 3D 內(nèi)容。同時,許多網(wǎng)上的三維模型庫中的資源通常是沒有任何材質(zhì)的裸露三維模型,要想將他們應用到現(xiàn)階段的渲染引擎中,需要 Technical Artist 為它們創(chuàng)作高質(zhì)量的材質(zhì),燈光和法向貼圖。因此,如果有辦法可以實現(xiàn)自動化、多樣化和逼真的三維模型資產(chǎn)生成,將是很有前景的。
因此,華南理工大學、香港理工大學、跨維智能、鵬城實驗室等機構(gòu)的研究團隊提出了一種基于文本驅(qū)動的三維模型風格化方法——TANGO,該方法對于給定的三維模型和文本,可以自動生成更具有真實性的 SVBRDF 材質(zhì),法向貼圖和燈光,并且對低質(zhì)量三維模型有更好的魯棒性。該研究已被 NeurIPS 2022 接收。
模型效果
對于給定的文本輸入和三維模型,TANGO 可以產(chǎn)生精細程度較高的具有照片級真實感的細節(jié),并且不會在三維模型表面產(chǎn)生自交問題。如下圖 1 所示, TANGO 不僅在光滑的材料(如金,銀等材質(zhì))上呈現(xiàn)出了逼真的反射效果,而且對于不平整的材質(zhì)(例如磚塊等)也能通過逐點法線的估計渲染出凹凸不平的效果。

圖 1. TANGO 的風格化結(jié)果
TANGO 能夠生成真實渲染結(jié)果的關鍵在于能夠精準地把著色模型中的每一個部件(SVBRDF,法向貼圖,燈光)拆分開,并分別學習,最后這些拆分的部件再通過球高斯可微分渲染器輸出圖片,并送到 CLIP 中和輸入文本計算 loss。為了展現(xiàn)解耦部件的合理性,該研究對每個部件都進行了可視化。圖 2 (a)展示了 “一雙磚塊做成的鞋子” 的風格化結(jié)果,(b)展示了三維模型原本的法向,(c)是 TANGO 對三維模型上每個點預測的法向,(d)(e)(f)分別表示 SVBRDF 中的漫反射,粗糙度和鏡面反射參數(shù),(g)是 TANGO預測的用球高斯函數(shù)表達的環(huán)境光。

圖 2 解耦的渲染部件可視化
同時,該研究也可以對 TANGO 輸出的結(jié)果進行編輯。例如在圖 3 中,該研究可以換用其他的光照貼圖對 TANGO 的結(jié)果進行重新打光;在圖 4 中,可以對粗糙度和鏡面反射度參數(shù)進行編輯,實現(xiàn)對物體表面反射程度的改變。

圖 3 對 TANGO 風格化結(jié)果進行重新打光

圖 4 對物體材質(zhì)進行編輯
另外,由于 TANGO 采用預測法向貼圖的方式增添物體表面細節(jié),因此對于頂點數(shù)較少的三維模型也有很好的魯棒性。如圖 5 所示,原始的 lamp 和 alien 模型分別有 41160 和 68430 個面,研究人員對原始模型進行了降采樣,得到了只有 5000 個面的模型。可以看到 TANGO 在原始模型和降采樣模型上的表現(xiàn)基本相似,而 Text2Mesh 則在低質(zhì)量的模型上出現(xiàn)了較為嚴重的自交現(xiàn)象。

圖 5 魯棒性測試
原理方法
TANGO 主要關注于由文本指導三維物體風格化的方法。這一領域目前最相關的工作是 Text2Mesh,它使用了預訓練模型 CLIP 作為指導,預測三維模型表面頂點的顏色和位置偏移,從而實現(xiàn)風格化。然而簡單地預測表面頂點顏色通常會產(chǎn)生不真實的渲染效果,且不規(guī)則的頂點偏移會造成很嚴重的自交。因此,該研究借鑒傳統(tǒng)的基于物理的渲染管線,將整個渲染過程解耦為 SVBRDF 材質(zhì),法向貼圖和燈光的預測過程,并分別用球高斯函數(shù)表達解耦的元素。這種基于物理的解耦方式使得 TANGO 可以正確產(chǎn)生具有真實感的渲染效果,并具有很好的魯棒性。

圖 6 TANGO 流程圖
圖 6 展示了 TANGO 的工作流程。給定一個三維模型和文本(例如圖中的“一個金子做成的鞋”),該研究先把這個三維模型縮放到一個單位球內(nèi),接著在三維模型的附近采樣相機位置,在這個相機位置發(fā)射射線找到與三維模型的交點xp和該交點的法線方向np。接下來,xp和np會被送入SVBRDF網(wǎng)絡和 Normal 網(wǎng)絡中,預測該點的材質(zhì)參數(shù)和法線方向,同時,用多個球高斯函數(shù)來表達場景中的光照。對于每一次訓練迭代,該研究使用可微分的球高斯渲染器渲染圖像,然后使用 CLIP 模型的圖像編碼器對增強圖像進行編碼,最后 CLIP 模型反向傳播梯度更新所有可學習的參數(shù)。
總結(jié)
本文提出了 TANGO,一種根據(jù)輸入文本對三維模型生成逼真外觀風格,對低質(zhì)量模型具有魯棒性的新方法。通過將外觀風格解耦 SVBRDF,局部幾何變化(逐點法向)和光照條件,并將這些用球高斯函數(shù)表示并渲染,能夠用 CLIP 作為 loss 監(jiān)督并進行學習。 與現(xiàn)有方法相比,即使對于低質(zhì)量的三維模型,TANGO 也可以具有很好的魯棒性。然而,逐點法向提供幾何細節(jié)的方式在避免產(chǎn)生自交的同時,也會使得能表達的材質(zhì)表面凹凸程度略微降低,該研究認為 TANGO 和基于頂點偏移的 Text2Mesh 在各自的方向上都進行了很好的初步嘗試,會啟發(fā)更多的后續(xù)研究。
-
3D
+關注
關注
9文章
3011瀏覽量
114721 -
計算機視覺
+關注
關注
9文章
1715瀏覽量
47577 -
三維模型
+關注
關注
0文章
55瀏覽量
13378
原文標題:NeurIPS 2022 | 基于文本驅(qū)動的三維模型風格化方法
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于OpenGL 的汽車轉(zhuǎn)向三維模型設計
三維快速建模技術(shù)與三維掃描建模的應用
Altium Designer三維PCB可視化引擎
三維可視化的應用和優(yōu)勢
如何導入機械臂的三維模型
Web環(huán)境下的三維虛擬人模型研究
三維模型的空間匹配與拼接
基于非量測相片的三維模型重建
三維數(shù)字化三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場的有效紐帶
三維數(shù)字化三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場的有效紐帶
劇院三維數(shù)字化三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場
智慧城市_實景三維|物業(yè)樓三維掃描案例分享_泰來三維
泰來三維|三維掃描助力變電站數(shù)字化建設
泰來三維|文物三維掃描,文物三維模型怎樣制作
基于文本驅(qū)動的三維模型風格化方法
評論