英偉達(dá)進(jìn)入 AI 生成模型領(lǐng)域的研究,直接比別人多一個(gè)次元:一句描述生成 3D 模型。
我們生活在三維的世界里,盡管目前大多數(shù)應(yīng)用程序是 2D 的,但人們一直對(duì) 3D 數(shù)字內(nèi)容有很高的需求,包括游戲、娛樂、建筑和機(jī)器人模擬等應(yīng)用。
然而,創(chuàng)建專業(yè)的 3D 內(nèi)容需要很高的藝術(shù)與審美素養(yǎng)和大量 3D 建模專業(yè)知識(shí)。人工完成這項(xiàng)工作需要花費(fèi)大量時(shí)間和精力來培養(yǎng)這些技能。
需求大又是「勞動(dòng)密集型行業(yè)」,那么有沒有可能交給 AI 來做?上周五,英偉達(dá)提交到預(yù)印版論文平臺(tái) arXiv 的論文引起了人們的關(guān)注。
和現(xiàn)在流行的 NovelAI 差不多,人們只需要輸入一段文字比如「一只坐在睡蓮上的藍(lán)色箭毒蛙」,AI 就能給你生成個(gè)紋理造型俱全的 3D 模型出來。

Magic3D 還可以執(zhí)行基于提示的 3D 網(wǎng)格編輯:給定低分辨率 3D 模型和基本提示,可以更改文本從而修改生成的模型內(nèi)容。此外,作者還展示了保持畫風(fēng),以及將 2D 圖像樣式應(yīng)用于 3D 模型的能力。

Stable Diffusion 的論文在 2022 年 8 月才首次提交,幾個(gè)月就已經(jīng)進(jìn)化到這樣的程度,不禁讓人感嘆科技發(fā)展的速度。
英偉達(dá)表示,你只需要在這個(gè)基礎(chǔ)上稍作修改,生成的模型就可以當(dāng)做游戲或 CGI 藝術(shù)場(chǎng)景的素材了。
3D 生成模型的方向并不神秘,其實(shí)在 9 月 29 日,谷歌曾經(jīng)發(fā)布過一款文本到 3D 的生成模型 DreamFusion,英偉達(dá)在 Magic3D 的研究中直接對(duì)標(biāo)該方法。

類似于 DreamFusion 用文本生成 2D 圖像,再將其優(yōu)化為體積 NeRF(神經(jīng)輻射場(chǎng))數(shù)據(jù)的流程,Magic3D 使用兩階段生成法,用低分辨率生成的粗略模型再優(yōu)化到更高的分辨率。
英偉達(dá)的方法首先使用低分辨率擴(kuò)散先驗(yàn)獲得粗糙模型,并使用稀疏 3D 哈希網(wǎng)格結(jié)構(gòu)進(jìn)行加速。用粗略表示作為初始,再進(jìn)一步優(yōu)化了帶紋理的 3D 網(wǎng)格模型,該模型具有與高分辨率潛在擴(kuò)散模型交互的高效可微分渲染器。
Magic3D 可以在 40 分鐘內(nèi)創(chuàng)建高質(zhì)量的 3D 網(wǎng)格模型,比 DreamFusion 快 2 倍(后者平均需要 1.5 小時(shí)),同時(shí)還實(shí)現(xiàn)了更高的分辨率。統(tǒng)計(jì)表明相比 DreamFusion,61.7% 的人更喜歡英偉達(dá)的新方法。
連同圖像調(diào)節(jié)生成功能,新技術(shù)為各種創(chuàng)意應(yīng)用開辟了新途徑。

論文鏈接:https://arxiv.org/abs/2211.10440
技術(shù)細(xì)節(jié)
Magic3D 可以在較短的計(jì)算時(shí)間內(nèi)根據(jù)文本 prompt 合成高度詳細(xì)的 3D 模型。Magic3D 通過改進(jìn) DreamFusion 中的幾個(gè)主要設(shè)計(jì)選擇來使用文本 prompt 合成高質(zhì)量的 3D 內(nèi)容。
具體來說,Magic3D 是一種從粗到精的優(yōu)化方法,其中使用不同分辨率下的多個(gè)擴(kuò)散先驗(yàn)來優(yōu)化 3D 表征,從而生成視圖一致的幾何形狀以及高分辨率細(xì)節(jié)。Magic3D 使用監(jiān)督方法合成 8 倍高分辨率的 3D 內(nèi)容,速度也比 DreamFusion 快 2 倍。
Magic3D 的整個(gè)工作流程分為兩個(gè)階段:在第一階段,該研究優(yōu)化了類似于 DreamFusion 的粗略神經(jīng)場(chǎng)表征,以實(shí)現(xiàn)具有基于哈希網(wǎng)格(hash grid)的內(nèi)存和計(jì)算的高效場(chǎng)景表征。
在第二階段該方法切換到優(yōu)化網(wǎng)格表征。這個(gè)步驟很關(guān)鍵,它允許該方法在高達(dá) 512 × 512 的分辨率下利用擴(kuò)散先驗(yàn)。由于 3D 網(wǎng)格適用于快速圖形渲染,可以實(shí)時(shí)渲染高分辨率圖像,因此該研究利用基于光柵化的高效微分渲染器和相機(jī)特寫來恢復(fù)幾何紋理中的高頻細(xì)節(jié)。

基于上述兩個(gè)階段,該方法可以生成高保真的 3D 內(nèi)容,并且很容易在標(biāo)準(zhǔn)圖形軟件中導(dǎo)入和可視化。
此外,該研究展示了用文本 prompt 對(duì) 3D 合成過程的創(chuàng)造性控制能力,如下圖 1 所示。

為了對(duì)比實(shí)際應(yīng)用效果,英偉達(dá)的研究人員把 Magic3D 和 DreamFusion 在 397 個(gè)文本提示生成的內(nèi)容上進(jìn)行了比較。平均的粗略模型生成階段花費(fèi) 15 分鐘,精細(xì)階段訓(xùn)練了 25 分鐘,所有運(yùn)行時(shí)間均在 8 塊英偉達(dá) A100 GPU 上測(cè)得。


雖然論文和 demo 只是第一步,但英偉達(dá)已經(jīng)為 Magic3D 想好了未來的應(yīng)用方向:給游戲和元宇宙世界提供制作海量 3D 模型的工具,而且讓所有人都可以上手使用。
當(dāng)然,最早上線這項(xiàng)功能的可能會(huì)是英偉達(dá)自己的 Omniverse。
審核編輯 :李倩
-
3D
+關(guān)注
關(guān)注
9文章
3011瀏覽量
114773 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5581瀏覽量
109592 -
AI
+關(guān)注
關(guān)注
91文章
39490瀏覽量
300890
原文標(biāo)題:一句話生成3D模型!NVIDIA提出Magic3D:高分辨率文本到3D內(nèi)容創(chuàng)建
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
佛瑞亞海拉與恩智浦在高分辨率雷達(dá)技術(shù)領(lǐng)域展開合作
iDS iToF Nion 3D相機(jī),開啟高性價(jià)比3D視覺新紀(jì)元!
DLP9500:高分辨率空間照明調(diào)制的理想之選
DLPC7540高分辨率控制器:技術(shù)解析與設(shè)計(jì)指南
DLPC8445、DLPC8445V和DLPC8455高分辨率控制器:技術(shù)解析與設(shè)計(jì)指南
探秘DLP991UUV:高分辨率數(shù)字微鏡器件的卓越應(yīng)用與設(shè)計(jì)要點(diǎn)
DLPC6422:高分辨率數(shù)字光控制器的卓越之選
DLPC8445、DLPC8445V和DLPC8455高分辨率控制器深度解析
iTOF技術(shù),多樣化的3D視覺應(yīng)用
聚徽廠家工業(yè)液晶屏的高分辨率成像技術(shù)揭秘
LT8722如何實(shí)現(xiàn)高分辨率的脈沖?
普源精電RIGOL推出MHO2000系列高分辨率示波器
高分辨率示波器的功能與作用:以麥科信MHO6為例
高速、高分辨率、大面積成像應(yīng)用的理想選擇——Falcon4-CLHS工業(yè)相機(jī)
NVIDIA提出Magic3D:高分辨率文本到3D內(nèi)容創(chuàng)建
評(píng)論