国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

給一個(gè)文本提示就能生成3D模型!

CVer ? 來(lái)源:新智元 ? 作者:新智元 ? 2022-10-19 14:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】給一個(gè)文本提示就能生成3D模型!

自從文本引導(dǎo)的圖像生成模型火了以后,畫家群體迅速擴(kuò)張,不會(huì)用畫筆的人也能發(fā)揮想象力進(jìn)行藝術(shù)創(chuàng)作。

但目前的模型,如DALL-E 2, Imagen等仍然停留在二維創(chuàng)作(即圖片),無(wú)法生成360度無(wú)死角的3D模型。

想要直接訓(xùn)練一個(gè)text-to-3D的模型非常困難,因?yàn)镈ALL-E 2等模型的訓(xùn)練需要吞噬數(shù)十億個(gè)圖像-文本對(duì),但三維合成并不存在如此大規(guī)模的標(biāo)注數(shù)據(jù),也沒(méi)有一個(gè)高效的模型架構(gòu)對(duì)3D數(shù)據(jù)進(jìn)行降噪。

52169bf0-4f6d-11ed-a3b6-dac502259ad0.gif

最近Google研究員另辟蹊徑,提出一個(gè)新模型DreamFusion,先使用一個(gè)預(yù)訓(xùn)練2D擴(kuò)散模型基于文本提示生成一張二維圖像,然后引入一個(gè)基于概率密度蒸餾的損失函數(shù),通過(guò)梯度下降法優(yōu)化一個(gè)隨機(jī)初始化的神經(jīng)輻射場(chǎng)NeRF模型。

53ed42a8-4f6d-11ed-a3b6-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2209.14988

訓(xùn)練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型,整個(gè)過(guò)程既不需要3D訓(xùn)練數(shù)據(jù),也無(wú)需修改圖像擴(kuò)散模型,完全依賴預(yù)訓(xùn)練擴(kuò)散模型作為先驗(yàn)。

從文本到3D模型

以文本為條件的生成性圖像模型現(xiàn)在支持高保真、多樣化和可控的圖像合成,高質(zhì)量來(lái)源于大量對(duì)齊的圖像-文本數(shù)據(jù)集和可擴(kuò)展的生成模型架構(gòu),如擴(kuò)散模型。

雖然二維圖像生成的應(yīng)用場(chǎng)景十分廣泛,但諸如游戲、電影等數(shù)字媒體仍然需要成千上萬(wàn)的詳細(xì)的三維資產(chǎn)來(lái)填充豐富的互動(dòng)環(huán)境。

目前,3D資產(chǎn)的獲取方式主要由Blender和Maya3D等建模軟件手工設(shè)計(jì),這個(gè)過(guò)程需要耗費(fèi)大量的時(shí)間和專業(yè)知識(shí)。

2020年,神經(jīng)輻射場(chǎng)(NeRF)模型發(fā)布,其中體積光線追蹤器與從空間坐標(biāo)到顏色和體積密度的神經(jīng)映射相結(jié)合,使得NeRF已經(jīng)成為神經(jīng)逆向渲染的一個(gè)重要工具。

最初,NeRF被發(fā)現(xiàn)可以很好地用于「經(jīng)典」的三維重建任務(wù):一個(gè)場(chǎng)景下的不同角度圖像提供給一個(gè)模型作為輸入,然后優(yōu)化NeRF以恢復(fù)該特定場(chǎng)景的幾何形狀,能夠從未觀察到的角度合成該場(chǎng)景的新視圖。

很多三維生成方法都是基于NeRF模型,比如2022年提出的Dream Fields使用預(yù)訓(xùn)練的CLIP模型和基于優(yōu)化的方法來(lái)訓(xùn)練NeRF,直接從文本中生成3D模型,但這種方式生成的三維物體往往缺乏真實(shí)性和準(zhǔn)確性。

541797b0-4f6d-11ed-a3b6-dac502259ad0.png

DreamFusion采用了與Dream Field類似的方法,但模型中的損失函數(shù)基于概率密度蒸餾,最小化基于擴(kuò)散的前向過(guò)程的共享的高斯分布族與預(yù)訓(xùn)練的擴(kuò)散模型所學(xué)習(xí)的分?jǐn)?shù)函數(shù)之間的KL散度。

擴(kuò)散模型是一個(gè)隱變量生成模型,學(xué)習(xí)如何逐步將一個(gè)樣本從簡(jiǎn)單的噪聲分布轉(zhuǎn)換到數(shù)據(jù)分布。

58d372b0-4f6d-11ed-a3b6-dac502259ad0.png

擴(kuò)散模型的包括一個(gè)前向過(guò)程(forward process),緩慢地從數(shù)據(jù)中添加噪聲并移除結(jié)構(gòu),兩個(gè)時(shí)間步之間的過(guò)渡通常服從高斯分布,并在反向過(guò)程(reverse process)或生成式模型中在噪聲上逐漸添加結(jié)構(gòu)。

現(xiàn)有的擴(kuò)散模型采樣方法產(chǎn)生的樣本與模型訓(xùn)練的觀測(cè)數(shù)據(jù)類型和維度相同,盡管有條件的擴(kuò)散采樣能夠?qū)崿F(xiàn)相當(dāng)大的靈活性,但在像素上訓(xùn)練的擴(kuò)散模型傳統(tǒng)上只用來(lái)對(duì)像素進(jìn)行采樣。

但像素采樣并不重要,研究人員只希望創(chuàng)建的三維模型在從隨機(jī)角度渲染時(shí),看起來(lái)像是一張好的圖像。

可微分圖像參數(shù)化(DIP)允許模型表達(dá)約束條件,在更緊湊的空間中進(jìn)行優(yōu)化(例如任意分辨率的基于坐標(biāo)的MLPs),或利用更強(qiáng)大的優(yōu)化算法來(lái)遍歷像素空間。

對(duì)于三維來(lái)說(shuō),參數(shù)θ是三維體積的參數(shù),可微生成器g是體積渲染器,為了學(xué)習(xí)這些參數(shù),需要一個(gè)可以應(yīng)用于擴(kuò)散模型的損失函數(shù)。

文中采用的方法是利用擴(kuò)散模型的結(jié)構(gòu),通過(guò)優(yōu)化實(shí)現(xiàn)可操作的取樣,當(dāng)損失函數(shù)最小化時(shí)生成一個(gè)樣本,然后對(duì)參數(shù)θ進(jìn)行優(yōu)化,使x=g(θ)看起來(lái)像凍結(jié)擴(kuò)散模型的樣本。

為了進(jìn)行這種優(yōu)化,還需要一個(gè)可微的損失函數(shù),其中可信的圖像具有較低的損失,而不可信的圖像有高的損失,與DeepDream的過(guò)程類似。

在實(shí)踐中,研究人員發(fā)現(xiàn)即使是在使用一個(gè)相同的DIP時(shí),損失函數(shù)也無(wú)法生成現(xiàn)實(shí)的樣本。但同期的一項(xiàng)工作表明,這種方法可以通過(guò)精心選擇的時(shí)間步長(zhǎng)來(lái)實(shí)現(xiàn),但這個(gè)目標(biāo)很脆弱,其時(shí)間步長(zhǎng)的調(diào)整也很困難。

通過(guò)觀察和分解梯度可以發(fā)現(xiàn),U-Net Jacobian項(xiàng)的計(jì)算成本很高(需要通過(guò)擴(kuò)散模型U-Net進(jìn)行反向傳播),而且對(duì)于小的噪聲水平來(lái)說(shuō)條件很差,因?yàn)樗挠?xùn)練目標(biāo)為近似于邊際密度的縮放Hessian

58f82c90-4f6d-11ed-a3b6-dac502259ad0.png

通過(guò)實(shí)驗(yàn),研究人員發(fā)現(xiàn)省略U-Net的Jacobian項(xiàng)可以帶來(lái)一個(gè)有效的梯度結(jié)果,能夠用于優(yōu)化帶有擴(kuò)散模型的DIPs

591e7e40-4f6d-11ed-a3b6-dac502259ad0.png

直觀來(lái)看,這個(gè)損失用對(duì)應(yīng)于時(shí)間步長(zhǎng)的隨機(jī)數(shù)量的噪聲來(lái)擾動(dòng)輸入數(shù)據(jù),并估計(jì)出一個(gè)更新方向,該方向遵循擴(kuò)散模型的得分函數(shù),以移動(dòng)到一個(gè)更高密度的區(qū)域。

593ef6fc-4f6d-11ed-a3b6-dac502259ad0.png

雖然這種用擴(kuò)散模型學(xué)習(xí)DIP的梯度可能看起來(lái)很特別,但實(shí)驗(yàn)結(jié)果表明更新方向確實(shí)是從擴(kuò)散模型學(xué)到的得分函數(shù)中得到的加權(quán)概率密度蒸餾損失的梯度。

研究人員將該采樣方法命名為得分蒸餾采樣(Score Distillation Sampling, SDS),因?yàn)樵撨^(guò)程與蒸餾有關(guān),但使用的是得分函數(shù)而不是密度。

5957acc4-4f6d-11ed-a3b6-dac502259ad0.png

下一步就是通過(guò)將SDS與為該3D生成任務(wù)定制的NeRF變體相結(jié)合,DreamFusion可以為一組不同的用戶提供的文本提示生成了高保真的連貫的3D物體和場(chǎng)景。

文章中采用的預(yù)訓(xùn)練擴(kuò)散模型為Imagen,并且只使用分辨率為64×64的基礎(chǔ)模型,并按原樣使用這個(gè)預(yù)訓(xùn)練的模型,不做任何修改。

然后用隨機(jī)權(quán)重初始化一個(gè)類似于NeRF的模型,從隨機(jī)的相機(jī)位置和角度反復(fù)渲染該NeRF的視圖,用這些渲染結(jié)果作為環(huán)繞Imagen的分?jǐn)?shù)蒸餾損失函數(shù)的輸入。

59fc17b4-4f6d-11ed-a3b6-dac502259ad0.png

給出一個(gè)預(yù)訓(xùn)練好的文本到圖像的擴(kuò)散模型,一個(gè)以NeRF形式存在的可w微分的圖像參數(shù)化DIP,以及一個(gè)損失函數(shù)(最小值代表好樣本),這樣無(wú)三維數(shù)據(jù)的文本到三維合成所需的所有組件就齊活了。

對(duì)于每個(gè)文本提示,都從頭開始訓(xùn)練一個(gè)隨機(jī)初始化的NeRF。

DreamFusion優(yōu)化的每次迭代都包含四步:

1、隨機(jī)采樣一個(gè)相機(jī)和燈光

在每次迭代中,相機(jī)位置在球面坐標(biāo)中被隨機(jī)采樣,仰角范圍從-10°到90°,方位角從0°到360°,與原點(diǎn)的距離為1到1.5

同時(shí)還在原點(diǎn)周圍取樣一個(gè)看(look-at)的點(diǎn)和一個(gè)向上(up)的矢量,并將這些與攝像機(jī)的位置結(jié)合起來(lái),創(chuàng)建一個(gè)攝像機(jī)的姿勢(shì)矩陣。同時(shí)對(duì)焦距乘數(shù)服從U(0.7, 1.35)進(jìn)行采樣,點(diǎn)光位置是從以相機(jī)位置為中心的分布中采樣的。

使用廣泛的相機(jī)位置對(duì)合成連貫的三維場(chǎng)景至關(guān)重要,寬泛的相機(jī)距離也有助于提高學(xué)習(xí)場(chǎng)景的分辨率。

2、從該相機(jī)和燈光下渲染NeRF的圖像

考慮到相機(jī)的姿勢(shì)和光線的位置,以64×64的分辨率渲染陰影NeRF模型。在照明的彩色渲染、無(wú)紋理渲染和沒(méi)有任何陰影的反照率渲染之間隨機(jī)選擇。

3、計(jì)算SDS損失相對(duì)于NeRF參數(shù)的梯度

通常情況下,文本prompt描述的都是一個(gè)物體的典型視圖,在對(duì)不同的視圖進(jìn)行采樣時(shí),這些視圖并不是最優(yōu)描述。根據(jù)隨機(jī)采樣的相機(jī)的位置,在提供的輸入文本中附加與視圖有關(guān)的文本是有益的。

對(duì)于大于60°的高仰角,在文本中添加俯視(overhead view),對(duì)于不大于60°的仰角,使用文本embedding的加權(quán)組合來(lái)添加前視圖、側(cè)視圖 或 后視圖,具體取決于方位角的值。

4、使用優(yōu)化器更新NeRF參數(shù)

3D場(chǎng)景在一臺(tái)有4個(gè)芯片的TPUv4機(jī)器上進(jìn)行了優(yōu)化,每個(gè)芯片渲染一個(gè)單獨(dú)的視圖并評(píng)估擴(kuò)散U-Net,每個(gè)設(shè)備的batch size為1。優(yōu)化了15,000次迭代,大約需要1.5小時(shí)。

5a374ece-4f6d-11ed-a3b6-dac502259ad0.png

實(shí)驗(yàn)部分評(píng)估了DreamFusion從各種文本提示中生成連貫的3D場(chǎng)景的能力。

與現(xiàn)有的zero-shot文本到3D生成模型進(jìn)行比較后可以發(fā)現(xiàn),DreamFusion模型中能夠?qū)崿F(xiàn)精確3D幾何的關(guān)鍵組件。

5a65e2d4-4f6d-11ed-a3b6-dac502259ad0.png

通過(guò)對(duì)比DreamFusion和幾個(gè)基線的R-精度,包括Dream Fields、CLIP-Mesh和一個(gè)評(píng)估MS-COCO中原始字幕圖像的oracle,可以發(fā)現(xiàn)DreamFusion在彩色圖像上的表現(xiàn)超過(guò)了這兩個(gè)基線,并接近于ground-truth圖像的性能。

5b4f692c-4f6d-11ed-a3b6-dac502259ad0.png

雖然Dream Fields的實(shí)現(xiàn)在用無(wú)紋理渲染評(píng)估幾何圖形(Geo)時(shí)表現(xiàn)得很好,但DreamFusion在58.5%的情況里與標(biāo)準(zhǔn)一致。

5b7c807e-4f6d-11ed-a3b6-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42326
  • 3D模型
    +關(guān)注

    關(guān)注

    1

    文章

    79

    瀏覽量

    16886

原文標(biāo)題:3D版DALL-E來(lái)了!谷歌發(fā)布文本3D生成模型DreamFusion,給一個(gè)文本提示就能生成3D模型!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何快速查找工業(yè)部件的 3D CAD 模型

    容易找到并下載技術(shù)數(shù)據(jù)。這是支持工程師的部分,也是建立信任的部分。 更快地找到經(jīng)過(guò)認(rèn)證的 3D CAD 模型如果您正在尋找
    發(fā)表于 03-04 16:22

    借助NVIDIA Isaac Sim與World Labs Marble加速機(jī)器人仿真環(huán)境構(gòu)建

    直以來(lái),為機(jī)器人仿真構(gòu)建逼真的 3D 環(huán)境是項(xiàng)非常耗費(fèi)人力的工作,往往需要數(shù)周的手動(dòng)建模與配置。如今,借助生成式世界模型,開發(fā)者只需輸入
    的頭像 發(fā)表于 12-24 10:28 ?1482次閱讀

    技術(shù)資訊 I 圖文詳解 Allegro X PCB Designer 中的 3D 模型映射

    本文要點(diǎn)面對(duì)市面上的切要將PCB板放進(jìn)個(gè)盒子里的產(chǎn)品的設(shè)計(jì)都離不開3D模型映射這個(gè)功能,3D
    的頭像 發(fā)表于 10-17 16:16 ?1663次閱讀
    技術(shù)資訊 I 圖文詳解 Allegro X PCB Designer 中的 <b class='flag-5'>3D</b> <b class='flag-5'>模型</b>映射

    玩轉(zhuǎn) KiCad 3D模型的使用

    “ ?本文將帶您學(xué)習(xí)如何將 3D 模型與封裝關(guān)聯(lián)、文件嵌入,講解 3D 查看器中的光線追蹤,以及如何使用 CLI 生成 PCBA 的 3D
    的頭像 發(fā)表于 09-16 19:21 ?1.2w次閱讀
    玩轉(zhuǎn) KiCad <b class='flag-5'>3D</b><b class='flag-5'>模型</b>的使用

    索尼與VAST達(dá)成3D業(yè)務(wù)合作

    近日,索尼空間現(xiàn)實(shí)顯示屏與VAST旗下的3D模型Tripo AI正式宣布達(dá)成業(yè)務(wù)合作:雙方將圍繞裸眼3D顯示技術(shù)、AI驅(qū)動(dòng)的3D內(nèi)容生成
    的頭像 發(fā)表于 08-28 17:32 ?1422次閱讀

    3Dfindit上發(fā)布世嘉智尼的上萬(wàn)個(gè)3D CAD模型,優(yōu)化用戶設(shè)計(jì)流程

    :“上線初期,我們期待通過(guò)下載量和優(yōu)質(zhì)銷售線索獲得直接反饋。與此同時(shí),我們的營(yíng)銷團(tuán)隊(duì)正著手借助 CADENAS 的網(wǎng)頁(yè)組件,將這些 3D 模型嵌入到公司官網(wǎng)中。” 借助CADENAS和3
    發(fā)表于 08-27 15:44

    Gagne公司免費(fèi)3D CAD工程波紋管模型下載

    波紋管的3D CAD模型,以便在項(xiàng)目中使用。該工具由CADENAS打造,采用eCATALOG 3Dfindit技術(shù),用戶可即時(shí)訪問(wèn)100多種格式的原始CAD文件。 在線配置器可指導(dǎo)用戶選擇正確的波紋管類型
    發(fā)表于 08-13 14:44

    【Milk-V Duo S 開發(fā)板免費(fèi)體驗(yàn)】3- 嘗試免費(fèi)3D打印了開發(fā)板外殼

    引言 壇友jf_07365693在評(píng)測(cè)群里面分享了3D打印DuoS開發(fā)板外殼的經(jīng)驗(yàn),以前從來(lái)沒(méi)有嘗試過(guò)3D打印,這次也專門試了試,效果不錯(cuò),分享下經(jīng)驗(yàn)大家。 外殼
    發(fā)表于 07-08 20:54

    文件嵌入詳解():在PCB封裝庫(kù)中嵌入3D模型

    “ ?從 KiCad 9 開始,就可以在封裝中嵌入 STEP 3D 模型,而不只是簡(jiǎn)單的關(guān)聯(lián)。這樣在復(fù)制封裝、3D庫(kù)或路徑發(fā)生變化時(shí)就不用再次重新關(guān)聯(lián)了。? ” ? 文件嵌入 從 KiCad 9
    的頭像 發(fā)表于 07-08 11:16 ?2761次閱讀
    文件嵌入詳解(<b class='flag-5'>一</b>):在PCB封裝庫(kù)中嵌入<b class='flag-5'>3D</b><b class='flag-5'>模型</b>

    NVIDIA助力影眸科技3D生成工具Rodin升級(jí)

    。在 NVIDIA Omniverse 平臺(tái)、OpenUSD 以及 Isaac Lab 解決方案的助力下,影眸科技實(shí)現(xiàn)了 Rodin 平臺(tái)的升級(jí),顯著提升了 3D 資產(chǎn)生成的速度、質(zhì)量與用戶體驗(yàn),推動(dòng)具身智能進(jìn)步發(fā)展。
    的頭像 發(fā)表于 04-27 15:09 ?1293次閱讀

    ECAD-MCAD模型未正確導(dǎo)入警告的解決方案

    Knowledge Base在傳輸?shù)組CAD時(shí),會(huì)出現(xiàn)條消息,提示3D模型存在問(wèn)題,該模型將被簡(jiǎn)單的幾何圖形所替代。
    的頭像 發(fā)表于 04-21 09:25 ?1241次閱讀
    ECAD-MCAD<b class='flag-5'>模型</b>未正確導(dǎo)入警告的解決方案

    開源項(xiàng)目!如何制作個(gè)手機(jī)用的電動(dòng)3D掃描轉(zhuǎn)盤

    。 拍完后,點(diǎn)“上傳并處理”,等幾分鐘就能生成個(gè)3D模型了!效果還是挺不錯(cuò)的,即使是
    發(fā)表于 03-25 13:45

    種以圖像為中心的3D感知模型BIP3D

    在具身智能系統(tǒng)中,3D感知算法是個(gè)關(guān)鍵組件,它在端側(cè)幫助可以幫助智能體理解環(huán)境信息,在云端可以用來(lái)輔助生成3D場(chǎng)景和
    的頭像 發(fā)表于 03-17 13:44 ?1234次閱讀
    <b class='flag-5'>一</b>種以圖像為中心的<b class='flag-5'>3D</b>感知<b class='flag-5'>模型</b>BIP<b class='flag-5'>3D</b>

    使用海爾曼太通/HellermannTyton 3D CAD 模型進(jìn)行快速高效的設(shè)計(jì)

    網(wǎng)站源鏈接和每個(gè)產(chǎn)品的相應(yīng)目錄頁(yè)面起出現(xiàn)在搜索結(jié)果列表中。用戶可以在線瀏覽查看相應(yīng)的 3D CAD 模型及其數(shù)據(jù)信息。雙方通過(guò)合作,CADENAS能將3dfindit的三維
    發(fā)表于 03-14 16:55

    3D打印可以打印那種柔韌性好,能隨意變形的模型嗎?

    且具有回彈性產(chǎn)品的,比如使用柔性材料TPU(熱塑性聚氨脂),它就能夠承受掰折、拉扯或扭曲而不輕易斷裂、損壞。 為了驗(yàn)證這特點(diǎn),JLC3D小編用TPU材料打印了
    發(fā)表于 03-13 11:41