国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習不是萬靈藥 神經網絡3D建模其實只是圖像識別

DPVg_AI_era ? 來源:yxw ? 2019-06-17 11:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著深度學習的大熱,許多研究都致力于如何從單張圖片生成3D模型。但近期一項研究表明,幾乎所有基于深度神經網絡的3D中重建工作,實際上并不是重建,而是圖像分類。深度學習并不是萬能的!

深度學習并不是萬靈藥。

近幾年,隨著深度學習的大熱,許多研究攻克了如何從單張圖片生成3D模型。從某些方面似乎再次驗證了深度學習的神奇——doing almost the impossible。

但是,最近一篇文章卻對此提出了質疑:幾乎所有這些基于深度神經網絡的3D重建的工作,實際上并不是進行重建,而是進行圖像分類。

arXiv地址:

https://arxiv.org/pdf/1905.03678.pdf

在這項工作中,研究人員建立了兩種不同的方法分別執行圖像分類和檢索。這些簡單的基線方法在定性和定量上都比最先進的方法產生的結果要更好。

正如伯克利馬毅教授評價:

幾乎所有這些基于深度神經網絡的3D重建的工作(層出不窮令人眼花繚亂的State of the Art top conferences 論文),其實還比不上稍微認真一點的nearest neighbor baselines。沒有任何工具或算法是萬靈藥。

至少在三維重建問題上,沒有把幾何關系條件嚴格用到位的算法,都是不科學的——根本談不上可靠和準確。

并非3D重建,而只是圖像分類?

基于對象(object-based)的單視圖3D重建任務是指,在給定單個圖像的情況下生成對象的3D模型。

如上圖所示,推斷一輛摩托車的3D結構需要一個復雜的過程,它結合了低層次的圖像線索、有關部件結構排列的知識和高層次的語義信息。

研究人員將這種情況稱為重建和識別:

重構意味著使用紋理、陰影和透視效果等線索對輸入圖像的3D結構進行推理。

識別相當于對輸入圖像進行分類,并從數據庫中檢索最合適的3D模型。

雖然在其它文獻中已經提出了各種體系結構和3D表示,但是用于單視圖3D理解的現有方法都使用編碼器——解碼器結構,其中編碼器將輸入圖像映射到潛在表示,而解碼器執行關于3D的非平凡(nontrivial)推理,并輸出空間的結構。

為了解決這一任務,整個網絡既要包含高級信息,也要包含低級信息。

而在這項工作中,研究人員對目前最先進的編解碼器方法的結果進行了分析,發現它們主要依靠識別來解決單視圖3D重建任務,同時僅顯示有限的重建能力。

為了支持這一觀點,研究人員設計了兩個純識別基線:一個結合了3D形狀聚類和圖像分類,另一個執行基于圖像的3D形狀檢索。

在此基礎上,研究人員還證明了即使不需要明確地推斷出物體的3D結構,現代卷積網絡在單視圖3D重建中的性能是可以超越的。

在許多情況下,識別基線的預測不僅在數量上更好,而且在視覺上看起來更有吸引力。

研究人員認為,卷積網絡在單視圖3D重建任務中是主流實驗程序的某些方面的結果,包括數據集的組成和評估協議。它們允許網絡找到一個快捷的解決方案,這恰好是圖像識別。

純粹的識別方法,性能優于先進的神經網絡

實驗基于現代卷積網絡,它可以從一張圖像預測出高分辨率的3D模型。

方法的分類是根據它們的輸出表示對它們進行分類:體素網格(voxel grids)、網格(meshes)、點云和深度圖。為此,研究人員選擇了最先進的方法來覆蓋主要的輸出表示,或者在評估中已經清楚地顯示出優于其他相關表示。

研究人員使用八叉樹生成網絡(Octree Generating Networks,OGN)作為直接在體素網格上預測輸出的代表性方法。

與早期使用這種輸出表示的方法相比,OGN通過使用八叉樹有效地表示所占用的空間,可以預測更高分辨率的形狀。

還評估了AtlasNet作為基于表面的方法的代表性方法。AtlasNet預測了一組參數曲面,并在操作這種輸出表示的方法中構成了最先進的方法。它被證明優于直接生成點云作為輸出的唯一方法,以及另一種基于八叉樹的方法。

最后,研究人員評估了該領域目前最先進的Matryoshka Networks。該網絡使用由多個嵌套深度圖組成的形狀表示,,這些深度圖以體積方式融合到單個輸出對象中。

對于來自AtlasNet的基于IoU的表面預測評估,研究人員將它們投影到深度圖,并進一步融合到體積表示。 對于基于表面的評估指標,使用移動立方體算法從體積表示中提取網格。

研究人員實現了兩個簡單的基線,僅從識別的角度來處理問題。

第一種方法是結合圖像分類器對訓練形狀進行聚類;第二個是執行數據庫檢索。

在聚類方面的基線中,使用K-means算法將訓練形狀聚類為K個子類別。

在檢索基線方面,嵌入空間由訓練集中所有3D形狀的兩兩相似矩陣構造,通過多維尺度將矩陣的每一行壓縮為一個低維描述符。

研究人員根據平均IoU分數對所有方法進行標準比較。

研究人員發現,雖然最先進的方法有不同體系結構的支持,但在執行的時候卻非常相似。

有趣的是,檢索基線是一種純粹的識別方法,在均值和中位數IoU方面都優于所有其他方法。簡單的聚類基線具有競爭力,性能優于AtlasNet和OGN。

但研究人員進一步觀察到,一個完美的檢索方法(Oracle NN)的性能明顯優于所有其他方法。值得注意的是,所有方法的結果差異都非常大(在35%到50%之間)。

這意味著僅依賴于平均IoU的定量比較不能提供這種性能水平的全貌。 為了更清楚地了解這些方法的行為,研究人員進行了更詳細的分析。

每類mIoU比較。

總的來說,這些方法在不同的類之間表現出一致的相對性能。檢索基線為大多數類生成最佳重構。所有類和方法的方差都很大。

mIoU與每個類的訓練樣本數量。

研究人員發現一個類的樣本數量和這個類的mIoU分數之間沒有相關性。所有方法的相關系數c均接近于零。

定性的結果

聚類基線產生的形狀質量與最先進的方法相當。 檢索基線通過設計返回高保真形狀,但細節可能不正確。 每個樣本右下角的數字表示IoU。

左:為所選類分配IoU。 基于解碼器的方法和顯式識別基線的類內分布是類似的。 Oracle NN的發行版在大多數類中都有所不同。 右圖:成對Kolmogorov-Smirnov檢驗未能拒絕兩個分布的無效假設的類數的熱圖。

研究中的一些問題

參照系的選擇

我們嘗試使用視角預測網絡對聚類基線方法進行擴展,該方法將重點回歸攝像頭的方位角和仰角等規范框架,結果失敗了,因為規范框架對每個對象類都有不同的含義,即視角網絡需要使用類信息來解決任務。我們對檢索基線方法進行了重新訓練,將每個訓練視圖作為單獨樣本來處理,從而為每個單獨的對象提供空間。

量度標準

平均IoU通常在基準測試中被用作衡量單視圖圖像重建方法的主要量化指標。如果將其作為最優解的唯一衡量指標,就可能會出現問題,因為它在對象形狀的質量值足夠高時才能有效預測。如果該值處于中低水平,表明兩個對象的形狀存在顯著差異。

如上圖所示,將一個汽車模型與數據集中的不同形狀的對象進行了比較,只有 IoU分數比較高(最右兩張圖)時才有意義,即使IoU=0.59,兩個目標可能都是完全不同的物體,比較相似度失去了意義。

倒角距離(Chamfer distance)

如上圖所示,兩者目標椅子與下方的椅子的下半部分完美匹配,但上半部分完全不同。但是根據得分,第二個目標要好于第一個。由此來看,倒角距離這個量度會被空間幾何布局顯著干擾。為了可靠地反映真正的模型重建性能,好的量度應該具備對幾何結構變化的高魯棒性。

F-score

我們繪制了以觀察者為中心的重建方式的F分數的不同距離閾值d(左)。在 d =重建體積邊長的2%的條件下,F分數絕對值與當前范圍的 mIoU分數相同,這并不能有效反映模型的預測質量。

因此,我們建議將距離閾值設為重建模型體積邊長的1%以下來考察F值。如上圖(右)中所示,在閾值d = 1%時,F分數為0.5以上。只有一小部分模型的形狀被精確構建出來,預設任務仍然遠未解決。我們的檢索基線方法不再具有明顯的優勢,進一步表明使用純粹的識別方法很難解決這個問題。

現有的基于CNN的方法在精度上表現良好,但丟失了目標的部分結構

未來展望

在這項研究中,研究人員通過重建和識別來推斷單視圖3D重建方法的范圍。

工作展示了簡單的檢索基線優于最新、最先進的方法。分析表明,目前最先進的單視圖3D重建方法主要用于識別,而不是重建。

研究人員確定了引起這種問題的一些因素,并提出了一些建議,包括使用以視圖為中心的坐標系和魯棒且信息量大的評估度量(F-score)。

另一個關鍵問題是數據集組合,雖然問題已經確定,但沒有處理。研究人員正努力在以后的工作中糾正這一點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像識別
    +關注

    關注

    9

    文章

    533

    瀏覽量

    40056
  • 3D建模
    +關注

    關注

    0

    文章

    36

    瀏覽量

    10154
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124396

原文標題:深度學習不是萬靈藥!神經網絡3D建模其實只是圖像識別?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    神經網絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經網絡的實現。什么是神經網絡
    的頭像 發表于 12-17 15:05 ?323次閱讀
    <b class='flag-5'>神經網絡</b>的初步認識

    如何深度學習機器視覺的應用場景

    檢測應用 微細缺陷識別:檢測肉眼難以發現的微小缺陷和異常 紋理分析:對材料表面紋理進行智能分析和缺陷識別 3D表面重建:通過深度學習進行高精
    的頭像 發表于 11-27 10:19 ?220次閱讀

    技術資訊 I 多板系統 3D 建模,提升設計精度和性能

    本文要點了解3D建模流程。洞悉多板系統3D建模如何提高設計精度、性能和成本效益。掌握3D建模在制
    的頭像 發表于 11-21 17:45 ?2514次閱讀
    技術資訊 I 多板系統 <b class='flag-5'>3D</b> <b class='flag-5'>建模</b>,提升設計精度和性能

    自動駕駛中常提的卷積神經網絡是個啥?

    在自動駕駛領域,經常會聽到卷積神經網絡技術。卷積神經網絡,簡稱為CNN,是一種專門用來處理網格狀數據(比如圖像)的深度學習模型。CNN在
    的頭像 發表于 11-19 18:15 ?2076次閱讀
    自動駕駛中常提的卷積<b class='flag-5'>神經網絡</b>是個啥?

    NMSIS神經網絡庫使用介紹

    (q7_t) 和 16 位整數 (q15_t)。 卷積神經網絡示例: 本示例中使用的 CNN 基于來自 Caffe 的 CIFAR-10 示例。神經網絡3 個卷積層組成,中間散布著 ReLU
    發表于 10-29 06:08

    構建CNN網絡模型并優化的一般化建議

    :Dropout層隨機跳過神經網絡模型中某些神經元之間的連接,通過隨機制造缺陷進行訓練提升整個神經網絡的魯棒性。 6)指定合理的學習率策略:一旦
    發表于 10-28 08:02

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    模型。 我們使用MNIST數據集,訓練一個卷積神經網絡(CNN)模型,用于手寫數字識別。一旦模型被訓練并保存,就可以用于對新圖像進行推理和預測。要使用生成的模型進行推理,可以按照以下步驟進行操作: 1.
    發表于 10-22 07:03

    CICC2033神經網絡部署相關操作

    在完成神經網絡量化后,需要將神經網絡部署到硬件加速器上。首先需要將所有權重數據以及輸入數據導入到存儲器內。 在仿真環境下,可將其存于一個文件,并在 Verilog 代碼中通過 readmemh 函數
    發表于 10-20 08:00

    液態神經網絡(LNN):時間連續性與動態適應性的神經網絡

    1.算法簡介液態神經網絡(LiquidNeuralNetworks,LNN)是一種新型的神經網絡架構,其設計理念借鑒自生物神經系統,特別是秀麗隱桿線蟲的神經結構,盡管這種微生物的
    的頭像 發表于 09-28 10:03 ?1211次閱讀
    液態<b class='flag-5'>神經網絡</b>(LNN):時間連續性與動態適應性的<b class='flag-5'>神經網絡</b>

    如何在機器視覺中部署深度學習神經網絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經常會出現“神經網絡
    的頭像 發表于 09-10 17:38 ?900次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>神經網絡</b>

    iTOF技術,多樣化的3D視覺應用

    動態模糊,確保高耐光性,同時輸出2D(紅外)和3D深度)數據。 ◆ Testing Principles ※ 測量脈沖光的飛行時間,以檢測 TOF 相機與被測物體之間的距離。 ◆ ToF 產品
    發表于 09-05 07:24

    TechWiz LCD 3D應用:FFS仿真

    建模任務 堆棧結構 建模過程 2.1使用TechWiz Layout繪制各層掩模版平面圖 2.2創建堆棧結構,并生成3D結構 2.3 使用TechWiz LCD 3D進行各項參數計算
    的頭像 發表于 07-14 14:08 ?674次閱讀
    TechWiz LCD <b class='flag-5'>3D</b>應用:FFS仿真

    基于FPGA的SSD目標檢測算法設計

    隨著人工智能的發展,神經網絡正被逐步應用于智能安防、自動駕駛、醫療等各行各業。目標識別作為人工智能的一項重要應用也擁有著巨大的前景,隨著深度學習的普及和框架的成熟,卷積
    的頭像 發表于 07-10 11:12 ?2547次閱讀
    基于FPGA的SSD目標檢測算法設計

    【嘉楠堪智K230開發板試用體驗】01 Studio K230開發板Test2——手掌,手勢檢測,字符檢測

    CanMV K230 的核心計算單元,專門用于處理需要高計算量的復雜圖像識別任務。其作用類似于電腦中的 GPU,專注于提供強大的視覺處理算力。 KPU 的核心優勢在于: 神經網絡處理能力: 它采用神經網絡
    發表于 07-10 09:45

    神經網絡專家系統在電機故障診斷中的應用

    摘要:針對傳統專家系統不能進行自學習、自適應的問題,本文提出了基于種經網絡專家系統的并步電機故障診斷方法。本文將小波神經網絡和專家系統相結合,充分發揮了二者故障診斷的優點,很大程度上降低了對電機
    發表于 06-16 22:09