79国产美女久久,97精品囯产97久久久久久春色,奇米精品一区二区久久网站

本周的重要論文包括來自谷歌大腦的研究團(tuán)隊(duì)提出了一種舍棄卷積和自注意力且完全使用多層感知機(jī)（MLP）的視覺網(wǎng)絡(luò)架構(gòu)，在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn)；清華大學(xué)圖形學(xué)實(shí)驗(yàn)室 Jittor 團(tuán)隊(duì)提出了一種新的注意機(jī)制，通過控制記憶單元的大小，External-attention 可以輕松實(shí)現(xiàn)線性的復(fù)雜度等研究。

論文 1：MLP-Mixer： An all-MLP Architecture for Vision

摘要：計(jì)算機(jī)視覺的發(fā)展史證明，規(guī)模更大的數(shù)據(jù)集加上更強(qiáng)的計(jì)算能力往往能夠促成范式轉(zhuǎn)變。雖然卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的標(biāo)準(zhǔn)，但最近一段時(shí)間，基于自注意力層的替代方法 Vision Transformer（ViT）實(shí)現(xiàn)新的 SOTA 性能。從技術(shù)上講，ViT 模型延續(xù)了長久以來去除模型中手工構(gòu)建特征和歸納偏置的趨勢，并進(jìn)一步依賴基于原始數(shù)據(jù)的學(xué)習(xí)。

近日，原 ViT 團(tuán)隊(duì)提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)（簡稱 Mixer），這是一種頗具競爭力并且在概念和技術(shù)上都非常簡單的替代方案。Mixer 架構(gòu)完全基于在空間位置或特征通道重復(fù)利用的多層感知機(jī)（MLP），并且僅依賴于基礎(chǔ)矩陣乘法運(yùn)算、數(shù)據(jù)布局變換（如 reshape 和 transposition）和非線性層。

JAX/Flax 編寫的 MLP-Mixer 代碼。

推薦：CV 領(lǐng)域網(wǎng)絡(luò)架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP，真是太有意思了。

論文 2：Beyond Self-attention： External Attention using Two Linear Layers for Visual Tasks

摘要：清華大學(xué)圖形學(xué)實(shí)驗(yàn)室 Jittor 團(tuán)隊(duì)提出了一種新的注意機(jī)制，稱之為「External Attention」，基于兩個(gè)外部的、小的、可學(xué)習(xí)的和共享的存儲器，只用兩個(gè)級聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學(xué)習(xí)架構(gòu)中的「Self-attention」，揭示了線性層和注意力機(jī)制之間的關(guān)系。自注意力機(jī)制一個(gè)明顯的缺陷在于計(jì)算量非常大，存在一定的計(jì)算冗余。通過控制記憶單元的大小，External-attention 可以輕松實(shí)現(xiàn)線性的復(fù)雜度。

Self Attention 和 External Attention 的區(qū)別。

推薦：External Attention 的部分計(jì)圖代碼已經(jīng)在 Github 開源，后續(xù)將盡快開源全部計(jì)圖代碼。

論文 3：Learning Skeletal Articulations with Neural Blend Shapes

摘要：該論文由北京大學(xué)陳寶權(quán)教授研究團(tuán)隊(duì)、北京電影學(xué)院未來影像高精尖創(chuàng)新中心、Google Research、特拉維夫大學(xué)以及蘇黎世聯(lián)邦理工學(xué)院合作，針對骨骼驅(qū)動(dòng)的模型動(dòng)畫的高質(zhì)量自動(dòng)化生成進(jìn)行改進(jìn)，提出了神經(jīng)融合形狀技術(shù)。實(shí)驗(yàn)證明，該方法顯著減少了已有方法中需要的人工干預(yù)，大大提升了生成動(dòng)畫的質(zhì)量。

具體而言，為了簡化骨骼搭建和蒙皮權(quán)重綁定的過程、高效利用動(dòng)作捕捉數(shù)據(jù)以及生成高質(zhì)量的動(dòng)畫，研究者開發(fā)了一套能生成具有指定結(jié)構(gòu)的骨骼以及精準(zhǔn)綁定權(quán)重的神經(jīng)網(wǎng)絡(luò)。加以他們提出的神經(jīng)融合形狀（neural blend shapes）技術(shù)，研究者實(shí)現(xiàn)了實(shí)時(shí)高質(zhì)量三維人物模型動(dòng)畫的端到端自動(dòng)生成。

框架概覽。

推薦：該論文已被計(jì)算機(jī)圖形學(xué)頂級會議 SIGGRAPH 2021 接收。

論文 4：A Survey of Modern Deep Learning based Object Detection Models

摘要：在本文中，來自阿斯隆理工學(xué)院的研究者概述了基于深度學(xué)習(xí)的目標(biāo)檢測器的最新發(fā)展，提供了用于檢測的基準(zhǔn)數(shù)據(jù)集和評估指標(biāo)的簡要概述以及用于識別任務(wù)的主要主干架構(gòu)。

文章結(jié)構(gòu)。

推薦：基于現(xiàn)代深度學(xué)習(xí)的目標(biāo)檢測模型綜述。

論文 5：Total Relighting： Learning to Relight Portraits for Background Replacement

摘要：在人像摳圖中，前景預(yù)測背景替換是至關(guān)重要的組成部分，此前也出現(xiàn)過各種效果不錯(cuò)的摳圖方法，如商湯等提出的只需單張圖像、單個(gè)模型的方法 MODNet、華盛頓大學(xué)單塊 GPU 實(shí)現(xiàn) 4K 分辨率每秒 30 幀的 Background Matting 2.0 等。這些方法或多或少都有其局限性。

近日，來自谷歌的幾位研究者提出了一種全新的人像重照明（portrait relighting）和背景替換系統(tǒng)，該系統(tǒng)不僅保留了高頻邊界細(xì)節(jié)，并精確地合成了目標(biāo)人像在新照明下的外觀，從而為任何所需場景生成逼真的合成圖像。該研究的亮點(diǎn)是通過前景蒙版（alpha matting）、重照明（relighting）和合成（compositing）進(jìn)行前景估計(jì)。

推薦：該論文已被 SIGGRAPH 2021 會議接收。

論文 6：Graph Learning： A Survey

摘要：本文是對圖學(xué)習(xí)的最全面綜述，重點(diǎn)關(guān)注四類已有的圖學(xué)習(xí)方法，包括圖信號處理、矩陣分解、隨機(jī)游走和深度學(xué)習(xí)，回顧了采用這四類方法的主要模型和算法。此外，研究者探討了文本、圖像、科學(xué)、知識圖譜和組合優(yōu)化等領(lǐng)域的圖學(xué)習(xí)應(yīng)用。本文作者來自澳大利亞聯(lián)邦大學(xué)、大連理工、莫納什大學(xué)和亞利桑那州立大學(xué)。

推薦：最新圖機(jī)器學(xué)習(xí)論文綜述。

論文 7：Locate then Segment： A Strong Pipeline for Referring Image Segmentation

摘要：如何通過自然語言定位并分割出場景中的目標(biāo)物體？比如給定一張圖片，語言指示「分割出穿白色襯衫的人」。這個(gè)任務(wù)在學(xué)術(shù)界叫做指代性物體分割（Referring Image Segmentation）。目前指代性分割的工作通常著重于設(shè)計(jì)一種隱式的遞歸特征交互機(jī)制用于融合視覺 - 語言特征來直接生成最終的分割結(jié)果，而沒有顯式建模被指代物體的位置。

為了強(qiáng)調(diào)語言描述的指代作用，來自中科院自動(dòng)化所、字節(jié)跳動(dòng)的研究者將該任務(wù)解耦為先定位再分割的方案（LTS， Locate then Segment），它在直觀上也與人類的視覺感知機(jī)制相同。比如給定一句語言描述，人們通常首先會注意相應(yīng)的目標(biāo)圖像區(qū)域，然后根據(jù)對象的環(huán)境信息生成關(guān)于對象的精細(xì)分割結(jié)果。該方法雖然很簡單但效果較好。在三個(gè)流行的基準(zhǔn)數(shù)據(jù)集上，該方法大幅度優(yōu)于所有以前的方法。這個(gè)框架很有希望作為指代性分割的通用框架。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
5194

瀏覽量
135453
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8553

瀏覽量
136951
視覺感知

視覺感知

+關(guān)注

關(guān)注
0

文章
53

瀏覽量
3609