精品国产乱码久久久,1024久久久,久久另类TS人妖一区二区

圖片中的動物輪廓是貓，但是貓披著大象皮膚紋理，將圖片交給人識別，人會說是貓，如果給計算機視覺算法處理，它會說是大象。德國研究人員認(rèn)為：人看的是形狀，計算機看的是紋理。這一發(fā)現(xiàn)相當(dāng)有趣，但它證明計算機算法離人類視覺還有很遠(yuǎn)距離。

當(dāng)你看著一張貓的照片，輕松就能知道貓有沒有條紋，不管照片是黑白照，有斑點，還是磨損或者褪色了，都能輕松識別。不論寵物蜷縮在枕頭背后；或者跳到工作臺上，拍照時留下一片朦朧，你都能輕松識別。如果用機器視覺系統(tǒng)（用深度神經(jīng)網(wǎng)絡(luò)驅(qū)動）識別，準(zhǔn)確率甚至比人還要高，但是當(dāng)圖片稍微新奇一點，或者有噪點、條紋，機器視覺系統(tǒng)就會犯傻了。

為什么會這樣呢？德國研究團隊給出一個原因，這個原因出乎意料：人類會關(guān)注圖中對象的形狀，深度學(xué)習(xí)計算機系統(tǒng)所用的算法不一樣，它會研究對象的紋理。

德國的發(fā)現(xiàn)告訴我們?nèi)祟惻c機器“思考”問題時有著明顯區(qū)別，也許還能揭示人類視覺進(jìn)化的秘密。

有大象皮膚的貓和時鐘做的飛機

深度學(xué)習(xí)算法是怎樣“工作”的呢？首先人類向算法展示大量圖片，有的圖片有貓，有的沒有。算法從圖片中找到“特定模式”，然后用模式來做出判斷，看看面對之前從未見過的圖片應(yīng)該貼怎樣的標(biāo)簽。

神經(jīng)網(wǎng)絡(luò)架構(gòu)是根據(jù)人類視覺系統(tǒng)開發(fā)的，網(wǎng)絡(luò)各層連接在一起，從圖片中提取抽象特點。神經(jīng)網(wǎng)絡(luò)系統(tǒng)通過一系列聯(lián)系得出正確答案，不過整個處理過程十分神秘，人類往往只能在事實形成之后再解釋這個神秘的過程。

美國俄勒岡州立大學(xué)計算機科學(xué)家Thomas Dietterich說：“我們正在努力，想搞清到底是什么讓深度學(xué)習(xí)計算機視覺算法走向成功，又是什么讓它變得脆弱。”

怎樣做？研究人員修改圖片，欺騙神經(jīng)網(wǎng)絡(luò)，看看會發(fā)生什么事。研究人員發(fā)現(xiàn)，即使只是小小的修改，系統(tǒng)也會給出完全錯誤的答案，當(dāng)修改幅度很大時，系統(tǒng)甚至無法給圖片貼標(biāo)簽。還有一些研究人員追溯網(wǎng)絡(luò)，查看單個神經(jīng)元會對圖像做出怎樣的反應(yīng)，理解系統(tǒng)學(xué)到了什么。

德國圖賓根大學(xué)（University of Tübingen）科學(xué)家Geirhos領(lǐng)導(dǎo)的團隊采用獨特方法進(jìn)行研究。去年，團隊發(fā)表報告稱，他們用特殊噪點干擾圖像，給圖像降級，然后用圖像訓(xùn)練神經(jīng)網(wǎng)絡(luò)，研究發(fā)現(xiàn)，如果將新圖像交給系統(tǒng)處理，這些圖像被人扭曲過（相同的扭曲），在識別扭曲圖像時，系統(tǒng)的表現(xiàn)比人好。不過如果圖像扭曲的方式稍有不同，神經(jīng)網(wǎng)絡(luò)就無能為力了，即使在人眼看來圖像的扭曲方式并無不同，算法也會犯錯。

對于這樣的結(jié)果如何解釋？研究人員深入思考：到底是什么發(fā)生了變化，即使只是加入很少的噪點，也會發(fā)生如此大的變化？答案是紋理。當(dāng)你在很長的時間段內(nèi)添加許多噪點，圖中對象的形狀基本不會受到影響；不過即使只是添加少量噪點，局部位置的架構(gòu)也會快速扭曲。研究人員想出一個妙招，對人類、深度學(xué)習(xí)系統(tǒng)處理圖片的方式進(jìn)行測試。

研究人員故意制作存在矛盾的圖片，也就是說將一種動物的形狀與另一種動物的紋理拼在一起，制作成圖片。例如，圖片中的動物輪廓是貓，但是貓披著大象紋理；或者是一頭熊，但它們是由鋁罐組成的；又或者輪廓是飛機，但飛機是由重疊的鐘面組成的。研究人員制作幾百張這樣的拼湊圖片，然后給它們標(biāo)上標(biāo)簽，比如貓、熊、飛機。用4種不同的分類算法測試，最終它們給出的答案是大象、鋁罐、鐘，由此看出算法關(guān)注的是紋理。

Columbia大學(xué)計算機神經(jīng)科學(xué)家Nikolaus Kriegeskorte評論說：“這一發(fā)現(xiàn)改變了我們對深度前向神經(jīng)網(wǎng)絡(luò)視覺識別技術(shù)的認(rèn)知。”

乍一看，AI偏愛紋理而非形狀有點奇怪，但細(xì)細(xì)深思卻是有理的。Kriegeskorte說：“你可以將紋理視為精密的形狀。”對于算法系統(tǒng)來說精密的尺寸更容易把握：包含紋理信息的像素數(shù)量遠(yuǎn)遠(yuǎn)超過包含對象邊界的像素數(shù)量，網(wǎng)絡(luò)的第一步就是檢測局部特征，比如線條，邊緣。多倫多約克大學(xué)計算機視覺科學(xué)家John Tsotsos指出：“線段組按相同的方式排列，這就是紋理。”

Geirhos的研究證明，憑借局部特征，神經(jīng)網(wǎng)絡(luò)足以分辨圖像。

另有科學(xué)家開發(fā)一套深度學(xué)習(xí)系統(tǒng)，它的運行很像深度學(xué)習(xí)出現(xiàn)之前的分類算法——像一個特征包。

“ 算法將圖像分成為小塊，接下來，它不會將信息逐步融合，變成抽象高級特征，而是給每一小塊下一個決定，比如這塊包含自行車、那塊包含鳥。再接下來，算法將決定集合起來，判斷圖中是什么，比如有更多小塊包含自行車線索，所以圖中對象是自行車。算法不會考慮小塊之間的空間關(guān)系。結(jié)果證明，在識別對象時系統(tǒng)的精準(zhǔn)度很高。 ”

研究人員Wieland Brendel說：“這一發(fā)現(xiàn)挑戰(zhàn)了我們之前的假定，我們之前認(rèn)為深度學(xué)習(xí)的行為方式與舊模型完全不同。很明顯，新模型有很大飛躍，但飛躍的幅度沒有大家預(yù)料的那么大。”

約克大學(xué)、多倫多大學(xué)博士后研究員Amir Rosenfeld認(rèn)為，網(wǎng)絡(luò)應(yīng)該做什么，它實際做了什么，二者之間仍有很大差異。

Brendel持有相似觀點。他說，我們很容易就會假定神經(jīng)網(wǎng)絡(luò)按人類的方式完成任務(wù)，忘了還有其它方式。

向人類視覺靠近

目前的深度學(xué)習(xí)技術(shù)可以將局部特征（比如紋理）與整體模式（比如形狀）結(jié)合在一起。

Columbia大學(xué)計算機神經(jīng)科學(xué)家Nikolaus Kriegeskorte說：“在這些論文中有一點讓人感到稍稍有些奇怪，架構(gòu)雖然允許這樣做，不過如果你訓(xùn)練神經(jīng)網(wǎng)絡(luò)時只是希望它分辨標(biāo)準(zhǔn)圖像，它不會自動整合，這點在論文中得到明顯證明。”

如果強迫模型忽視紋理，又會怎樣呢？Geirhos想找到答案。團隊將訓(xùn)練分類算法的圖片拿出來，用不同的方式給它們“粉刷”，將實用紋理信息剔除，然后再用新圖片重新訓(xùn)練深度學(xué)習(xí)模型，系統(tǒng)轉(zhuǎn)而依賴更全局的模式，像人類一樣更加偏愛形狀。

當(dāng)算法這樣行動時，分辨噪點圖像的能力同樣更強了，雖然在此之前研究人員并沒有專門訓(xùn)練算法，讓它識別扭曲圖像。

對于人類來說，可能自然而然也存在這樣的“偏愛”，比如偏愛形狀，因為當(dāng)我們看到一件東西，想確定它是什么時，靠形狀判斷是最有效的方式，即使環(huán)境中有許多干擾，同樣如此。人類生活在3D世界，可以從多個角度觀察，我們還可以借助其它感知（比如觸覺）來識別對象。所以說，人類偏愛形狀勝過紋理完全合理。

德國圖賓根大學(xué)研究人員Felix Wichmann認(rèn)為，這項研究告訴我們數(shù)據(jù)產(chǎn)生的偏見和影響遠(yuǎn)比我們認(rèn)為的大得多。之前研究人員也曾發(fā)現(xiàn)相同的問題，例如，在面部識別程序、自動招聘算法及其它神經(jīng)網(wǎng)絡(luò)中，模型過于重視意料之外的特征，因為訓(xùn)練算法所用的數(shù)據(jù)存在根深蒂固的偏見。想將這種不想要的偏見從算法決策機制中剔除相當(dāng)困難，盡管如此，Wichmann認(rèn)為新研究證明剔除還是有可能的。

雖然Geirhos的模型專注于形狀，不過如果圖像中噪點過多，或者特定像素發(fā)生變化，模型仍然會失敗。由此可以證明，計算機算法離人類視覺還有很遠(yuǎn)距離。在人類大腦中，可能還有一些重要機制沒有在算法中體現(xiàn)出來。Wichmann認(rèn)為，在某些情況下，關(guān)注數(shù)據(jù)集可能更重要。

多倫多大學(xué)計算機科學(xué)家Sanja Fidler認(rèn)同此觀點，她說：“我們要設(shè)計更聰明的數(shù)據(jù)和更聰明的任務(wù)。”她和同事正在研究一個問題：如何給神經(jīng)網(wǎng)絡(luò)分派第二任務(wù)，通過第二任務(wù)讓它在完成主任務(wù)時有更好表現(xiàn)。受到Geirhos的啟發(fā)，最近他們對圖像分類算法進(jìn)行訓(xùn)練，不只讓算法識別對象本身，還讓它識別對象輪廓（或者形狀）中的像素。

結(jié)果證明，執(zhí)行常規(guī)對象識別任務(wù)時，神經(jīng)網(wǎng)絡(luò)越來越好，自動變得越來越好。Fidler指出：“如果指派單一任務(wù)，你會特別關(guān)注某些東西，對其它視而不見。如果分派多個任務(wù)，也許能感知更多。算法也是一樣的。”當(dāng)算法執(zhí)行多個任務(wù)時，它會關(guān)注不同的信息，就像Geirhos所做的“形狀紋理”實驗一樣。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4784

瀏覽量
98064
圖像識別

圖像識別

+關(guān)注

關(guān)注
9

文章
533

瀏覽量
40060
AI

AI

+關(guān)注

關(guān)注
91

文章
39793

瀏覽量
301438

原文標(biāo)題：AI圖像識別本質(zhì)：人類看的是形狀，算法看的是紋理

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

AI圖像識別本質(zhì)：人類看的是形狀，算法看的是紋理

評論