這篇文章是為了幫助初學(xué)者開發(fā)社區(qū),尤其是那些對計算機(jī)視覺和計算機(jī)科學(xué)不熟悉的人。NVIDIA 認(rèn)識到,通過計算機(jī)視覺和人工智能解決并受益于世界的視覺計算挑戰(zhàn)需要我們所有人。NVIDIA 很高興與 人工智能中的黑人女性 合作,并將此帖子獻(xiàn)給 人工智能中的黑人女性 。
計算機(jī)視覺在現(xiàn)實(shí)世界中的應(yīng)用越來越廣泛,其應(yīng)用也越來越具有挑戰(zhàn)性,并且正在改變其意義。計算機(jī)視覺已經(jīng)以某種形式存在了幾十年,它正在成為一個越來越常見的短語,遍布世界各地和各個行業(yè):計算機(jī)視覺系統(tǒng)、計算機(jī)視覺軟件、計算機(jī)視覺硬件、計算機(jī)視覺開發(fā)、計算機(jī)視覺管道、計算機(jī)視覺技術(shù)。
什么是計算機(jī)視覺?
無論從字面上還是比喻上看,計算機(jī)視覺的術(shù)語和領(lǐng)域都超出了人們的想象。在特定的非人工智能實(shí)例中,計算機(jī)視覺也被稱為 vision AI 和傳統(tǒng)圖像處理,在制造業(yè)和工業(yè)用例中也被稱為 machine vision 。
簡言之,計算機(jī)視覺使包括筆記本電腦、智能手機(jī)、自動駕駛汽車、機(jī)器人、無人機(jī)、衛(wèi)星和 x 光機(jī)在內(nèi)的設(shè)備能夠感知、處理、分析和解釋數(shù)字圖像和視頻中的數(shù)據(jù)。
換句話說,計算機(jī)視覺從根本上將圖像數(shù)據(jù)或圖像數(shù)據(jù)集作為輸入,包括視頻的靜止圖像和運(yùn)動幀,無論是錄制的還是來自實(shí)時攝像機(jī)的。計算機(jī)視覺使設(shè)備能夠像人類視覺系統(tǒng)一樣擁有和使用類似人類的視覺功能。在人類視覺中,你的眼睛實(shí)時地將你周圍的物理世界感知為不同的光反射。
類似地,計算機(jī)視覺設(shè)備感知圖像和視頻的像素,檢測模式并解釋可用于進(jìn)一步分析或決策的圖像輸入。從這個意義上說,計算機(jī)視覺“看到”就像人類視覺一樣,并使用智能和計算能力來處理輸入的視覺數(shù)據(jù),以輸出有意義的見解,就像機(jī)器人探測并避開其路徑上的障礙物一樣。
不同的計算機(jī)視覺任務(wù)模擬人類視覺系統(tǒng),執(zhí)行、自動化和增強(qiáng)與人類視覺系統(tǒng)類似的功能。
計算機(jī)視覺與其他形式的人工智能有何關(guān)聯(lián)?
計算機(jī)視覺有助于教授和掌握視覺,就像對話人工智能在識別、翻譯和描述文本(我們用來定義和描述周圍物理世界的詞語)的應(yīng)用中,有助于通過語音教授和掌握聲音的感覺。
同樣,計算機(jī)視覺通過數(shù)字圖像和視頻幫助教授和掌握視覺。更廣泛地說,術(shù)語 computer vision 還可用于描述設(shè)備傳感器(通常為攝像頭)在檢測、跟蹤和識別圖像中的對象或圖案的應(yīng)用中如何感知和作為視覺系統(tǒng)工作。
多模態(tài)對話人工智能將對話人工智能的功能與多媒體會議應(yīng)用中的計算機(jī)視覺相結(jié)合,例如 NVIDIA Maxine 。
計算機(jī)視覺還可以廣泛用于描述其他類型的傳感器,如光探測和測距( LiDAR )和無線電探測和測距(雷達(dá))如何感知物理世界。在自動駕駛汽車中,計算機(jī)視覺用于描述激光雷達(dá)和雷達(dá)傳感器如何工作,通常與攝像頭一起工作,以識別和分類人、物體和碎片。
有哪些常見任務(wù)?
雖然計算機(jī)視覺任務(wù)涵蓋了廣泛的感知能力,而且列表還在不斷增長,但最新的技術(shù)支持并幫助解決涉及檢測、分類、分割和圖像合成的用例。
檢測任務(wù)定位并有時跟蹤圖像中存在的對象。例如,在數(shù)字病理醫(yī)療領(lǐng)域,檢測可能涉及通過醫(yī)學(xué)成像識別癌細(xì)胞。在機(jī)器人技術(shù)領(lǐng)域,軟件開發(fā)人員正在使用目標(biāo)檢測來避開工廠地板上的障礙物。
分類技術(shù)確定視覺數(shù)據(jù)中存在的對象。例如,在制造業(yè)中,物體識別系統(tǒng)將不同類型的瓶子分類包裝。在農(nóng)業(yè)領(lǐng)域,農(nóng)民們正在使用分類來識別作物中的雜草。
分割任務(wù)對屬于某一類別的像素進(jìn)行分類,可以按像素單獨(dú)分類(語義圖像分割),也可以將同一類別的多個對象類型指定為單個實(shí)例(實(shí)例圖像分割)。例如,自動駕駛汽車將道路場景的一部分分割為可駕駛空間和非可駕駛空間。
圖像合成技術(shù)通過變形現(xiàn)有數(shù)字圖像以包含所需內(nèi)容來創(chuàng)建合成數(shù)據(jù)。生成性對抗網(wǎng)絡(luò)( GAN ),比如 EditGAN ,能夠從文本描述和現(xiàn)有的風(fēng)景和人物圖像中生成合成視覺信息。使用合成數(shù)據(jù)來補(bǔ)充和模擬真實(shí)數(shù)據(jù)是物流領(lǐng)域一個新興的計算機(jī)視覺用例,它將視覺 AI 用于智能庫存控制等應(yīng)用。
什么是不同類型的計算機(jī)視覺?
為了理解計算機(jī)視覺中的不同領(lǐng)域,理解計算機(jī)視覺任務(wù)所基于的技術(shù)是很重要的。大多數(shù)計算機(jī)視覺技術(shù)都是從一個模型或數(shù)學(xué)算法開始的,它執(zhí)行特定的基本操作、任務(wù)或組合。雖然我們將傳統(tǒng)的圖像處理和基于人工智能的計算機(jī)視覺算法分別進(jìn)行分類,但大多數(shù)計算機(jī)視覺系統(tǒng)依賴于一種組合,這取決于用例、復(fù)雜性和所需的性能。
傳統(tǒng)的計算機(jī)視覺
傳統(tǒng)的、基于非深度學(xué)習(xí)的計算機(jī)視覺可以指計算機(jī)視覺和圖像處理技術(shù)。
在傳統(tǒng)的計算機(jī)視覺中,一組特定的指令執(zhí)行特定的任務(wù),比如檢測圖像中的角點(diǎn)或邊緣,以識別建筑物圖像中的窗口。
另一方面,圖像處理對圖像執(zhí)行特定操作,然后可以使用視覺算法對圖像進(jìn)行進(jìn)一步處理。例如,您可能希望平滑或壓縮圖像的像素以供顯示,或減小其整體大小。這可以比作彎曲進(jìn)入眼睛的光線來調(diào)整焦點(diǎn)或視野。圖像處理的其他示例包括調(diào)整、轉(zhuǎn)換、重新縮放和扭曲輸入圖像。
基于人工智能的計算機(jī)視覺
基于人工智能的計算機(jī)視覺或視覺人工智能依賴于經(jīng)過視覺數(shù)據(jù)訓(xùn)練的算法來完成特定任務(wù),而不是像圖像處理那樣的編程、硬編碼指令。
前面提到的檢測、分類、分割和合成任務(wù)通常都是基于人工智能的計算機(jī)視覺算法,因?yàn)樗鼈兛梢詫?shí)現(xiàn)準(zhǔn)確性和魯棒性。在許多情況下,基于人工智能的計算機(jī)視覺算法可以在這兩個性能指標(biāo)方面優(yōu)于傳統(tǒng)算法。
基于人工智能的計算機(jī)視覺算法通過學(xué)習(xí)和適應(yīng)視覺數(shù)據(jù)輸入,更緊密地模擬人類視覺系統(tǒng),使其在大多數(shù)情況下成為計算機(jī)視覺模型的首選。這就是說,基于人工智能的計算機(jī)視覺算法需要大量數(shù)據(jù),數(shù)據(jù)的質(zhì)量直接驅(qū)動模型輸出的質(zhì)量。但是,性能超過了成本。
基于人工智能的神經(jīng)網(wǎng)絡(luò)自學(xué),這取決于算法的訓(xùn)練數(shù)據(jù)。基于人工智能的計算機(jī)視覺就像是從經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)上下文做出預(yù)測,而不是明確的方向。學(xué)習(xí)過程類似于當(dāng)你的眼睛看到一個不熟悉的物體,大腦試圖學(xué)習(xí)它是什么,并將其存儲起來以備將來預(yù)測。
基于人工智能的計算機(jī)視覺中機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的比較
機(jī)器學(xué)習(xí)計算機(jī)視覺是一種基于人工智能的計算機(jī)視覺。基于人工智能的基于機(jī)器學(xué)習(xí)的計算機(jī)視覺具有人工神經(jīng)網(wǎng)絡(luò)或?qū)樱愃朴谌四X中的神經(jīng)網(wǎng)絡(luò)或?qū)樱糜谶B接和傳輸有關(guān)攝取的視覺數(shù)據(jù)的信號。在機(jī)器學(xué)習(xí)中,計算機(jī)視覺神經(jīng)網(wǎng)絡(luò)具有獨(dú)立且不同的層,明確定義層之間的連接,以及視覺數(shù)據(jù)傳輸?shù)念A(yù)定義方向。
基于深度學(xué)習(xí)的計算機(jī)視覺模型是基于機(jī)器學(xué)習(xí)的計算機(jī)視覺的一個子集。深度學(xué)習(xí)中的“深度”源于神經(jīng)網(wǎng)絡(luò)的深度或?qū)訑?shù)。通常,三層或三層以上的神經(jīng)網(wǎng)絡(luò)被認(rèn)為是深層次的。
基于人工智能的基于深度學(xué)習(xí)的計算機(jī)視覺是基于大量數(shù)據(jù)進(jìn)行訓(xùn)練的。數(shù)十萬、數(shù)以百萬計的數(shù)字圖像被用來訓(xùn)練和開發(fā)深層神經(jīng)網(wǎng)絡(luò)模型,這種情況并不少見。
開始開發(fā)計算機(jī)視覺
既然我們已經(jīng)介紹了計算機(jī)視覺的基礎(chǔ)知識,我們鼓勵您開始開發(fā)計算機(jī)視覺。我們建議初學(xué)者開始使用 視覺編程接口( VPI )計算機(jī)視覺和圖像處理庫 進(jìn)行非人工智能算法或 TAO 工具包完全可操作、隨時可用、經(jīng)過預(yù)訓(xùn)練的人工智能模型 。
關(guān)于作者
邁克爾·布恩是NVIDIA 自動駕駛汽車和計算機(jī)視覺的產(chǎn)品營銷經(jīng)理。在 2019 冠狀病毒疾病流行的米迦勒,他開始了一個有執(zhí)照的專業(yè)工程師的職業(yè)生涯,從交通基礎(chǔ)設(shè)施咨詢中逐漸進(jìn)入了新的技術(shù)領(lǐng)域。在他的當(dāng)前角色,米迦勒合作在NVIDIA 的團(tuán)隊(duì),開發(fā)和定位令人興奮的技術(shù)解決方案,在人工智能和深入學(xué)習(xí)的計算機(jī)視覺應(yīng)用的醫(yī)療保健( CuCIM ),定義自主車輛平臺(驅(qū)動器),并支持啟用 NVIDIA 計算機(jī)視覺和圖像處理庫視覺編程接口( VPI )社區(qū)。 Michael 與研究、工程、產(chǎn)品和活動團(tuán)隊(duì)合作,分享、開發(fā)和交付下一代技術(shù)。
Sandeep Hiremath 是NVIDIA 計算機(jī)視覺的首席技術(shù)產(chǎn)品經(jīng)理。他是一位經(jīng)驗(yàn)豐富的產(chǎn)品領(lǐng)導(dǎo)者,專長于計算機(jī)視覺、機(jī)器學(xué)習(xí)和嵌入式系統(tǒng)領(lǐng)域。在NVIDIA ,他負(fù)責(zé)為汽車、醫(yī)療保健、機(jī)器人和研究領(lǐng)域的開發(fā)人員提供一組計算機(jī)視覺和圖像處理解決方案的產(chǎn)品愿景和戰(zhàn)略。在 MathWorks 的前一份工作中,他在十多年中擔(dān)任了多個面向客戶的角色,涉及客戶成功、宣傳,以及為學(xué)術(shù)界、機(jī)器人和嵌入式視覺領(lǐng)域的 MATLAB 用戶提供營銷解決方案。
Ona Ogbona 是 NVIDIA 的高級系統(tǒng)安全工程師,致力于開發(fā)自動駕駛解決方案。她的職責(zé)包括客戶參與、產(chǎn)品開發(fā)、系統(tǒng)和安全流程交付,以確保自動駕駛汽車的安全交付。在之前的 ZF 工作中,她為乘用車和卡車開發(fā)了轉(zhuǎn)向電子設(shè)備,發(fā)揮了功能性安全作用,成功地實(shí)現(xiàn)了車輛道路釋放。在加入汽車行業(yè)之前, Ona 一直在陸地和深水石油和天然氣行業(yè)發(fā)揮作用。 Ona 是特許工程師(曾)和工程技術(shù)學(xué)會( MIET )成員。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5592瀏覽量
109721 -
計算機(jī)
+關(guān)注
關(guān)注
19文章
7806瀏覽量
93190 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5598瀏覽量
124396
發(fā)布評論請先 登錄
上海計算機(jī)視覺企業(yè)行學(xué)術(shù)沙龍走進(jìn)西井科技
使用代理式AI激活傳統(tǒng)計算機(jī)視覺系統(tǒng)的三種方法
工控機(jī)與普通計算機(jī)的核心差異解析
STM32計算機(jī)視覺開發(fā)套件:B-CAMS-IMX攝像頭模塊技術(shù)解析
什么是全國產(chǎn)化導(dǎo)航計算機(jī)子卡?它有多重要
【作品合集】賽昉科技VisionFive 2單板計算機(jī)開發(fā)板測評
易控智駕榮獲計算機(jī)視覺頂會CVPR 2025認(rèn)可
工業(yè)計算機(jī)的重要性
自動化計算機(jī)經(jīng)過加固后有什么好處?
自動化計算機(jī)的功能與用途
工業(yè)計算機(jī)與商用計算機(jī)的區(qū)別有哪些
工業(yè)計算機(jī)如何設(shè)計用于沖擊和振動
利用邊緣計算和工業(yè)計算機(jī)實(shí)現(xiàn)智能視頻分析
一文帶你了解工業(yè)計算機(jī)尺寸
計算機(jī)網(wǎng)絡(luò)入門指南
計算機(jī)視覺的重要性及如何幫助解決問題
評論