這篇文章是為了幫助初學(xué)者開發(fā)社區(qū),尤其是那些對(duì)計(jì)算機(jī)視覺和計(jì)算機(jī)科學(xué)不熟悉的人。NVIDIA 認(rèn)識(shí)到,通過計(jì)算機(jī)視覺和人工智能解決并受益于世界的視覺計(jì)算挑戰(zhàn)需要我們所有人。NVIDIA 很高興與 人工智能中的黑人女性 合作,并將此帖子獻(xiàn)給 人工智能中的黑人女性 。
計(jì)算機(jī)視覺在現(xiàn)實(shí)世界中的應(yīng)用越來(lái)越廣泛,其應(yīng)用也越來(lái)越具有挑戰(zhàn)性,并且正在改變其意義。計(jì)算機(jī)視覺已經(jīng)以某種形式存在了幾十年,它正在成為一個(gè)越來(lái)越常見的短語(yǔ),遍布世界各地和各個(gè)行業(yè):計(jì)算機(jī)視覺系統(tǒng)、計(jì)算機(jī)視覺軟件、計(jì)算機(jī)視覺硬件、計(jì)算機(jī)視覺開發(fā)、計(jì)算機(jī)視覺管道、計(jì)算機(jī)視覺技術(shù)。
什么是計(jì)算機(jī)視覺?
無(wú)論從字面上還是比喻上看,計(jì)算機(jī)視覺的術(shù)語(yǔ)和領(lǐng)域都超出了人們的想象。在特定的非人工智能實(shí)例中,計(jì)算機(jī)視覺也被稱為 vision AI 和傳統(tǒng)圖像處理,在制造業(yè)和工業(yè)用例中也被稱為 machine vision 。
簡(jiǎn)言之,計(jì)算機(jī)視覺使包括筆記本電腦、智能手機(jī)、自動(dòng)駕駛汽車、機(jī)器人、無(wú)人機(jī)、衛(wèi)星和 x 光機(jī)在內(nèi)的設(shè)備能夠感知、處理、分析和解釋數(shù)字圖像和視頻中的數(shù)據(jù)。
換句話說,計(jì)算機(jī)視覺從根本上將圖像數(shù)據(jù)或圖像數(shù)據(jù)集作為輸入,包括視頻的靜止圖像和運(yùn)動(dòng)幀,無(wú)論是錄制的還是來(lái)自實(shí)時(shí)攝像機(jī)的。計(jì)算機(jī)視覺使設(shè)備能夠像人類視覺系統(tǒng)一樣擁有和使用類似人類的視覺功能。在人類視覺中,你的眼睛實(shí)時(shí)地將你周圍的物理世界感知為不同的光反射。
類似地,計(jì)算機(jī)視覺設(shè)備感知圖像和視頻的像素,檢測(cè)模式并解釋可用于進(jìn)一步分析或決策的圖像輸入。從這個(gè)意義上說,計(jì)算機(jī)視覺“看到”就像人類視覺一樣,并使用智能和計(jì)算能力來(lái)處理輸入的視覺數(shù)據(jù),以輸出有意義的見解,就像機(jī)器人探測(cè)并避開其路徑上的障礙物一樣。
不同的計(jì)算機(jī)視覺任務(wù)模擬人類視覺系統(tǒng),執(zhí)行、自動(dòng)化和增強(qiáng)與人類視覺系統(tǒng)類似的功能。
計(jì)算機(jī)視覺與其他形式的人工智能有何關(guān)聯(lián)?
計(jì)算機(jī)視覺有助于教授和掌握視覺,就像對(duì)話人工智能在識(shí)別、翻譯和描述文本(我們用來(lái)定義和描述周圍物理世界的詞語(yǔ))的應(yīng)用中,有助于通過語(yǔ)音教授和掌握聲音的感覺。
同樣,計(jì)算機(jī)視覺通過數(shù)字圖像和視頻幫助教授和掌握視覺。更廣泛地說,術(shù)語(yǔ) computer vision 還可用于描述設(shè)備傳感器(通常為攝像頭)在檢測(cè)、跟蹤和識(shí)別圖像中的對(duì)象或圖案的應(yīng)用中如何感知和作為視覺系統(tǒng)工作。
多模態(tài)對(duì)話人工智能將對(duì)話人工智能的功能與多媒體會(huì)議應(yīng)用中的計(jì)算機(jī)視覺相結(jié)合,例如 NVIDIA Maxine 。
計(jì)算機(jī)視覺還可以廣泛用于描述其他類型的傳感器,如光探測(cè)和測(cè)距( LiDAR )和無(wú)線電探測(cè)和測(cè)距(雷達(dá))如何感知物理世界。在自動(dòng)駕駛汽車中,計(jì)算機(jī)視覺用于描述激光雷達(dá)和雷達(dá)傳感器如何工作,通常與攝像頭一起工作,以識(shí)別和分類人、物體和碎片。
有哪些常見任務(wù)?
雖然計(jì)算機(jī)視覺任務(wù)涵蓋了廣泛的感知能力,而且列表還在不斷增長(zhǎng),但最新的技術(shù)支持并幫助解決涉及檢測(cè)、分類、分割和圖像合成的用例。
檢測(cè)任務(wù)定位并有時(shí)跟蹤圖像中存在的對(duì)象。例如,在數(shù)字病理醫(yī)療領(lǐng)域,檢測(cè)可能涉及通過醫(yī)學(xué)成像識(shí)別癌細(xì)胞。在機(jī)器人技術(shù)領(lǐng)域,軟件開發(fā)人員正在使用目標(biāo)檢測(cè)來(lái)避開工廠地板上的障礙物。
分類技術(shù)確定視覺數(shù)據(jù)中存在的對(duì)象。例如,在制造業(yè)中,物體識(shí)別系統(tǒng)將不同類型的瓶子分類包裝。在農(nóng)業(yè)領(lǐng)域,農(nóng)民們正在使用分類來(lái)識(shí)別作物中的雜草。
分割任務(wù)對(duì)屬于某一類別的像素進(jìn)行分類,可以按像素單獨(dú)分類(語(yǔ)義圖像分割),也可以將同一類別的多個(gè)對(duì)象類型指定為單個(gè)實(shí)例(實(shí)例圖像分割)。例如,自動(dòng)駕駛汽車將道路場(chǎng)景的一部分分割為可駕駛空間和非可駕駛空間。
圖像合成技術(shù)通過變形現(xiàn)有數(shù)字圖像以包含所需內(nèi)容來(lái)創(chuàng)建合成數(shù)據(jù)。生成性對(duì)抗網(wǎng)絡(luò)( GAN ),比如 EditGAN ,能夠從文本描述和現(xiàn)有的風(fēng)景和人物圖像中生成合成視覺信息。使用合成數(shù)據(jù)來(lái)補(bǔ)充和模擬真實(shí)數(shù)據(jù)是物流領(lǐng)域一個(gè)新興的計(jì)算機(jī)視覺用例,它將視覺 AI 用于智能庫(kù)存控制等應(yīng)用。
什么是不同類型的計(jì)算機(jī)視覺?
為了理解計(jì)算機(jī)視覺中的不同領(lǐng)域,理解計(jì)算機(jī)視覺任務(wù)所基于的技術(shù)是很重要的。大多數(shù)計(jì)算機(jī)視覺技術(shù)都是從一個(gè)模型或數(shù)學(xué)算法開始的,它執(zhí)行特定的基本操作、任務(wù)或組合。雖然我們將傳統(tǒng)的圖像處理和基于人工智能的計(jì)算機(jī)視覺算法分別進(jìn)行分類,但大多數(shù)計(jì)算機(jī)視覺系統(tǒng)依賴于一種組合,這取決于用例、復(fù)雜性和所需的性能。
傳統(tǒng)的計(jì)算機(jī)視覺
傳統(tǒng)的、基于非深度學(xué)習(xí)的計(jì)算機(jī)視覺可以指計(jì)算機(jī)視覺和圖像處理技術(shù)。
在傳統(tǒng)的計(jì)算機(jī)視覺中,一組特定的指令執(zhí)行特定的任務(wù),比如檢測(cè)圖像中的角點(diǎn)或邊緣,以識(shí)別建筑物圖像中的窗口。
另一方面,圖像處理對(duì)圖像執(zhí)行特定操作,然后可以使用視覺算法對(duì)圖像進(jìn)行進(jìn)一步處理。例如,您可能希望平滑或壓縮圖像的像素以供顯示,或減小其整體大小。這可以比作彎曲進(jìn)入眼睛的光線來(lái)調(diào)整焦點(diǎn)或視野。圖像處理的其他示例包括調(diào)整、轉(zhuǎn)換、重新縮放和扭曲輸入圖像。
基于人工智能的計(jì)算機(jī)視覺
基于人工智能的計(jì)算機(jī)視覺或視覺人工智能依賴于經(jīng)過視覺數(shù)據(jù)訓(xùn)練的算法來(lái)完成特定任務(wù),而不是像圖像處理那樣的編程、硬編碼指令。
前面提到的檢測(cè)、分類、分割和合成任務(wù)通常都是基于人工智能的計(jì)算機(jī)視覺算法,因?yàn)樗鼈兛梢詫?shí)現(xiàn)準(zhǔn)確性和魯棒性。在許多情況下,基于人工智能的計(jì)算機(jī)視覺算法可以在這兩個(gè)性能指標(biāo)方面優(yōu)于傳統(tǒng)算法。
基于人工智能的計(jì)算機(jī)視覺算法通過學(xué)習(xí)和適應(yīng)視覺數(shù)據(jù)輸入,更緊密地模擬人類視覺系統(tǒng),使其在大多數(shù)情況下成為計(jì)算機(jī)視覺模型的首選。這就是說,基于人工智能的計(jì)算機(jī)視覺算法需要大量數(shù)據(jù),數(shù)據(jù)的質(zhì)量直接驅(qū)動(dòng)模型輸出的質(zhì)量。但是,性能超過了成本。
基于人工智能的神經(jīng)網(wǎng)絡(luò)自學(xué),這取決于算法的訓(xùn)練數(shù)據(jù)。基于人工智能的計(jì)算機(jī)視覺就像是從經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)上下文做出預(yù)測(cè),而不是明確的方向。學(xué)習(xí)過程類似于當(dāng)你的眼睛看到一個(gè)不熟悉的物體,大腦試圖學(xué)習(xí)它是什么,并將其存儲(chǔ)起來(lái)以備將來(lái)預(yù)測(cè)。
基于人工智能的計(jì)算機(jī)視覺中機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的比較
機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺是一種基于人工智能的計(jì)算機(jī)視覺。基于人工智能的基于機(jī)器學(xué)習(xí)的計(jì)算機(jī)視覺具有人工神經(jīng)網(wǎng)絡(luò)或?qū)樱愃朴谌四X中的神經(jīng)網(wǎng)絡(luò)或?qū)樱糜谶B接和傳輸有關(guān)攝取的視覺數(shù)據(jù)的信號(hào)。在機(jī)器學(xué)習(xí)中,計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)具有獨(dú)立且不同的層,明確定義層之間的連接,以及視覺數(shù)據(jù)傳輸?shù)念A(yù)定義方向。
基于深度學(xué)習(xí)的計(jì)算機(jī)視覺模型是基于機(jī)器學(xué)習(xí)的計(jì)算機(jī)視覺的一個(gè)子集。深度學(xué)習(xí)中的“深度”源于神經(jīng)網(wǎng)絡(luò)的深度或?qū)訑?shù)。通常,三層或三層以上的神經(jīng)網(wǎng)絡(luò)被認(rèn)為是深層次的。
基于人工智能的基于深度學(xué)習(xí)的計(jì)算機(jī)視覺是基于大量數(shù)據(jù)進(jìn)行訓(xùn)練的。數(shù)十萬(wàn)、數(shù)以百萬(wàn)計(jì)的數(shù)字圖像被用來(lái)訓(xùn)練和開發(fā)深層神經(jīng)網(wǎng)絡(luò)模型,這種情況并不少見。
開始開發(fā)計(jì)算機(jī)視覺
既然我們已經(jīng)介紹了計(jì)算機(jī)視覺的基礎(chǔ)知識(shí),我們鼓勵(lì)您開始開發(fā)計(jì)算機(jī)視覺。我們建議初學(xué)者開始使用 視覺編程接口( VPI )計(jì)算機(jī)視覺和圖像處理庫(kù) 進(jìn)行非人工智能算法或 TAO 工具包完全可操作、隨時(shí)可用、經(jīng)過預(yù)訓(xùn)練的人工智能模型 。
關(guān)于作者
邁克爾·布恩是NVIDIA 自動(dòng)駕駛汽車和計(jì)算機(jī)視覺的產(chǎn)品營(yíng)銷經(jīng)理。在 2019 冠狀病毒疾病流行的米迦勒,他開始了一個(gè)有執(zhí)照的專業(yè)工程師的職業(yè)生涯,從交通基礎(chǔ)設(shè)施咨詢中逐漸進(jìn)入了新的技術(shù)領(lǐng)域。在他的當(dāng)前角色,米迦勒合作在NVIDIA 的團(tuán)隊(duì),開發(fā)和定位令人興奮的技術(shù)解決方案,在人工智能和深入學(xué)習(xí)的計(jì)算機(jī)視覺應(yīng)用的醫(yī)療保健( CuCIM ),定義自主車輛平臺(tái)(驅(qū)動(dòng)器),并支持啟用 NVIDIA 計(jì)算機(jī)視覺和圖像處理庫(kù)視覺編程接口( VPI )社區(qū)。 Michael 與研究、工程、產(chǎn)品和活動(dòng)團(tuán)隊(duì)合作,分享、開發(fā)和交付下一代技術(shù)。
Sandeep Hiremath 是NVIDIA 計(jì)算機(jī)視覺的首席技術(shù)產(chǎn)品經(jīng)理。他是一位經(jīng)驗(yàn)豐富的產(chǎn)品領(lǐng)導(dǎo)者,專長(zhǎng)于計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和嵌入式系統(tǒng)領(lǐng)域。在NVIDIA ,他負(fù)責(zé)為汽車、醫(yī)療保健、機(jī)器人和研究領(lǐng)域的開發(fā)人員提供一組計(jì)算機(jī)視覺和圖像處理解決方案的產(chǎn)品愿景和戰(zhàn)略。在 MathWorks 的前一份工作中,他在十多年中擔(dān)任了多個(gè)面向客戶的角色,涉及客戶成功、宣傳,以及為學(xué)術(shù)界、機(jī)器人和嵌入式視覺領(lǐng)域的 MATLAB 用戶提供營(yíng)銷解決方案。
Ona Ogbona 是 NVIDIA 的高級(jí)系統(tǒng)安全工程師,致力于開發(fā)自動(dòng)駕駛解決方案。她的職責(zé)包括客戶參與、產(chǎn)品開發(fā)、系統(tǒng)和安全流程交付,以確保自動(dòng)駕駛汽車的安全交付。在之前的 ZF 工作中,她為乘用車和卡車開發(fā)了轉(zhuǎn)向電子設(shè)備,發(fā)揮了功能性安全作用,成功地實(shí)現(xiàn)了車輛道路釋放。在加入汽車行業(yè)之前, Ona 一直在陸地和深水石油和天然氣行業(yè)發(fā)揮作用。 Ona 是特許工程師(曾)和工程技術(shù)學(xué)會(huì)( MIET )成員。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5678瀏覽量
110061 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7827瀏覽量
93417 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5603瀏覽量
124583
發(fā)布評(píng)論請(qǐng)先 登錄
計(jì)算機(jī)專業(yè)408考研科目
傳音相關(guān)研究成果入選計(jì)算機(jī)視覺頂會(huì)CVPR 2026
上海計(jì)算機(jī)視覺企業(yè)行學(xué)術(shù)沙龍走進(jìn)西井科技
使用代理式AI激活傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)的三種方法
工控機(jī)與普通計(jì)算機(jī)的核心差異解析
STM32計(jì)算機(jī)視覺開發(fā)套件:B-CAMS-IMX攝像頭模塊技術(shù)解析
什么是全國(guó)產(chǎn)化導(dǎo)航計(jì)算機(jī)子卡?它有多重要
【作品合集】賽昉科技VisionFive 2單板計(jì)算機(jī)開發(fā)板測(cè)評(píng)
易控智駕榮獲計(jì)算機(jī)視覺頂會(huì)CVPR 2025認(rèn)可
工業(yè)計(jì)算機(jī)的重要性
自動(dòng)化計(jì)算機(jī)經(jīng)過加固后有什么好處?
自動(dòng)化計(jì)算機(jī)的功能與用途
工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些
利用邊緣計(jì)算和工業(yè)計(jì)算機(jī)實(shí)現(xiàn)智能視頻分析
計(jì)算機(jī)視覺的重要性及如何幫助解決問題
評(píng)論