人工智能技術(shù)發(fā)展到現(xiàn)在已經(jīng)超過(guò)60年,它在歷史上經(jīng)歷過(guò)三起三落的浪潮。第一個(gè)興起階段以1956年的達(dá)特茅斯學(xué)院會(huì)議為標(biāo)志,首次提出了人工智能的概念;第二個(gè)興起階段以日本提出支持開(kāi)發(fā)第五代計(jì)算機(jī)項(xiàng)目為標(biāo)志,當(dāng)時(shí)日本還研發(fā)出了許多機(jī)器人,到現(xiàn)在,日本的機(jī)器人技術(shù)在全球都處于領(lǐng)先地位;第三個(gè)快速發(fā)展階段則以加拿大多倫多大學(xué)的教授欣頓(Geoffrey Hinton)于2006年提出深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)為標(biāo)志,當(dāng)前正處于這個(gè)快速發(fā)展的階段。
得益于數(shù)據(jù)、算法、算力這三駕馬車(chē),人工智能在2006年以后獲得了巨大的發(fā)展。有一個(gè)有趣的說(shuō)法,如果用火箭來(lái)比喻人工智能,那么數(shù)據(jù)是火箭的燃料,算法是火箭的引擎,算力即芯片是火箭的加速器。我們從這個(gè)比喻中可以看到數(shù)據(jù)、算法、算力對(duì)這次人工智能浪潮的重要影響,下面我們分別簡(jiǎn)單分析一下這3個(gè)技術(shù)。
▲人工智能與數(shù)據(jù)、算法、算力的關(guān)系
第一駕馬車(chē):大數(shù)據(jù)成為人工智能持續(xù)發(fā)展的基石
隨著互聯(lián)網(wǎng)的飛速發(fā)展,這個(gè)世界上的數(shù)據(jù)變得異常豐富,數(shù)據(jù)量呈爆炸式地增長(zhǎng)。據(jù)估算,從1986年到2007年這20年間,地球上每天可以通過(guò)既有信息通道交換的信息數(shù)量增長(zhǎng)了約217倍,這些信息的數(shù)字化程度,則從1986年的約20%增長(zhǎng)到2007年的約99.9%。在數(shù)字化信息爆炸式增長(zhǎng)的過(guò)程里,全球信息存儲(chǔ)能力大約每3年翻一番,每個(gè)參與信息交換的節(jié)點(diǎn)都可以在短時(shí)間內(nèi)接收并存儲(chǔ)大量數(shù)據(jù)。從1986年到2007年這20年間,全球信息存儲(chǔ)能力增加了約120倍,所存儲(chǔ)信息的數(shù)字化程度也從1986年的約1%增長(zhǎng)到2007年的約94%。1986年,即便用上我們所有的信息載體、存儲(chǔ)手段,我們也只能存儲(chǔ)全世界所交換信息的大約1%。而2007年,這個(gè)數(shù)字已經(jīng)增長(zhǎng)到大約16%。信息存儲(chǔ)能力的增加為我們利用大數(shù)據(jù)提供了近乎無(wú)限的想象空間。
從應(yīng)用角度來(lái)說(shuō),今天的大數(shù)據(jù)越來(lái)越多地呈現(xiàn)出以下一種或幾種特性:
大數(shù)據(jù)取代了傳統(tǒng)的抽樣調(diào)查。例如,以前電視臺(tái)某個(gè)節(jié)目的收視率往往要由專業(yè)的調(diào)查公司通過(guò)抽樣調(diào)查的方式估算出來(lái)。現(xiàn)在,有了微博、視頻網(wǎng)站等,我們就可以直接利用網(wǎng)絡(luò)上每時(shí)每刻產(chǎn)生的大數(shù)據(jù)對(duì)節(jié)目熱度進(jìn)行分析,其準(zhǔn)確性往往超過(guò)傳統(tǒng)的抽樣調(diào)查方式。
許多大數(shù)據(jù)都可以實(shí)時(shí)獲取。例如,每年“雙11”期間的各類電子商務(wù)平臺(tái)上,每時(shí)每刻都有成千上萬(wàn)筆交易進(jìn)行著,所有這些交易數(shù)據(jù)都可以被實(shí)時(shí)匯總,供人們對(duì)“雙11”當(dāng)天的交易情況進(jìn)行監(jiān)控、管理、分析、匯總。大數(shù)據(jù)的實(shí)時(shí)性為大數(shù)據(jù)的應(yīng)用提供了更多的選擇,為大數(shù)據(jù)更快產(chǎn)生應(yīng)用價(jià)值提供了基礎(chǔ)。
大數(shù)據(jù)往往混合了來(lái)自多個(gè)數(shù)據(jù)源的多維度信息。假如利用用戶ID,將用戶在微博上的社交行為和用戶在電子商務(wù)平臺(tái)的購(gòu)買(mǎi)行為關(guān)聯(lián)起來(lái),就可以向微博用戶更準(zhǔn)確地推薦他最喜歡的商品。聚合更多數(shù)據(jù)源,增加數(shù)據(jù)維度,這是提高大數(shù)據(jù)價(jià)值的好辦法。
多來(lái)源、實(shí)時(shí)、大量、多類型的數(shù)據(jù)可以從不同的角度進(jìn)行更為逼近真實(shí)的描述,而利用深度學(xué)習(xí)算法可以挖掘數(shù)據(jù)之間的多層次關(guān)聯(lián)關(guān)系,為人工智能應(yīng)用奠定了數(shù)據(jù)源基礎(chǔ)。
第二駕馬車(chē):機(jī)器學(xué)習(xí)算法
機(jī)器學(xué)習(xí)是對(duì)能通過(guò)數(shù)據(jù)或經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究。對(duì)于機(jī)器學(xué)習(xí)的理解,我們可以從3個(gè)問(wèn)題入手,即“學(xué)什么、怎么學(xué)、做什么”。首先,“學(xué)什么”即機(jī)器學(xué)習(xí)的內(nèi)容,是能夠表征此項(xiàng)任務(wù)的函數(shù)。其次,“怎么學(xué)”即機(jī)器學(xué)習(xí)的方法。要實(shí)現(xiàn)學(xué)習(xí)目標(biāo),就要教給機(jī)器一套評(píng)判的方法。從數(shù)學(xué)角度來(lái)看,就是為機(jī)器定義一個(gè)合適的損失函數(shù),能夠合理量化真實(shí)結(jié)果和訓(xùn)練結(jié)果的誤差,并將之反饋給機(jī)器繼續(xù)作迭代訓(xùn)練。最后,“做什么”即機(jī)器學(xué)習(xí)的具體執(zhí)行,主要做3件事,即分類(Classification)、回歸(Regression)和聚類(Clustering),其中分類和回歸屬于監(jiān)督學(xué)習(xí)的范疇,而聚類則屬于非監(jiān)督學(xué)習(xí)的范疇。目前絕大多數(shù)人工智能落地應(yīng)用的背后,都是將現(xiàn)實(shí)問(wèn)題抽象成相應(yīng)的數(shù)學(xué)模型,都可以分解為這些基本任務(wù)的有機(jī)組合。
機(jī)器學(xué)習(xí)的分類
機(jī)器學(xué)習(xí)算法的廣義分類大概有3種:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。
監(jiān)督學(xué)習(xí)是指在訓(xùn)練的時(shí)候就知道正確結(jié)果。比如教小孩子分類,先給他一個(gè)蘋(píng)果,然后告訴他這是蘋(píng)果。經(jīng)過(guò)反復(fù)地訓(xùn)練學(xué)習(xí),再給他蘋(píng)果的時(shí)候,問(wèn)他這是什么,他應(yīng)該告訴你,這是蘋(píng)果。如果給他一個(gè)梨,他應(yīng)該告訴你,這不是蘋(píng)果。訓(xùn)練集的目標(biāo)是由人標(biāo)注(標(biāo)量)的。在監(jiān)督學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如防垃圾郵件系統(tǒng)中的“垃圾郵件”“非垃圾郵件”,手寫(xiě)數(shù)字識(shí)別中的“1”“2”“3”等。在建立預(yù)測(cè)模型時(shí),監(jiān)督學(xué)習(xí)建立一個(gè)學(xué)習(xí)過(guò)程,將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。監(jiān)督學(xué)習(xí)分為兩類:回歸(Regression)和分類(Classification),如果機(jī)器學(xué)習(xí)算法的輸出值是連續(xù)值,則屬于回歸問(wèn)題;如果是離散值,則屬于分類問(wèn)題。
和監(jiān)督學(xué)習(xí)不同,無(wú)監(jiān)督學(xué)習(xí)在訓(xùn)練的時(shí)候并不知道正確結(jié)果。繼續(xù)上面的例子,給小孩子一堆水果,比如有蘋(píng)果、橘子、梨這3種,小孩子一開(kāi)始不知道這些水果是什么,讓小孩子對(duì)這堆水果進(jìn)行分類。等小孩子分類完后,給他一個(gè)蘋(píng)果,他應(yīng)該將這個(gè)蘋(píng)果放到剛剛分好的蘋(píng)果堆中去。無(wú)監(jiān)督學(xué)習(xí)常用的方法是聚類(Clustering)。
強(qiáng)化學(xué)習(xí)是在機(jī)器學(xué)習(xí)算法程序運(yùn)行的過(guò)程中,我們對(duì)它的行為做出評(píng)價(jià),評(píng)價(jià)有正面和負(fù)面兩種,目的是讓它做出更有可能得到正面評(píng)價(jià)的行為。谷歌的AlphaGo圍棋程序,贏了圍棋界排名世界第一的柯潔,背后使用的就是強(qiáng)化學(xué)習(xí)技術(shù)。
深度學(xué)習(xí)算法引導(dǎo)機(jī)器智能水平的提升
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子領(lǐng)域,具體來(lái)說(shuō),深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)算法。人工智能算法從專家系統(tǒng)到特征工程,最后到深度學(xué)習(xí)的這個(gè)過(guò)程中,人工參與在逐漸減少,而機(jī)器工作在逐漸增加,由于深度學(xué)習(xí)算法的優(yōu)異表現(xiàn)得到了主流認(rèn)可,所以在多方應(yīng)用中得到長(zhǎng)足發(fā)展,下面我們簡(jiǎn)單分析一下深度學(xué)習(xí)算法的優(yōu)勢(shì)。
深度學(xué)習(xí)算法優(yōu)勢(shì)淺析
深度學(xué)習(xí)在機(jī)器學(xué)習(xí)算法中獨(dú)樹(shù)一幟并取得長(zhǎng)足發(fā)展的原因主要有3點(diǎn)。
第一,深度學(xué)習(xí)算法降低了對(duì)算力的需求。傳統(tǒng)機(jī)器學(xué)習(xí)算法在語(yǔ)音識(shí)別、物體識(shí)別方面無(wú)法有效展開(kāi)應(yīng)用,其重要原因之一是無(wú)法使用語(yǔ)音及圖像的高維度數(shù)據(jù)(high-dimensional data)在高維空間學(xué)習(xí)復(fù)雜的函數(shù),這個(gè)問(wèn)題被稱為維度詛咒(Curse of Dimensionality),高維度數(shù)據(jù)的參數(shù)設(shè)置需求隨著變量的增加呈指數(shù)增長(zhǎng),對(duì)計(jì)算能力提出了極大挑戰(zhàn),幾乎無(wú)法完成。而深度學(xué)習(xí)采用多層調(diào)參、層層收斂的方式,將參數(shù)數(shù)量始終控制在一個(gè)較為合理的水平,使得原本不可計(jì)算的模型變得可計(jì)算了,其理解可如下圖所示。
第二,深度神經(jīng)網(wǎng)絡(luò)具有完備性。從理論上來(lái)說(shuō),深度神經(jīng)網(wǎng)絡(luò)可以表征任何函數(shù),因此深度神經(jīng)網(wǎng)絡(luò)可以通過(guò)不同的參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu)對(duì)任意函數(shù)進(jìn)行擬合,排除了其無(wú)法學(xué)習(xí)復(fù)雜函數(shù)的可能性。
第三,深度學(xué)習(xí)的特征選取完備。深度學(xué)習(xí)具有自動(dòng)學(xué)習(xí)特征的能力,這也是深度學(xué)習(xí)又叫無(wú)監(jiān)督特征學(xué)習(xí)(unsupervised feature learning)的原因。從深度學(xué)習(xí)模型中選擇某一神經(jīng)層的特征后,就可以用來(lái)進(jìn)行最終目標(biāo)模型的訓(xùn)練,而不需要人為參與特征選取。
第三駕馬車(chē):算力是人工智能技術(shù)實(shí)現(xiàn)的保障
人工智能領(lǐng)域是一個(gè)數(shù)據(jù)密集、計(jì)算密集的領(lǐng)域,傳統(tǒng)的數(shù)據(jù)處理技術(shù)難以滿足高強(qiáng)度、大數(shù)據(jù)的處理需求。人工智能芯片的出現(xiàn)讓大規(guī)模的數(shù)據(jù)效率大大提升,加速了深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練迭代速度,極大地促進(jìn)了人工智能行業(yè)的發(fā)展。在人工智能市場(chǎng)高速發(fā)展的今天,人們都在尋找能讓深度學(xué)習(xí)算法更快速、更低能耗執(zhí)行的芯片。
人工智能芯片主要包括GPU(Graphics Processing Unit,圖形處理器)、FPGA(Field Programmable Gate Array,現(xiàn)場(chǎng)可編程邏輯門(mén)陣列)、ASIC( Application Specific Integrated Circuit,專用集成電路)以及類腦芯片。在人工智能時(shí)代,它們各自發(fā)揮優(yōu)勢(shì),呈現(xiàn)出百花齊放的狀態(tài)。
GPU最初作為應(yīng)對(duì)圖像處理需求而出現(xiàn)的芯片。其特點(diǎn)為擅長(zhǎng)大規(guī)模并行運(yùn)算,可以平行處理大量信息。在人工智能技術(shù)發(fā)展早期,因其具有優(yōu)異的大規(guī)模數(shù)據(jù)處理能力而被使用在多個(gè)項(xiàng)目之中。谷歌的圖像識(shí)別項(xiàng)目、 AlphaGo項(xiàng)目、特斯拉/沃爾沃等諸多汽車(chē)廠商的輔助駕駛系統(tǒng)和無(wú)人駕駛實(shí)驗(yàn)中,均使用了GPU作為加速芯片。然而,從芯片底層架構(gòu)來(lái)講,由于GPU并非專為深度學(xué)習(xí)設(shè)計(jì)的專業(yè)芯片,并非是人工智能加速硬件的最終答案。
FPGA是一種通用型的芯片,設(shè)計(jì)更接近于硬件底層的架構(gòu),其最大特點(diǎn)是可編程。基于可編程的特點(diǎn),用戶可以通過(guò)燒入FPGA 配置文件來(lái)實(shí)現(xiàn)應(yīng)用場(chǎng)景的高度定制,進(jìn)而實(shí)現(xiàn)高性能、低功耗的目的。FPGA 成本較高,更適用于企業(yè)用戶,尤其是可重配置需求較高的軍事和工業(yè)電子領(lǐng)域。
ASIC是對(duì)應(yīng)特定應(yīng)用場(chǎng)景,針對(duì)特定用戶需求的專用芯片。假如把FPGA比作科研研發(fā)專用芯片,那ASIC就是確定應(yīng)用市場(chǎng)后,大量生產(chǎn)的專用芯片。全定制設(shè)計(jì)的ASIC芯片,針對(duì)專門(mén)的應(yīng)用場(chǎng)景,性能和能耗都要優(yōu)于市場(chǎng)上的現(xiàn)有芯片,包括FPGA和GPU。
類腦芯片架構(gòu)是模擬人腦的新型芯片編程架構(gòu),這種芯片的功能類似于大腦的神經(jīng)突觸,處理器類似于神經(jīng)元,而其通信系統(tǒng)類似于神經(jīng)纖維,允許開(kāi)發(fā)者為類人腦芯片設(shè)計(jì)應(yīng)用程序。通過(guò)這種神經(jīng)元網(wǎng)絡(luò)系統(tǒng),計(jì)算機(jī)可以感知、記憶和處理大量不同的情況。
總而言之,人工智能是一項(xiàng)復(fù)雜的前沿、新興技術(shù),在經(jīng)歷了多次起起伏伏的浪潮之后,這一次人工智能浪潮的產(chǎn)生涉及大數(shù)據(jù)、深度學(xué)習(xí)、人工智能芯片、計(jì)算機(jī)視覺(jué)處理、自然語(yǔ)言理解、語(yǔ)音識(shí)別、語(yǔ)音合成等多項(xiàng)技術(shù)。這些技術(shù)不斷作用,互相融合,推動(dòng)技術(shù)向前發(fā)展,為人類提供更美好的生活。
電子發(fā)燒友App




評(píng)論