10月,來自飛槳與昆侖芯科技的兩位專家?guī)砹艘粓鼍实木€上直播,從落地應(yīng)用案例角度對昆侖芯與飛槳III級適配進(jìn)行深度解讀。
本篇以下內(nèi)容整理于昆侖芯×飛槳系列直播第一期——昆侖芯科技研發(fā)總監(jiān)羅航、飛槳高級產(chǎn)品經(jīng)理王凱題為“昆侖芯×飛槳:實踐探索與落地應(yīng)用”直播分享。
本次分享分為四個方面:
1.AI芯片為什么會成為產(chǎn)業(yè)發(fā)展的必然趨勢?
2.AI芯片實現(xiàn)產(chǎn)業(yè)化,面臨哪三個門檻?
3.飛槳與昆侖芯攜手建設(shè)AI產(chǎn)業(yè)生態(tài)的進(jìn)展。
4.昆侖芯和飛槳在實踐探索和行業(yè)落地應(yīng)用的案例。
01
AI芯片是產(chǎn)業(yè)發(fā)展的必然趨勢
整個計算產(chǎn)業(yè)的周期可以粗略劃分為四個階段:
1
互聯(lián)網(wǎng)上古時期。它是一個定制化的UNIX操作系統(tǒng),主要群體是科學(xué)家,它的互聯(lián)網(wǎng)形態(tài),是一個很小規(guī)模的局域網(wǎng)形態(tài)。
2
PC互聯(lián)網(wǎng)。這個時候才真正進(jìn)入了普羅大眾,我們才能感受到計算產(chǎn)業(yè)的魅力。它和上古形態(tài)有很大區(qū)別,它形成了一個x86 Windows強(qiáng)生態(tài)組合,有很多應(yīng)用百花齊放。
3
移動互聯(lián)網(wǎng)時代。這個產(chǎn)業(yè)形態(tài)的組織形式是基于4G、5G的移動互聯(lián)網(wǎng),相比上一個階段,它的網(wǎng)絡(luò)規(guī)模和通訊速度有一個質(zhì)的飛躍,并且產(chǎn)業(yè)形態(tài)有一個很重要的變化,可以看到這張圖中間出了一條線,這條線代表分化。它分化成了左邊移動端的架構(gòu)和右邊中心端或叫云端的架構(gòu)。為什么會有這樣的分化?因為在移動互聯(lián)網(wǎng)時代,原先x86和Windows的組合無法滿足移動端低功耗的場景,所以分化催生出了ARM加Android和IOS的生態(tài),形成了移動端和云端并存的形態(tài)。
4
AI時代。可以看到它的分化更復(fù)雜了。為什么會出現(xiàn)這樣的分化?因為AI的蓬勃發(fā)展,導(dǎo)致數(shù)據(jù)量爆炸以及計算需求的爆發(fā)式增長,傳統(tǒng)CPU通用計算提供的算力,已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足AI時代的計算需求,所以催生出了多種計算架構(gòu),不同的計算架構(gòu)處理各自擅長的數(shù)據(jù)需求,AI芯片應(yīng)運而生。CPU、x86等多種計算架構(gòu)的有機(jī)整合就叫異構(gòu)計算。未來很有可能還會沿著這種分化趨勢繼續(xù)演變。
從這里可以看到,計算產(chǎn)業(yè)體系結(jié)構(gòu)的演化很像生物的演化,都是從簡單到復(fù)雜,比如生物演化是從單細(xì)胞到分化出各種器官,從而組成復(fù)雜精密的人體。我們借用“十九大”對社會主要矛盾的表述:人民群眾對計算的需求,與計算系統(tǒng)的算力發(fā)展不平衡之間的矛盾,驅(qū)動著整個產(chǎn)業(yè)的迭代和發(fā)展。
每一次的迭代、分化,都會涌現(xiàn)出巨大的產(chǎn)業(yè)機(jī)會。
這張圖表達(dá)的是一個客觀事實:AI模型的規(guī)模呈指數(shù)型爆發(fā)式增長。模型在某種意義上等同于數(shù)據(jù),模型越來越大代表數(shù)據(jù)量越來越大。模型簡單來講就是經(jīng)驗,相對于人是經(jīng)驗,相對于機(jī)器就是模型。圖中有前段時間非常火的GPT3,這個模型的參數(shù)量達(dá)到了1750億個,后來Google又發(fā)布了一個1.6萬億的超大模型。國內(nèi)有很多機(jī)構(gòu)也推出了大模型,比如百度的文心大模型,以及智源研究院的悟道大模型等。
大模型是正在發(fā)生的事實,也是一個很大的趨勢。模型越來越大,對AI芯片及其算力的需求也來越大。上面這張圖也從側(cè)面佐證了計算產(chǎn)業(yè)等發(fā)展和分化的趨勢。這也是AI芯片開始逐步產(chǎn)業(yè)化的特征所在。
02
AI芯片產(chǎn)業(yè)要跨過三道窄門
● 首先是量產(chǎn)。芯片研發(fā)和流片的先期投入成本非常大,通過量產(chǎn)可以極大的攤薄先期投入的成本。而且這也是實現(xiàn)盈利的唯一途徑。同時,量產(chǎn)的規(guī)模也是衡量芯片成熟度很重要的指標(biāo)之一。
●其次是軟件生態(tài)。其實這是整個行業(yè)正在面臨的問題。如果我們只有芯片而沒有軟件生態(tài)提供給用戶,客戶就不太好把芯片用起來,也就無法完成價值的傳遞。為了讓客戶更好地把芯片用起來,我們需要構(gòu)建一個合理、完整的軟件生態(tài)。國際上的友商構(gòu)建了一個非常強(qiáng)大的軟件生態(tài),通過這個軟件生態(tài),很多開發(fā)者和廠商能夠很好地用起來,這個軟件平臺也構(gòu)筑了很強(qiáng)大的壁壘。本質(zhì)上,軟件生態(tài)是芯片強(qiáng)大的護(hù)城河。作為國內(nèi)的產(chǎn)業(yè)玩家來說,軟件生態(tài)的構(gòu)建也是非常重要的。
●最后是產(chǎn)品化。有了芯片、硬件和軟件生態(tài)還遠(yuǎn)遠(yuǎn)不夠。如果做不到產(chǎn)品化,邊際成本無法降下來。為了達(dá)到產(chǎn)品化的目的,我們有必要提升產(chǎn)品力,努力降低邊際成本,這是芯片商業(yè)模式的一個關(guān)鍵因素。成熟的產(chǎn)品有量產(chǎn)的規(guī)模,用強(qiáng)大的生態(tài)構(gòu)建產(chǎn)品化,做成商業(yè)閉環(huán),才能形成商業(yè)飛輪,實現(xiàn)盈利。
可以看到,AI軟件生態(tài)可以抽象地劃分為三大類:
1. 視覺類,所謂的CV類、計算機(jī)視覺類。它主要處理的任務(wù)有圖像分類、目標(biāo)檢測、圖像分割、圖像生成等視覺類算法。
2. 語音處理類,比如語音識別、語音合成、特征提取和朗讀等。
3. 自然語言處理類,即NLP。比如文本分類、閱讀理解、機(jī)器翻譯和機(jī)器問答等。
以上三類場景,PaddlePaddle都有相應(yīng)的很完善的模型庫。計算機(jī)視覺類的叫PaddleCV,語音類的叫PaddleSpeech,自然語言處理類叫PaddleNLP。這三個模型庫很好用,如果感興趣,可以在PaddlePaddle的官網(wǎng)下載體驗。[1]
接下來有請飛槳高級產(chǎn)品經(jīng)理王凱為大家介紹飛槳在AI生態(tài)中的發(fā)展。
03
飛槳與昆侖芯攜手建設(shè)AI產(chǎn)業(yè)生態(tài)
我是飛槳高級產(chǎn)品經(jīng)理王凱,很高興為大家分享飛槳與昆侖芯在AI產(chǎn)業(yè)生態(tài)上的建設(shè)成果。
昆侖芯與飛槳的合作由來已久。雖然圖中顯示2018年我們才開始合作,但實際早在飛槳成立之初,當(dāng)時昆侖芯還在protoype階段,雙方的技術(shù)團(tuán)隊就已經(jīng)有非常深入的合作交流。
隨著雙方產(chǎn)品的不斷成長,我們的技術(shù)合作成果不斷在百度廠內(nèi)、廠外的業(yè)務(wù)上線落地。其中包括了20年7月我們在廠內(nèi)業(yè)務(wù)的小流量上線;21年1月,我們共同實現(xiàn)了實時在線推理服務(wù)超大規(guī)模部署。
而就在上個月,飛槳與昆侖芯完成了III級適配認(rèn)證,這是飛槳今年發(fā)出的第一個III級適配認(rèn)證證書,也是飛槳硬件生態(tài)建設(shè)的一個里程碑。飛槳一直致力于與硬件伙伴共建軟件生態(tài),我們希望通過聯(lián)合研發(fā)、資源共享、聯(lián)合授權(quán)和培訓(xùn)賦能等各種手段,為硬件合作伙伴的AI軟件生態(tài)貢獻(xiàn)力量。所以今天在我們完成III級適配認(rèn)證的基礎(chǔ)上,我們跟昆侖芯聯(lián)合舉辦系列直播課,向我們廣大的開發(fā)者介紹我們的合作成果,我們也希望能夠幫助更多AI產(chǎn)業(yè)的伙伴進(jìn)行產(chǎn)業(yè)落地。
下面我將時間交還給羅航,邀請他繼續(xù)給大家介紹我們的實踐探索和應(yīng)用案例。
04
昆侖芯和飛槳
在實踐探索和行業(yè)落地應(yīng)用的案例
可能大家聽過這種說法:深度學(xué)習(xí)框架是AI時代的操作系統(tǒng)。為什么?圖中這個比較抽象的技術(shù)棧,從底層往上看,最下層是AI芯片的硬件支撐,芯片之上支撐著深度學(xué)習(xí)框架,框架之上又支撐了各種各樣的應(yīng)用和業(yè)務(wù)。
從關(guān)系來看,可以一一對照到CPU和操作系統(tǒng),以及操作系統(tǒng)中的應(yīng)用。比如操作系統(tǒng)也是對下接入不同的硬件,對上支撐不同的應(yīng)用。深度學(xué)習(xí)框架是一樣的,對下結(jié)合各種各樣的AI芯片、異構(gòu)的算力芯片,對上支撐了各種各樣的算法應(yīng)用。
可以說,深度學(xué)習(xí)框架和AI芯片,又是AI時代召喚出來的很重要的兩個組件。所以,我們說深度學(xué)習(xí)框架是AI時代的操作系統(tǒng),以及AI芯片是AI時代的核心算力支撐。
上圖是細(xì)化版的技術(shù)棧圖示,展示了飛槳PaddlePaddle和昆侖芯共同打造的技術(shù)生態(tài),是一個很豐富的、全棧的技術(shù)生態(tài)。
簡單來看,從底層硬件層,包括服務(wù)器芯片和操作系統(tǒng),一直到上層應(yīng)用層,這是一個全棧打透的技術(shù)生態(tài)。包括底層的服務(wù)器、中間的算子庫以及深度學(xué)習(xí)框架。深度學(xué)習(xí)框架之上提供了很多算法,在算法的加持下,我們可以做很多的應(yīng)用落地。
我們有一個很完整的全棧生態(tài),飛槳一體機(jī),其實就是全棧技術(shù)生態(tài)的物理標(biāo)品,或者說是框架、芯片、算法和應(yīng)用的一個集大成者。飛槳一體機(jī)集成了昆侖芯R200、版本較高的PaddlePaddle深度學(xué)習(xí)框架,并提供了單機(jī)兩卡、四卡、八卡三款選擇。
框架之上集成了飛槳BML企業(yè)版。BML是機(jī)器學(xué)習(xí)平臺,客戶可以從訓(xùn)練到推理全鏈路使用。開發(fā)平臺之上,內(nèi)置了至少100多個行業(yè)的模型應(yīng)用,足以讓客戶拿到飛槳一體機(jī)之后實現(xiàn)開箱即用。
舉個OCR場景的例子。基于飛槳一體機(jī)的集群,可以實現(xiàn)一些通用OCR場景。OCR的使用場景非常廣泛,比如金融行業(yè)卡證票O(jiān)CR模型套件識別的效果就非常好。
在飛槳一體機(jī)之上,可以搭載OCR服務(wù)引擎,引擎內(nèi)包含了資源調(diào)度、虛擬化等集群納管的能力。以及內(nèi)置很多OCR場景的細(xì)分模型,包括文字識別、卡證識別、票據(jù)識別、表格識別等。此外,還集成了Paddle Serving的服務(wù)化框架,對上提供服務(wù)化接口。
這樣的模型可以很方便地供客戶PaaS去調(diào)用。因為很多買飛槳一體機(jī),或OCR引擎服務(wù)的客戶,有自己的PaaS。PaaS一般都需要一個服務(wù)化引擎,調(diào)用起來比較方便,而且耦合性也比較低。所以通過這種設(shè)計,可以實現(xiàn)對業(yè)務(wù)層足夠的透明,PaaS平臺以及其上的應(yīng)用層移植到飛槳和昆侖芯的技術(shù)棧是非常容易的。
同理,基于飛槳一體機(jī),我們可以做OCR的場景,也可以在上面換一些引擎。比如換成CV的引擎、NLP的引擎,也可以做一些其他的引擎。通過打造這樣一個飛槳一體機(jī),可以很方便的去做各種場景,為各種各樣的行業(yè)客戶提供服務(wù)。
大規(guī)模訓(xùn)練是很多客戶非常關(guān)心的一個場景功能,特別是多機(jī)多卡的大規(guī)模訓(xùn)練。其實,飛槳PaddlePaddle和昆侖芯在大規(guī)模訓(xùn)練場景中,做了非常多的技術(shù)點創(chuàng)新和優(yōu)化。
上圖中可以看到,最底層是昆侖芯和CPU共同接入了飛槳平臺,也就是一個異構(gòu)平臺接入。在飛槳內(nèi)部分了幾個模塊,其中重點在于昆侖芯XPU架構(gòu)。每一個昆侖芯XPU架構(gòu)上,都有一個訓(xùn)練邏輯實體。多個訓(xùn)練邏輯實體通過CCIX或PCIE RDMA進(jìn)行數(shù)據(jù)同步。通過數(shù)據(jù)同步,飛槳平臺做了非常多的優(yōu)化。
在這個同步的機(jī)制上,昆侖芯提供了XCCL高性能通信庫,以保證多卡之間、多機(jī)之間通信的性能。
同時這里還實現(xiàn)了參數(shù)分級存儲的創(chuàng)新。最底下SSD,可以通俗理解為硬盤,MEM可以理解為內(nèi)存,片上HBM,通俗來講,可以認(rèn)為是昆侖芯上的顯存。
這三級存儲,分別存了不同類型的數(shù)據(jù)。比如說在訓(xùn)練的時候,在硬盤上存的是全量的參數(shù)數(shù)據(jù)。一些熱點參數(shù)可以加載到內(nèi)存中,提高訪存效率。還有一些在片上直接運行的數(shù)據(jù),就會加載到HBM,即昆侖芯的顯存里,提高昆侖芯上的訪存效率。通過參數(shù)分級的存儲來管理,極大提升了整體架構(gòu)的訓(xùn)練、訪存的效率。
對于有大規(guī)模訓(xùn)練場景的客戶,由于飛槳提供了大規(guī)模訓(xùn)練的DEMO,客戶無需詳細(xì)了解技術(shù)細(xì)節(jié),直接下載即可方便地找到并運用應(yīng)用型的代碼。
舉一個工業(yè)質(zhì)檢的落地案例。這是一個流水線的示意圖,產(chǎn)品經(jīng)過流水線時,我們要去檢測產(chǎn)品是不是合格、有沒有缺陷。以往都是人工用肉眼去檢測,拿起一個產(chǎn)品檢查至少需要好幾秒鐘,特別費眼。
昆侖芯提供的方案是通過相機(jī)和光源陣列,從各個角度拍攝產(chǎn)品,得到圖像之后,通過AI做圖像處理和識別判斷產(chǎn)品上有無缺陷,如果有缺陷就丟棄。該方案是全自動化的,無需人工干預(yù),可以在一秒之內(nèi)完成,極大提高了工業(yè)質(zhì)檢的效率。
這是上述場景的細(xì)化架構(gòu)圖。左邊兩個灰色框,可以認(rèn)為是客戶的機(jī)器,右邊是昆侖芯和飛槳提供的機(jī)器模塊。這種設(shè)計的耦合度非常低。客戶已有的東西,包括軟件、運動模組以及控制模組等,均無需改變。客戶在應(yīng)用軟件中,只需改變AI相關(guān)的引擎的調(diào)用。昆侖芯在這里提供的缺陷識別引擎基于PaddleDetection套件,由昆侖芯R200算力卡提供算力支撐。
對客戶暴露的是一個通過Paddle Serving封裝出來的服務(wù)化接口,與前文提到的OCR類似,都是提供服務(wù)化接口,可以很方便地調(diào)用,且耦合度非常低,對客戶的代碼也沒有太多侵入。
基于推理引擎,客戶可以把已訓(xùn)練好的模型通過推理引擎推起來,直接上產(chǎn)線。如果發(fā)現(xiàn)模型在產(chǎn)線上效果不好,需要調(diào)優(yōu)、調(diào)精度,我們提供了由昆侖芯R200提供算力支撐的企業(yè)級BML訓(xùn)練平臺,該平臺上有一套數(shù)據(jù)標(biāo)注的平臺,產(chǎn)線工人可以很方便地使用這套工具,在生產(chǎn)線現(xiàn)場做圖片標(biāo)注。通過BML上一些簡單的操作,可以基于現(xiàn)場的圖片做重訓(xùn),得到新的模型去做測試,測試后可以自動發(fā)布到產(chǎn)線上。
這一套平臺是直接用在產(chǎn)線側(cè)的,把模型的重訓(xùn)、測試以及發(fā)布,全流程打通,可以方便地在產(chǎn)線直接做高頻的模型迭代,適應(yīng)各個產(chǎn)線不同的產(chǎn)品以及有新產(chǎn)品上線之后可以快速訓(xùn)出適合的模型快速應(yīng)用起來。
上述工業(yè)質(zhì)檢案例用的是CV算法,接下來的案例則用的是NLP算法,它應(yīng)用在檢務(wù)行業(yè)。
一般來說,檢務(wù)處理的文檔信息非常多,這就需要把文檔信息進(jìn)行規(guī)整和知識提取,進(jìn)而做結(jié)構(gòu)化的知識存儲,并且要能夠方便檢務(wù)人員進(jìn)行檢索,從而提高辦案人員處理文檔的效率。
上圖展示了昆侖芯提供的方案的組件構(gòu)成。最下層是AI智能開發(fā)的管理平臺,也就是由昆侖芯提供算力支撐的一個算力集群。在這個算力集群上不僅僅有硬件,還有一些內(nèi)置的軟件,比如BML,也就是機(jī)器學(xué)習(xí)平臺,還內(nèi)置了很多模型算法庫,同時它也是PaddlePaddle針對深度學(xué)習(xí)框架所支撐的一個平臺。
在這樣一個AI智能開發(fā)管理平臺之上,就可以做檢務(wù)業(yè)務(wù)的應(yīng)用。昆侖芯提供了文檔管理平臺和PaddleOCR套件做文字識別。很多檢務(wù)文章是掃描件圖片,圖片中包含的文字信息,以往都是用肉眼去解讀,費時費力。通過PaddleOCR可以把掃描件文字、表格等信息識別出來并結(jié)構(gòu)化存儲。
我們還提供了TextMind產(chǎn)品。它可以再加工已經(jīng)結(jié)構(gòu)化存儲的文檔,也就是去理解文章中的知識和語義。檢務(wù)的很多案件文檔,其中有很多重要的實體、關(guān)系、屬性,比如金額的大小、案件的分類,這種知識都會提取出來。當(dāng)把實體、關(guān)系、屬性等各種知識提取出來后,就可以構(gòu)建一個知識圖譜,我們也給客戶提供了知識圖譜。
各種圖譜建立起來后,可以方便用戶在圖譜中進(jìn)行檢索,所以我們同時也提供了一個企業(yè)級的檢索服務(wù)。它可以通過客戶檢索的意圖,做意圖分析,了解到客戶更想搜索出來的是什么,最終排序出一個客戶想要的結(jié)果。
通過這一整套自動化的服務(wù),極大提升了檢務(wù)的信息化水平和文檔處理效率。由于文檔非常多,我們最后構(gòu)建的是一個億級規(guī)模的關(guān)系數(shù)據(jù)庫。
同時,客戶還可以基于這套平臺定制自己的模型。昆侖芯提供了BML開發(fā)平臺,如果我們內(nèi)置的很多模型(包括OCR或者KG等),對于某些文檔識別、處理的效果不好,或者文檔比較敏感、不方便給出,客戶也可以通過BML把模型重訓(xùn)出來,得到匹配這些文檔特征的、效果更好的模型,順利地自動化部署在生產(chǎn)線上。
這樣來看,整個系統(tǒng)就是一個活的系統(tǒng),可以進(jìn)行不斷迭代。
可能有人會問,這個方案檢務(wù)能用,法務(wù)能不能用?政務(wù)能不能用?其實,所有需要處理文檔、提取文檔知識、分析文檔、構(gòu)建知識圖譜、檢索以及構(gòu)建一整套知識體系的場景,均可以用這套方案去實現(xiàn)。所以這是一個可復(fù)制性很高的方案。
-
軟件
+關(guān)注
關(guān)注
69文章
5332瀏覽量
91590 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301456 -
飛槳
+關(guān)注
關(guān)注
0文章
37瀏覽量
2643 -
昆侖芯科技
+關(guān)注
關(guān)注
0文章
40瀏覽量
1095
原文標(biāo)題:分享|昆侖芯×飛槳:實踐探索與落地應(yīng)用
文章出處:【微信號:昆侖芯科技,微信公眾號:昆侖芯科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
華為攜手產(chǎn)業(yè)伙伴共商移動AI時代新路徑
聲智科技亮相2026瑞芯微AI軟件生態(tài)大會
瑞芯微AI生態(tài)大會,開啟SoC+AI協(xié)處理器新時代,官方披露3D堆疊AI芯片細(xì)節(jié)
泰芯半導(dǎo)體攜手生態(tài)伙伴助力AI硬件產(chǎn)業(yè)規(guī)模化落地
飛凌嵌入式攜手MECHATROLINK協(xié)會,共筑運動控制產(chǎn)業(yè)新生態(tài)
昆侖芯科技亮相2025中國移動供應(yīng)鏈生態(tài)合作大會
云天勵飛攜手合作伙伴共探AI產(chǎn)業(yè)新拐點
云天勵飛亮相2025灣區(qū)半導(dǎo)體產(chǎn)業(yè)生態(tài)博覽會
云天勵飛正式加入OISA生態(tài)
昆侖芯科技參與發(fā)布超節(jié)點智算應(yīng)用“北京方案”
奇異摩爾攜手中國移動發(fā)布OISA 2.0協(xié)議
紫光同芯加入中國聯(lián)通AI+5G+eSIM產(chǎn)業(yè)合作行動計劃
燧原科技正式納入飛槳例行版本發(fā)布體系
飛槳與昆侖芯攜手建設(shè)AI產(chǎn)業(yè)生態(tài)
評論