人工智能模型的復雜度不斷增加,對內(nèi)存的需求也越來越大。深度學習的進一步發(fā)展需要解決內(nèi)存限制問題,而當前的解決方案無法利用所有可用計算,業(yè)內(nèi)人士逐漸意識到需要專用芯片來支持深度學習訓練和推理。
英特爾則在人工智能方面提供優(yōu)越的硬件選擇,并通過軟件來最大化釋放硬件的性能,從而幫助客戶無論是數(shù)據(jù)多么復雜或位于哪里都可以自如運行AI應用。
7月3日-4日,在百度AI開發(fā)者大會上,英特爾公司副總裁兼人工智能產(chǎn)品事業(yè)部總經(jīng)理Naveen Rao宣布,英特爾正與百度合作開發(fā)英特爾? Nervana?神經(jīng)網(wǎng)絡(luò)訓練處理器(NNP-T)。這一合作包括全新定制化加速器,以實現(xiàn)極速訓練深度學習模型的目的。
此次NNP-T是一類全新開發(fā)的高效深度學習系統(tǒng)硬件,能夠加速大規(guī)模的分散訓練。與百度的密切合作能夠確保英特爾開發(fā)部門始終緊跟客戶對訓練硬件的最新需求。
從2016年起,英特爾便一直針對英特爾?至強?可擴展處理器優(yōu)化百度飛槳(PaddlePaddle*)深度學習框架。如今,通過為百度飛槳優(yōu)化NNP-T,雙方能夠為數(shù)據(jù)科學家提供更多的硬件選擇。
與此同時,英特爾還通過更多技術(shù)來進一步增強這些AI解決方案的性能。例如,憑借英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存所提供的更高內(nèi)存性能,百度能夠通過其Feed Stream*(信息流)服務(wù)向數(shù)百萬用戶提供個性化移動內(nèi)容,并通過百度AI推薦引擎獲得更高效的客戶體驗。
此外,鑒于數(shù)據(jù)安全對于用戶極其重要,英特爾還與百度共同致力于打造基于英特爾軟件保護擴展(SGX)技術(shù)的MesaTEE*——內(nèi)存安全功能即服務(wù)(FaaS)計算框架。
Naveen Rao表示:“未來幾年,AI模型的復雜性以及對大規(guī)模深度學習計算的需求將爆發(fā)式增長。英特爾和百度將延續(xù)雙方十多年的合作并聚焦于聯(lián)合設(shè)計和開發(fā)全新的硬件以及配套軟件,從而向‘AI 2.0’的新疆界不斷邁進。”
而在英特爾分論壇上,英特爾及其合作伙伴分別就邊緣計算、百度超級計算平臺的軟硬件優(yōu)化、英特爾 DL Boost、百度海洋引擎與英特爾SGX的合作、愛奇藝在OpenVINO?上的AI實踐以及英特爾AEP的分布式系統(tǒng)在AI訓練和數(shù)據(jù)處理上的實踐等方面的技術(shù)細節(jié)進行了探討。我們將從以下四個演講中闡釋英特爾取得的主要進展。
英特爾DL Boost的至強云端深度學習推理優(yōu)化實踐
英特爾DL Boost是一套旨在加快人工智能深度學習速度的處理器技術(shù)。英特爾人工智能資深架構(gòu)師姚偉峰講述了利用英特爾DL Boost的至強云端深度學習推理優(yōu)化實踐。
DL Boost基于AVX-512擴展新的矢量神經(jīng)網(wǎng)絡(luò)指令集,性能提升是數(shù)量級的,具有更好的TCO,為終端用戶提供更一致性的體驗。他指出,英特爾 DL Boost VNNI就是為加速深度學習推理任務(wù)而生。他還從圖優(yōu)化、量化、算子優(yōu)化三方面詳細講解了XEON深度學習推理優(yōu)化。
英特爾MKL-DNN優(yōu)化的深度學習框架和OpenVINO?
英特爾軟件產(chǎn)品開發(fā)部、資深AI 技術(shù)咨詢工程師胡英以英特爾MKL-DNN優(yōu)化的深度學習框架為主講述了如何利用英特爾AI軟件工具加速深度學習。
英特爾MKL-DNN是一個開源的、性能強化的函數(shù)庫,用于加速在CPU上的深度學習框架,包含高度矢量化和線程化的構(gòu)建模塊,支持利用C和C++接口實施卷積神經(jīng)網(wǎng)絡(luò)。
英特爾MKL-DNN主要在以下對象上運行:基元、引擎和流。庫文檔對這些對象的定義如下所示:
基元——任何操作,包括卷積、數(shù)據(jù)格式重新排序和內(nèi)存。基元可以以其他基元為輸入,但是智能輸出內(nèi)存基元。
引擎——一種執(zhí)行設(shè)備,如CPU。每個基元都映射為特定的引擎。
流——一種執(zhí)行環(huán)境,將基元提交至流后等待完成。提交至流的基元可能有不同的引擎。流對象也可以跟蹤基元間的相關(guān)性。
OpenVINO是英特爾基于自身現(xiàn)有的硬件平臺開發(fā)的一種可以加快高性能計算機視覺和深度學習視覺應用開發(fā)速度工具套件,支持各種英特爾平臺的硬件加速器上進行深度學習,并且允許直接異構(gòu)執(zhí)行。 支持在Windows與Linux系統(tǒng),使用Python/C++語言。
OpenVINO工具包主要包括兩個核心組件,模型優(yōu)化器和推理引擎。
OpenVINO的主要特點有:
在英特爾平臺上提升計算機視覺相關(guān)深度學習性能達19倍以上
解除CNN-based的網(wǎng)絡(luò)在邊緣設(shè)備的性能瓶頸
對OpenCV,OpenXV*視覺庫的傳統(tǒng)API實現(xiàn)加速與優(yōu)化
基于通用API接口在CPU、GPU、FPGA等設(shè)備上運行加上
愛奇藝在OpenVINO?上的AI實踐
軟件工具包OpenVINO,專為在邊緣部署深度神經(jīng)網(wǎng)絡(luò)而設(shè)計,廣泛支持各種框架,只需編寫一次,可擴展到不同加速器上使用,使邊緣AI實現(xiàn)高性能、高效率。
借助英特爾OpenVINO工具包,能夠幫助開發(fā)人員加快深度神經(jīng)網(wǎng)絡(luò)推理應用的開發(fā),支持深度神經(jīng)網(wǎng)絡(luò)測試、調(diào)整和原型制作,可以幫助開發(fā)者進入實際應用的量產(chǎn)階段。
愛奇藝助理研究員虞科華分享了他們在OpenVINO上的AI應用開發(fā)的相關(guān)實踐 。首先是應用開發(fā)方法主要包括三點:
訓練模型:固化模型
模型優(yōu)化:圖分割、客制化層、 客制化子圖
推理引擎:模型級聯(lián)計算、多輸入尺寸設(shè)計、自動評估CPU端執(zhí)行特征
另外,虞科華指出OpenVINO FPGA后端實踐主要包括兩方面:1推理引擎: 異構(gòu)Plugin、 異構(gòu)執(zhí)行分析;性能分析:Bitstream精度、異構(gòu)Affinity設(shè)置、流水線化。
OpenVINO目前在愛奇藝的落地服務(wù)主要有AI雷達、圖文審核、視頻標簽、圖片審核等。
百度計算平臺的軟硬件優(yōu)化
作為英特爾重要的合作方,百度AI系統(tǒng)架構(gòu)師丁瑞全介紹了在百度大規(guī)模分布式訓練系統(tǒng)中與英特爾在軟硬件優(yōu)化方面的合作。
在系統(tǒng)設(shè)計上,百度超級AI計算平臺X-MAN與英特爾進行合作共同推動OAI & OAM全球標準定義。
軟硬件聯(lián)合優(yōu)化方面主要包括四個方面。IO優(yōu)化,百度Fast-F共享并行文件系統(tǒng),同時基于英特爾 SPDK,為AI場景海量小文件而優(yōu)化;預處理優(yōu)化,通過預取 + 硬件Offload + 均衡CPU與AI加速卡配比的方式進行合作;數(shù)據(jù)下發(fā)優(yōu)化,增加下行鏈路 + 避免沖突;前后向計算優(yōu)化,自動混合精度 (AMP) +大顯存增大batch size 英特爾 AI芯片可支持bfloat16*, 其動態(tài)范圍相比float16 的更大液冷+48V供電 支持計算性能更強的芯片;通信優(yōu)化,軟件算法優(yōu)化以及英特爾 SCR* ICL支持多機互聯(lián)。
-
處理器
+關(guān)注
關(guān)注
68文章
20256瀏覽量
252498 -
英特爾
+關(guān)注
關(guān)注
61文章
10302瀏覽量
180542 -
AI
+關(guān)注
關(guān)注
91文章
39866瀏覽量
301511 -
深度學習
+關(guān)注
關(guān)注
73文章
5599瀏覽量
124414
原文標題:加速AI應用落地,英特爾AI 2.0的進階之道
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
英特爾與華陽通用聯(lián)手推出全新AI Box解決方案
英特爾開發(fā)者年度盛會智潮涌動,推動AI創(chuàng)新走向產(chǎn)業(yè)縱深
英特爾創(chuàng)新引領(lǐng)AI NAS:軟硬結(jié)合引領(lǐng)本地數(shù)據(jù)智慧管理與多場景創(chuàng)新應用
英特爾舉辦工業(yè)AI與具身智能生態(tài)大會,加速智造升級,共推工業(yè)AI規(guī)模化落地
英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持
4450億美元!Edge AI市場大爆發(fā),英特爾布局哪些AI SoC芯片?
主控CPU全能選手,英特爾至強6助力AI系統(tǒng)高效運轉(zhuǎn)
英特爾發(fā)布邊緣AI控制器與邊緣智算一體機,創(chuàng)造“AI新視界”
英特爾銳炫Pro B系列,邊緣AI的“智能引擎”
直擊Computex 2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍
直擊Computex2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍
英特爾發(fā)布全新GPU,AI和工作站迎來新選擇
從想象到現(xiàn)實,英特爾與MAXHUB帶你走進AI PC新視界
英特爾先進封裝:助力AI芯片高效集成的技術(shù)力量
英特爾借助開放生態(tài)系統(tǒng),加速邊緣AI創(chuàng)新
加速AI應用落地 英特爾AI2.0的進階之道
評論