国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英特爾AVX-512VNNI技術解析

科技見聞網 ? 來源:科技見聞網 ? 作者:科技見聞網 ? 2022-03-31 14:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

英特爾AVX-512VNNI技術解析

高級矢量擴展指令集(AdvancedVector ExtensionsAVX)是x86架構微處理器中的SIMD指令集。英特爾AVX-512顧名思義寄存器位寬是512b,可以支持16路32b單精度浮點數或64路8b整型數。

英特爾至強可擴展處理器通過英特爾深度學習加速(英特爾DLBoost)進一步提升了AI計算性能。英特爾深度學習加速包含英特爾AVX-512VNNI(VectorNeural Network Instructions),是對標準英特爾AVX-512指令集的擴展。

如何理解英特爾AVX-512技術,還要從SIMD指令集說起。SIMD是單指令流多數據流操作(SingleInstruction Stream, Multiple Data Stream)的縮寫,相對應的是SISD單指令流單數據流(SingleInstruction Stream, Single Data Stream)。相較于傳統的單指令單數據指令,SIMD指令使得一條指令可以完成多組數據的操作。單指令單數據流和單指令多數據流區別如下圖所示:

英特爾AVX-512VNNI技術解析

英特爾AVX指令集的前世今生

英特爾AVX-512VNNI技術解析

英特爾最早發布的SIMD指令集是MMX指令集:

1996年,英特爾發布了基于新版P55C架構的PentiumMMX系列處理器,其中引入了新的MMX指令集,開始支持SIMD。PentiumMMX系列處理器上新引入的MMX指令集開創了x86處理器支持SIMD操作的先河,該指令集定義了8個64-bit寬度的寄存器,每個寄存器的64-bit容量中可以放入八個8-bit長度的整數或四個16-bit長度整數或兩個32-bit整數,CPU在識別到MMX指令集的新指令時會自動將寄存器中的數據進行分割計算,這樣一來,單個指令就成功操作了多個數據,實現了SIMD。

英特爾AVX-512指令集實際上分成不同的擴展,用來實現不同的操作。具體的擴展如下:

AVX-512 Foundation

AVX-512 Conflict Detection Instructions (CD)

AVX-512 Exponential and Reciprocal Instructions (ER)

AVX-512 Prefetch Instructions (PF)

AVX-512 Vector Length Extensions (VL)

AVX-512 Byte and Word Instructions (BW)

AVX-512 Doubleword and Quadword Instructions (DQ)

AVX-512 Integer Fused Multiply Add (IFMA)

AVX-512 Vector Byte Manipulation Instructions (VBMI)

AVX-512 Vector Neural Network Instructions Word variable precision (4VNNIW)

AVX-512 Fused Multiply Accumulation Packed Single precision (4FMAPS)

VPOPCNTDQ

VPCLMULQDQ

AVX-512 Vector Neural Network Instructions (VNNI)

AVX-512 Galois Field New Instructions (GFNI)

AVX-512 Vector AES instructions (VAES)

AVX-512 Vector Byte Manipulation Instructions 2 (VBMI2)

AVX-512 Bit Algorithms (BITALG)

AVX-512 Bfloat16 Floating-Point Instructions (BF16)

AVX-512 Half-Precision Floating-Point Instructions (FP16)

通過以上這些指令集擴展,讓英特爾至強可擴展處理器家族在音視頻處理、游戲、科學計算、數據加密壓縮以及深度學習等場景中擁有了出色的表現。

英特爾AVX-512VNNI(VectorNeural Network Instructions)

英特爾AVX-512VNNI(VectorNeural NetworkInstructions)是英特爾深度學習加速一項重要的內容,也是對標準英特爾AVX-512指令集的擴展。可以將三條指令合并成一條指令執行,更進一步的發揮新一代英特爾至強可擴展處理器的計算潛能,提升INT8模型的推理性能。目前第2代和第3代英特爾至強可擴展處理器均支持英特爾VNNI。

未使用VNNI的平臺需要vpmaddubsw、vpmaddwd和vpaddd指令才能完成INT8卷積運算中的乘累加:

英特爾AVX-512VNNI技術解析

而擁有VNNI的平臺上則可以使用一條指令vpdpbusd完成INT8卷積操作:

英特爾AVX-512VNNI技術解析

英特爾深度學習加速VNNI加速推薦系統中的矢量召回

下面介紹一個具體的使用場景:英特爾深度學習加速VNNI加速推薦系統中的矢量召回。

眾所周知,推薦系統需要解決的問題是:如何為既定用戶生成一個長度為K的推薦列表,并使該推薦列表盡量(高準確性)、盡快(低延遲)地滿足用戶的興趣和需求?常規的推薦系統包含兩部分:矢量召回(vectorrecall)和重排(ranking)。前者從龐大的推薦池里粗篩出當前用戶最可能感興趣的幾百或幾千條內容,并將結果交由后者的排序模塊進一步排序,得到最終推薦結果。

英特爾AVX-512VNNI技術解析

矢量召回可以轉換成高緯度的矢量相似性搜索問題。HNSW(HierarchicalNavigable Small World)算法是基于圖結構的ANN(ApproximateNearest Neighbor)矢量相似度搜索算法之一,也是速度最快精度最高的算法之一。

英特爾AVX-512VNNI技術解析

矢量原始數據的數據類型常常是FP32。對于很多業務(如圖片檢索),矢量數據是可以用INT8/INT16表示而且量化誤差對最終搜集結果影響有限。這時可以使用VNNI intrinsic 指令實現矢量INT8/INT16 的內積計算。大量實驗表明QPS性能有較大的提升,而且召回率幾乎不變。QPS提升的原因一方面是 INT8/INT16訪問帶寬比 FP32少很多,另一方面距離計算部分由于使用 VNNI指令得以加速。

當數據集比較大時(如1億到10億數據量級范圍),傳統的做法是將數據集切片,變成幾個較小的數據集,每個數據集單獨獲取topK,最后再合并。由于增加了多個機器之間的通信,增加延遲的同時降低了QPS。在大數據集上使用HNSW方案的最佳實踐是:盡量不切片,在完整的數據集上建立索引和執行搜索,可獲得最佳性能。當數據集過大,內存空間不夠時,可以考慮使用英特爾傲騰持久內存解決。

Super-FusedBERT技術解析

BERT介紹

BERT(BidirectionalEncoder Representations fromTransformers,基于變換器的雙向編碼器表示技術)是2018年谷歌公司提出的NLP(Naturallanguageprocessing,自然語言處理)學科的新技術。谷歌正在利用BERT來更好地理解用戶搜索語句的語義。2020年的一項文獻調查得出結論:“在一年多一點的時間里,BERT已經成為NLP實驗中無處不在的基線”,算上分析和改進模型的研究出版物超過150篇。

BERT的創新點在于它將雙向Transformer用于語言模型,之前的模型是從左向右輸入一個文本序列,或者將left-to-right和right-to-left的訓練結合起來。實驗的結果表明,雙向訓練的語言模型對語境的理解會比單向的語言模型更深刻,BERT使用了一種新技術叫做MaskedLM(MLM),在這個技術出現之前是無法進行雙向語言模型訓練的。

英特爾AVX-512技術加速新浪廣告業務

通過使用英特爾AVX-512實現Super-FusedBert優化方案

一、利用Intel MKL高性能數學庫

MKL是Intel發布的高性能數學庫,適用于科學計算,工程和金融領域。經過多年的打磨,MKL已經是x86平臺上性能最好的數學庫之一。借助MKL可以最大限度的發揮出Xeon處理器的硬件性能,幫助加速Bert模型的推理。

英特爾AVX-512VNNI技術解析

圖 MKL高性能數學庫

深度學習模型中存在大量矩陣乘法(GEMM)這種計算密集操作,可以直接使用MKL的cblas_sgemm接口

此外,MKL還提供了一種新的GEMM接口,叫PackedAPI。這種API可以對輸入的矩陣進行預處理(Pack),進一步提高GEMM的效率。

英特爾AVX-512VNNI技術解析

圖 MKLPacked API性能曲線

對于Bert模型,在其推理時權重是固定的,因此可以對權重進行重排,使用MKL的PackedAPI進行模型推理加速。

二、利用Intel oneDNN開源深度學習加速庫

oneDNN是Intel開源的深度學習加速庫,同樣可以支持不同的計算設備,如CPU,GPU等。oneDNN抽象了以下幾個概念:

Primitive:一種DNN算子的底層原語,支持matmul,convolution等。

Memory:對Primitive使用的內存的抽象,存在多種布局,不同的內存布局也會影響

Primitive:的執行效率。

Engine:底層計算設備抽象,可支持 CPU, GPU。

Stream:Engine中Primitive的隊列。

英特爾AVX-512VNNI技術解析

圖 oneDNN結構

oneDNN中支持了大量常用的深度學習算子。Bert中使用的softmax,layernorm,gelu也都在oneDNN的Primitive中找到相應的實現。

三、使用AVX-512技術進行算子融合

在深度學習框架中,一個模型由多個算子組成,這些算子執行都服從深度學習中調度器的調度。冗余的算子會增加調度開銷,進而影響執行效率。并且算子實現中可能還有很多不必要的訪存和內存分配。因此在針對推理的優化中,減少算子數量非常必要。

英特爾AVX-512VNNI技術解析

圖 算子融合示意圖

除此之外,深度學習模型中,計算密集的算子(matmul,conv)后面會跟一個element-wise的操作(激活函數relu)。這些element-wise的操作可以在計算密集算子計算的過程中完成,而不必等到計算密集算子完全計算完后再進行。這種優化也叫算子融合。

在Bert模型中,matmul,biasadd,gelu的組合可以使用oneDNN的matmulprimitive算子結合追加post_op來完成。

oneDNN的matmulprimitive可以進行多維tensor的乘法操作,并附加融合bias加法。

四、訪存優化

由于CPU架構的特點,越靠近CPU的存儲越快,體積越小。因此高效利用緩存對程序性能非常重要。

英特爾AVX-512VNNI技術解析

圖 CPUcache結構示意圖

這就要求算子在實現的過程中能夠盡可能減少內存占用,進而減少cache的換出,提高cache利用率。

在Bert的self-attention中,對于q、k、v的計算中存在轉置操作。通過下圖可以清楚的看到,每一個q、k、v在經過一個線性層后,都會按照head進行split并轉置。在self-attention最后和v進行點積后,還需要一個轉置來擺放數據。

英特爾AVX-512VNNI技術解析

圖self-attention圖結構

其實通過分析圖結構的計算流程,我們可以將上面的轉置消除。如下圖,原來的數據是按紅色方框的方式存放,但是BatchMatmul需要用到的數據位于綠色方塊中。因此我們可以使用MKL的batch_sgemm接口,將參數stride指定為64*12。這樣就可以避免轉置帶來的內存占用和訪存開銷。

英特爾AVX-512VNNI技術解析

圖消除self-attention轉置

性能優化數據

在Intel第三代Xeon處理器IceLake8358P上,我們對Super-FusedBert進行了性能測試:

Bertbase model 參數:

英特爾AVX-512VNNI技術解析

數據對比:

英特爾AVX-512VNNI技術解析

通過數據對比分析,經過優化后的Bert-base模型在第三代Xeon處理器IceLake8358P比優化前節省了大約四分之三的時長,分別從40ms優化到10.5ms、43ms優化到9.2ms。

這種優化對于滿足實時在線服務推理的延遲要求有著十分顯著的作用,有利于業務部門搭建基于Bert模型的業務,提高了集群中CPU利用率。

*實際性能受使用情況、配置和其他因素的差異影響。更多信息請見www.Intel.com/PerformanceIndex性能測試結果基于配置信息中顯示的日期進行測試,且可能并未反映所有公開可用的更新。

詳情請參閱配置信息披露。沒有任何產品或組件是絕對安全的。

英特爾技術可能需要啟用硬件、軟件或激活服務。

具體成本和結果可能不同。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10301

    瀏覽量

    180443
  • 微處理器
    +關注

    關注

    11

    文章

    2431

    瀏覽量

    85842
  • 指令集
    +關注

    關注

    0

    文章

    229

    瀏覽量

    24358
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    吉方工控亮相2025英特爾技術創新與產業生態大會

    2025年11月19日至20日,由英特爾公司主辦的年度重磅盛會——2025英特爾技術創新與產業生態大會(Intel Connection)暨英特爾行業解決方案大會(Edge Indus
    的頭像 發表于 11-24 16:57 ?624次閱讀

    創芯賦能智能生態!匯頂科技亮相2025英特爾技術創新與產業生態大會

    11月19–21日,2025英特爾技術創新與產業生態大會在重慶盛大啟幕。作為英特爾生態的重要合作伙伴,匯頂科技攜人機交互、指紋識別等多項PC端創新成果,為英特爾硬件生態注入澎湃“芯”動
    的頭像 發表于 11-21 15:00 ?5455次閱讀
    創芯賦能智能生態!匯頂科技亮相2025<b class='flag-5'>英特爾</b><b class='flag-5'>技術</b>創新與產業生態大會

    英特爾舉辦行業解決方案大會,共同打造機器人“芯”動脈

    具身智能和機器人應用提供強大算力支持。會上,英特爾攜手普聯技術、海石商用、海信醫療、阿丘科技等眾多的生態伙伴,共同分享了豐富的行業應用成果,攜手勾勒出端側AI領域的未來發展新藍圖。
    的頭像 發表于 11-19 21:51 ?6758次閱讀
    <b class='flag-5'>英特爾</b>舉辦行業解決方案大會,共同打造機器人“芯”動脈

    向新而生,同“芯”向上!2025英特爾技術創新與產業生態大會在重慶舉行

    11月19日,2025英特爾技術創新與產業生態大會今天在重慶開幕。英特爾公司首席執行官陳立武在視頻致辭中表示:“在AI浪潮中,我們將持續加強與各位伙伴的合作,從客戶端、數據中心,到邊緣計算,共同把握
    的頭像 發表于 11-19 21:34 ?5787次閱讀
    向新而生,同“芯”向上!2025<b class='flag-5'>英特爾</b><b class='flag-5'>技術</b>創新與產業生態大會在重慶舉行

    科通技術獲評英特爾首批尊享級合作伙伴

    近日,科通科技獲評為英特爾首批“尊享級合作聯盟成員”,即英特爾合作伙伴聯盟體系中的最高級別會員。這一身份認證不僅是對雙方十五年深度協同的認可,也是雙方在技術協同、產業賦能道路上的又一次深度綁定。
    的頭像 發表于 11-17 16:52 ?723次閱讀
    科通<b class='flag-5'>技術</b>獲評<b class='flag-5'>英特爾</b>首批尊享級合作伙伴

    使用英特爾? NPU 插件C++運行應用程序時出現錯誤:“std::Runtime_error at memory location”怎么解決?

    使用OpenVINO?工具套件版本 2024.4.0 構建C++應用程序 使用英特爾? NPU 插件運行了 C++ 應用程序 遇到的錯誤: Microsoft C++ exception: std::runtime_error at memory location
    發表于 06-25 08:01

    英特爾銳炫Pro B系列,邊緣AI的“智能引擎”

    2025年6月19日,上海—— 在MWC 25上海期間,英特爾展示了一幅由英特爾銳炫? Pro B系列GPU所驅動的“實時響應、安全高效、成本可控”的邊緣AI圖景。 英特爾客戶端計算事業部邊緣計算
    的頭像 發表于 06-20 17:32 ?891次閱讀
    <b class='flag-5'>英特爾</b>銳炫Pro B系列,邊緣AI的“智能引擎”

    英特爾先進封裝,新突破

    在半導體行業的激烈競爭中,先進封裝技術已成為各大廠商角逐的關鍵領域。英特爾作為行業的重要參與者,近日在電子元件技術大會(ECTC)上披露了多項芯片封裝技術突破,再次吸引了業界的目光。這
    的頭像 發表于 06-04 17:29 ?1163次閱讀

    英特爾發布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準專業用戶和AI開發者的英特爾銳炫Pro GPU系列,發布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2025 年 5 月 19 日,北京 ——今日,在
    發表于 05-20 11:03 ?1844次閱讀

    英特爾持續推進核心制程和先進封裝技術創新,分享最新進展

    近日,在2025英特爾代工大會上,英特爾展示了多代核心制程和先進封裝技術的最新進展,這些突破不僅體現了英特爾技術開發領域的持續創新,也面向
    的頭像 發表于 05-09 11:42 ?870次閱讀
    <b class='flag-5'>英特爾</b>持續推進核心制程和先進封裝<b class='flag-5'>技術</b>創新,分享最新進展

    英特爾代工:明確重點廣合作,服務客戶鑄信任

    英特爾代工大會召開,宣布制程技術路線圖、先進封裝里程碑和生態系統合作。 今天,2025英特爾代工大會(Intel Foundry Direct Connect)開幕,英特爾分享了多代核
    的頭像 發表于 04-30 10:23 ?538次閱讀
    <b class='flag-5'>英特爾</b>代工:明確重點廣合作,服務客戶鑄信任

    英特爾宣布裁員20% 或2萬人失業

    據外媒彭博社的報道,在當地時間4月24日,英特爾宣布裁員計劃,比例超20%。按照截至2024年底英特爾在全球擁有108900名員工來計算的話,預計此次裁員將波及大約2.2萬名員工。旨在精簡管理,并重
    的頭像 發表于 04-25 17:34 ?620次閱讀

    英特爾向銀湖資本出售Altera 51%股份

    英特爾公司宣布已達成最終協議,將旗下 Altera 業務 51% 的股份出售給全球技術投資巨頭銀湖資本(Silver Lake)。
    的頭像 發表于 04-19 11:19 ?1163次閱讀

    中國汽車工業協會一行到訪英特爾公司

    近日,中國汽車工業協會副秘書長楊中平、技術部總監鄒朋、技術部副主任李雅靜、技術部業務主任王秋源一行到訪英特爾公司,在英特爾院士、
    的頭像 發表于 04-02 15:30 ?905次閱讀

    英特爾新篇章:重視工程創新、文化塑造與客戶需求

    英特爾CEO陳立武強調,要塑造由工程師思維驅動,聚焦客戶需求的創新文化。 ? 英特爾CEO陳立武今日在2025年英特爾Vision大會上,向廣大來自技術產業界的與會者發表演講,闡述了其
    發表于 04-01 14:02 ?466次閱讀
    <b class='flag-5'>英特爾</b>新篇章:重視工程創新、文化塑造與客戶需求