国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大規(guī)模推理時(shí)代深度學(xué)習(xí)加速的天花板在哪?

智能計(jì)算芯世界 ? 來(lái)源:智能計(jì)算芯世界 ? 作者:智能計(jì)算芯世界 ? 2022-12-15 10:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從數(shù)據(jù)分析、經(jīng)典機(jī)器學(xué)習(xí)到搜索、推薦,再到語(yǔ)言處理和圖像識(shí)別,每個(gè) AI 任務(wù)運(yùn)行的背后都需要海量的數(shù)學(xué)計(jì)算。可以說(shuō),AI 真的就是數(shù)學(xué),但卻是很多很多的數(shù)學(xué)。 尤其是在 AI 進(jìn)入大模型時(shí)代的當(dāng)下,模型的大規(guī)模訓(xùn)練和推理更是對(duì)計(jì)算資源有著巨大的需求。但同時(shí),算力的掣肘正在阻礙著 AI 走向大規(guī)模落地。 當(dāng)前 AI 面臨的“數(shù)學(xué)題”都是何種難度?“算珠”又該如何撥弄得更快才能追得上不斷增長(zhǎng)的計(jì)算需求呢? 讓我們從 CPU 的 AI 算力談起。

1

大規(guī)模推理時(shí)代

深度學(xué)習(xí)加速的天花板在哪?

人工智能迎來(lái)第三次浪潮后,以深度學(xué)習(xí)為代表的AI已經(jīng)進(jìn)入應(yīng)用階段。而深度學(xué)習(xí) AI 需要進(jìn)行大量矩陣乘法以訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,并利用推理將這些模型應(yīng)用于實(shí)際任務(wù)。

也就是說(shuō),深度學(xué)習(xí)分為訓(xùn)練和推理兩個(gè)階段,而推理則是推動(dòng)AI大規(guī)模走向落地的關(guān)鍵。

訓(xùn)練深度學(xué)習(xí)模型可能需要數(shù)小時(shí)或數(shù)天的算力。而深度學(xué)習(xí)推理可能需要幾分之一秒到幾分鐘,具體取決于模型的復(fù)雜程度和對(duì)結(jié)果的準(zhǔn)確度的要求。在推理過(guò)程中,計(jì)算機(jī)將輸入數(shù)據(jù)與模型進(jìn)行比較,然后推斷數(shù)據(jù)的含義。

讓人工智能落地更多是推理層面的工作,無(wú)論是推薦引擎、圖像識(shí)別、媒體分析、語(yǔ)言翻譯 、自然語(yǔ)言處理、強(qiáng)化學(xué)習(xí)等負(fù)載中推理性能的大幅提升對(duì)落地應(yīng)用的貢獻(xiàn)都十分重要。

在此背景下,硬件架構(gòu)將成為AI落地的重中之重。

而做大規(guī)模推理,CPU平臺(tái)具有較大優(yōu)勢(shì)——用戶(hù)學(xué)習(xí)門(mén)檻低、部署速度快等,在類(lèi)似推薦系統(tǒng)的應(yīng)用中,CPU也擔(dān)當(dāng)著算力支撐,那么如何提升CPU的AI算力?

CPU的算力取決于 CPU 特定加速指令集或運(yùn)算單元的持續(xù)引入及改進(jìn),那么通過(guò)強(qiáng)化算力單元和增加算力單元數(shù)量并舉,即Scale-Up與Scale-Out相結(jié)合,提升CPU的AI算力。

回望英特爾歷代至強(qiáng) 可擴(kuò)展處理器的深度學(xué)習(xí)加速技術(shù)(即DL Boost),已經(jīng)將這一提升路徑充分實(shí)踐并拉高優(yōu)化天花板:從第一代至強(qiáng)可擴(kuò)展處理器引入的AVX-512——中低端型號(hào)每核心配備1個(gè)FMA單元、高端型號(hào)每核心配備2個(gè)FMA單元,到代號(hào)Ice Lake-SP的雙路第三代至強(qiáng)可擴(kuò)展處理器將此類(lèi)配置擴(kuò)展到全系列產(chǎn)品,并將最高核心數(shù)從28增加至40個(gè),CPU的向量處理能力得以大幅提升。

6ac25558-7c19-11ed-8abf-dac502259ad0.png

指令優(yōu)化方面,第二代英特爾至強(qiáng) 可擴(kuò)展處理器引入了簡(jiǎn)稱(chēng)VNNI(Vector Neural Network Instruction,矢量神經(jīng)網(wǎng)絡(luò)指令)的擴(kuò)展,提高了數(shù)據(jù)格式INT8推理的效率;代號(hào)Cooper Lake的第三代英特爾至強(qiáng)可擴(kuò)展處理器又引入了數(shù)據(jù)格式bfloat16(BF16)加速功能,可以用于推理和訓(xùn)練。 目前,前三代英特爾至強(qiáng) 可擴(kuò)展處理器的加速路徑,主要依靠現(xiàn)有的計(jì)算單元,即AVX-512,配合指令集、算法和數(shù)據(jù)上的優(yōu)化,輸出AI算力。 但加速的天花板就到此為止了嗎?

還有別的思路——內(nèi)置硬件加速器,且與本就高性能的CPU內(nèi)核無(wú)縫配合,疊加buff推高天花板。

2

硬件直接“貼貼”加速

第四代至強(qiáng)內(nèi)置多種專(zhuān)用加速器

在今年11月,英特爾宣布將在2023年1月11日發(fā)布代號(hào)為Sapphire Rapids的全新第四代英特爾至強(qiáng) 可擴(kuò)展處理器。

Sapphire Rapids將為廣泛的標(biāo)量和并行工作負(fù)載提供跨越式的性能提升,更重要的是,它的基本架構(gòu)旨在實(shí)現(xiàn)彈性計(jì)算模型(如容器化微服務(wù))的突破性性能,以及在所有形式的以數(shù)據(jù)為中心的計(jì)算中快速擴(kuò)展 AI 的使用。

第四代英特爾至強(qiáng)可擴(kuò)展處理器的核心數(shù)量有顯著增長(zhǎng),并支持DDR5、PCIe 5.0和CXL 1.1等下一代內(nèi)存和接口標(biāo)準(zhǔn),在內(nèi)置硬件加速上,Sapphire Rapids也集成了5項(xiàng)加速器:

用于A(yíng)I的高級(jí)矩陣擴(kuò)展(Advanced Matrix Extensions),簡(jiǎn)稱(chēng)AMX;

用于數(shù)據(jù)分析的存內(nèi)分析加速器(In-Memory Analytics Accelerator),簡(jiǎn)稱(chēng)IAA;

用于5G/網(wǎng)絡(luò)的數(shù)據(jù)流加速器(Data Streaming Accelerator),簡(jiǎn)稱(chēng)DSA;

用于存儲(chǔ)的動(dòng)態(tài)負(fù)載均衡器(Dynamic Load Balancer),簡(jiǎn)稱(chēng)DLB;

用于數(shù)據(jù)壓縮和加解密的QuickAssist技術(shù),英特爾數(shù)據(jù)保護(hù)與壓縮加速技術(shù),簡(jiǎn)稱(chēng)QAT。

首先,內(nèi)置加速器可以消除在將數(shù)據(jù)從 CPU 移至協(xié)處理器加速器時(shí)產(chǎn)生的大部分開(kāi)銷(xiāo)。

同時(shí),Sapphire Rapids還引入了加速器接口架構(gòu) (AIA),解決了無(wú)縫集成加速引擎和高性能核心時(shí)面臨的關(guān)鍵挑戰(zhàn)——能夠處理 CPU 內(nèi)核與內(nèi)置加速器之間的數(shù)據(jù)高效調(diào)度、同步和信令傳遞,而不是高開(kāi)銷(xiāo)內(nèi)核模式。

內(nèi)置的硬件加速器也易獲得更出色的性能,而不必將時(shí)間浪費(fèi)在進(jìn)行片外傳輸設(shè)置上。

AMX與上述其他4個(gè)加速器的一大區(qū)別,就是它本身就集成在了CPU核心內(nèi),與AVX-512一樣,隨核心數(shù)同步增長(zhǎng),線(xiàn)性提升處理能力。

3

開(kāi)啟全新計(jì)算單元

AMX升維加速深度學(xué)習(xí)工作負(fù)載

AMX與AVX-512又有什么區(qū)別?

AMX是全新的計(jì)算單元,有自己的存儲(chǔ)和操作電路,并行度高,以便為AI工作負(fù)載加速Tensor運(yùn)算,支持bfloat16和INT8兩種數(shù)據(jù)類(lèi)型。

Tensor處理是深度學(xué)習(xí)算法的核心,AMX功能可以實(shí)現(xiàn)每個(gè)循環(huán)2000次int8運(yùn)算和1000次bfloat16運(yùn)算。

同時(shí),AMX的寄存器(名為T(mén)ile)是二維的,寄存器組是三維的,均比AVX-512高一個(gè)維度,寄存器組存儲(chǔ)的數(shù)據(jù)相當(dāng)于一個(gè)小型矩陣,這樣AMX 能夠在每個(gè)時(shí)鐘周期執(zhí)行更多矩陣乘法以每時(shí)鐘周期來(lái)看。

理論上,AMX的TMUL(矩陣乘法運(yùn)算)對(duì)AVX-512的2個(gè)FMA(融合乘加操作)單元,INT8性能高達(dá)8倍;處理浮點(diǎn)數(shù)據(jù),AMX使用動(dòng)態(tài)范圍與FP32相當(dāng)?shù)腂F16,性能可達(dá)AVX-512的16倍。

如此,有全新可擴(kuò)展二維寄存器文件和全新矩陣乘法指令,可增強(qiáng)各種深度學(xué)習(xí)工作負(fù)載中推理及訓(xùn)練性能,也就代表著計(jì)算能力的大幅提升,這些計(jì)算能力可以通過(guò)行業(yè)標(biāo)準(zhǔn)框架和運(yùn)行時(shí)無(wú)縫訪(fǎng)問(wèn)。

據(jù)今年1月數(shù)據(jù)表明,基于TensorFlow框架,INT8 精度下每秒檢測(cè)的圖像的數(shù)量增幅以及高達(dá) 6 倍多 BF16 精度下進(jìn)行對(duì)象檢測(cè)時(shí)每秒檢測(cè)的圖像的數(shù)量增幅明顯增加:

56核的第四代英特爾 至強(qiáng)可擴(kuò)展處理器全新的AMX,對(duì)比40核的第三代英特爾 至強(qiáng)可擴(kuò)展處理器,在SSD-ResNet34上進(jìn)行實(shí)時(shí)推理時(shí),每秒處理的圖像數(shù)量增加高達(dá)4.5倍。(注:實(shí)際性能受使用情況、配置和其他因素的差異影響,且性能測(cè)試結(jié)果基于配置信息中顯示的日期進(jìn)行的測(cè)試[1])

當(dāng)然AVX-512本身就以FP32、FP64等高精度浮點(diǎn)數(shù)據(jù)的運(yùn)算見(jiàn)長(zhǎng),依然可以專(zhuān)注于如數(shù)據(jù)分析、科學(xué)計(jì)算、經(jīng)典機(jī)器學(xué)習(xí)等高精度計(jì)算。

如今第三代人工智能浪潮是以深度學(xué)習(xí)為代表,并非只有深度學(xué)習(xí),AI的范圍正在不斷擴(kuò)大,計(jì)算需求也在多元化,當(dāng)人工智能的工作負(fù)載出現(xiàn)混合精度計(jì)算需求,AMX和AVX-512就可搭配使用,發(fā)展各自長(zhǎng)處。

對(duì)于數(shù)據(jù)精度不高但要求高準(zhǔn)確度的推理場(chǎng)景,如圖像識(shí)別、推薦引擎、媒體分析、語(yǔ)言翻譯、自然語(yǔ)言處理(NLP)、強(qiáng)化學(xué)習(xí)等典型AI應(yīng)用場(chǎng)景,AMX其實(shí)屬于降維打擊,可發(fā)揮空間很大。

根據(jù)預(yù)告,英特爾第四代至強(qiáng)可擴(kuò)展處理器是處理AI等更現(xiàn)代化、更新興并行工作負(fù)載的基礎(chǔ)設(shè)施,在進(jìn)行整體設(shè)計(jì)時(shí)也考慮到了未來(lái)技術(shù)發(fā)展趨勢(shì)——絕大多數(shù)新的可擴(kuò)展服務(wù)將采用容器化微服務(wù)等彈性計(jì)算模型進(jìn)行開(kāi)發(fā)。

新版Windows、Linux Kernel和虛擬化軟件也確實(shí)都具備支持AMX指令集的條件,所謂“引領(lǐng)”就是要更先一步到達(dá)未來(lái)。

1月11號(hào),讓我們期待至強(qiáng)新品的發(fā)布和更多信息吧~可以先點(diǎn)擊閱讀原文,提前了解至強(qiáng)產(chǎn)品組合~

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11279

    瀏覽量

    225017
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265416
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1532

    瀏覽量

    16744

原文標(biāo)題:明年1月,推高CPU人工智能算力天花板

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    商湯開(kāi)源SenseNova-MARS:突破多模態(tài)搜索推理天花板

    )、GPT-5.2(67.64 分)。 SenseNova-MARS是首個(gè)支持動(dòng)態(tài)視覺(jué)推理和圖文搜索深度融合的 Agentic VLM 模型,它能自己規(guī)劃步驟、調(diào)用工具,輕松搞定各種復(fù)雜任務(wù),讓AI真正具備
    的頭像 發(fā)表于 01-29 23:53 ?155次閱讀
    商湯開(kāi)源SenseNova-MARS:突破多模態(tài)搜索<b class='flag-5'>推理</b><b class='flag-5'>天花板</b>

    AMD Alveo MA35D加速器:開(kāi)啟大規(guī)模交互式流媒體新時(shí)代

    AMD Alveo MA35D加速器:開(kāi)啟大規(guī)模交互式流媒體新時(shí)代 在當(dāng)今全球視頻市場(chǎng)被直播主導(dǎo)的背景下,低延遲應(yīng)用不斷涌現(xiàn),對(duì)基礎(chǔ)設(shè)施和視頻處理技術(shù)的成本結(jié)構(gòu)及部署策略產(chǎn)生了深遠(yuǎn)影響。AMD推出
    的頭像 發(fā)表于 12-15 14:35 ?383次閱讀

    破解“散熱天花板”:金剛石銅復(fù)合材料的百億征程(附分析報(bào)告)

    在A(yíng)I算力爆發(fā)、新能源汽車(chē)普及、6G通信加速落地的今天,電子設(shè)備正以前所未有的速度向高功率、高密度演進(jìn)。隨之而來(lái)的,是“散熱”這一曾經(jīng)被邊緣化的技術(shù)環(huán)節(jié),正悄然成為制約設(shè)備性能與可靠性的“天花板
    的頭像 發(fā)表于 11-05 06:34 ?1166次閱讀
    破解“散熱<b class='flag-5'>天花板</b>”:金剛石銅復(fù)合材料的百億征程(附分析報(bào)告)

    TensorRT-LLM的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)與創(chuàng)新實(shí)現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1113次閱讀
    TensorRT-LLM的<b class='flag-5'>大規(guī)模</b>專(zhuān)家并行架構(gòu)設(shè)計(jì)

    大規(guī)模專(zhuān)家并行模型在TensorRT-LLM的設(shè)計(jì)

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專(zhuān)家模型 (MoE) 架構(gòu),大幅提升了開(kāi)源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開(kāi)源模型的設(shè)計(jì)原則也采用了類(lèi)似的大規(guī)模細(xì)粒度 MoE 架構(gòu)。但大規(guī)模 M
    的頭像 發(fā)表于 09-06 15:21 ?1234次閱讀
    <b class='flag-5'>大規(guī)模</b>專(zhuān)家并行模型在TensorRT-LLM的設(shè)計(jì)

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    學(xué)習(xí)、大規(guī)模數(shù)據(jù)分析等前沿技術(shù)。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語(yǔ)音)和實(shí)時(shí)交互能力,能夠高效處理代碼生成、復(fù)雜問(wèn)題求解、跨模態(tài)學(xué)習(xí)等高階任務(wù)。憑借其
    發(fā)表于 07-16 15:29

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型推理顯存和
    發(fā)表于 07-03 19:43

    突破無(wú)風(fēng)扇工控機(jī)技術(shù)天花板,聚徽廠(chǎng)家這些方案你知道嗎?

    ,隨著技術(shù)的迅猛發(fā)展以及應(yīng)用場(chǎng)景需求的不斷攀升,無(wú)風(fēng)扇工控機(jī)在散熱、性能、防護(hù)等方面面臨著諸多挑戰(zhàn),亟待突破技術(shù)天花板。接下來(lái),讓我們一同探尋那些能夠突破無(wú)風(fēng)扇工控機(jī)技術(shù)瓶頸的創(chuàng)新方案。 一、高效散熱方案革新
    的頭像 發(fā)表于 06-03 15:01 ?641次閱讀
    突破無(wú)風(fēng)扇工控機(jī)技術(shù)<b class='flag-5'>天花板</b>,聚徽廠(chǎng)家這些方案你知道嗎?

    閃迪天花板級(jí)PCIe5.0 SSD上市,性能與能效均位于行業(yè)前沿

    PCIe 5.0 SSD的上市,正是能夠滿(mǎn)足未來(lái)高性能與主流應(yīng)用場(chǎng)景的更優(yōu)存儲(chǔ)選擇,同時(shí)也是閃迪固態(tài)硬盤(pán)組合的天花板級(jí)產(chǎn)品。這款產(chǎn)品不僅為消費(fèi)者帶來(lái)卓越的存儲(chǔ)體驗(yàn),也進(jìn)一步推動(dòng)了當(dāng)前PCIe Gen 5.0
    的頭像 發(fā)表于 05-29 12:09 ?758次閱讀
    閃迪<b class='flag-5'>天花板</b>級(jí)PCIe5.0 SSD上市,性能與能效均位于行業(yè)前沿

    思嵐科技AI工業(yè)機(jī)器人開(kāi)放底盤(pán)Phoebus P350全新發(fā)布:深度學(xué)習(xí)導(dǎo)航+300KG負(fù)載

    工業(yè)4.0時(shí)代,智能搬運(yùn)的“底盤(pán)力”決定效率天花板。 SLAMTEC全新推出 Phoebus P350工業(yè)級(jí)機(jī)器人底盤(pán) ,以 “開(kāi)放AI架構(gòu)+深度學(xué)習(xí)導(dǎo)航” 為核心,融合300KG超強(qiáng)
    的頭像 發(fā)表于 05-12 11:33 ?1433次閱讀
    思嵐科技AI工業(yè)機(jī)器人開(kāi)放底盤(pán)Phoebus P350全新發(fā)布:<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>導(dǎo)航+300KG負(fù)載

    大模型時(shí)代深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類(lèi)顯卡 RTX-4090只需大約35~40個(gè)小時(shí) ,即可完成ResNet50模型的預(yù)訓(xùn)練。在 大模型時(shí)代 ,由于大模型參數(shù)規(guī)模龐大,無(wú)法跟CNN時(shí)代的小模型一樣
    的頭像 發(fā)表于 04-25 11:43 ?843次閱讀
    大模型<b class='flag-5'>時(shí)代</b>的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>框架

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命 Google 發(fā)布了 Ironwood,這是其第七代張量處理單元 (TPU),專(zhuān)為推理而設(shè)計(jì)。這款功能強(qiáng)大的 AI
    的頭像 發(fā)表于 04-12 11:10 ?3745次閱讀
    谷歌第七代TPU Ironwood<b class='flag-5'>深度</b>解讀:AI<b class='flag-5'>推理</b><b class='flag-5'>時(shí)代</b>的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    Cloud 客戶(hù)開(kāi)放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項(xiàng)。 ? 在核心亮點(diǎn)層面,Ironwood 堪稱(chēng)谷歌首款專(zhuān)門(mén)為 AI 推理精心設(shè)計(jì)的 TPU 芯片,能夠有力支持大規(guī)模思考
    的頭像 發(fā)表于 04-12 00:57 ?3728次閱讀

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    ,成為新一代AI數(shù)據(jù)中心的核心驅(qū)動(dòng)力。 AI時(shí)代的兩大數(shù)據(jù)中心:AI工廠(chǎng)與AI云 AI時(shí)代催生了兩類(lèi)數(shù)據(jù)中心架構(gòu): AI工廠(chǎng):用于大規(guī)模模型訓(xùn)練和推理,如GPT-4和圖像生
    發(fā)表于 03-25 17:35

    電子連接器的天花板

    電子連接器
    通天電子科技(東莞市)有限公司
    發(fā)布于 :2025年03月18日 19:16:09