国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Groq LPU崛起,AI芯片主戰場從訓練轉向推理

AI芯天下 ? 來源:AI芯天下 ? 2024-02-29 16:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言人工智能推理的重要性日益凸顯,高效運行端側大模型及AI軟件背后的核心技術正是推理。不久的未來,全球芯片制造商的主要市場將全面轉向人工智能推理領域。

Groq LPU崛起,AI芯片主戰場轉向

與AI訓練相比,AI推理與用戶終端場景需求更為緊密,訓練后的大規模模型需通過AI推理實際應用到場景中。

然而,目前基于英偉達GPU的AI推理方案成本較高,性能和時延問題影響了用戶體驗。

在Groq LPU亮相之前,大型AI模型的訓練和推理均依賴于英偉達GPU,并采用CUDA軟件技術棧。

然而,Groq LPU的迅速崛起使市場開始猜測AI芯片的主戰場或將從訓練轉向推理。

Groq LPU推理卡從硬件層面解決了性能和成本問題,使AI推理大規模部署成為可能,推動更多AI推理類應用落地。

與此同時,AI推理需求的增長將進一步推動云端推理芯片的發展,尤其是更多可替代英偉達GPU的新一代專用推理芯片將應用于數據中心

在推理階段,AI模型需以極致速度運行,旨在為終端用戶提供更多的Token,從而加快響應用戶指令的速度。

需求帶動,重心從訓練轉向推理

AI推理領域與大規模消費電子等應用終端需求緊密相關,因此,行業發展重心有望從[訓練]全面轉向[推理]。

相較于AI訓練,推理領域在[海量數據轟炸]應用背景下的GPU并行化算力需求遠低于訓練領域。

推理進程涉及已訓練模型的決策或識別,擅長處理復雜邏輯任務和控制流任務的以CPU為核心的中央處理器足以高效應對諸多推理場景。

當前,AI市場主要集中在使用大數據訓練大語言模型的[訓練]階段,英偉達成為這一領域的主要受益者。

然而,隨著AI大模型變得更精簡、可在設備上運行并專注于推理任務,芯片制造商的市場重心將轉向[推理],即模型應用。

展望產業發展趨勢,AI算力負載有望逐步從訓練向推理端遷移,從而降低AI芯片門檻。

覆蓋可穿戴設備、電動汽車及物聯網等領域的芯片公司有望全面滲透至AI推理芯片領域。

預計數據中心也將對專門用于已訓練模型推理任務的處理器產生興趣,共同推動推理市場規模超越訓練市場。

預計在一到兩年內,AI大模型在訓練端和推理端都將產生巨量的算力/AI芯片需求。

如果未來大模型廣泛商用落地,推理端的算力/AI芯片的需求量將明顯高于訓練端。

經過兩到三年的AI訓練用數據中心升級周期后,市場將看到更多來自推理芯片供應商的銷量。

AI推理漸多,企業與資本也向推理轉移

AMD CEO蘇姿豐認為:未來大模型推理市場的規模將遠遠大于模型訓練市場。

英特爾CEO基辛格表示:當推理發生時,就不存在CUDA依賴性了,并不是說英特爾不會在訓練領域展開競爭,而是從根本上說,推理市場才是競爭的焦點。

扎克伯格認為:很明顯,下一代服務需要構建全面的通用智能、構建最好的AI助手、為企業創造者以及更多要在AI各個領域取得進步——從推理到規劃到編碼到記憶和其他認知能力。

伴隨著企業AI應用逐步成熟,企業將把更多算力從模型訓練轉移到AI推理工作中。

在芯片需求方面,訓練芯片注重通用性,而推理芯片則與已訓練完成的大模型具有高度綁定性。

隨著大模型應用的不斷深化,推理需求也逐漸從云端遷移至邊緣/終端,并呈現出定制化的發展趨勢。

在全球AI芯片市場,先推理后訓練成為主流路徑,例如英特爾收購的AI芯片公司Habana以及我國諸多AI初創公司。

這一選擇背后,是下游市場的催化作用:隨著AI模型訓練逐漸成熟,AI應用逐步落地,云端推理市場已逐漸超過訓練市場。

人工智能計算資源正由訓練大規模AI模型逐步轉向推理,因此在客戶端、邊緣和云之間需要構建更為均衡的基礎設施。

據估計,全球已有超過18家致力于AI大模型訓練和推理的芯片設計初創公司,累計獲得超過60億美元融資,整體估值超過250億美元。

這些創業公司得到了諸如紅杉資本、OpenAI、五源資本、字節跳動等強大投資方的支持。

同時,微軟、英特爾、AMD等科技巨頭也在加大[造芯]力度,使得英偉達面臨前所未有的競爭壓力。

與英偉達競速,各企業從細分領域突破

為降低模型訓練與推理成本,業界持續探索實現高能效和高性能芯片架構的更多可能性。

觀察諸如Meta、亞馬遜、Alphabet等科技巨頭,它們均在研發自家的AI芯片。

這些芯片更具專業性和明確目標,相較之下,英偉達的芯片則具備更高的通用性。

①AMD:最新發布的MI300包括兩大系列,MI300X系列是一款大型GPU,擁有領先的生成式AI所需的內存帶寬和大語言模型所需的訓練和推理性能;

MI300A系列集成CPU+GPU,基于最新的CDNA3架構和Zen4 CPU,可以為HPC和AI工作負載提供突破性能。

去年12月,AMD在推出旗艦MI300X加速卡之外,還宣布Instinct MI300A APU已進入量產階段,預估今年開始交付,上市后有望成為世界上最快的HPC解決方案。

去年7月,英特爾公司在北京發布了一款針對中國市場、采用7納米工藝的AI芯片Habana Gaudi2,該芯片可運行大語言模型,加速AI訓練及推理。

其運行ResNet-50的每瓦性能約為英偉達A100的2倍,性價比相較于AWS云中基于英偉達的解決方案高出40%。

②英特爾:宣布與Arm公司合作,使其至強產品部署到Arm CPU上,并推出AI推理和部署運行工具套件OpenVINO。

此外,開源模型如LIama2陸續發布,促使更多企業直接使用這些模型,僅需AI推理芯片即可應用,從而減少了對算力訓練芯片的需求。

英特爾去年年底推出了新的計算機芯片,其中包括用于生成人工智能軟件的人工智能芯片Gaudi3。

Gaudi3將于今年推出,將與英偉達和AMD等競爭對手的芯片競爭,為大型且耗電的人工智能模型提供動力。

③Meta:計劃在今年投產自研芯片,降低AI加速卡采購成本,減少對英偉達的依賴。

該芯片功耗僅25瓦,為英偉達相同產品功耗的0.05%,并采用RISC-V開源架構。市場消息透露,該芯片由臺積電7納米工藝生產。

Meta近期宣布已構建自有DLRM推理芯片,并已廣泛部署。

這款ASIC內部被稱為[Artemis],主要性能集中在推理領域,基于去年宣布的第二代內部芯片產品線。

扎克伯格在視頻中透露了Meta人工智能計劃的更新路線圖:Meta將圍繞即將推出的Llama3構建全新的Meta AI路線圖,目前正在推進Llama3的AI訓練。

Llama3將與Google最近發布的Gemini模型、OpenAI的GPT-4,以及即將推出的GPT-5模型競爭。

④英偉達:去年8月,英偉達宣布推出新一代GH200 Grace Hopper超級芯片,新芯片將于今年第二季投產。

GH200和GH200NVL將采用基于Arm的CPU和Hopper解決大型語言模型的訓練和推理問題。

英偉達計劃基于x86架構推出B100替代H200,并基于ARM架構的推理芯片GB200替代GH200。

此外,英偉達還規劃了B40產品來替代L40S,以提供更好的面向企業客戶的AI推理解決方案。

根據英偉達計劃于今年發布Blackwell架構,采用該架構的B100 GPU芯片預計將大幅提高處理能力。

初步評估數據表明,與現有采用Hopper架構的H200系列相比,性能提升超過100%。

⑤亞馬遜:去年初,AWS發布專為人工智能打造的Inferentia2(Inf2),計算性能提高三倍,加速器總內存提高25%,支持分布式推理。

通過芯片之間的直接超高速連接,Inf2支持分布式推理,可以處理多達1750億個參數,使其成為當今人工智能芯片市場上最強大的內部制造商。

單點突破有收獲,國產有望追平

與此同時,我國華為、天數智芯等AI芯片制造商也在積極布局大模型訓練推理及AI算力產品。

當前,我國廠商如寒武紀、燧原、昆侖芯等的產品已具備與市場主流的Tesla T4正面競爭的實力:其能效比為1.71TOPS/W,與T4的1.86TOPS/W差距微小。

選擇GPGPU的登臨科技、天數智芯、燧原科技已實現訓練與推理的全面覆蓋,而ASIC類芯片如平頭哥,則需專注于推理或訓練場景。

①億鑄科技:基于CIM框架、RRAM存儲介質的研發的[全數字存算一體]大算力芯片,通過降低數據搬運提高運算能效比,同時借助數字存算一體方法確保運算精度,適用于云端AI推理和邊緣計算。

②寒武紀:思元370作為寒武紀第三代云端產品,運用7納米制程工藝,成為我國首款采用Chiplet技術的AI芯片,其最大算力可達256TOPS(INT8)。

寒武紀主要采用ASIC架構,雖通用性較差,但在特定應用場景下,其算力可超越GPU。

有測試結果顯示,590性能接近A100的90%性能;590基本支持主流模型,綜合性能接近A100的80%水平。

此外,思元370也是寒武紀首款采用Chiplet技術的AI芯片,集成了390億個晶體管,最大算力高達256TOPS(INT8)。

③平頭哥:去年8月,平頭哥發布首個自研RISC-V AI平臺,支持運行170余個主流AI模型,推動RISC-V進入高性能AI應用時代。

同時,平頭哥宣布玄鐵處理器C920全新升級,C920執行GEMM計算較Vector方案可提速15倍。

④壁仞科技:其BR100系列基于自主原創的芯片架構開發,采用成熟的7納米工藝制程,集成770億晶體管,16位浮點算力達到1000T以上、8位定點算力達到2000T以上,單芯片峰值算力達到PFLOPS級別。

同時,BR100結合了包括Chiplet等在內的多項業內前沿芯片設計、制造與封裝技術,具有高算力、高能效、高通用性等優勢。

⑤燧原科技:成立5年多來,已建成云端訓練和云端推理兩條產品線,并開發出云燧T10、云燧T20/T21訓練產品以及云燧i10、云燧i20等推理產品。

據媒體報道,燧原科技第三代AI芯片產品將于今年初上市。

⑥華為:昇騰310是面向推理和邊緣計算場景的低功耗芯片,是國內面向邊緣計算場景最強算力的AI SoC。

昇騰310芯片可以實現高達16Tops的現場算力,支持同時識別包括車、人、障礙物、交通標志在內的200個不同的物體;一秒鐘內可處理上千張圖片。

華為昇騰系列AI芯片具備一項獨特優勢,即采用了華為自主研發的統一且可擴展的架構。

這一架構實現了從極低功耗到極高算力場景的全覆蓋,使得一次開發即可適用于所有場景的部署、遷移及協同,從而顯著提升了軟件開發效率。

結尾:

隨著大模型在各類場景中的應用日益廣泛,推理環節的重要性日益凸顯。

因此,我們需要關注推理芯片的計算需求和系統配置,以降低成本、提升易用性,進而促進大模型在各個領域的迅速普及。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265389
  • 中央處理器
    +關注

    關注

    1

    文章

    126

    瀏覽量

    17098
  • AI芯片
    +關注

    關注

    17

    文章

    2128

    瀏覽量

    36779
  • OpenAI
    +關注

    關注

    9

    文章

    1245

    瀏覽量

    10073
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5184

原文標題:深度丨AI芯片主戰場:從訓練轉向推理?

文章出處:【微信號:World_2078,微信公眾號:AI芯天下】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    HBM不再是主戰場?256TB、QLC、企業級…閃存激蕩AI存力

    電子發燒友網綜合報道,在今年的MemoryS 2025上最熱的話題當然是AI,DeepSeek徹底引爆存儲需求,例如企業級SSD不僅用于云端訓練,還將拓展到AI訓推一體機等場景。對數據中心AI
    發表于 03-17 09:14 ?1012次閱讀

    訓練推理:大模型算力需求的新拐點已至

    在大模型產業發展的早期階段,行業焦點主要集中在大模型訓練所需的算力投入。一個萬億參數大模型的訓練可能需要數千張GPU芯片連續運行數月,成本高達數千萬甚至上億元。但隨著大模型技術的成熟和應用落地,
    的頭像 發表于 02-05 16:07 ?809次閱讀
    <b class='flag-5'>從</b><b class='flag-5'>訓練</b>到<b class='flag-5'>推理</b>:大模型算力需求的新拐點已至

    AI推理芯片需求爆發,OpenAI欲尋求新合作伙伴

    領域占據主導,其GPU憑借強大的海量數據處理能力,成為全球AI爆炸式增長的重要基石。但隨著AI不斷演進,重點正從大規模訓練轉向對已訓練模型的
    的頭像 發表于 02-03 17:15 ?1999次閱讀

    智行者科技受邀出席2026中關村早期投資論壇

    “我們正站在特殊場景無人化的關鍵節點。無人駕駛主戰場,正從開放道路的‘競賽’,轉向特殊場景的‘深耕’。”
    的頭像 發表于 02-02 13:51 ?370次閱讀

    英偉達重磅出手!AI 推理存儲全面覺醒

    電子發燒友網報道(文/黃晶晶)近日,有消息稱,英偉達將以大約200億美元收購人工智能芯片初創公司Groq,這將是英偉達迄今為止規模最大的一筆收購。但英偉達回應表示,并未計劃收購Groq,僅達成技術
    的頭像 發表于 12-26 08:44 ?1.1w次閱讀
    英偉達重磅出手!<b class='flag-5'>AI</b> <b class='flag-5'>推理</b>存儲全面覺醒

    東軟集團斬獲多項行業權威大獎

    告別單點突破,邁向體系競爭,生態融合與持續進化成為2025智能汽車競爭的決勝主戰場
    的頭像 發表于 12-23 15:42 ?404次閱讀

    一文看懂AI訓練推理與訓推一體的底層關系

    我們正在參加全球電子成就獎的評選,歡迎大家幫我們投票~~~謝謝支持很多人聽過“大模型”,但沒搞懂兩件事。我們總說AI有多強,但真正決定AI能否落地的,是它的兩個階段:訓練(Training)和
    的頭像 發表于 09-19 11:58 ?2419次閱讀
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>訓練</b>、<b class='flag-5'>推理</b>與訓推一體的底層關系

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、分布式群體智能 1)物聯網AGI系統 優勢: 組成部分: 2)分布式AI訓練 7、發展重點:基于強化學習的后訓練推理 8、超越大模型:神經符號計算 三、AGI
    發表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    : 介紹了7家ASIC的新創公司: Tachyum、Cerebras、SambaNova、Graphcore、Esperanto、Groq、Etched AI 還介紹了中國的AI芯片
    發表于 09-12 16:07

    ?Groq LPU 如何讓萬億參數模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq LPU 如何讓萬億參數模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技? 最近,Moonshot AI 的千億參數大模型 ?Kimi K2? 在 ?GroqCloud? 上
    的頭像 發表于 08-07 10:01 ?978次閱讀

    AI推理芯片賽道猛將,200億市值AI芯片企業赴港IPO

    設計及商業化。公司推出了面向企業級、消費級、行業級三大類應用場景的行業領先的NPU驅動AI推理芯片相關產品及服務,成功打造了AI
    的頭像 發表于 08-04 09:22 ?4670次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>賽道猛將,200億市值<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企業赴港IPO

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    網絡智能診斷平臺。通過對私有化網絡數據的定向訓練,信而泰打造了高性能、高可靠性的網絡診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案實現了網絡全流量深度解析能力與AI智能推理
    發表于 07-16 15:29

    海思SD3403邊緣計算AI數據訓練概述

    AI數據訓練:基于用戶特定應用場景,用戶采集照片或視頻,通過AI數據訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練
    發表于 04-28 11:11

    谷歌新一代 TPU 芯片 Ironwood:助力大規模思考與推理AI 模型新引擎?

    Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項。 ? 在核心亮點層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設計的 TPU
    的頭像 發表于 04-12 00:57 ?3724次閱讀

    陣列云訓練推理

    在云場景下,陣列云(分布式計算集群)模型訓練推理的完整技術流程可結構化分解如下: 一、訓練階段技術實現 1,資源動態編排? 基于Kubernetes集群或云廠商彈性計算服務(如AW
    的頭像 發表于 03-28 08:32 ?671次閱讀