国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Groq推出大模型推理芯片 超越了傳統GPU和谷歌TPU

汽車電子設計 ? 來源:芝能汽車 ? 2024-02-26 10:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統GPU和谷歌TPU。該芯片采用了全球首個LPU方案,解決了計算密度和內存帶寬的瓶頸,推理速度提高了10倍,成本降低十分之一,性價比提高了100倍。芯片搭載了230MB大SRAM,內存帶寬高達80TB/s,算力強大,支持多種機器學習框架進行推理。 Groq在演示中展示了多種模型的強大性能,并宣稱在三年內將超越英偉達產品特色包括API訪問速度快、支持多種開源LLM模型、價格優勢等,成為大模型推理領域的新興力量。

Groq 公司的創始于2016年,旗艦產品是 Groq Tensor Streaming Processor Chip(TSP)和相應的軟件,主要應用于人工智能、機器學習、深度學習等領域。目標市場包括人工智能和機器學習超大規模應用、政府部門、高性能計算集群、自動駕駛車輛以及高性能邊緣設備。

Groq產品以其出色的推理性能、對多種開源LLM模型的支持以及具有競爭力的價格政策等特色,成為一個引人注目的選擇。這個芯片到底是怎么做的呢?

6563bedc-d440-11ee-a297-92fbcf53809c.png

Part 1

Groq的做法

隨著人工智能(AI)和高性能計算(HPC)的融合發展,對于同時處理AI和HPC工作負載的需求日益增加。在這一背景下,Groq公司推出了其最新的AI推理加速器,旨在簡化計算、提高效率,并實現更高的可擴展性,軟件定義張量流多處理器(TSP),采用了一種全新的硬件軟件結合的方法,為人工智能、機器學習和深度學習應用提供更高效的計算支持。

Groq AI推理加速器的設計思想是結合了HPC與AI的工作負載需求,提供了一種創新的可擴展計算架構。

相比傳統的GPU,GroqChip 1具有更簡化的編程模型,更高的響應速度以及更可靠的執行。該芯片擁有多個特色組件,包括高速網絡、數據交換器、指令控制、SRAM內存以及Groq TruePoint矩陣,使其具備了強大的計算能力和靈活性。

傳統的 CPU 架構在控制邏輯方面隱藏了大量復雜性,如緩存、預取、亂序執行和分支預測,但這些控制邏輯會減少可用于原始計算的面積。

與此相反,Groq 公司重新審視了硬件軟件的合約,創造出了更加可預測和基于流的硬件,并將更多的控制權交給了軟件。

硬件(CPU)定義了軟件,但隨著數據流型計算需求的增長以及摩爾定律和 Dennard 縮放的減速,CPU“抽象”不再是軟件開發的唯一基礎。因此,Hennessy 和 Patterson 提出了“計算機體系結構的新黃金時代”的觀點,Lattner 提出了“編譯器的新黃金時代”的觀點,Karpathy 則提出了“軟件 2.0”的概念,這都預示著硬件與軟件的抽象合約已經重新開啟,實現了“軟件定義硬件”的機會。

GroqChip 的可擴展架構以簡化計算,通過使用大量單級劃分 SRAM 和顯式分配張量,實現了可預測的性能。

此外,Groq 公司設計了功能劃分的微體系結構,重新組織了多核網格,使得編譯器可以對程序執行進行精確控制,從而提高了執行效率。

659b1602-d440-11ee-a297-92fbcf53809c.png

Groq AI推理加速器支持各種規模的計算節點,從單個卡片到整個機架,都能實現高效的并行計算。

65aae5d2-d440-11ee-a297-92fbcf53809c.png

通過GroqRack和GroqNode等組件的組合,用戶可以根據實際需求靈活搭建計算集群,實現對不同規模工作負載的處理。

Groq 公司提供了強大的編譯器支持,通過在編譯時和運行時之間建立靜態-動態接口和硬件-軟件接口,賦予了軟件更多的數據編排權力。該編譯器能夠實現 SOTA(State of the Art)級別的性能,對于一些重要的矩陣操作如通用矩陣乘法(GEMM),Cholesky 分解等,取得了令人矚目的成果。

65aff626-d440-11ee-a297-92fbcf53809c.png

在系統拓撲結構方面,Groq 公司采用了低直徑網絡 Dragonfly,以最小化網絡中的跳數,提高了數據傳輸效率。

同時,通過 Chip-to-Chip(C2C)鏈接和流量控制,實現了多芯片間的通信。此外,Groq 公司還提出了一種多芯片間的分區和流水線并行執行的方法,以進一步提高多芯片系統的性能。

65b4d1f0-d440-11ee-a297-92fbcf53809c.png

Part 2

實際案例

除了傳統的計算流體動力學(CFD)應用外,Groq AI推理加速器還可應用于圖神經網絡(GNN)等領域。GNN廣泛應用于非歐幾里得數據的建模和預測,例如化學分子結構、社交媒體推薦系統等。Groq芯片在處理這類非結構化數據時表現出色,通過深度學習算法的加速,能夠大幅提升模型訓練和推理的效率。軟件定義張量流多處理器提供了一種全新的硬件軟件結合的方法,通過重新審視硬件軟件合約,將更多的控制權交給了軟件,從而實現了更高效的計算性能。隨著人工智能和深度學習應用的不斷發展,這種方法將有望在未來的計算領域發揮重要作用。

在實際應用中,Groq AI推理加速器已經在化學分子屬性預測、藥物發現等領域取得了顯著的成果。

65d0a9f2-d440-11ee-a297-92fbcf53809c.png

借助其高性能和可擴展性,Groq芯片在處理大規模數據集時能夠實現極大的加速,從而提升了科學研究和工程實踐的效率。

65ff0b4e-d440-11ee-a297-92fbcf53809c.png

小結

總的來說,Groq AI推理加速器以其創新的設計思想和強大的性能,在處理融合HPC與AI工作負載的應用中展現出了巨大的潛力。隨著對于高性能計算和人工智能技術的不斷發展,相信Groq芯片將在各個領域展現出更廣泛的應用前景。

?



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265412
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136956
  • TSP
    TSP
    +關注

    關注

    1

    文章

    26

    瀏覽量

    17443
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5186
  • Groq
    +關注

    關注

    0

    文章

    9

    瀏覽量

    204

原文標題:Groq AI推理加速器: 三年內超越英偉達?

文章出處:【微信號:QCDZSJ,微信公眾號:汽車電子設計】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI推理芯片需求爆發,OpenAI欲尋求新合作伙伴

    領域占據主導,其GPU憑借強大的海量數據處理能力,成為全球AI爆炸式增長的重要基石。但隨著AI不斷演進,重點正從大規模訓練轉向對已訓練模型推理和推斷,推理已然成為新的競爭戰場。業內普
    的頭像 發表于 02-03 17:15 ?1999次閱讀

    曦望發布新一代推理GPU芯片,單位Token推理成本降低90%

    電子發燒友網報道 1月27日,國產GPU廠商曦望(Sunrise)重磅發布新一代推理GPU芯片——啟望S3。這是曦望在近一年累計完成約30億元戰略融資后的首次集中公開亮相。2025年,
    的頭像 發表于 01-28 17:38 ?8672次閱讀

    今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發布新一代推理GPU芯片啟望S3

    曦望發布新一代推理GPU芯片啟望S3 近日,浙江杭州GPU創企曦望(Sunrise)發布新一代推理GPU
    發表于 01-28 11:09 ?394次閱讀

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發表于 01-19 15:33 ?493次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    英偉達重磅出手!AI 推理存儲全面覺醒

    電子發燒友網報道(文/黃晶晶)近日,有消息稱,英偉達將以大約200億美元收購人工智能芯片初創公司Groq,這將是英偉達迄今為止規模最大的一筆收購。但英偉達回應表示,并未計劃收購Groq,僅達成技術
    的頭像 發表于 12-26 08:44 ?1.1w次閱讀
    英偉達重磅出手!AI <b class='flag-5'>推理</b>存儲全面覺醒

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設備的基礎運行;GPU憑借并行算力,成為AI訓練與圖形處理的“主力”;TPU在Google生態中深耕云端大模型訓練;NPU則讓AI從“云端”走向“身邊”(手機、手表
    的頭像 發表于 12-17 17:13 ?1750次閱讀
    AI硬件全景解析:CPU、<b class='flag-5'>GPU</b>、NPU、<b class='flag-5'>TPU</b>的差異化之路,一文看懂!?

    谷歌正式推出最新Gemini 3 AI模型

    今天我們正式推出 Gemini 3,這是我們迄今為止最智能的模型,能夠幫助用戶實現任何創意。Gemini 3 Pro 基于最先進的推理技術,與之前的版本相比,它在所有主要的 AI 基準測試中都取得了無與倫比的結果,尤其是在編程方
    的頭像 發表于 11-24 11:10 ?1224次閱讀
    <b class='flag-5'>谷歌</b>正式<b class='flag-5'>推出</b>最新Gemini 3 AI<b class='flag-5'>模型</b>

    谷歌云發布最強自研TPU,性能比前代提升4倍

    電子發燒友網報道(文/李彎彎)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU(張量處理器)“Ironwood”,該芯片預計在未來幾周內正式上市。 ? “Ironwood”由
    的頭像 發表于 11-13 07:49 ?8622次閱讀
    <b class='flag-5'>谷歌</b>云發布最強自研<b class='flag-5'>TPU</b>,性能比前代提升4倍

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    的我我們講解了這幾種芯片的應用場景,設計流程、結構等。 CPU: 還為我們講解了一種算法:哈希表算法 GPU: 介紹英偉達H100GPU
    發表于 09-12 16:07

    ?Groq LPU 如何讓萬億參數模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技

    開放預覽,引發了開發者社區的瘋狂討論——?為什么 Groq 能跑得這么快?? 傳統 AI 推理硬件(如 GPU)往往面臨一個兩難選擇: ? ?快?(但犧牲精度) ? ?準?(但延遲高到
    的頭像 發表于 08-07 10:01 ?978次閱讀

    模型推理顯存和計算量估計方法研究

    ,為實際應用提供有益的參考。 未來,我們將繼續深入研究大模型推理的優化方法,以降低顯存和計算資源的需求,提高深度學習模型在實際應用中的性能。
    發表于 07-03 19:43

    為什么無法在GPU上使用INT8 和 INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉換為 int 4 和 int8,并在 GPU 上使用 OpenVINO? 運行推理。 沒有可用的
    發表于 06-23 07:11

    Google推出第七代TPU芯片Ironwood

    在 Google Cloud Next 25 大會上,我們隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。這不僅是我們迄今為止性能最高、擴展性最佳的定制 AI 加速器,更是第一款專為
    的頭像 發表于 04-16 11:20 ?1773次閱讀
    Google<b class='flag-5'>推出</b>第七代<b class='flag-5'>TPU</b><b class='flag-5'>芯片</b>Ironwood

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發布 Ironwood,這是其第七代張量處理單元 (TPU
    的頭像 發表于 04-12 11:10 ?3743次閱讀
    <b class='flag-5'>谷歌</b>第七代<b class='flag-5'>TPU</b> Ironwood深度解讀:AI<b class='flag-5'>推理</b>時代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規模思考與推理的 AI 模型新引擎?

    電子發燒友網報道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據悉,該
    的頭像 發表于 04-12 00:57 ?3725次閱讀