国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達江郎才盡,下一代芯片架構變化只是封裝

佐思汽車研究 ? 來源:佐思汽車研究 ? 2023-09-28 15:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2023年8月23日,英偉達宣布下一代汽車芯片Thor量產時間略有推遲,正式量產在2026財年,英偉達的財政年度與自然年相差11個月,也就是說正式量產最遲可能是2026年1月。

FY2019-FY2024H1英偉達自動駕駛AI座艙業績情況

66a75e76-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

英偉達通常兩年升級一次芯片架構。在2022年英偉達透露即將在2024年推出Blackwell架構,而Thor也會采用Blackwell架構。

Blackwell是致敬美國統計學家,加利福尼亞大學伯克利分校統計學名譽教授,拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。

英偉達Blackwell架構

Blackwell架構將采用COPA-GPU設計。很多人認為COPA-GPU就是Chiplet,不過COPA-GPU不是嚴格意義上的Chiplet,眾所周知,英偉達一直對Chiplet缺乏興趣。在2017年英偉達曾提出非常近似Chiplet的MCM設計,但在2021年12月,英偉達發表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,應該就是Blackwell架構的論文,這篇論文則否定了Chiplet設計。

2017年6月英偉達發表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計。

MCM-GPU設計

671c1d56-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

MCM-GPU設計基本就是現在比較火爆的Chiplet設計,但英偉達一直未將MCM付諸實際設計中。英偉達一直堅持Monolithic單一光刻設計,這是因為die與die之間通訊帶寬永遠無法和monolithic內部的通訊帶寬相比,換句話說Chiplet不適合高AI算力場合,在純CPU領域是Chiplet的最佳應用領域。

MCM-GPU架構

672f363e-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

英偉達2017年論文提及的MCM-GPU架構如上圖。英偉達在MCM-GPU架構里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有點像交換或路由。GPM就是GPU模塊。

不同容量L1.5緩存下各種應用的速度對比

6747d770-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是英偉達2017年論文仿真不同容量L1.5緩存下各種應用的速度對比,不過彼時各種應用還是各種浮點數學運算和存儲密集型算子,而非深度學習

Transformer時代相對CNN時代,存儲密集型算子所占比例大幅增加。

67507312-5db1-11ee-939d-92fbcf53809c.png

676828b8-5db1-11ee-939d-92fbcf53809c.png

以上是Transformer的計算過程,在此計算過程中,矩陣乘法是典型的計算密集型算子,也叫GEMM(通用矩陣乘法)。存儲密集型算子分兩種,一種是矢量或張量的神經激活,多非線性運算,也叫GEMV (通用矩陣矢量乘法)。另一種是逐點元素型element-wise,典型的如矩陣反轉,實際沒有任何運算,只是存儲行列對調。

三星對GPT大模型workload分析

678f1b12-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

上圖中,在運算操作數量上,GEMV所占比例高達86.53%,在大模型運算延遲分析上,82.27%的延遲都來自GEMV;GEMM占比只有2.12%;非線性運算也就是神經元激活部分占的比例也遠高于GEMM。

三星對GPU利用率的分析

6799a14a-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

上圖可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數據的搬運。GPU的靈活性還是比較高的,如果換做靈活性比較差的AI專用加速器,如谷歌的TPU,那么GEMV的利用率會更低,不到10%甚至5%。

三星的GPT瓶頸分析

67b0019c-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

Roof-line訪存與算力模型

67cb4966-5db1-11ee-939d-92fbcf53809c.png

圖片來源:互聯網

上圖是鼎鼎大名的roof-line訪存與算力模型。

COPA-GPU架構

67d48008-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是2021年12月英偉達論文提出的COPA-GPU架構,實際就是把一個特別大容量的L2緩存die分離出來。因為如果還是monolithic設計,那么整個die的面積會超過1000平方毫米,不過***決定了芯片的最大die size不超過880平方毫米,所以必須將L2分離。

67ef0162-5db1-11ee-939d-92fbcf53809c.png

注:GPU-N就是英偉達的COPA-GPU。

圖片來源:英偉達

不同容量L2緩存對應的延遲

6805ca46-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是不同容量L2緩存對應的延遲情況,顯然L2緩存越高,延遲越低,不過在small-batch時不明顯。

幾種COPA-GPU的封裝分析

6814f318-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

從英偉達的論文里我們看不到架構方面的絲毫改進,只有封裝領域的改變。這篇論文實際應該由臺積電來寫,因為英偉達完全無法掌控芯片的封測工藝,CoWoS就是為英偉達這種設計而設計的,而CoWoS誕生在10年以前。

大模型不斷消耗更多的算力和存儲,這顯然違背了自然界效率至上的原則,或許人類正在錯誤的道路上狂奔。

免責說明:本文觀點和數據僅供參考,和實際情況可能存在偏差。本文不構成投資建議,文中所有觀點、數據僅代表筆者立場,不具有任何指導、投資和決策意見。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135423
  • 芯片架構
    +關注

    關注

    1

    文章

    32

    瀏覽量

    14878
  • 英偉達
    +關注

    關注

    23

    文章

    4086

    瀏覽量

    99165

原文標題:英偉達江郎才盡,下一代芯片架構變化只是封裝

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為在MWC 2026正式發布下一代WAN目標網架構

    在MWC26巴塞羅那期間,華為數據通信產品線總裁王雷在產品與解決方案發布會上正式發布了下一代WAN目標網架構。他表示,面向智能體互聯網時代,華為從安全韌性、多維感知、網絡自治三個維度全面升級IP承載網,助力運營商構建自主防御的網絡底座,保障體驗并加速增收,提升網絡效率,開
    的頭像 發表于 03-05 11:12 ?247次閱讀

    進迭時空再獲數億元融資,下一代 RISC-V AI 芯片 K3 即將發布

    進迭時空再獲數億元融資,下一代 RISC-V AI 芯片 K3 即將發布
    的頭像 發表于 01-15 19:07 ?371次閱讀
    進迭時空再獲數億元融資,<b class='flag-5'>下一代</b> RISC-V AI <b class='flag-5'>芯片</b>  K3 即將發布

    羅姆面向下一代800 VDC架構發布電源解決方案白皮書

    ROHM(羅姆半導體)宣布,作為半導體行業引領創新的主要企業,發布基于下一代800 VDC架構的AI數據中心用的先進電源解決方案白皮書。 本白皮書作為2025年6月發布的“羅姆為英偉達800V
    的頭像 發表于 11-04 16:45 ?735次閱讀

    Microchip推出下一代Switchtec Gen 6 PCIe交換芯片

    隨著人工智能(AI)工作負載和高性能計算(HPC)應用對數據傳輸速度與低延遲的需求持續激增,Microchip Technology Inc.(微芯科技公司)宣布推出下一代Switchtec Gen 6 PCIe交換芯片。
    的頭像 發表于 10-18 11:12 ?1729次閱讀

    Telechips與Arm合作開發下一代IVI芯片Dolphin7

    Telechips宣布,將在與 Arm的戰略合作框架下,正式開發下一代車載信息娛樂系統(IVI)系統級芯片(SoC)“Dolphin7”。
    的頭像 發表于 10-13 16:11 ?1167次閱讀

    英偉下一代Rubin芯片已流片

    為進入市場做準備,Rubin架構將會有6個芯片,這些芯片都已經流片。這消息在半導體和人工智能領域引起了廣泛關注,預示著英偉達在
    的頭像 發表于 09-12 17:15 ?1626次閱讀

    適用于下一代 GGE 和 HSPA 手機的多模/多頻段 PAM skyworksinc

    電子發燒友網為你提供()適用于下一代 GGE 和 HSPA 手機的多模/多頻段 PAM相關產品參數、數據手冊,更有適用于下一代 GGE 和 HSPA 手機的多模/多頻段 PAM的引腳圖、接線圖、封裝
    發表于 09-05 18:34
    適用于<b class='flag-5'>下一代</b> GGE 和 HSPA 手機的多模/多頻段 PAM skyworksinc

    安森美攜手英偉達推動下一代AI數據中心發展

    安森美(onsemi,美國納斯達克股票代號:ON)宣布與英偉達(NVIDIA)合作,共同推動向800V直流(VDC)供電架構轉型。這變革性解決方案將推動下一代人工智能(AI)數據中心
    的頭像 發表于 08-06 17:27 ?1476次閱讀

    驅動下一代E/E架構的神經脈絡進化—10BASE-T1S

    隨著“中央+區域”架構的演進,10BASE-T1S憑借其獨特優勢,將成為驅動下一代汽車電子電氣(E/E)架構“神經系統”進化的關鍵技術。
    的頭像 發表于 07-08 18:17 ?797次閱讀
    驅動<b class='flag-5'>下一代</b>E/E<b class='flag-5'>架構</b>的神經脈絡進化—10BASE-T1S

    下一代高速芯片晶體管解制造問題解決了!

    ,10埃)開始直使用到A7。 從這些外壁叉片晶體管的量產中獲得的知識可能有助于下一代互補場效應晶體管(CFET)的生產。 目前,領先的芯片制造商——英特爾、臺積電和三星——正在利用
    發表于 06-20 10:40

    下一代PX5 RTOS具有哪些優勢

    許多古老的RTOS設計至今仍在使用,包括Zephyr(1980年)、Nucleus(1990年)和FreeRTOS(2003年)。所有這些舊設計都有專有的API,通常更大、更慢,并且缺乏下一代RTOS的必要安全認證和功能。
    的頭像 發表于 06-19 15:06 ?1089次閱讀

    NVIDIA 采用納微半導體開發新一代數據中心電源架構 800V HVDC 方案,賦能下一代AI兆瓦級算力需求

    全球 AI 算力基礎設施革新迎來關鍵進展。近日,納微半導體(Navitas Semiconductor, 納斯達克代碼:NVTS)宣布參與NVIDIA 英偉達(納斯達克股票代碼: NVDA) 下一代
    發表于 05-23 14:59 ?3062次閱讀
    NVIDIA 采用納微半導體開發新<b class='flag-5'>一代</b>數據中心電源<b class='flag-5'>架構</b> 800V HVDC 方案,賦能<b class='flag-5'>下一代</b>AI兆瓦級算力需求

    光庭信息推出下一代整車操作系統A2OS

    ,正式推出面向中央計算架構、支持人機協同開發的下一代整車操作系統A2OS(AI × Automotive OS),賦能下一代域控軟件解決方案的快速研發,顯著提升整車智能化水平。 A2OS 核心
    的頭像 發表于 04-29 17:37 ?1357次閱讀
    光庭信息推出<b class='flag-5'>下一代</b>整車操作系統A2OS

    麥格納與英偉達達成戰略協作 共塑下一代智能出行藍圖

    麥格納將集成基于英偉達 DRIVE Thor SoC 系統級芯片的 NVIDIA DRIVE AGX平臺,用于下一代汽車智能技術 雙方的合作將為高級駕駛輔助系統 (ADAS) 和自動駕駛系統提供由人
    的頭像 發表于 03-19 21:52 ?454次閱讀
    麥格納與<b class='flag-5'>英偉</b>達達成戰略協作 共塑<b class='flag-5'>下一代</b>智能出行藍圖

    Imagination與瑞薩攜手,重新定義GPU在下一代汽車中的角色

    汽車架構正在經歷場巨大的變革,傳統的分布式架構正逐漸被更具有成本效益的集中式模型所取代。僅這點變化便將顯著提升下一代汽車SoC的計算需求;
    的頭像 發表于 03-12 08:33 ?787次閱讀
    Imagination與瑞薩攜手,重新定義GPU在<b class='flag-5'>下一代</b>汽車中的角色