国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SRAM,存儲器的新未來

旺材芯片 ? 來源:芯榜 ? 2023-11-12 10:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為什么 SRAM 被視為新型和傳統計算架構中的關鍵元素。

近日,半導體工程與Alphawave Semi首席技術官 Tony Chan Carusone 和Steve Roddy, Quadric首席營銷官;Jongsin Yun,西門子 EDA的內存技術專家,坐下來談論了人工智能和 SRAM 的最新問題。

SE:SRAM 有哪些關鍵特性使其適合 AI 工作負載?

Yun:SRAM與CMOS邏輯工藝兼容,這使得SRAM在將一種技術遷移到另一種技術時都會跟蹤邏輯性能的改進。SRAM 是芯片內本地可用的存儲器。因此,它提供即時訪問的數據,這就是它在人工智能應用程序中受到青睞的原因。憑借數十年的制造經驗,我們了解其大部分潛在問題以及如何最大化其效益。在性能方面,SRAM 是迄今為止我們所知道的性能最高的內存解決方案,使其成為人工智能的首選。

Roddy:SRAM 的數量是任何人工智能處理解決方案的關鍵要素,它的數量在很大程度上取決于您是在談論數據中心還是設備,或者是訓練還是推理。但我想不出有哪些應用程序在處理元件旁邊沒有至少大量的 SRAM,用于運行人工智能訓練或推理。任何類型的處理器都需要某種形式的 SRAM 作為暫存器、本地存儲器、存儲中間結果。無論您談論的 SoC 是否在計算引擎旁邊的芯片上具有合理數量的 SRAM,并且您在片外使用 DDR 或HBM之類的東西來保存模型的大部分內容,或者是否你說的是一個巨大的訓練芯片,里面有數百兆字節的 SRAM。無論哪種情況,您都需要在執行實際計算的乘法累加單元大陣列旁邊擁有良好、快速的 SRAM。這只是生活中的一個事實,剩下的問題就是一個平衡的問題。將運行什么樣的模型?模型是大還是?。窟@是高性能機器學習還是低性能、始終在線的機器學習?那么這就變成了一個問題:模型中的大部分激活位于推理期間還是訓練期間?某處總有 SRAM。它只是一個基于細節的架構權衡問題。

Chan Carusone:SRAM 對于 AI 至關重要,尤其是嵌入式 SRAM。它具有最高的性能,您可以將其直接與高密度邏輯集成。僅出于這些原因,它就很重要。邏輯的擴展性比 SRAM 更好。因此,SRAM 變得更加重要,并且占用了更大的芯片面積。一些處理器上有大量的 SRAM,這種趨勢可能會持續下去,這開始成為整個處理器的重要成本驅動因素。我們希望將盡可能多的計算集成到這些高性能訓練引擎上。隨著我們的進展,看看如何處理這個問題將會很有趣。您看到的一件事是,這些達到標線極限的大型芯片被分解為多個小芯片,并通過適當的互連使它們能夠充當一個大型芯片,從而集成更多的計算和更多的 SRAM。反過來,大量的 SRAM 進一步推動了向基于小芯片的實現的轉變。

Roddy:無論是數據中心還是兩美元的邊緣設備,機器學習都是一個內存管理問題。這不是一個計算問題。歸根結底,你要么擁有大量的訓練集,并且整天試圖在片外和片內來回洗牌,要么你正在迭代推理,你已經得到了一堆權重,你就會得到激活。不同風格的計算實現之間的所有架構差異都可以歸結為管理內存以及管理權重和激活流的不同策略,這在很大程度上取決于可用和選擇的內存類型。任何芯片架構師都在有效地規劃出適合其部署場景的內存層次結構,但在任何場景中,您都必須擁有 SRAM。

SE:內存架構會隨著 CXL 采用的擴大而發展嗎?

Chan Carusone:一系列新技術可能為計算機架構師提供新的優化機會。CXL 可能就是其中之一。另一個是 HBM,它可以實現密集的集成 DRAM 堆棧。隨著 EDA 工具和 IP 變得更容易實現這些類型的解決方案,可能會有一些實現,包括基于小芯片的架構。架構師必須使用各種新的旋鈕,這些旋鈕可能允許針對不同級別的緩存混合使用不同的內存技術。這為針對特定工作負載定制硬件解決方案創造了良好的機會,而無需從頭開始進行完整的新設計。

Yun:CXL就像是PCI Express的進化版。它提供 CPUGPU 和其他存儲器等設備之間的高速通信。它們提供一些緩存共享,因此允許設備之間進行一些通信和共享內存。使用這種解決方案,三星最近建議在 DRAM 內進行近內存計算,這可能會填充 L3 級別之后和主內存級別之后的一些內存層次結構。

Roddy:與四年前相比,我們現在獲得了更廣泛的模型尺寸動態范圍。大型語言模型 (LLM) 已經在數據中心存在了幾年,現在開始遷移到邊緣。您會看到人們談論在筆記本電腦上運行 70 億個參數的模型。在這種情況下,您希望將生成能力融入到您的 Microsoft 產品中。例如,當你被困在飛機上時,你無法訪問云端,但你希望能夠運行一個大模型。兩四年前還不是這樣,甚至人們在云端運行的模型也沒有這些700億到1000億參數的模型那么大。

SE:這有什么影響?

Roddy:它對系統中的內存總量以及在處理元素的“前門”暫存權重和激活的策略都有著巨大的影響。例如,在我們工作的設備領域,設備上或片上更大的 SRAM 的集成度要高得多。

然后是接口,無論是 DDR、HBM 還是 CXL 之類的東西,人們試圖弄清楚,“好吧,我有冷存儲,因為我已經將 100 億個參數模型存儲在某個地方了” ,以及我的高端手機中的所有其他元素?!蔽冶仨殞⑵鋸睦浯鎯χ腥〕觯湃肫狻皽卮鎯Α?、DDR、HBM,然后我必須快速將片上和片外的數據移至 SRAM(靠近我的計算元件) ,無論是我們的芯片,還是 NVIDIA 的芯片,等等。同樣的層次結構也必須存在。因此,這些接口的速度和功率對于系統的整體功率性能至關重要,而信號策略現在也將成為整體系統性能的關鍵因素。幾年前,人們將機器學習的效率視為硬件問題。如今,它更多地是一個離線提前編譯軟件的問題。我如何看待這個龐大的模型,我將對其進行多次排序(無論是訓練還是推理),以及如何以最智能的方式對數據中的張量進行排序以最小化接口?它已成為編譯器挑戰、MAC 效率挑戰。所有利用模擬計算或內存計算構建系統的早期嘗試,以及所有其他深奧的執行,都半途而廢了。人們現在意識到,如果我一遍又一遍地來回移動 1000 億字節的數據,那就是我需要解決的問題。不是,“我是否使用某種不消耗電力的奇怪預期邏輯來進行 8 x 8 乘法運算?”歸根結底,這只是整個問題的一小部分。

Chan Carusone:如果 SRAM 密度成為一個問題并限制芯片尺寸,那么可能會在內存應駐留的位置方面做出不同的權衡。CXL 等新技術工具的可用性可能會滲透并影響軟件的架構和構思方式,以及對于特定應用程序可能最有效的算法。這種相互作用將變得更加有趣,因為這些模型是如此巨大,以至于像這樣的正確決策可以對總功耗或模型實施成本產生巨大影響。

SE:SRAM 如何幫助平衡AI和其他系統的低功耗和高性能?

Chan Carusone:簡單的答案是,嵌入 SRAM 可以實現快速數據檢索并減少計算所需的延遲。它減少了芯片外的需要,芯片通常更耗電。每一筆片外交易的成本都更高。這是在用 SRAM 填充芯片和沒有任何剩余空間來執行邏輯之間的權衡。

Roddy:當你沿著邏輯和 SRAM 之間的技術曲線向下移動時,擴展差異與有關管理、功耗和可制造性的其他問題相互作用。例如,有很多人工智能推理或訓練架構都依賴于處理元素陣列。你會看到很多數據流類型的架構,很多矩陣計算引擎的數組。

我們在 Quadric 的架構有一個處理元素的二維矩陣,我們將 8 個 MAC、一些 ALU 和內存分塊,然后將其平鋪和擴展——與人們在具有大量著色器引擎或各種其他引擎的 GPU 中所做的事情沒有太大不同。數據流架構。當我們第一次實現我們的架構時,我們做了一個 16 納米的概念驗證芯片。我們選擇在每個計算元素旁邊放置多少內存是相當簡單的。我們在每一個 MAC 和 ALU 的小引擎旁邊都有一個 4k 字節的 SRAM,具有相同的邏輯塊,組織為 512 x 32 位。當你縮小規模時,突然你會看到 4nm,你會想,讓我們用觸發器來構建它,因為擁有所有 SRAM 結構的開銷并沒有像邏輯那樣擴展。在 4 納米,處理器設計人員是否需要思考:“我是否需要在本地計算引擎級別更改整個系統中的資源量?我是否應該增加內存大小以使其成為 SRAM 的有用大小?或者我是否需要從 SRAM 轉換為傳統的基于觸發器的設計?”但是,如果您談論的是汽車解決方案,那么這會改變可測試性和適合率方面的方程式。所以這里有很多事情在起作用,這些都是這個能力層次結構的一部分。

解決方案架構師需要了解的整個情況需要大量技能,例如流程技術、效率、內存和編譯器。這是一個不平凡的世界,這就是為什么有如此多的投資涌入這一領域。我們都希望這些聊天機器人能夠做出奇妙的事情,但目前還不清楚什么是正確的方法。這不是一個成熟的行業,你需要年復一年地進行增量設計。這些系統會在兩三年內發生根本性的變化。這就是它令人興奮的原因——但也很危險。

Chan Carusone:臺積電廣為人知的 FinFlex 技術可以提供另一種在功率與性能泄漏與面積之間進行權衡的途徑。另一個跡象是人們現在談論的是 8T 細胞而不是 6T 細胞。每個人都在推動這些設計,為不同的應用探索設計空間的不同部分。所有研發投資都說明了這一點的重要性。

Yun:使用觸發器作為存儲器是個好主意。我們可以更快地讀/寫,因為寄存器文件的翻轉速度比 L1 高速緩存快得多。如果我們使用它,這將是提高性能的最終解決方案。根據我的經驗,寄存器文件在處理瞬態缺陷方面比 SRAM 更穩健,因為它具有更強的下拉和上拉性能。如果我們有大量帶有微小存儲器的內核,并且內核中的這些存儲器由寄存器文件組成,那么這是一個非常好的解決方案。我唯一擔心的是寄存器文件使用比SRAM更大的晶體管,因此待機泄漏和動態功耗比SRAM高得多。當我們使用寄存器文件時,是否有解決方案來解決額外的功耗?

Roddy:然后你就會遇到寄存器文件分區、時鐘門控和斷電的問題。這是編譯器的挑戰,離線提前編譯,因此您將知道在任何給定時間點正在使用多少 reg 文件或內存。如果您在銀行中構建它,并且可以將其關閉,則可以減輕此類問題,因為對于在機器學習中運行的圖表的某些部分,您不需要所有內存。對于其他部分,您確實需要所有內存來啟動和關閉電源。我們正在對張量的形狀和大小以及張量的局部性進行大量復雜的分析。張量的移動成為一個大型的提前圖編譯問題,而不是 8 x 8 乘法或浮點乘法的優化。仍然重要的是,上面還有一個更高的杠桿點。通過優化操作順序,您可以盡早獲得更多的優勢,而不是在已經安排好之后再優化能效延遲。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲器
    +關注

    關注

    39

    文章

    7738

    瀏覽量

    171650
  • sram
    +關注

    關注

    6

    文章

    819

    瀏覽量

    117458
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136929

原文標題:SRAM,存儲器的新未來

文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【案例5.1】存儲器選型的考慮要點

    【案例5.1】存儲器選型的考慮要點某設計,用戶接口數據傳輸速率為10Gbps,每8個字節的數據對應一次查表需求,數據表存儲在由DDR4SDRAM組成的存儲器中。工程師需綜合考慮各方面要求,進行
    的頭像 發表于 03-04 17:20 ?173次閱讀
    【案例5.1】<b class='flag-5'>存儲器</b>選型的考慮要點

    VTI低功耗SRAM存儲器VTI508HB08

    VTI SRAM存儲器在現代芯片設計中的關鍵作用日益凸顯,尤其在高性能微處理中,其低功耗與高速特性已成為提升系統能效的關鍵。隨著半導體工藝持續升級,存儲器在整體芯片功耗中所占比例顯著
    的頭像 發表于 02-09 14:41 ?143次閱讀

    并行sram芯片介紹,并行sram芯片應用場景

    靜態隨機存取存儲器SRAM)是一種易失性存儲器,即在斷電后數據會丟失,但其無需刷新的特性與由晶體管觸發構成的存儲單元,確保了在持續供電期
    的頭像 發表于 02-02 15:02 ?191次閱讀
    并行<b class='flag-5'>sram</b>芯片介紹,并行<b class='flag-5'>sram</b>芯片應用場景

    低功耗并行SRAM存儲芯片新方案

    SRAM(靜態隨機存儲器)是一種在通電狀態下可保持數據不丟失的存儲器件,無需刷新即可持續工作,因此具有高速讀寫、響應及時的特點,廣泛應用于對實時性要求高的場景。
    的頭像 發表于 12-08 16:51 ?585次閱讀
    低功耗并行<b class='flag-5'>SRAM</b><b class='flag-5'>存儲</b>芯片新方案

    SRAM與DRAM的結構差異和特性區別

    在內存技術持續革新的今天,SRAM(靜態隨機存取存儲器)和DRAM(動態隨機存取存儲器)依然是計算系統中最核心的存儲組件。盡管出現了MRAM、ReRAM等新興
    的頭像 發表于 12-02 13:50 ?1238次閱讀

    雙口SRAM靜態隨機存儲器存儲原理

    在各類存儲設備中,SRAM(靜態隨機存儲器)因其高速、低功耗和高可靠性,被廣泛應用于高性能計算、通信和嵌入式系統中。其中,雙口SRAM靜態隨機存儲器
    的頭像 發表于 11-25 14:28 ?548次閱讀

    SRAM是什么,SRAM的芯片型號都有哪些

    在處理性能持續攀升的今天,存儲系統的速度已成為制約整體算力的關鍵瓶頸之一。作為最接近CPU核心的存儲單元,SRAM(靜態隨機存取存儲器)承
    的頭像 發表于 11-12 13:58 ?758次閱讀

    PSRAM融合SRAM與DRAM優勢的存儲解決方案

    PSRAM(偽靜態隨機存儲器)是一種兼具SRAM接口協議與DRAM內核架構的特殊存儲器。它既保留了SRAM無需復雜刷新控制的易用特性,又繼承了DRAM的高密度低成本優勢。這種獨特的設計
    的頭像 發表于 11-11 11:39 ?736次閱讀

    高速存儲器sram,帶ECC的異步SRAM系列存儲方案

    在要求高性能與高可靠性的電子系統中,存儲器的選擇往往成為設計成敗的關鍵。Netsol推出的高速異步SRAM系列,憑借其出色的性能表現與獨有的錯誤校正(ECC)能力,為工業控制、通信設備及高精度計算等應用提供了值得信賴的存儲解決方
    的頭像 發表于 11-05 16:21 ?392次閱讀

    Everspin存儲器8位并行總線MRAM概述

    在需要高速數據寫入與極致可靠性的工業與數據中心應用中,Everspin推出的8位位并行接口MRAM樹立了性能與耐用性的新標桿。這款Everspin存儲器MRAM與SRAM引腳兼容的存儲器,以高達35
    的頭像 發表于 10-24 16:36 ?651次閱讀

    spi psram偽靜態存儲器的特點是什么

    PSRAM之所以被稱為"偽靜態"存儲器,主要是因為其采用類SRAM的接口協議:只需要提供地址和讀寫命令就可以實現數據存取,無需像傳統DRAM一樣需要內存控制定期刷新數據單元。
    的頭像 發表于 10-23 14:29 ?409次閱讀

    MCU存儲器層次結構解析

    ? ? ? ?MCU的存儲器層次結構通過整合不同性能與功能的存儲單元,優化系統效率并滿足多樣化場景需求。其核心架構可分為以下層次: 一、寄存層(最高速) 定位?:集成于CPU內核中,直接參與運算
    的頭像 發表于 05-09 10:21 ?788次閱讀

    存儲器IC的應用技巧 【日 桑野雅彥】

    UV-EPROM的結構與使用方法,閃速存儲器的結構與使用方法,EEPROM的結構與使用方法, SRAM的結構與使用方法, 特殊的SRAM的結構與使用方法 ,DRAM的結構與使用方法,
    發表于 04-16 16:04

    瑞薩RA系列MCU FSP庫開發實戰指南(09)存儲器映射

    存儲器映射表,可以看到RA6M5芯片內部的存儲器被映射到這一整塊4G(0 ~0xFFFF FFFF)的地址空間中。我們還可以看到,除了寄存SRAM、Flash的地址空間區域以外,
    的頭像 發表于 04-16 15:52 ?1594次閱讀
    瑞薩RA系列MCU FSP庫開發實戰指南(09)<b class='flag-5'>存儲器</b>映射

    存儲器IC的應用技巧 [日 桑野雅彥]

    本書主要介紹了UV-EPROM的結構和使用方法,閃速存儲器的結構和使用方法,EEPROM的結構和使用方法, SRAM的結構與使用方法,特殊的SRAM的結構與使用方法,DRAM的結構與使用方法,
    發表于 03-07 10:52