国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用Chiplet解決ASIC在LLM上的成本問題

E4Life ? 來源:電子發燒友網 ? 作者:周凱揚 ? 2023-07-18 00:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發燒友網報道(文/周凱揚)雖說最近靠著GPT大語言模型的熱度,英偉達之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢了。未來隨著LLM的繼續發展,訓練與推理如果要花費同樣的硬件成本,那么即便是大廠也難以負擔。

所以不少廠商都在追求如何削減TCO(總擁有成本)的辦法,有的從網絡結構出發,有的從自研ASIC出發的,但收效甚微,到最后還是得花大價錢購置更多的GPU。而來自華盛頓大學和悉尼大學的幾位研究人員,在近期鼓搗出的Chiplet Cloud架構,卻有可能顛覆這一現狀。

TCO居高不下的因素

對于大部分廠商來說,純粹的TCO并不是他們考慮的首要因素,他們更關注的是同一性能下如何實現更低的TCO。當下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是內存帶寬。

比如在更小的batch size和普通的推理序列長度下,內存帶寬就會限制對模型參數的讀取,比如把參數從HBM加載到片上寄存器,因為全連接層中的GeMM(通用矩陣乘)計算強度不高,幾乎每次計算都需要加載新的參數。

而Chiplet Cloud為了獲得更好的TCO與性能比,選擇了片上SRAM而不是HBM的外部內存方案,將所有模型參數和中間數據(比如K和V向量等)緩存到片上內存中去,從而實現了比傳統的DDR、HBM2e更好的單Token TCO表現,同時也獲得了更大的內存帶寬。

Chiplet Cloud,作為基于chiplet的ASIC AI超算架構,正是專為LLM減少生成單個Token所需的TCO成本設計的。從他們給出的評估數據對比來看,與目前主流的GPU和TPU對比,只有Chiplet Cloud對于TCO/Token做了極致的優化。比如在GPT-3上,32個Chiplet Cloud服務器相較32個DGX A100服務器的TCO成本改善了94倍,在PaLM 540B上,30個Chiplet Cloud服務器相較64個TPUv4芯片將TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更靈活的Chiplet方案

為什么選擇Chiplet呢?我們先來看一個極端的堆片上內存的例子,也就是直接選擇晶圓級的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。該芯片基于7nm工藝下的一整片12英寸晶圓打造,集成了2.6萬億個晶體管,面積達到46255mm2,片上內存更是達到了40GB。

但這樣的巨芯設計意味著高昂的制造成本,所以Chiplet Cloud的研究人員認為更大的SRAM應該與相對較小的芯片對應,這樣才能減少制造成本,所以他們選擇了chiplet的設計方式。近來流行的Chiplet方案提高了制造良率,也減少了制造成本,允許在不同的系統層級上進行設計的重復利用。

以臺積電7nm工藝為例,要想做到0.1/cm2的缺陷密度,一個750mm2芯片的單價是一個150mm2芯片單價的兩倍,所以Chiplet的小芯片設計成本更低。重復利用的設計也可以進一步降低成本,加快設計周期,為ASIC芯片提供更高的靈活性。

Chiplet Cloud更適合哪些廠商

雖然論文中提到了不少Chiplet Cloud的優點,但這依然是一個尚未得到實際產品驗證的架構,擁有驗證實力的公司往往也只有微軟、谷歌、亞馬遜以及阿里巴巴這類具備芯片設計實力的公司。況且ASIC終究是一種特化的方案,最清楚云平臺計算負載需要哪些優化,還得是云服務廠商自己。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    463

    文章

    54010

    瀏覽量

    466045
  • asic
    +關注

    關注

    34

    文章

    1274

    瀏覽量

    124581
  • chiplet
    +關注

    關注

    6

    文章

    495

    瀏覽量

    13603
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1331
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    擁抱Chiplet,大芯片的必經之路

    本文轉自:半導體行業觀察隨著傳統芯片架構功耗、散熱和空間方面逼近物理極限,一種新型架構正在興起,有望為高性能計算(HPC)開辟一條新的發展道路。這種架構被稱為Chiplet架構
    的頭像 發表于 02-13 14:35 ?332次閱讀
    擁抱<b class='flag-5'>Chiplet</b>,大芯片的必經之路

    躍昉科技受邀出席第四屆HiPi Chiplet論壇

    隨著摩爾定律放緩與AI算力需求的爆發式增長,傳統芯片設計模式正面臨研發成本高昂、能耗巨大、迭代周期長的多重壓力。在此背景下,Chiplet(芯粒)技術成為推動集成電路產業持續演進的關鍵路徑。2025
    的頭像 發表于 12-28 16:36 ?691次閱讀
    躍昉科技受邀出席第四屆HiPi <b class='flag-5'>Chiplet</b>論壇

    PowerVRLLM加速:LLM性能解析

    作者:AlexPim,Imagination軟件架構FellowImagination,我們致力于加速大語言模型日常設備的運行。本系列關于大語言模型性能與加速的兩篇博客的首篇中
    的頭像 發表于 12-10 08:34 ?314次閱讀
    PowerVR<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b>加速:<b class='flag-5'>LLM</b>性能解析

    微弱信號采集 ASIC芯片 CBM12AD1X

    ASIC芯片
    芯佰微電子
    發布于 :2025年11月28日 15:04:53

    【CIE全國RISC-V創新應用大賽】+ 一種基于LLM的可通過圖像語音控制的元件庫管理工具

    成本下長時間的維持運營一個良好的庫存環境。本項目實現了多模態同步,項目中聯合調用了CV(OCR),ASR,LLM。 主要功能構想 ? 1.實現用戶將采購單或元器件標簽或元器件(下文稱輸入資料)放置或
    發表于 11-12 19:32

    解構Chiplet,區分炒作與現實

    ,對于芯片架構的設計需要什么、哪些技術已經成熟可用以及哪些創新即將出現,仍然存在不確定性。Chiplet開始廣泛應用之前,了解該技術及其配套生態系統至關重要。隨著
    的頭像 發表于 10-23 12:19 ?399次閱讀
    解構<b class='flag-5'>Chiplet</b>,區分炒作與現實

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現這一目標,其構建了多維度的核心實現路徑:一方面,針對需
    的頭像 發表于 10-21 11:04 ?1174次閱讀

    DeepSeek R1 MTPTensorRT-LLM中的實現與優化

    TensorRT-LLM NVIDIA Blackwell GPU 創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4450次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>中的實現與優化

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發表于 07-04 14:38 ?2184次閱讀

    使用 llm-agent-rag-llamaindex 筆記本時收到的 NPU 錯誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創建運行 llm-agent-rag-llamaindex notebook 的環境。 執行“創建
    發表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Lovelace
    的頭像 發表于 06-12 15:37 ?1881次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應用的最佳實踐

    淺談Chiplet與先進封裝

    隨著半導體行業的技術進步,尤其是摩爾定律的放緩,芯片設計和制造商們逐漸轉向了更為靈活的解決方案,其中“Chiplet”和“先進封裝”成為了熱門的概念。
    的頭像 發表于 04-14 11:35 ?1622次閱讀
    淺談<b class='flag-5'>Chiplet</b>與先進封裝

    Chiplet技術消費電子領域的應用前景

    探討Chiplet技術如何為智能手機、平板電腦等消費電子產品帶來更優的性能和能效比。
    的頭像 發表于 04-09 15:48 ?1062次閱讀
    <b class='flag-5'>Chiplet</b>技術<b class='flag-5'>在</b>消費電子領域的應用前景

    詳解 LLM 推理模型的現狀

    領域的最新研究進展,特別是自DeepSeekR1發布后興起的推理時間計算擴展相關內容。LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發表于 04-03 12:09 ?1611次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現狀

    Chiplet:芯片良率與可靠性的新保障!

    Chiplet技術,也被稱為小芯片或芯粒技術,是一種創新的芯片設計理念。它將傳統的大型系統級芯片(SoC)分解成多個小型、功能化的芯片模塊(Chiplet),然后通過先進的封裝技術將這些模塊連接在一起,形成一個完整的系統。這一技術的出現,源于對摩爾定律放緩的應對以及對芯片
    的頭像 發表于 03-12 12:47 ?2850次閱讀
    <b class='flag-5'>Chiplet</b>:芯片良率與可靠性的新保障!