国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

車載大模型分析揭示:存儲帶寬對性能影響遠超算力

佐思汽車研究 ? 來源:未知 ? 2024-11-09 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

車載大模型的定義尚無,傳統大模型即LLM的參數一般在70億至2000億之間,而早期的CNN模型參數通常不到1000萬,CNN模型目前大多做骨干網使用,參數飛速增加。特斯拉使用META的RegNet,參數為8400萬,消耗運算資源很少,得分82.9也算不低;小米UniOcc使用META的ConvNeXt-B,參數8900萬,消耗運算資源最少,得分83.8;華為RadOcc使用微軟的Swin-B,參數8800萬。相對于早期的CNN模型,這些都可以叫大模型,但要與真正意義上的ChatGPT之類的LLM大模型比,這些是小模型都稱不上,只能叫微模型。

不過,端到端的出現改變了這一現狀,端到端實際上是內嵌了一個小型LLM,隨著喂養數據的增加,這個大模型的參數會越來越大,最初階段的模型大小大概是100億參數,不斷迭代,最終會達到1000億以上。非安全類的大模型應用基本不用考慮計算問題,所以只要是個手機都敢說能跑數百億的大模型,實際很多算力不如手機的電腦也能跑,因為延遲多幾秒幾十秒也沒有問題,但自動駕駛必須將延遲降低到幾十毫秒內。但你要以為這對算力要求更高了,那就大錯特錯了,存儲帶寬遠比算力重要千倍。

當前的主流 LLM 基本都是Decoder Only的Transformer模型,其推理過程可分為兩個階段:

d3575588-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文 A Survey on Efficient Inference for Large Language Models

Prefill:根據輸入Tokens(Recite, the, first, law, of, robotics) 生成第一個輸出 Token(A),通過一次Forward就可以完成,在Forward中,輸入Tokens間可以并行執行(類似 Bert這些Encoder模型),因此執行效率很高。

Decoding:從生成第一個Token(A)之后開始,采用自回歸方式一次生成一個Token,直到生成一個特殊的Stop Token(或者滿足用戶的某個條件,比如超過特定長度)才會結束,假設輸出總共有N個Token,則Decoding階段需要執行N-1次Forward,這N-1次Forward 只能串行執行,效率很低。另外,在生成過程中,需要關注的Token越來越多(每個Token 的生成都需要Attention之前的Token),計算量也會適當增大。

LLM推理計算過程時間分布

d383974c-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

在車載自動駕駛應用場合,序列長度基本可等同于攝像頭的像素數量和激光雷達的點云密度。

d3adee5c-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference

在 LLM 推理中最關鍵的就是上圖中的Multi-Head Attention(MHA),其主要的計算集中在左圖中灰色的 Linear(矩陣乘)和Scaled Dot-Product Attention中的MatMul 矩陣乘法。

圖中的Mask是一個下三角矩陣,也是因為這個下三角矩陣實現了LLM Decoder的主要特性,每個Token都只能看到當前位置及之前的Token。其中的QKV可以理解為一個相關性矩陣,4個Token對應4 個Step,其中:

Step 2依賴Step 1的結果,相關性矩陣的第1行不用重復計算。

Step 3依賴Step 1和Step 2的結果,相關性矩陣的第1行和第2行不用重復計算。

Step 4依賴Step 1、Step 2和Step 3的結果,相關性矩陣的第1行、第2行和第3行不用重復計算。

在Decoding階段Token是逐個生成的,上述的計算過程中每次都會依賴之前的結果,換句話說這是串行計算,而非GPU擅長的并行計算,GPU大部分時候都在等待數據搬運。加速的辦法是計算當前Token時直接從KV Cache中讀取而不是重新計算,對于通用LLM,應用場景是要考慮多個并發客戶使用,即Batch Size遠大于1,KV Cache的緩存量會隨著Batch Size暴增,但在車里用戶只有一個,就是自動駕駛端到端大模型,即Batch Size為1。

因為Decoding階段Token逐個處理,使用KV Cache之后,上面介紹的Multi-Head Attention 里的矩陣乘矩陣操作全部降級為矩陣乘向量即GEMV。此外,Transformer模型中的另一個關鍵組件FFN 中主要也包含兩個矩陣乘法操作,但 Token之間不會交叉融合,也就是任何一個Token都可以獨立計算,因此在Decoding階段不用Cache之前的結果,但同樣會出現矩陣乘矩陣操作降級為矩陣乘向量。Prefill階段則是GEMM,矩陣與矩陣的乘法。

矩陣乘向量操作是明顯的訪存bound,而以上操作是LLM推理中最主要的部分,這也就導致LLM推理是訪存bound類型。

三星對GPT大模型workload分析

d3dfe038-903e-11ef-a511-92fbcf53809c.png

圖片來源:SAMSUNG

上圖是三星對GPT大模型workload分析。在運算操作數量上,GEMV所占的比例高達86.53%;在大模型運算延遲分析上,82.27%的延遲都來自GEMV,GEMM所占只有2.12%,非線性運算也就是神經元激活部分占的比例也遠高于GEMM。

三星對GPU利用率的分析

d41bc45e-903e-11ef-a511-92fbcf53809c.png

圖片來源:SAMSUNG

上圖是三星對GPU利用率的分析,可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數據的搬運。還有如矩陣反轉,嚴格地說沒有任何運算,只是存儲行列對調,完全是存儲器和CPU在忙活。解決辦法很簡單且只有一個,就是用HBM高寬帶內存。

與傳統LLM最大不同就是車載的Batch Size是1,導致GPU運算效率暴跌,傳統LLM的Batch Size通常遠大于1,這讓GPU效率增加。

d44a5206-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文SARATHI: Effcient LLM Inference by Piggybacking Decodes with Chunked Preflls

圖上不難看出,Batch Size越大,推理速度反而越快,但KV Cache容量會暴增;車載的Batch Size是1,推理速度反而很慢,好處是根本不用考慮KV Cache的容量。

最終我們可以得出結論,存儲帶寬決定了推理計算速度的上限。假設一個大模型參數為70億,按照車載的INT8精度,它所占的存儲是7GB,如果是英偉達的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個token,這個就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s,即每110毫秒生成一個token,幀率不到10Hz,自動駕駛領域一般圖像幀率是30Hz;英偉達的Orin存儲帶寬是204.5GB/s,即每34毫秒生成一個token,勉強可以達到30Hz,注意這只是計算的數據搬運所需要的時間,數據計算的時間都完全忽略了,實際速度要遠低于這個數據。并且一個token也不夠用,至少需要兩個token,端到端的最終輸出結果用語言描述就是一段軌跡,比如直行,直行需要有個限制條件,至少有個速度的限制條件,多的可能需要5個以上token,簡單計算即可得出存儲帶寬需要1TB/s以上。

實際情況遠比這個復雜的多。車載領域不是傳統LLM使用CPU和GPU分離形式,車載領域的計算SoC都是將CPU和AI運算部分合二為一,AI運算部分通常是GPU或加速器是和CPU共享內存的。而在非車載領域,GPU或AI運算部分有獨立的存儲,即顯存。車載領域共享內存一般是LPDDR,它主要是為CPU設計的,注重速度即頻率而非帶寬。不像顯存,一般是GDDR或HBM,注重帶寬,不看重頻率高低。上述所有理論都是基于顯存的,在車載領域共享LPDDR,其性能遠遠低于單獨配置的顯存,無論是速度還是容量,共享存儲都必須遠比單獨的顯存要高才能做到大模型推理計算。

理想用英偉達Orin做了測試,純端到端模式延遲高達1.5秒。

d4829288-903e-11ef-a511-92fbcf53809c.png

圖片來源:論文DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

所以車載領域存儲比算力重要很多,最好的解決辦法是HBM,但太貴了,32GB HBM2最低成本也得2000美元,汽車領域對價格還是比較敏感的,退而求其次,就是GDDR了。GDDR6的成本遠低于HBM,32GB GDDR6大概只要180美元或更低。

幾代GDDR的性能對比

d4b3bd5e-903e-11ef-a511-92fbcf53809c.png

整理:佐思汽研

基本上GDDR6的理論上限就是672GB/s,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量為32GB,型號為MT61M512M32KPA-14,頻率1750MHz(LPDDR5最低也是3200MHz之上),是第一代GDDR6,速度較低。即使用了GDDR6,要流暢運行百億級別的大模型,還是無法實現,不過已經是目前最好的了。

GDDR7正式標準在2024年3月公布,不過三星在2023年7月就發布了全球首款GDDR7,目前SK Hynix和美光也都有GDRR7產品推出。有些人會說,換上GDDR7顯存不就行了,當然沒那么容易,GDDR需要特殊的物理層和控制器,芯片必須內置GDDR的物理層和控制器才能用上GDDR,Rambus和新思科技都有相關IP出售。

d5223054-903e-11ef-a511-92fbcf53809c.png

圖片來源:網絡

在芯片領域,GDDR7增加的成本和LPDDR5X一樣的。

特斯拉的HW4.0過了一年半毫無動作,筆者認為特斯拉的第二代FSD芯片顯然是落伍了,特斯拉也不打算大規模用了,特斯拉的第三代FSD芯片應該正在開發中,可能2025年底就完成開發,至少支持GDDR6X。

大模型時代,Attention Is All You Need,同樣大模型時代 Memory Is All You Need。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲
    +關注

    關注

    13

    文章

    4791

    瀏覽量

    90061
  • 帶寬
    +關注

    關注

    3

    文章

    1040

    瀏覽量

    43370
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1331

原文標題:車載大模型計算分析:存儲帶寬遠比算力重要

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    湘軍,讓變成生產

    腦極體
    發布于 :2025年11月25日 22:56:58

    與電力的終極博弈,填上了AIDC的“電力黑洞”

    ),專注于提供人工智能訓練與推理所需的服務、數據服務和算法服務。AIDC采用異構計算架構,結合GPU、FPGA、ASIC等多種AI加速芯片,形成高并發分布式系統,以滿足大模型訓練和推理的極高
    的頭像 發表于 09-22 02:43 ?8417次閱讀

    不夠、交付太慢?捷智裸金屬租賃對標物理機性能,讓你立馬用上高

    2025年國產大模型升級帶動租賃需求爆發,高性能服務器“一機難求”。中研普華預測,今年我
    的頭像 發表于 09-12 20:06 ?1322次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不夠、交付太慢?捷智<b class='flag-5'>算</b>裸金屬租賃對標物理機<b class='flag-5'>性能</b>,讓你立馬用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    科技上線赤兔推理引擎服務,創新解鎖FP8大模型

    模型輕量化部署方案。用戶通過遠程平臺預置的模型鏡像與AI工具,僅需50%的GPU即可解
    的頭像 發表于 07-30 21:44 ?908次閱讀

    揭秘瑞芯微協處理器,RK3576/RK3588強大搭檔

    側部署大模型提供了強有力的支持。下面,就由觸覺智能從多個角度,為您解析瑞芯微協處理器性能特性。Gongga1協處理器特性先進封裝技術,打破端側部署大
    的頭像 發表于 07-17 10:00 ?1292次閱讀
    揭秘瑞芯微<b class='flag-5'>算</b><b class='flag-5'>力</b>協處理器,RK3576/RK3588強大<b class='flag-5'>算</b><b class='flag-5'>力</b>搭檔

    億鑄科技入圍工信部強基揭榜行動

    、網絡、計算的協同優化,旨在通過模型加速與調度加速等創新方法,實現大規模異構集群在大模型推理場景下的性能躍升,為我國人工智能產業提供更具
    的頭像 發表于 06-30 14:57 ?1098次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    前言 【「芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中的芯片知識是比較接近當前的頂尖芯片水平的,同時包含了芯片架構的基礎知識,但該部分知識比較晦澀難懂,或許是由于我一
    發表于 06-18 19:31

    華為助力互聯網跨域間無損互聯

    近日,NIDA發布的《工信部首提數據通信產業,賦能互聯網新征程》一文引發廣泛關注。文章解讀工信部最新發布的《互聯互通行動計劃》,清晰地揭示
    的頭像 發表于 06-14 11:17 ?1245次閱讀

    網絡的“神經突觸”:AI互聯技術如何重構分布式訓練范式

    過程中,由于單個AI芯片的提升速度無法跟上模型參數的增長速率,再加上龐大的模型參數和訓練數據,已遠遠超出單個AI芯片甚至單臺服務器的能力
    的頭像 發表于 06-08 08:11 ?7442次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>網絡的“神經突觸”:AI互聯技術如何重構分布式訓練范式

    搭建中心,從了解的GPU 特性開始

    的需求也在不斷攀升。無論是企業進行數據分析模型訓練,還是科研機構開展復雜的科學計算,都需要強大的
    的頭像 發表于 04-24 11:08 ?3368次閱讀
    搭建<b class='flag-5'>算</b><b class='flag-5'>力</b>中心,從了解的GPU 特性開始

    芯片的生態突圍與革命

    電子發燒友網報道(文 / 李彎彎)大芯片,即具備強大計算能力的集成電路芯片,主要應用于高性能計算(HPC)、人工智能(AI)、數據中心、自動駕駛等需要海量數據并行計算的場景。隨著 AI 與大數
    的頭像 發表于 04-13 00:02 ?3245次閱讀

    智能最具潛力的行業領域

    ?; 數據治理與聯合創新?:民生銀行與華為、阿里云等共建AI實驗室,通過“數據湖+模型體系”提升服務精準度?; 需求驅動?:金融大模型推理對GPU
    的頭像 發表于 04-11 08:20 ?1398次閱讀
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b>最具潛力的行業領域

    DeepSeek推動AI需求:800G光模塊的關鍵作用

    隨著人工智能技術的飛速發展,AI需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務對的需求持續攀升,直接推動了服務
    發表于 03-25 12:00

    接棒,慧榮科技以主控技術突破AI存儲極限

    電子發燒友網報道(文/黃山明)在AI的高速增長下,尤其是以DeepSeek為代表的AI大模型推動存儲需求激增,增長倒逼存升級。而
    的頭像 發表于 03-19 01:29 ?2832次閱讀
    存<b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧榮科技以主控技術突破AI<b class='flag-5'>存儲</b>極限

    AI 報告來了!2025中國AI市場將達 259 億美元

    報告來源:IDC、浪潮信息2月13日,國際數據公司(IDC)攜手浪潮信息,重磅發布《2025年中國人工智能計算發展評估報告》。當下,大模型與生成式人工智能熱度飆升,需求水漲船高,
    的頭像 發表于 03-07 13:27 ?2314次閱讀
    AI <b class='flag-5'>算</b><b class='flag-5'>力</b>報告來了!2025中國AI<b class='flag-5'>算</b><b class='flag-5'>力</b>市場將達 259 億美元