91精品国产综合久久香蕉,亚洲精品久久久精品,经典久久

智能駕駛芯片排名并不簡單只看AI算力，CPU、存儲帶寬、功耗和AI算力數值一樣重要，這個下文會詳細分析。CPU算力也很重要，智能駕駛系統軟件異常復雜，會消耗大量的CPU運算資源，軟件系統包含眾多中間件諸如SOME/IP、自適應AUTOSAR、DDS、ROS等，基礎軟件包括訂制的Linux BSP、OS抽象層、虛擬機，還有與底層硬件關聯的內存管理、各種驅動、各種通訊協議等等。除此之外，應用層中的路徑規劃、高精度地圖、行為決策等也大量消耗CPU資源，同時CPU也管理AI運算時的任務調度、存儲搬運指令等，整體的任務調度、決策自然也是CPU的任務。CPU是絕對的核心，AI是CPU的附屬功能，只是在做圖像特征提取、分類、BEV變換、矢量地圖映射或空間分布占有時才用到AI。

排名的權重依次是AI算力、存儲帶寬、CPU算力、GPU算力、制造工藝。存儲帶寬和AI算力同等權重，GPU也是錦上添花，大部分車載AI處理部分只能對應INT8位數據，而GPU可以對應FP32數據，有些時候可能有很大作用。實際AI算力數字完全是個黑箱，操作空間極大，參考意義不大。最能準確衡量算力的是MAC陣列數量，谷歌的TPU V1是65000個FP16 MAC，運行頻率0.7GHz，那么算力就是65000*0.7G*2=91TOPS。特斯拉第一代FSD兩個NPU，每個NPU是9216個INT8 MAC，運行頻率是2GHz，算力就是2*2*2G*9216=73.7TOPS。制造工藝方面，自然還是越先進，功耗越低。

智能駕駛芯片TOP20

圖片來源：公開資料整理

如何計算存儲帶寬，芯片本身都有存儲管理器，這通常是CPU的一部分，決定存儲帶寬的有兩點，首先是CPU支持的存儲類型，即存儲的物理層和控制器，其次是CPU的存儲帶寬，LPDDR的存儲帶寬最高一般是256比特，GDDR可以到384比特，HBM可以到4096甚至8192比特，這些都關聯成本，廠家在設計芯片時，會在成本和性能之間找一個平衡點，有些廠家偏重成本，那就64比特甚至32比特，有些偏重性能，如真正的AI芯片，無一例外都是HBM的，成本都在1500美元以上。

常見汽車內存性能與價格對比

圖片來源：公開資料整理

上表為常見汽車內存性能與價格對比，顯然，一分價錢一分貨。英偉達H100是HBM3的最大采購者，每GB的采購價格大約14美元。還有一點需要指出，目前沒有車規級GDDR6存儲芯片。

目前智能駕駛芯片除了百度和特斯拉，都采用了LPDDR。

歷代LPDDR的參數

圖片來源：公開資料整理

存儲帶寬等于CPU的存儲位寬乘以存儲器的Datatransfer rate, DDR (MT/s)再除以8換算為大寫的GB，例如英偉達Orin其存儲位寬是256比特，支持LPDDR5，傳輸速率為6400MT/s，那么存儲帶寬為256*6400M/8=204.8GB/s，再比如特斯拉一代FSD，存儲位寬是128比特，支持LPDDR4，傳輸速率為3200MT/s，存儲帶寬就是128*3200M/8=51.2GB/s。

存儲帶寬如此重要的原因是Roof-line模型，Roof-lineModel 解決的，是“計算量為A且訪存量為B的模型在算力為C且帶寬為D的計算平臺所能達到的理論性能上限E是多少”這個問題。

模型計算量指的是輸入單個樣本（對于CNN而言就是一張圖像），模型進行一次完整的前向傳播所發生的浮點運算個數，也即模型的時間復雜度，單位是FLOPS。訪存量：指的是輸入單個樣本，模型完成一次前向傳播過程中所發生的內存交換總量，也即模型的空間復雜度。在理想情況下（即不考慮片上緩存），模型的訪存量就是模型各層權重參數的內存占用（Kernel Mem）與每層所輸出的特征圖的內存占用（Output Mem）之和。計算量除以訪存量就可以得到模型的計算強度I (Intensity)，它表示此模型在計算過程中，每Byte內存交換到底用于進行多少次浮點運算。單位是FLOP/Byte。模型在計算平臺上所能達到的每秒浮點運算次數（理論值）。單位是 FLOP/s，即P。

算力決定“屋頂”的高度（綠色線段），帶寬決定“房檐”的斜率（紅色線段）

模型計算的理論性能自然不可能超過其硬件的最大理論性能，如果有一個異常消耗算力的模型，其需要的算力超過了計算平臺的理論性能，那么計算平臺的利用率是100%，也就是紅色線段部分，這時的風險就是處理圖像的幀率或者說FPS會達不到目標幀率，對智能駕駛來說，主流幀率是30FPS，低速智能駕駛可以再降低一點，高速需要再升高一點。由于需要的算力太高，計算平臺滿負荷運轉也無法適應，幀率會下降，此時高速行駛的話就會有風險，一般來說，廠家不會推薦算力需求遠超理論性能上限的模型。

在低于100%利用率的綠色線段部分，模型理論性能 P 的大小完全由計算平臺的帶寬上限（房檐的斜率）以及模型自身的計算強度 I (Intensity)所決定，因此這時候就稱模型處于 Memory-Bound 狀態。可見，在模型處于帶寬瓶頸區間的前提下，計算平臺的帶寬即房檐越陡，或者說模型的計算強度 I 越大，模型的理論性能 P 可呈線性增長。斜率越低，意味著即使計算強度快速增加，計算平臺算力的增加還是很緩慢，計算平臺的利用率很低，比如計算平臺的理論算力是100TOPS，斜率很低，很高計算強度的模型利用率也可能不到50%，換句話說，存儲帶寬決定了計算平臺的性能利用率，因此存儲帶寬重要性絲毫不亞于算力，甚至高于算力。這也是為何特斯拉二代FSD排名第二的主要原因，GDDR6的帶寬相對LPDDR有壓倒性優勢。

特斯拉第二代FSD

圖片來源：網絡

特斯拉第二代FSD采用了三星的7納米工藝，之所以用三星代工，主要可能還是價格和地理因素，三星代工的價格遠低于臺積電，只有臺積電價格的一半左右，臺積電的亞利桑那廠效率低下，從2020年開工建設，預計到2025年才能投產，而三星的德克薩斯奧斯汀二代工廠僅用兩年就完工投產，而特斯拉總部離奧斯汀也很近。第一代FSD使用三星的14納米工藝，WikiChip的數據顯示，三星7nm LPP HD高密度cell方案的晶體管密度在95.08 MTr/mm2，而HP高性能方案的晶體管密度則在77.01 MTr/mm2；三星14納米UHP方案的晶體管密度則在26.22MTr/mm2，HP方案晶體管密度則在32.94 MTr/mm2，基本上三星7納米是14納米密度的3倍以上，意味著特斯拉至少可以塞進3倍多的MAC陣列，AI性能可以提升三倍，一代FSD的AI性能是73.7TOPS@INT8，3倍就是221.1，再像英偉達那樣搞個稀疏模型加速，算力數字可以再增長一倍，加上二代FSD芯片面積明顯比一代要大，且NPU增加到3個，因此估計算力在500TOPS上下。特斯拉二代FSD也大幅度加強了CPU，使用三星Exynos 20核心配置，這也說明CPU在智能駕駛中很重要。

安霸的CV3熟悉的人可能不多，其存儲帶寬支持最高的LPDDR5X，且是最高的256比特，采用三星的5納米工藝制造，目前得到了德國大陸汽車公司的支持。

安霸CV3-AD內部框架圖

圖片來源：Ambarella

安霸CV3-AD最高包括了16核心的Coretex-A78AE，CPU算力也是極高。也通過了ASIL-B級認證。AI算力方面是等效于500TOPS。英偉達的位寬是256比特，特斯拉和Mobileye大多是128比特，征程6未公布存儲信息。

百度的昆侖芯2很少人知曉，實際這不能算百度的，它是百度芯片部分獨立后的產物，公司全稱是昆侖芯（北京）科技有限公司，前身為百度智能芯片及架構部，于2021年4月完成獨立融資，首輪估值約130億元。2022年11月29日，在百度Apollo Day技術開放日上，第二代昆侖芯在百度無人駕駛車輛RoboTaxi的駕駛系統上已經做了完整的適配，在高階自動駕駛系統中運行正常。2011年,昆侖芯科技正式獨立，開始從事AI計算相關的工作，早期使用FPGA芯片來對AI進行計算加速。2011-2015年之間，昆侖芯科技部署了超過5000片FPGA芯片用在百度數據中心，到了2017年累計部署超過12000片的FPGA芯片。并在2018年決定自研AI芯片，正式啟動昆侖芯系列產品的研發和設計。2020年，第一代昆侖芯開始大規模地部署，2022年，第二代昆侖芯在數據中心、工業領域、自動駕駛等領域大規模地部署和落地。第一代昆侖芯是14納米的人工智能芯片, 這款芯片采用了先進的HBM內存、2.5D的封裝，芯片剛量產就在百度數據中心里面部署了超過2萬片。一年后第二代昆侖芯量產，采用了更先進的7納米工藝、XPU第二代的架構，也是業界第一顆采用GDDR6高速顯存技術的AI芯片。昆侖芯科技正在研發更先進的第三代AI芯片,針對高階自動駕駛系統，未來會考慮推出定制的車規高性能的SoC（系統級芯片）。

英偉達對存儲系統一向比較重視，全線都是最高的256比特。高通SA8650與座艙領域的SA8255非常近似，CPU和GPU基本完全相同，AI算力做了特別加強，存儲位寬是比較少見的96比特，SA8650是取代上一代SA8540P的，主要是增加了針對功能安全的部分，增加了4個Cortex-R52內核。Mobileye對成本異常重視，也從不公布其存儲帶寬和支持存儲類型，只能猜測。Xavier雖是早期產品，但存儲位寬是最高的256比特，所以排名很靠前。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴