国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

國產高性能GPGPU的破局點在哪

lPCU_elecfans ? 來源:電子發燒友網 ? 作者:吳子鵬 ? 2021-09-14 09:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發燒友網報道(文/吳子鵬)GPU誕生的原因是人們需要更好地處理3D游戲中的圖形渲染,因此GPU擁有很多很小的內核增加并行處理能力,然后通過圖形流水線的模式做圖形處理。由于天生核心數量多,因此GPU計算能力增加迅速,業界普遍認為2004年前后GPU計算能力已經超過CPU,此后兩者之間的算力差距越拉越大。

擁有強大算力之后,更多的應用開始找上GPU,比如氣候檢測,還有時下大熱的深度學習等。快速增長的計算需求也開始改變GPU,早期用于通用計算的GPU實際上還是遵循圖形處理的原則來設計,內部依然有Vertex級處理器以及Fragment級處理器,面向其他運算需求顯得“不倫不類”,直到英偉達設計出了統一處理器。

此后,GPGPU在任務清晰且計算量要求大的領域,比如矩陣的計算上優勢愈發凸顯。受益于人工智能、大數據和萬物互聯等多層buff加持,越來越多的行業開始提出這樣的計算需求,GPGPU前景光明且市場巨大。在這樣的背景下,目前國內已經涌現出一批GPGPU企業,沐曦集成電路(上海)有限公司(以下簡稱:沐曦)便是其中之一,該公司致力于提供高性能GPU。

軟件棧決定了用戶群大小和用戶體驗

回顧GPGPU的發展,我們發現市場需求不僅是改變了GPGPU的核心布局,同時為了兼顧通用性,軟件端也發展了巨大的改變,從OpenGL演化出統一計算架構CUDA。沐曦光啟智能研究院科學家李兆石在接受電子發燒友采訪時表示,“GPGPU作為一款通用芯片,在面對不同客戶層出不窮的新需求時,需要保證它的可編程性。可編程性是由完善的軟件棧來保證的。

對于所有GPGPU來說,軟件棧的規劃直接決定了GPGPU用戶受眾群體大小和用戶使用體驗。因此所有的GPGPU,不論是否國產,都會擁有自己的運算平臺,即軟件棧。比如AMD面向它的MI系列GPGPU,對標CUDA,開發了RoCM,并在RoCM之上移植了PyTorch等AI軟件框架。”

他強調GPGPU上軟件棧是至關重要的,對此他通過分析英偉達的CUDA來解釋原因。“GPGPU芯片非常龐大,最新的Nvidia A100上有542億個晶體管,它們構成了6912個并發執行的CUDA內核,以及為了保證CUDA內核的數據供給而設計的一套復雜的存儲子系統。

考慮到人的思維方式是串行的,用戶很難處理這么多的并發執行單元,因此這么多并發的硬件資源不可能直接暴露給用戶。所以我們需要有一套軟件棧將底層硬件架構的特征抽象成易于理解的編程模型提供給用戶,從而讓用戶充分開發GPGPU的潛力。”

李兆石講到,“然而抽象是有代價的:抽象掩藏掉的硬件細節越多,編程模型對用戶越友好,那么它會越難充分發揮硬件的全部潛力。因此GPGPU的抽象是分層次的:越靠近用戶的層次越易用,同時該層次的性能或者靈活性會越差。這樣特定應用領域的用戶,如果重心在開發效率,可以選擇高層次的編程模型;而需要榨取GPGPU性能潛力的用戶可以選擇低層次的編程模型。這也正是我們把GPGPU的編程模型稱為‘軟件棧’的原因。”

目前,國產GPGPU顯然還是跟隨者的狀態,雖然廠商在積極地推進架構創新和軟件創新,但和英偉達之間的差距還是巨大的,因此從英偉達身上國產GPU還有很多經驗可以汲取。李兆石對英偉達在GPGPU上面的軟件實力有著清晰的認識。

他指出:“英偉達的AI軟件棧自底向上至少可以分成5層:SASS是硬件實際執行的指令集,類似CPU的匯編;PTX是虛擬指令集,為不同代的Nvidia GPGPU提供了一個統一的編程接口;CUDA是用戶在編寫高性能GPGPU程序時最主要的編程模型;

cuBLAS, cuDNN, cuFFT, CUTLASS等運算庫則讓用戶可以通過調用Nvidia針對自家GPGPU高度定制的算子庫,不需要花費太多精力進行性能調優就可以享受到Nvidia GPGPU最好的性能,但它們靈活性受限;TensorRT, Triton, Megastron則是Nvidia針對特定AI應用場景深度定制,讓AI類用戶開箱即用的軟件平臺。”

可以看出,CUDA處于中間層。CUDA提供了硬件的直接訪問接口,而不必像傳統方式一樣必須依賴圖形API接口來實現GPU的訪問。CUDA采用C語言作為編程語言提供大量的高性能計算指令開發能力,使開發者能夠在GPU的強大計算能力的基礎上建立起一種效率更高的密集數據計算解決方案。

李兆石認為:“對于新興的國產GPGPU而言,構建自己的軟件棧時,首要任務是先打好基礎,對標CUDA及以下的抽象層次,充分發揮自己芯片的特色,開發出一套用戶可用、易用的編程模型,正所謂‘不積硅步無以至千里’。然后再結合目標客戶的需求,對標TensorRT等框架,定制開箱即用的高層次編程模型。”

在此,他談到了沐曦的規劃。當前,沐曦GPGPU的芯片架構和軟件棧是同時開發的。芯片架構上與現有GPGPU擁有不同的新特性,在設計之初都充分考慮了如何在各個層次的編程模型中進行抽象。這樣,沐曦可以保證用戶即可以平滑地從現有GPGPU遷移到沐曦的GPGPU上,又能在使用沐曦的軟件棧時充分享受到新特性帶來的更好體驗。

著眼于未來的發展,英偉達CUDA既是國產GPGPU在并行計算架構方面的老師,也是最大的勁敵。目前,CUDA已經能夠支持DX12這樣的API,也支持C語言、Fortran、OpenCL等計算語言,其生態屬性非常強大。

并且根據英偉達官方的說法,CUDA未來的發展是開放性的技術平臺,支持更多的并行計算需求。這樣的CUDA會給國產GPGPU在軟件棧方面的發展造成巨大的困擾,因此李兆石呼吁:“國內各家GPGPU創業公司都有自研IP和軟件棧的規劃。從公開的信息來看,各家公司的軟件棧規劃都存在一定的共性。希望未來大家可以多多相互交流,共同進步。”

傳統GPU的軟件棧很難遷移到GPGPU上

GPGPU在GPU的基礎上進行了優化設計,使之更適合高性能并行計算,并能使用更高級別的編程語言,在性能、易用性和通用性上更加強大。相較而言,國產GPU的啟動比國產GPGPU要提前一些,是否有經驗可循呢?

李兆石認為:“傳統GPU主要面向圖形渲染類應用。對于Nvidia來說,圖形渲染類應用的軟件棧與GPGPU的軟件棧,只有底層的SASS, PTX和少量CUDA是共享的。再往上走的圖形渲染API層,如OpenGL, Vulkan等,目前GPGPU還不需要支持。

國產傳統的圖形渲染GPU,大多基于自研的匯編層,對提供圖形渲染API層提供支持。我們的底層設計(與Nvidia SASS和PTX同層次的匯編)與Nvidia及其它國產GPU是不同的,因此傳統的圖形渲染GPU軟件棧難以直接遷移到GPGPU上。”

應用領域方面,GPGPU將應用擴展到了圖形之外,在科學計算、區塊鏈、大數據處理、工程計算、金融、基因等方面都有重要的應用,但更多是以服務器的形態提供高算力。

在應用層面,目前傳統GPU和CPU的融合趨勢已經顯現,比如AMD APU系列,蘋果的M1芯片、以及大多數手機SoC芯片等,它們的CPU和GPU都是直接在物理上共享內存。這些芯片通過CPU和GPU的緊密耦合,避免了CPU和GPU之間數據跨芯片搬運的能量消耗。

李兆石表示:“對于GPGPU而言,目前市面上還沒有成熟的產品,讓CPU和GPGPU在同一個die上緊密耦合。造成這一現象的原因有兩個。首先,CPU和GPGPU之間的通信延遲或帶寬,在目前流行的GPGPU應用中不是系統的瓶頸。

GPGPU的編程模型中,CPU與GPGPU間的通信用于處理應用中的控制邏輯。而GPGPU通常用來處理計算密集型應用或者訪存密集型應用,其瓶頸在于GPGPU上的計算資源、或者GPGPU與顯存(GDDR或者HBM)之間的通信帶寬。

控制密集型應用很少大規模部署在GPGPU上。其次,GPGPU通常以加速卡的形式部署在服務器上,服務器廠商出于成本、可靠性和可擴展性的考慮,會分別采購CPU和GPGPU。”

“不過,對于CPU和GPGPU的融合,我們還是要以發展的眼光看問題。從應用需求的角度,隨著張量加速單元和HBM技術在GPGPU的普及,GPGPU的計算和訪存能力快速提升。正所謂‘按下葫蘆浮起瓢’,此時CPU和GPGPU的通信代價正在變得越來越顯著。

尤其當我們考慮到新興的Pytorch等AI框架的動態圖特性會引入非常頻繁的CPU-GPGPU之間的交互時,低延遲的CPU-GPGPU緊耦合架構就變得更有價值了。從系統設計的角度,新興的Chiplet技術可以有效降低封裝內CPU和GPGPU緊耦合的設計成本。所以我們也很期待新的應用需求和封裝技術可以使能未來的融合CPU-GPGPU芯片。” 李兆石在采訪中講到。

聲明:本文由電子發燒友原創,轉載請注明以上來源。如需入群交流,請添加微信elecfans999,投稿爆料采訪需求,請發郵箱huangjingjing@elecfans.com。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    463

    文章

    54024

    瀏覽量

    466393
  • 3D
    3D
    +關注

    關注

    9

    文章

    3012

    瀏覽量

    115099
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11282

    瀏覽量

    225122
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5197

    瀏覽量

    135521

原文標題:國產高性能GPGPU的破局點是什么?

文章出處:【微信號:elecfans,微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    國產GPGPU集體爆發!沐曦登陸科創板,龍芯也宣布了

    電子發燒友網報道(文/莫婷婷)通用圖形處理器(GPGPU)作為融合圖形處理與通用并行計算能力的協處理器,已成為AI、大數據分析等高性能計算場景的核心基礎設施。目前,全球 GPGPU 市場長期由英偉達
    的頭像 發表于 12-17 07:19 ?1.1w次閱讀
    <b class='flag-5'>國產</b><b class='flag-5'>GPGPU</b>集體爆發!沐曦登陸科創板,龍芯也宣布了

    國產高性能ONFI IP解決方案全解析

    1. 什么是ONFI IP?其在AI時代的作用是什么?ONFI (Open NAND Flash Interface) 是連接閃存控制器與NAND顆粒的關鍵高速接口協議。在AI和高性能計算(HPC
    發表于 01-13 16:15

    國產高性能8通道ADC新選擇:CYD9011全面對標LTM9011

    上海宸嶼電子CYD9011的推出實現了對LTM9011-14在核心功能與性能上的全面對標,通過更薄的封裝、優化的性能表現以及國產的服務優勢,為通信、醫療、工業等領域的工程師提供了一個高性能
    的頭像 發表于 12-30 17:07 ?1326次閱讀
    <b class='flag-5'>國產</b><b class='flag-5'>高性能</b>8通道ADC新選擇:CYD9011全面對標LTM9011

    巨霖科技分享國產SI仿真工具的局之道

    11月20日,2025集成電路發展論壇(成渝)暨三十一屆集成電路設計業展覽會(ICCAD-Expo 2025)在成都正式啟幕。巨霖科技副總經理鄧俊勇在“EDA與IC設計服務”專題論壇發表題為《國產 SI 仿真工具局之道》的演講。
    的頭像 發表于 12-16 10:14 ?456次閱讀
    巨霖科技分享<b class='flag-5'>國產</b>SI仿真工具的<b class='flag-5'>破</b>局之道

    NVMe-oF 國產IP:高性能網絡存儲解決方案

    目前相關IP較少,網上主要是知名FPGA廠家的IP,疑似被泄露。但是技術支持可能沒有了,補丁會限制部分使用,由于其接口復雜,不利于二次開發。這里給出一種高性能網絡存儲技術,走國產化設計.
    的頭像 發表于 12-12 10:02 ?99次閱讀
    NVMe-oF <b class='flag-5'>國產</b>IP:<b class='flag-5'>高性能</b>網絡存儲解決方案

    國產高性能工控機:RK3588核心與AMP擴展,重塑AGV控制中樞

    NIS-5130-AGV深度融合高性能國產處理器、超凡的接口擴展能力與堅固的工業設計,為復雜的工業現場控制與通信任務提供了理想的計算平臺。
    的頭像 發表于 12-08 15:46 ?1204次閱讀
    <b class='flag-5'>國產</b><b class='flag-5'>高性能</b>工控機:RK3588核心與AMP擴展,重塑AGV控制中樞

    國產傳感器產業發展局點或在這里

    ,是“十四五”規劃的收官之年,亦是“十五五”計劃的部署之年。 ? ? 在“十四五”期間,我國傳感器產業取得什么成績?“十五五”傳感器產業局方向在哪里? ? ? 這里最直觀的數據,就是中國傳感器市場規模的快速增長。 ? ? 據權威機構工信部賽迪研究院
    的頭像 發表于 10-29 18:13 ?1090次閱讀
    <b class='flag-5'>國產</b>傳感器產業發展<b class='flag-5'>破</b><b class='flag-5'>局點</b>或在這里

    局·領航 | 匠芯創M7000系列六款總線型工業級高性能實時處理器DSP重磅發布

    匠芯創科技于慕尼黑展會國際電機驅動技術論壇重磅發布M7000系列工業級高性能DSP實時處理器及全場景解決方案。全球產業專家、企業代表及媒體齊聚,共同見證國產高性能芯片的技術突破——這場備受矚目
    的頭像 發表于 08-07 15:38 ?1591次閱讀
    <b class='flag-5'>破</b>局·領航 | 匠芯創M7000系列六款總線型工業級<b class='flag-5'>高性能</b>實時處理器DSP重磅發布

    中科曙光構建全國產化基因組學高性能計算平臺

    近日,中科曙光承建的國內某研究所基因組學高性能計算平臺正式交付。這是國內生物信息學領域首個從底層硬件到上層軟件實現完全自主可控,并深度融合高性能計算與人工智能算力的平臺,成功填補了該領域國產高端算力的空白。
    的頭像 發表于 06-26 17:36 ?1029次閱讀

    東軟:以數據價值化為局點 用AI構建城市新基礎設施

    數字經濟創新生態的戰略布局與實踐成果。 數據作為新型生產要素,是數字經濟的基礎,是民生改善的基石,是產業創新的動力,也是城市發展的關鍵。東軟以數據價值化為局點,將數字技術創新與產業創新深度融合, 用數據和AI構建城市新基礎設施,推動城市
    的頭像 發表于 06-18 14:31 ?645次閱讀

    芯原可擴展的高性能GPGPU-AI計算IP賦能汽車與邊緣服務器AI解決方案

    芯原股份 (芯原,股票代碼:688521.SH) 日前宣布其 高性能、可擴展的GPGPU-AI計算IP的最新進展,這些IP現已為新一代汽車電子和邊緣服務器應用提供強勁賦能 。通過將可編程并行計算能力
    的頭像 發表于 06-16 10:44 ?1379次閱讀

    海光GM0-5601-03主板:高性能國產工業計算平臺的核心引擎

    海光GM0-5601-03主板是一款基于國產海光處理器設計的高性能ATX工業主板,專為復雜工業場景和多任務處理需求打造。其強大的擴展能力、豐富的接口配置以及穩定的運行性能,使其成為工業自動化、智能監控、數據通信等領域的理想選擇。
    的頭像 發表于 04-12 09:50 ?871次閱讀

    飛騰ITX主板D2000 ITX:國產高性能計算的未來之選

    引言 在信息技術飛速發展的今天,國產芯片的崛起為全球科技產業注入了新的活力。飛騰D2000 ITX主板,作為國產高性能計算領域的杰出代表,憑借其卓越的性能、緊湊的設計和廣泛的應用場景,
    的頭像 發表于 03-12 15:44 ?1336次閱讀
    飛騰ITX主板D2000 ITX:<b class='flag-5'>國產</b><b class='flag-5'>高性能</b>計算的未來之選

    SC2121、SC2161和SC2167解鎖高性能RDC國產替代方案

    SC2121、SC2161和SC2167解鎖高性能RDC國產替代方案
    的頭像 發表于 03-11 09:55 ?1600次閱讀
    SC2121、SC2161和SC2167解鎖<b class='flag-5'>高性能</b>RDC<b class='flag-5'>國產</b>替代方案