国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

哪家中國芯片公司能「吃下」大模型?

半導體產業縱橫 ? 來源:雷峰網 ? 2023-07-31 18:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

中國AI芯片公司的天花板,可能是AMD

ChatGPT火爆時,浩然被兩股矛盾的情緒夾在縫隙:一面是興奮,一面是悲傷。 作為一名AI芯片公司的高級軟件工程師,ChatGPT大爆發前夜,浩然對自己參與研發的大算力AI芯片充滿信心,他相信為特定AI算法研發的專用芯片,相比英偉達通用的GPGPU在同等功耗下可以有2倍的性能優勢,價格可以做到50%甚至更低,只要軟件體驗不太差,客戶一定會買單。 可ChatGPT掀起的大模型熱潮,讓浩然和同行們都開始思考,AI算法是否有從百家爭鳴走向大一統的可能。

這意味著,過去為特定領域AI算法研發的專用AI芯片,由于計算負載特性的急劇變化,之前的性價比優勢會被明顯削弱,英偉達兼具高顯存帶寬和高互聯帶寬特性的通用GPU優勢將會進一步擴大,想要和英偉達競爭的難度更大了,這讓浩然有些悲觀。 但從自己工作的角度,AI算法的大一統可以讓硬件工程師和軟件工程師工作的目標都更清晰,工作會難度降低,這是浩然歡呼的理由。 “我不相信英偉達能一直保持領先。”芯片架構師宇陽保持信心,“GPU不見得是大模型的最佳解,中國AI芯片公司里一定會有能和英偉達掰手腕的公司。 國內眾多的AI大芯片公司,誰能吃下大模型市場?

芯片公司想喝口大模型的湯也不容易

就算是英偉達長久以來的競爭對手AMD,在英偉達大口吃AI大模型肥肉的時候,AMD也沒喝上多少湯。綜合實力不及AMD的國內初創公司們,就算嘴上高呼趕超英偉達,心里也清楚能做互聯網公司的第二供應商,喝上大模型的湯就是巨大的成功。 大模型火爆,全世界的公司都在找英偉達買GPU。原先售價3萬多美元的最新款H800 GPU,就算終端售價加價1萬多美元依舊一卡難求。這種供不應求的盛況直接將英偉達的市值推向1萬億美元,創造了全球半導體公司市值的新紀錄。 “客戶很奇怪,就算AMD有性能不錯的GPU現貨,許多想要購買H800 GPU的人依舊不為所動。”一家AI芯片公司的高管道出想要超越英偉達的難度。

技術出身,如今已是芯片公司高管的洪杰深諳其中的道理,“客戶對AMD的要求和對英偉達產品的要求一樣,有的時候甚至更苛刻,客戶愿意買單的替代產品是比英偉達的GPU便宜,體驗還要差不多。” “采購英偉達GPU量最大的公司還沒有第二供應商。”洪杰感嘆,“不得不承認英偉達的強大,現階段不要說超越英偉達,成為二供都很難。” 困難的事情往往收益很高,像是字節跳動這類大客戶,每年采購英偉達GPU的訂單金額就接近百億元。只要能從英偉達嘴里分到幾十億的市場份額,就足夠養活幾家國內的AI芯片公司。 離開AMD創業的人成為二供的概率會更大嗎?歡迎添加文章作者微信BENSONEIT聊聊離開AMD的人。

「追隨派」和「創新派」爭搶大模型

國內AI大芯片初創公司非常特別,有跟隨英偉達路線做GPGPU的初創公司,可以叫他們“追隨派”。也有另辟蹊徑,設計AI專用芯片(也就是DSA,Domain Specific Architecture,領域專用架構)的“創新派”。 這是一個非常有趣的現象,因為在國外只有創新派沒有追隨派,也就是沒人選擇走GPGPU的技術路線創業。 “所有人都知道,沿著英偉達的路徑不可能超越英偉達,這幾乎是不證自明的事情。并且,西方的創業者更喜歡做顛覆式創新。”洪杰分析,“尋求顛覆式創新的架構師們對AI計算問題的理解與定義不同,自然也計出了各種不同的AI芯片架構。” 谷歌定義的TPU專用性很強,是一個典型的領域專用芯片DSA。

被譽為全球AI芯片獨角獸的SambaNova Systems選擇了可重構架構。Cerebras Systems走了一條直接用晶圓做芯片的路。英國AI芯片獨角獸Graphcore創造了獨特的IPU架構。 國內也有多家走DSA路徑創業的AI大芯片公司,比如寒武紀、昆侖芯、燧原科技、瀚博半導體、墨芯人工智能。 “選擇DSA路徑創業還有一個優勢,核心IP設計門檻相對較低。”芯片編譯器專家德輝打了個比方, 用搭樂高來理解設計GPGPU和DSA的難度,設計GPGPU就是面向18歲以上玩家的樂高,有許多精細的小模塊,拼起來難度大但作品很精巧。設計DSA就像是面向5歲的樂高,模塊更大拼起來更容易。

“DSA的門檻可以很低,上限也可以很高。”宇陽說,“ GPU也是一個DSA。最初的GPU圖形專用加速芯片,沒有可編程性,后來英偉達為其增加了通用性之后才變成了GPGPU。” 英偉達將GPU變為大眾認知里的通用芯片,也是通過了近20年的努力,從建立CUDA軟件生態到成熟,讓GPGPU能做圖形加速,AI計算,科學計算。 “從技術維度,區別CPU和DSA可以看其是否能運行Windows、Linux這樣的操作系統。”宇陽補充,“從這個角度看GPU依舊是DSA。” 只是在大部分人眼里,英偉達的GPGPU已然成為了一顆通用芯片,在當下最為火熱的AI市場里供不應求。

早已看到英偉達GPGPU強大的中國創業者,直接選擇了GPGPU架構進行創業,就像天數智芯、登臨科技、壁仞科技、海飛科。 “選擇GPGPU的路徑雖然不能超越英偉達,但有國產替代的剛需,而且這條路線可以通過多種技術方案做到‘兼容CUDA’,降低用戶的軟件切換成本。”浩然直言,“有了國產替代的需求,讓中國大芯片創業公司有機會與英偉達競爭,并且最終一定會留下幾家AI大芯片的公司。” 這時誰能吃下大模型的問題就變成了追隨派和創新派的機會誰更大?

兩派相爭,創新派已死?

一個非常犀利的觀點是,DSA已死。這是一個極具爭議性的話題,探討這個話題可以添加作者微信BENSONEIT。 這種論調核心的邏輯是英偉達編程性很強的GPGPU已經通過了AI大模型的驗證,在Transformer讓AI算法趨于收斂的現狀下,英偉達可以通過手工優化底層代碼,高效調度底層硬件獲得持續的性能提升,讓已經流片量產的DSA不再擁有設計之初的巨大性能優勢。 “算法不確定的時候,英偉達沒有動力針對某個算法做手工優化。這讓針對某類算法(比如CNN)的DSA可以有2倍甚至更多的性能優勢。”浩然對DSA的未來有些悲觀。

“現在算法和模型收斂,英偉達進行手工優化可以充分釋放出硬件的性能,每一代CUDA升級都會帶來10-20%的性能提升。而通過底層硬件固化實現性價比優勢的DSA要持續通過軟件優化提升性能的難度很大,極端的情況軟件甚至沒有多大的提升空間。” 德輝從他擅長的編譯角度解釋,Flash Attention系列工作在大模型上的驚艷效果,正是說明針對特定模型的手工融合大算子是一種典型手段,本質是通過手工將特定的模型子結構從存儲受限(memory bound)轉化成了計算受限(compute bound),最大程度發揮出了GPU的計算性能。 “這種方式只是做了局部的優化,手工成本比較高,也難以大規模推廣。”德輝不認為DSA已死,“只有擁有一個能夠自動生成融合算子的編譯器,GPU才能最大程度發揮出性能優勢。但自動編譯CPU做了幾十年也沒做出來,這是一個業界難題。” 比編譯器更底層的芯片架構,也決定著計算AI大模型任務的效率。

宇陽也指出了GPU架構的局限性,GPU為了保證很強的編程性,在架構上借鑒了CPU的設計,芯片上沒有緩沖器(Buffer),每次操作的對象只能是寄存器,典型寄存器大小是個很短的向量,比如64字節,這是保證編程靈活性的最好設計,但數據要不斷在芯片內部和外部存儲之間搬運,效率不高。 “AI大模型動輒就是上百億個參數,要提升計算效率需要盡量減少數據的搬移。DSA可以為大模型設計很大的片上緩存,一次可以操作64字節的上千倍,相比GPGPU有明顯優勢。”宇陽指出。 兩者的差別非常明顯,GPGPU計算 AI模型時計算單元的利用率一般情況下只有30%-40%,而DSA一般都能做到計算單元的利用率達到80%-90%。 “許多人沒看到DSA的核心價值——數據流優化。”德輝的經驗告訴他,“通過充分發揮DSA片上有的大存儲器(SRAM)優勢,利用編譯器進行徹底優化,實現理想的圖編譯,每一層都把大模型計算的存儲受限轉化為計算受限,能夠最大化DSA的優勢。” 而DSA的優勢沒被充分挖掘出來,還是因為許多DSA芯片公司都在用英偉達的思路設計軟件。

“用英偉達GPGPU的方法設計軟件既是一個思維定式,也是一個經過驗證成功的路,風險更低。并且,要針對DSA的優勢用另外的思路設計編譯器,也有技術上的挑戰,比如打破算子邊界帶來的復雜性。”這是德輝的心得。 即便再看好DSA,宇陽和德輝都沒有否認未來的趨勢是混合DSA。

專用和通用融合才是大模型的最優解

“一個完美的AI大模型處理器應該是用T4 GPU的計算核心,用H100 GPU的顯存。”洪杰用一個形象的說法道出大模型的真實需求。 而兼具通用性和專用性的混合DSA芯片才是滿足大模型需求的理想產品,未來AI芯片公司的比拼是混合DSA。 6年前,英偉達的Volta架構首次為深度學習加入了Tensor Core,此后的每代架構都不斷優化Tensor Core,增強GPU的AI性能。 2022年發布的H100 GPU,又增加了軟硬結合的Transformer Engine,目的是加速AI大模型計算。 Tensor Core和Transformer引擎,都是為AI工作流設計的專用計算單元。也就是說,英偉達早就在“通用”的GPGPU上增加了“專用”的AI加速單元,這種融合設計兼顧了GPGPU的通用性,又能發揮專用加速單元的能效比優勢,更像是大模型的最優解。

這里有一個會讓人費解的問題,既然AI模型都穩定了,為什么不是設計一個Transformer專用的加速芯片,還需要通用性? “算法的類別雖然從幾千種變成幾百種,但還在不斷優化,只有具備足夠的通用性,才能最大化芯片的價值。”宇陽解釋。 “從芯片的設計規律看,設計一個Transformer專用加速芯片,去‘賭’未來三至五年內不會有新的模型結構顛覆性的替換掉Transformer,也是一個非常瘋狂的想法。”浩然補充。 那混合DSA的路線明確之后,各家芯片的差異會如何體現? “混合DSA其實就是在通用的CPU和純粹專用的DSA之間找一個平衡點。不同的架構師選擇的點會完全不一樣,但到底誰的設計更好,需要時間的檢驗。因為架構的設計不是一個純粹的技術問題,還與當時所處的時間,環境有很大關系。”宇陽這樣認為。 其中有賭的部分,浩然說,“混合DSA的片上存儲(SRAM)非常貴,因為需要占用的芯片面積非常大,所以到底設計多大的SRAM,需要賭。”

最終混合DSA芯片之間差異將會很小。 “就像如今安卓系統和iOS系統越來越像一樣,最后能夠留下來的混合DSA架構的AI芯片,可能也是80%相同,只有20%不同。”洪杰做出了這樣的判斷。 但在走到這一天之前,混合DSA還有一個巨大的難題——比GPGPU和DSA都更復雜的軟件棧。這很容易理解,既然是將兩種架構融合,系統就更加復雜,難度自然也更大。 當然,更明確的算法又能降低軟件開發和優化的難度。 此時,就可以回到最初的問題,中國芯片公司誰能喝到大模型的湯?

誰能更快吃上大模型?

商業的成功不是單純的技術路線“好壞”就可以決定,現在可以看到的是,跟隨派轉向混合DSA的技術難度相對低一些,創新派有RISC-V CPU可選,可謂各有優劣。具體到每一家公司的時候,情況又各不相同。 “GPU的眾核(Many Core)設計,相比DSA的設計難度更大,所以已經設計出GPGPU的初創公司,再增加一個DSA,比DSA增加一個GPGPU的難度小一些。”浩然從眾核設計的難度判斷各家芯片公司面臨的挑戰大小。 “GPU的一致性控制確實很難。”宇陽部分認同浩然的觀點,“但增加可編程性并不一定就是要做一個GPGPU,有很多路徑可選。” 德輝就非常看好RISC-V CPU加上DSA的混合DSA,“RISC-V CPU可以提供向量計算,并且有足夠的通用性,與DSA混合是一個不錯的選擇。” 這種混合DSA方式要自己建立軟件生態,需要投入的資源巨大。

“芯片要落地非常關鍵的是要接受客戶的批評和質疑,然后務實地迭代。”洪杰的想法是,“芯片公司要把客戶不愿做的活都做了,比如遷移芯片的大量工作,讓客戶可以無感遷移,但這需要極大的人力和時間的投入。” 相比之下,DSA路徑的公司想兼容CUDA生態的難度比GPGPU路徑的公司難度更大。

但對于走GPGPU路徑創業的公司也不是一件容易的事情,要兼容英偉達的CUDA生態,硬件設計和軟件都要盡量接近英偉達,才能實現接近英偉達GPU的性能。 “AMD就是走兼容英偉達的路,國內公司走這條路的天花板就是AMD。”德輝指出,“在部分場景做到英偉達80%的體驗沒有問題,但超越不了英偉達。” 再大致看看各家的情況,追隨派里天數智芯和登臨科技具有先發優勢,壁仞科技也被多位內工程師視作黑馬。 創新派里的寒武紀受到美國禁令的限制前途難料;燧原科技每一代產品都采用了HBM(高帶寬存儲器)適合大模型,但和其它公司一樣,軟件是個不小的挑戰。 注意一個時間點,2025年英特爾計劃推出融合其GPU和DSA的新一代AI芯片,那時候AI芯片的競爭將會更加激烈。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 加速器
    +關注

    關注

    2

    文章

    839

    瀏覽量

    40103
  • DSA
    DSA
    +關注

    關注

    0

    文章

    53

    瀏覽量

    15837
  • TPU
    TPU
    +關注

    關注

    0

    文章

    170

    瀏覽量

    21655
  • AI芯片
    +關注

    關注

    17

    文章

    2128

    瀏覽量

    36775
  • ChatGPT
    +關注

    關注

    31

    文章

    1598

    瀏覽量

    10267

原文標題:哪家中國芯片公司能「吃下」大模型?

文章出處:【微信號:ICViews,微信公眾號:半導體產業縱橫】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    突發,美國擬再制裁3家中國傳感器公司!(附信件原文)

    中國知名高科技公司,其中,包括3家中國激光雷達傳感器企業(文末附信件原文)。 這些公司分布于生物技術、基因組與生命科學;傳感、監控、機器人與具身AI;消費電子與智能終端;大
    的頭像 發表于 12-24 18:02 ?1625次閱讀
    突發,美國擬再制裁3<b class='flag-5'>家中國</b>傳感器<b class='flag-5'>公司</b>!(附信件原文)

    硬核聯動|合眾恒躍攜手RK3562,以中國芯板卡新生態

    當“中國芯”的榮耀與板卡的匠心相遇,必將碰撞出產業升級的強勁動能!近日,瑞芯微AI處理器RK3562憑借卓越性能斬獲“中國芯”大獎,這份認可不僅是對芯片硬核實力的肯定,更印證了國產核心器件的崛起之勢
    的頭像 發表于 11-28 17:06 ?7395次閱讀
    硬核聯動|合眾恒躍攜手RK3562,以<b class='flag-5'>中國芯</b>賦<b class='flag-5'>能</b>板卡新生態

    萬協通榮獲2025“中國芯”優秀技術創新產品獎

    2025年11月14日,在第二十屆“中國芯”頒獎儀式上,萬協通憑借自主研發的AI芯片WSTS83,榮獲“中國芯優秀技術創新產品”獎項。“中國芯”優秀產品征集活動由工業和信息化部指導,
    的頭像 發表于 11-26 18:07 ?1875次閱讀

    智芯公司榮膺2025“中國芯”RISC-V生態推廣示范案例

    經濟發展局承辦,共有來自303家芯片企業的411款芯片產品同臺角逐,智芯公司研發的RISC-V高性能主控芯片憑借在RISC-V生態建設中的突出貢獻,獲評“
    的頭像 發表于 11-24 16:38 ?709次閱讀

    芯原榮獲2025“中國芯”優秀支撐服務IP企業獎

    11月14日,2025年“中國芯”集成電路產業促進大會暨第二十屆“中國芯”優秀產品征集結果發布儀式在珠海橫琴舉行,發布年度“中國芯”征集結果。芯原憑借其在IP和芯片設計服務領域的卓越表
    的頭像 發表于 11-24 14:17 ?456次閱讀
    芯原榮獲2025“<b class='flag-5'>中國芯</b>”優秀支撐服務IP企業獎

    紫光國芯SeDRAM-P300芯片榮獲2025“中國芯”年度重大創新突破產品獎

    DRAM芯片(SeDRAM-P300)”產品憑借突出的技術創新能力,榮獲本屆“中國芯”年度重大創新突破產品獎。紫光國芯業務總經理左豐國代表公司領獎,這一榮譽充分證明了公司在三維堆疊DR
    的頭像 發表于 11-19 17:02 ?809次閱讀
    紫光國芯SeDRAM-P300<b class='flag-5'>芯片</b>榮獲2025“<b class='flag-5'>中國芯</b>”年度重大創新突破產品獎

    國芯微Pegasus芯片榮膺2025“中國芯”優秀市場表現產品獎

    杭州國芯微電子股份有限公司(以下簡稱“國芯微”)自主研發的“衛星廣播與流媒體智能終端SoC芯片Pegasus”榮膺第二十屆“中國芯”優秀市場表現產品獎!這是國芯微歷史上第11次問鼎中國芯片
    的頭像 發表于 11-19 09:32 ?670次閱讀
    國芯微Pegasus<b class='flag-5'>芯片</b>榮膺2025“<b class='flag-5'>中國芯</b>”優秀市場表現產品獎

    中科藍訊榮膺2025“中國芯”優秀市場表現產品獎

    11月13日-14日,2025年“中國芯”集成電路產業促進大會暨第二十屆“中國芯”優秀產品征集結果發布儀式在橫琴天沐琴臺會議中心隆重舉行。作為工業和信息化部“中國芯”工程的重要組成部分,本屆評選吸引303家
    的頭像 發表于 11-18 17:25 ?995次閱讀
    中科藍訊榮膺2025“<b class='flag-5'>中國芯</b>”優秀市場表現產品獎

    北京君正X2600H芯片榮獲2025“中國芯”優秀技術創新產品獎

    2025年11月14日,由中國電子信息產業發展研究院組織的 “中國芯”集成電路產業促進大會暨第二十屆 “中國芯”優秀產品征集活動發布儀式在珠海隆重舉行。君正嵌入式MPU芯片X2600H
    的頭像 發表于 11-18 10:44 ?699次閱讀
    北京君正X2600H<b class='flag-5'>芯片</b>榮獲2025“<b class='flag-5'>中國芯</b>”優秀技術創新產品獎

    芯海科技BMS芯片榮膺2025“中國芯”大獎

    頂尖的芯片企業與行業專家,見證了中國芯片的技術創新與產業突破。本屆“中國芯”評選共征集到來自303家芯片企業累計提交的410款產品報名,企業數與產品數均創歷史新高
    的頭像 發表于 11-14 15:35 ?1050次閱讀
    芯海科技BMS<b class='flag-5'>芯片</b>榮膺2025“<b class='flag-5'>中國芯</b>”大獎

    今日看點丨美國制裁兩家中國芯片設備企業;消息稱英偉達考慮“首發”臺積電首個背面供電先進制程 A16

    美國制裁兩家中國芯片設備企業 ? 美國商務部近日宣布,將兩家中國半導體設備企業列入實體清單,指控其向中芯國際( 688981-CN ) 提供受管制的晶片制造設備。此舉被視為美國加強對中國芯片出口管制
    發表于 09-15 11:44 ?1863次閱讀

    中國芯片發展現狀和趨勢2025

    中國芯片產業正處于關鍵發展階段,在政策支持與外部壓力雙重驅動下,正在加速構建自主可控的半導體產業鏈。以下是現狀分析與趨勢展望: 一、發展現狀 (一)全產業鏈布局初具規模 設計領域 華為海思(5G基帶
    的頭像 發表于 08-12 11:50 ?3.9w次閱讀
    <b class='flag-5'>中國芯片</b>發展現狀和趨勢2025

    康盈半導體喜獲2025硬核中國芯兩項提名

    一年一度由國內領先半導體電子信息媒體芯師爺發起并主辦的“2025硬核中國芯”評選活動火熱進行中!作為中國芯片行業頗具專業性和影響力的獎項之一,“2025硬核中國芯” 旨在表彰中國芯片
    的頭像 發表于 07-18 14:28 ?1786次閱讀

    《人民日報》報道!中科億海微“中國芯”賦具身智能機器人

    7月15日,中科億海微電子科技(蘇州)有限公司(簡稱中科億海微)總裁魏育成署名文章《推廣“中國芯”在具身智能機器人領域應用》,登上《人民日報》專題《加快數字中國建設推動高質量發展》。此舉標志著中科億
    的頭像 發表于 07-15 14:28 ?1135次閱讀
    《人民日報》報道!中科億海微“<b class='flag-5'>中國芯</b>”賦<b class='flag-5'>能</b>具身智能機器人

    美取消對中國芯片設計軟件出口限制 西門子已恢復中國客戶對其軟件和技術的全面訪問

    據央視新聞報道,美國已取消對中國芯片設計軟件的出口限制。 據悉,在當地時間的7月2日德國西門子證實了該消息,德國西門子稱收到美國政府通知已取消對中國芯片設計軟件的出口限制;可以出口。目前德國西門子已
    的頭像 發表于 07-03 11:22 ?2478次閱讀