電子發燒友網報道(文/周凱揚)從最近英偉達公布的財報中就可以看出,AI應用的火熱使其賺得盆滿缽滿,原本就在AI軟硬件生態稱王的英偉達,現今更是如日中天。而這樣的處境也讓不少AI芯片初創公司不好過,他們的產品有的還沒落地,有的則難以與A100、H100這樣的產品匹敵。這幾年沉寂下去的AI芯片初創公司著實不少,但還是有的廠商敢于繼續往這個市場里鉆。
水平擴展性的限制
隨著AI/ML的模型越來越大,甚至是以5年內翻4萬倍的速度提升,要想在硬件上跟上軟件進度已經越來越難了。可即便如此,從16nm到4nm,從低精度到脈動陣列,都給了我們巨大的優勢去追隨這些大模型。
但運行這些大模型終究不是靠單個芯片的力量,而是整個規模集群需要面臨的問題,所以這就牽扯到了水平擴展性。工藝制程的提高帶來了5倍的性能提升,芯片架構帶來了14倍的性能提升,而水平擴展則要實現600倍的性能提升,才能滿足未來的AI/ML計算要求。這也就是目前AI計算存在的問題,大模型往往需要更大的內存、更高的算力和更大的帶寬,隨著設備數量越多,這三大硬件要求的分配復雜程度就變得越來越高。
比如在GPU上就已經嘗試了不少并行擴展方案,比如數據并行、流水線模型并行或張量模型并行等,但以上方案往往都會受到內存、帶寬和參數量的限制,并沒有單一通用的解決方案,大模型往往需要同時結合這三種方案,所以擴展效率不高。AI芯片公司Cerebras則想出了一個在大規模集群下提高水平擴展性的解決方案。
Cerebras的WSE
要說在AI芯片的初創公司里,走著獨立無二路線的公司,Cerebras絕對能排得上名號。2019年,他們推出了WSE,一個晶圓大小的AI處理器,到了2021年,他們又推出了第二代的WSE-2,采用更先進的工藝將單個處理器的核心數推進至85萬核。而這次Hot Chips上,他們則展示了用于對抗英偉達的解決方案。

WSE-2與GPU大小對比 / Cerebras
Cerebras選擇了將內存和計算解耦的方案,利用內存擴展技術MemoryX,將模型權重存儲在外部,然后將權重傳輸給WSE-2組成的CS-2系統,CS-2再將梯度傳給外部存儲。Cerebras還打造了一個互聯方案SwarmX,用于連接多個CS-2系統,從而提高擴展性。
以Cerebras搭建的Andromeda超算為例,該超算由16個CS-2系統組成,擁有1350萬個AI優化核心,稀疏算力高達1ExaFLOPs,稠密算力高達120PetaFLOPs。在這樣強大的算力下,訓練大模型只要幾周的時間。而且在Cerebras不同規模的集群上,不同參數的大模型可以共享同樣的代碼,以同樣的方式訓練,省去了不少開發時間。
除了Andromeda以外,Cerebras也已經開始了下一個AI超算的部署,由64個CS-2系統組成的Condor Galaxy 1,該超算的算力將擴展至4ExaFLOPs的稀疏算力。而Condor Galaxy 1名字后的1,也意味著這僅僅是單個超算中心所用的系統而已,未來他們計劃在2024年底之前擴展為9個超算中心,分布在美國各地,構建最大的分布式超算網絡,總算力高達36ExaFLOPs,是英偉達Israel-1超算的9倍,是谷歌最大TPUv4集群的4倍。
寫在最后
單從擴展性和性能的角度來看,Cerebras確實已經做到了一個新的高度。但對于購置這些GPU或AI芯片的云服務或互聯網公司來說,GPU或許是一個更加通用的資源,在AI技術日新月異的當下,GPU總能憑借自己的軟硬件生態快速找到自己的一席之地,并在高性能的王座上穩坐一段時間。這也就是AI爆款應用的市場導向決定的了,性能固然重要,但搶占先機才是最關鍵的一環。
水平擴展性的限制
隨著AI/ML的模型越來越大,甚至是以5年內翻4萬倍的速度提升,要想在硬件上跟上軟件進度已經越來越難了。可即便如此,從16nm到4nm,從低精度到脈動陣列,都給了我們巨大的優勢去追隨這些大模型。
但運行這些大模型終究不是靠單個芯片的力量,而是整個規模集群需要面臨的問題,所以這就牽扯到了水平擴展性。工藝制程的提高帶來了5倍的性能提升,芯片架構帶來了14倍的性能提升,而水平擴展則要實現600倍的性能提升,才能滿足未來的AI/ML計算要求。這也就是目前AI計算存在的問題,大模型往往需要更大的內存、更高的算力和更大的帶寬,隨著設備數量越多,這三大硬件要求的分配復雜程度就變得越來越高。
比如在GPU上就已經嘗試了不少并行擴展方案,比如數據并行、流水線模型并行或張量模型并行等,但以上方案往往都會受到內存、帶寬和參數量的限制,并沒有單一通用的解決方案,大模型往往需要同時結合這三種方案,所以擴展效率不高。AI芯片公司Cerebras則想出了一個在大規模集群下提高水平擴展性的解決方案。
Cerebras的WSE
要說在AI芯片的初創公司里,走著獨立無二路線的公司,Cerebras絕對能排得上名號。2019年,他們推出了WSE,一個晶圓大小的AI處理器,到了2021年,他們又推出了第二代的WSE-2,采用更先進的工藝將單個處理器的核心數推進至85萬核。而這次Hot Chips上,他們則展示了用于對抗英偉達的解決方案。

WSE-2與GPU大小對比 / Cerebras
Cerebras選擇了將內存和計算解耦的方案,利用內存擴展技術MemoryX,將模型權重存儲在外部,然后將權重傳輸給WSE-2組成的CS-2系統,CS-2再將梯度傳給外部存儲。Cerebras還打造了一個互聯方案SwarmX,用于連接多個CS-2系統,從而提高擴展性。
以Cerebras搭建的Andromeda超算為例,該超算由16個CS-2系統組成,擁有1350萬個AI優化核心,稀疏算力高達1ExaFLOPs,稠密算力高達120PetaFLOPs。在這樣強大的算力下,訓練大模型只要幾周的時間。而且在Cerebras不同規模的集群上,不同參數的大模型可以共享同樣的代碼,以同樣的方式訓練,省去了不少開發時間。
除了Andromeda以外,Cerebras也已經開始了下一個AI超算的部署,由64個CS-2系統組成的Condor Galaxy 1,該超算的算力將擴展至4ExaFLOPs的稀疏算力。而Condor Galaxy 1名字后的1,也意味著這僅僅是單個超算中心所用的系統而已,未來他們計劃在2024年底之前擴展為9個超算中心,分布在美國各地,構建最大的分布式超算網絡,總算力高達36ExaFLOPs,是英偉達Israel-1超算的9倍,是谷歌最大TPUv4集群的4倍。
寫在最后
單從擴展性和性能的角度來看,Cerebras確實已經做到了一個新的高度。但對于購置這些GPU或AI芯片的云服務或互聯網公司來說,GPU或許是一個更加通用的資源,在AI技術日新月異的當下,GPU總能憑借自己的軟硬件生態快速找到自己的一席之地,并在高性能的王座上穩坐一段時間。這也就是AI爆款應用的市場導向決定的了,性能固然重要,但搶占先機才是最關鍵的一環。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
91文章
39793瀏覽量
301430 -
英偉達
+關注
關注
23文章
4087瀏覽量
99192
發布評論請先 登錄
相關推薦
熱點推薦
豪言自家芯片比英偉達GPU強10倍,這家AI公司再獲融資
的 “復仇者聯盟” 正在硅谷悄然集結,他們創立的 MatX 公司剛剛完成 5 億美元 B 輪融資,豪言要打造性能 10 倍于英偉達 GPU 的專用 AI
從英偉達電話會看Agentic AI推理與FPGA價值
2026年2月,英偉達發布2026財年Q4財報:營收681億美元,同比增長73%,數據中心業務增長75%——預期中的超預期。更值得關注的,是電話會中反復出現的幾個關鍵詞:Agentic AI、推理
40億美元!英偉達投資兩家光學公司,加碼AI算力生態
電子發燒友網報道(文/李彎彎)近日,英偉達在其官網宣布,與Lumentum和Coherent兩家光學技術公司達成戰略協議,將分別向它們投資20億美元。 ? 英偉
漲3倍,估值破110億美元!英偉達投資,AI初創公司劍指IPO
2月4日,人工智能初創公司ElevenLabs 周三宣布,已完成5億美元D輪資金,估值達 110 億美元,該公司正考慮進行潛在的IPO。此輪融資是紅杉資本領投。現有投資者 Andree
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰
的我我們講解了這幾種芯片的應用場景,設計流程、結構等。
CPU:
還為我們講解了一種算法:哈希表算法
GPU:
介紹了英偉達H100GPU芯片。使用了一下關鍵技術:
①張量
發表于 09-12 16:07
外媒:英偉達正開發新款中國特供芯片B30A 或為旗艦AI芯品B300的閹割版
;或為旗艦AI芯品B300的閹割版 ;估計性能只有B300的50%--70%。 據外媒路透社報道,為了中國市場;英偉達正在加速研發基于最新Blackwell架構的AI
特朗普要叫停英偉達對華特供版 英偉達H20出口限制 或損失55億美元
是“中國特供版”人工智能芯片;是英偉達公司為符合美國出口規定專門為中國市場開發的定制芯片,H20芯片
英偉達、高通布局AI投資版圖,這些明星企業被收入囊中!
的模型并不會減少芯片的需求,相反,未來的計算需求只會增加,尤其是對計算基礎設施的需求。 英偉達也在利用其雄厚的資金大幅增加了對各種初創公司的
IBM攜手英偉達AI數據平臺推動企業級AI創新
近日,IBM(紐約證券交易所:IBM)宣布與英偉達(納斯達克股票代碼:NVDA)開展全新合作,雙方將基于英偉達 AI 數據平臺參考架構(re
發表于 03-24 19:20
?516次閱讀
新思科技攜手英偉達加速芯片設計,提升芯片電子設計自動化效率
解決方案在英偉達 GPU和英偉達 CUDA-X庫上所實現的加速 基于英偉達 GB200 Grac
發表于 03-19 17:59
?497次閱讀
英偉達愈發強勢,AI芯片初創公司仍不服輸
評論