長期以來人們一直對晶圓級架構持懷疑態度,這種懷疑可以追溯到幾十年前。出于商業或技術原因,僅有少數人做過相關嘗試,但他們都毫不例外地失敗了,當中包括著名的Gene Amdah)。但是,除了適當建立的半導體技術基礎之外,也許還缺少合適的時機。
如果您問Andrew Feldman,為什么晶圓級方法不那么普遍,他的回答很簡單:他在Cerebras Systems的團隊是唯一弄清楚如何真正做到這一點的人。在他看來,沒有人能夠或將要嘗試這個,至少短期內不會。
“我認為沒有人能做到。我們花了五年的時間,我們還擁有龐大的專利產品組合。AI這一工作量將占總計算量的約三分之一。如果您看一下Google,他們已經完成了大部分工作,看起來像是AI工作負載。此外,用于解決AI問題的計算量正以驚人的速度增長。在接下來的三到五年中,數據中心中的更多工作將是AI或類似AI的工作,更多的難題將圍繞如何在數據中尋找見解。”
如果我們巧妙地越過專利組合的那薄弱的威脅,以及它對 Cerebras 的可能性證明所鼓舞的潛在初創公司意味著什么,那么還會出現其他一些問題。首先,為什么以前沒有這項工作,其次,如果現在可能的話,為什么專業人士不這樣做呢?
“我們觀察了1984年Amdahl所做的晶圓級芯片,事實是,人們對此記憶猶新的的是芯片是如此之大,但他們其實從未真正看過它。當時我們的行業還不那么成熟,所以肯定圍繞芯片制造工藝。但自那時以來,我們已經制造了成千上萬的芯片。流程和體系結構要好得多。我們為晶圓規模選擇了一種架構,但Gene Amdahl沒有。我們試圖采用他喜歡的架構并將其推廣到晶圓級。
他繼續說道:“我們能夠利用我們的架構設計芯片并物理現實。我們要做的一件事是用超過40萬個相同的塊構建重復的圖塊設計。如果發生故障,我們可以解決。這是一個新發現,它是如何結合已知的事實,即存在缺陷的已知事實。這不是新事物;DRAM將位單元的行和列放在一邊,這就是他們獲得高良率的方式。但是直到我們這樣做之前,沒有人使用計算機來做到這一點。”
訣竅可能是做到這一點并擁有一個功能齊全、高效的系統,但是,您不能只出售獨立的設備,并不是每個芯片制造商都希望負擔(盡管Nvidia的DGX機器可能反映出不同的東西)。從編譯器到冷卻的完整堆棧是唯一有意義的方法。這正是Feldman的公司Cerebras Systems正在推廣其CS-1系統的原因。回想一下,Cerebras今年通過其Wafer Scale Engine方法應用于AI獲得了一些動力,特別是在以研究為中心的站點上進行了安裝,包括Lawrence Livermore國家實驗室,Argonne國家實驗室和匹茲堡超級計算中心。很難說出它們可能在企業或超大規模系統中的位置,但就目前而言,即使在純AI訓練和推理之外。
我們必須假設英特爾和Nvidia的大量研究預算至少使該主題有了一些想法,尤其是在看到Cerebras證明了這一概念之后。也許他們確實找到了使所有片上電路都變得更重要的方法,更重要的是,編譯器成功地解決了這一問題,并發現盡管實用,但從經濟上講不合算。也許那是因為您不能僅僅構建要在2020-2025年的晶圓級游戲中使用的設備:整個系統必須以人類已知的最復雜的代碼簽名練習之一來構建。大多數芯片制造商和加速器初創公司都不希望(或實際上不能)從事系統業務,并且該設備的集成也不是典型的集成過程。
具有大量內核且可以超快速度通信的芯片有很多機會,而這些都不是新鮮事物。除了AI,HPC領域(包括計算流體動力學)具有廣泛的商業價值,適合大規模使用信號處理等工作。開關芯片的想法更加萌芽,如果該行業已經在使用一些最大的硅片,那么在更廣泛的可行范圍內,它可以輕松地改變晶片規模。那只是近期。我們甚至可以更進一步,提出一個系統的概念,該系統將晶圓級引擎與裸露在機架上的硅光子相連,能夠保持涼爽并真正處理大量工作負載,而無需離開設備或橫向擴展而無需全部多余的熱量和性能損失。但這是另一個長遠的故事。
對于石油和天然氣以及超級計算級科學法規中HPC等高價值應用領域,新架構的挑戰始終是相同的。這些代碼基本上是一成不變的,只有最近才可以從GPU加速中受益。但是,對于那些愿意大力投資的人來說,人工智能的故事顯而易見。我們從未能夠了解晶圓級方法的成本,以及與使用相同晶圓進行切片和切塊以單獨出售的方式有何不同。使所有部件連接起來的所有額外網絡可能會帶來可觀的成本開銷。
對于那些定義狹窄的應用程序集,是否有足夠的市場需要解決,以使所有這些都值得呢?以及其中一家開關芯片制造商和集成商得到暗示并為其工程購買Cerebras以及使具有AI功能的開關芯片產品多樣化需要多長時間?
“如果您看一下Nvidia和Intel的研究,他們正在發表論文說無法做到。我們解決了70年來一直未解決的問題。這些擁有數萬名工程師的巨型公司一直說這是不可能的,而我們位于洛斯阿爾托斯(Los Altos)房地產市場的小團隊做到了。他的斷言是,由于天生缺乏技術,大公司沒有追求晶圓規模。“ Nvidia和其他公司知道更大的芯片更適合這種工作負載。如果您從2013年開始繪制GPU的圖表,它的大小將增加一倍以上。為什么?因為他們知道更大的籌碼會更好。但是他們不知道怎么做,仍然不知道,是如何變得大50到60倍,這就是我們所做的。”他補充道。
即使可以甚至確實存在硅片規模,也無論如何都無法解決所有問題。但是對于需要小型,密集計算和低功耗,低延遲和超高帶寬的大規模通信的AI工作負載,這種方法很有意義。盡管其他加速器和基于加速器的系統提供了此功能,但仍然存在外部網絡無法解決的問題。
但是,如果晶圓級的概念被證明是有效的,我們是否可以看到其他初創公司采用類似的方法?對自己的工廠進行嚴格控制的公司可以輕松實現這一飛躍。Feldman說,他們之所以沒有這樣做,是因為他們不知道如何做,但他們這樣做的原因可能更加復雜,并且與關注點,半導體經濟和需求有關。如果是這樣,他們將不得不用一種價格便宜的產品來應對潛在的市場嗎?例如,考慮到像英特爾這樣的擁有全部網絡,晶圓廠和市場專業知識的公司并沒有走這條路,那么,肯定有些事情要么不值得努力,要么根本無法完成。
那么,要回答標題中的問題,是否有至少一個或兩個以上的初創公司,也許還有一個專業進入該行業的晶圓級芯片行業 ?也許。這就是為什么我們保持密切關注Cerebras機器的原因。不僅是為了查看它是否有效,還在于編程模型如何運行以及它是否真的可以承擔起不僅僅限于AI的任務。
如上所述,基于大型晶圓的 機架和硅光子技術相結合的系統的未來發展并非無道理,這種技術可以解決熱量問題,并具有可分割,可擴展且在合理的功率預算內的真實通信。然后事情就變得有趣了,特別是如果魔術編譯器可以真正地在HPC和大規模分析中使用并行代碼以及AI工作負載演變成的任何東西。
責任編輯:tzh
-
芯片
+關注
關注
463文章
54010瀏覽量
466077 -
晶圓
+關注
關注
53文章
5410瀏覽量
132293 -
gpu
+關注
關注
28文章
5194瀏覽量
135453 -
AI
+關注
關注
91文章
39793瀏覽量
301407
發布評論請先 登錄
電能質量在線監測裝置的抗干擾能力驗證需要多長時間?
廣州唯創電子WT588F02B-16S-C008功能拓展語音芯片:高品質播放、多樣化顯示與存儲功能一應俱全
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰
iTOF技術,多樣化的3D視覺應用
中國EDA產業自主化:道阻且長,行則將至
9160 gps 定位需要多長時間呢?
適配多種系統,米爾瑞芯微RK3576核心板解鎖多樣化應用
米爾RK3576核心板適配多種系統,解鎖多樣化應用
滿足多樣化需求的 MCX 連接器解決方案
閃迪攜創新閃存解決方案亮相CFMS,以多樣化產品組合賦能企業構建數字世界的"記憶宮殿"
使具有AI功能的開關芯片產品多樣化需要多長時間?
評論