最新人工智能(AI)驅動系統對算力和輸入輸出(IO)的需求,已遠超工藝節點升級所能承載的范疇。若一味追求更大尺寸的芯片(逼近掩模版尺寸極限),會導致良率下滑、成本攀升。此外,部分模擬電路和IO功能難以從先進工藝節點中獲得顯著收益。而遷移到新工藝節點,實則是讓這些功能運行在成本陡增的晶圓上,卻僅換來微乎其微的回報,可謂得不償失。同時,技術創新節奏日益加快,使得新一代片上系統(SoC)的迭代周期從傳統的3-4年縮短至1-2年。
據IDtechEx報道,到2035年,芯粒市場規模將達到4110億美元。芯粒技術通過將SoC功能分解為更小的異構或同質芯片(即“芯粒”),再將芯粒集成到單系統級封裝(SIP)中,可滿足持續增長的算力和IO帶寬需求,其總硅片面積可超過單個SoC的掩模版尺寸。SIP不僅包含傳統封裝基板,還可采用中介層實現更高布線密度,從而能夠在單個標準或先進封裝中顯著提升功能集成度。圖1展示了在高性能計算應用中,通過UCIe Die-to-Die接口互聯的芯粒的部分潛在應用場景。

▲圖1.采用UCIe IP實現Die-to-Die連接的HPC芯粒示例
芯粒市場的愿景是:開發者能夠通過混合搭配現成的芯粒快速構建系統。如此一來,設計團隊可專注于產品的差異化創新,而通用計算與IO功能則由芯粒承載。在其他領域,標準不統一和功能碎片化的問題仍阻礙著這一愿景的落地。盡管UCIe標準、ARM CSA規范及各類汽車聯盟都已取得一定進展,但尚不足以支撐行業所期待的芯粒市場格局。本文將深入探討系統開發者在芯粒設計與集成過程中面臨的部分關鍵問題及決策考量。
系統劃分
設計團隊需要考慮的首要問題是:設計中應包含哪些功能模塊與功能,以及如何將這些功能劃分到不同的芯粒中。此外,開發者還需為每個模塊選擇高效的半導體工藝節點。一種常見的總體劃分方式是,將計算芯片、輸入輸出(IO)芯片和存儲功能分別部署在不同的芯粒上。接下來要做的是,在延遲、帶寬和功耗之間進行權衡,具體均取決于工藝節點的選擇和芯粒的劃分方式。
工藝節點的選擇
AI加速器中的計算芯片可能適合采用最新的工藝節點,以優化性能和功耗;但在最新工藝節點中實現緩存存儲器可能并非理想選擇。緩存或許可以集成在同一芯片上,但靜態隨機存取存儲器(SRAM)在最新工藝節點中的擴展性可能遠不及邏輯電路,因此在成本更低的節點上實現SRAM會更具效益。此外,通過2.5D Die-to-Die接口來滿足芯片外數據傳輸的延遲要求可能不太合適。一種可行方案是采用3D集成架構:計算芯片采用最新的N節點工藝,而SRAM和IO芯片則采用N-1或N-2節點工藝。
模擬功能或IO接口功能(PCIe、以太網等)對延遲的容忍度可能更高,因此適合在獨立的芯粒中實現,并通過UCIe接口與主芯片連接。主芯粒則可采用較舊的工藝節點以節約成本。
Die-to-Die連接考量因素
UCIe已成為芯粒間Die-to-Die連接的實際標準,但選擇UCIe配置時需考量諸多因素。開發者需根據芯粒的工作任務明確帶寬需求,其中既包括主頻段數據的帶寬,也涵蓋用于控制與管理的側信道數據帶寬。以AI服務器的IO芯粒應用為例,UCIe的帶寬需求與以太網、UALink或PCIe等接口IP息息相關。開發者需做出多項決策,比如每條通道的數據速率;是采用支持更長傳輸距離的有機基板(UCIe標準方案),還是采用超小前端布局與具有超小凸點間距的先進封裝(UCIe高級方案)。此外,還需在數據速率(范圍為16G至64G)與滿足芯片前端限制所需的通道數量之間進行權衡。可用的前端布局可能會根據接口IP的物理層(PHY)布局而變化。根據芯粒的目標尺寸和/或深寬比,開發者可選擇將PHY布置在芯片邊緣的單排中;另一種方案是將PHY按列雙層堆疊,以犧牲PHY區域深度為代價,將前端布局縮減一半。大多數UCIe應用采用串流接口,開發者必須確定從UCIe串流到接口IP的橋接方式,可選方案包括AXI、ARM CXS或即將推出的PXS等標準。此外,還需考慮如何在不浪費帶寬的前提下將數據封裝到可用資源中、執行時鐘交叉功能,并決定數據是從UCIe直接點對點傳輸到接口IP,還是先傳輸至中間的片上網絡(NOC)以提升芯粒內部連接的靈活性。
先進封裝技術:新能力與新挑戰并存
如今,封裝技術受到了前所未有的關注。這些技術進步在帶來巨大機遇的同時,也為單個芯粒或Multi-Die設計中多個芯粒的開發帶來了更多挑戰。
開發者需要確定在Multi-Die設計中芯粒的互聯方式。與包含中介層或帶硅橋中介層的2.5D架構相比,有機基板成本更低,設計周期也更短。對于更先進的應用場景,可能需要中間的中介層來滿足所需的互聯密度、電源/接地及信號路徑要求。一旦確定采用中介層,就必須選擇成熟的硅中介層、新型有機基板重布線層(RDL)中介層,或帶硅橋的RDL中介層,以根據需求提供更高密度的互聯。硅中介層為成熟技術,但尺寸越大成本越高,且受限于材質脆性,尺寸存在局限。RDL中介層則旨在降低成本,并支持更大尺寸,以集成包含更大硅片面積的大型系統。無論選擇哪種方案,開發者都面臨新的挑戰,包括機械外形尺寸、信號完整性與電源完整性分析、單個芯粒的熱分析及其間的相互作用。此外,凸點規劃和晶圓探針布局的復雜性也隨之增加,需要協調芯粒、封裝與測試要求之間的適配性。即便在同一類型的基板襯底或中介層中,凸點間距也可能存在差異,襯底的典型凸點間距范圍為110至150微米,而中介層上使用的微凸點間距為25至55微米。正如圖2所強調的,若加入3D芯片堆疊,差異會愈發顯著。

▲圖2.3.5D封裝示例:通過中介層連接3D芯片堆疊與另一顆2D芯片
封裝面臨的挑戰還包括測試規劃,例如通過晶圓探針實現芯粒的可訪問性,以確保產出已知合格的芯片(KGD);利用IEEE 1838協議和多芯粒測試服務器,對無法通過外部引腳直接訪問的芯片進行測試。
設計與驗證:安全性考量
IP集成面臨諸多挑戰,包括互操作性、驗證及安全性等方面的問題。
當開發者完成異構或同構芯粒的系統劃分后,接下來要面對的挑戰就是設計安全維度的考量。在Multi-Die設計中,需要防御的攻擊面范圍更廣。首要問題是提供認證功能,以驗證每個芯粒的合法性。其次,根據終端應用場景,開發者可能需要構建信任根,用于處理敏感數據,還可能需要在系統間傳遞密鑰以提供數據加密服務。此外,開發者還可考慮采用安全啟動流程,從硬件和固件層面防止外部篡改。同時,必須考慮為關鍵接口上傳輸的數據提供保護,例如PCIe與CXL的完整性和數據加密(IDE)功能、DDR與LPDDR的內嵌存儲加密(IME)功能、以太網的MACsec功能等。另一種可行方案是支持ARM的機密計算架構(CCA)。
系統級仿真、模擬與原型設計是開發過程中的關鍵步驟,可確保芯片的功能與性能達標,實現一次性交付成功。協同設計需涵蓋芯片、軟件與系統組件,以實現最佳的集成與效率,使開發者能在芯片可用前,提前開始軟件開發工作。
結語
將概念和構想轉化為Multi-Die設計,需綜合考量諸多因素,且離不開深厚的經驗積累。新思科技提供業界豐富且基于標準的接口IP產品組合及IP子系統集成服務,能夠交付可直接集成的芯粒子系統。開發者可使用新思科技的系統解決方案設計服務,并借助對新思科技EDA與IP產品有深入了解的生態合作伙伴的力量,從而加速開發進程,確保芯片、封裝與軟件產品的優化集成。目前,開發者可與新思科技展開合作,探討從概念構想、架構設計、IP選擇、流程與方法,到RTL設計、IP集成、物理實現、封裝設計、晶圓廠管理等各個環節,也可選擇與新思科技攜手,采用端到端全流程設計方案。依托新思科技的專業能力與技術服務,開發者能夠聚焦自身核心優勢,將設計中的其他環節交由相關領域的專家,從而快速、可靠地推進產品上市。
-
芯片
+關注
關注
463文章
54010瀏覽量
465972 -
晶圓
+關注
關注
53文章
5408瀏覽量
132282 -
開發者
+關注
關注
1文章
772瀏覽量
18008 -
芯粒
+關注
關注
1文章
85瀏覽量
424
原文標題:系統開發者如何快速實現芯粒設計與集成?
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
系統開發者在芯粒設計與集成過程中的考量因素
評論