亚州国产一区二区三区四区,久久国产精品—国产精品,中文字幕一区二区三区四区在线

編者按

Chiplet標準UCIe已經得到很多主流大廠的認可，席卷之勢愈發明顯。但就Chiplet的價值挖掘，目前可見的，都還停留在如何降成本和簡單地擴大設計規模方面。我們覺得，Chiplet的價值還沒有得到充分挖掘。 Chiplet帶來的價值，不應該是線性增長，而應該是指數增長：

一方面，量變會引起質變，Chiplet的流行，快速增加的單芯片設計規模，會給系統架構創新提供更大的發揮空間，使得計算的架構，從異構走向超異構。

另一方面，超異構帶來的算力指數級提升，使得Chiplet的價值得到更加充分的發揮，反過來會促進Chiplet的大范圍流行。

1 背景知識

1.1 單DIE性能和成本

單DIE的性能和成本，是正相關的關系。通常的芯片DIE設計，一定是在保證系統所需性能的條件下，選擇最合適的工藝，達到最合適的面積（成本），達到在性能約束條件下的性能成本比最優。或者說：

在系統性能成本最優的狀態下，受邊際效應影響，想再想增加單DIE性能，所需要付出的成本代價非常高，會顯著影響性價比。

在系統性能成本最優的狀態下，想要再優化單DIE成本，可能會引起性能的大比例下降，反而不是性價比最優。

1.2 Chiplet協議UCIe

英特爾、AMD、ARM、高通、三星、臺積電、日月光等大廠，以及Google Cloud、Meta、微軟于2022年3月2日宣布了一項新技術標準UCIe（Universal Chiplet Interconnect Express）。UCIe是一個開放的行業互連標準，可以實現小芯片之間的封裝級互連，具有高帶寬、低延遲、經濟節能的優點。 UCIe能夠滿足幾乎所有計算領域，包括云端、邊緣端、企業、5G、汽車、高性能計算和移動設備等，對算力、內存、存儲和互連不斷增長的需求。UCIe 具有封裝集成不同Die的能力，這些Die可以來自不同的晶圓廠、采用不同的設計和封裝方式。

UCIe白皮書中給出的Chiplets封裝集成的價值：

首先是面積的影響。為了滿足不斷增長的性能需求，芯片面積增加，有些設計甚至會超出掩模版面積的限制。即使不超過面積限制，改用多個小芯片也更有利于提升良率。另外，多個相同Die的集成封裝能夠適用于更大規模的場景。

另一個價值體現在降低成本。例如，處理器核心可以采用先進的工藝，用更高的成本換取極致的性能，而內存和I/O控制器則可以復用非先進工藝。隨著工藝節點的進步，成本增長非常迅速。若采用多Die集成模式，有些Die的功能不變，我們不必對其采用先進工藝，可在節省成本的同時快速搶占市場。Chiplet封裝集成模式還可以使用戶能夠自主選擇Die的數量和類型。例如，用戶可以根據需求挑選任意數量的計算、內存和I/O Die，并無需進行Die的定制設計，可降低產品的SKU成本。

允許廠商能夠以快速且經濟的方式提供定制解決方案。如圖1所示，不同的應用場景可能需要不同的計算加速能力，但可以使用同一種核心、內存和I/O。Chiplet方式允許廠商根據功能需求對不同的功能單元應用不同的工藝節點，并實現共同封裝。相比板級互連，封裝級互連具有線長更短、布線更緊密的優點。

1.3 超異構計算

系統變得越來越龐大，系統可以分解成很多個子系統，子系統的規模已經達到傳統單系統的規模。因此，都升級一下：系統變成了宏系統，子系統變成了系統。系統足夠龐大，場景綜合，單類型架構無法包打天下：

CPU靈活性最好，但性能較差；

DSA性能很好，但靈活性差；

GPU介于兩者之間，可以說能較好的平衡性能和靈活性，也可以說，性能和靈活性都不夠極致。

規模龐大的復雜系統存在很多硬件加速的空間：

復雜系統最核心的一個特征是二八定律。用戶只關心自己的應用，而應用通常只占系統的20%，另外80%用戶不關心的也相對確定的部分，一般稱為基礎設施，這些是可以通過硬件加速來優化性能的。

系統是逐步發展和沉淀的。很多原本屬于應用層的工作任務，隨著時間推移，越來越成熟，逐漸地沉淀成了基礎設施。這些沉淀的工作任務可以通過硬件加速來優化性能。最典型的場景是AI推理，現在已經成為了基礎的服務，供不同的應用調用。

在云計算、邊緣計算等形式的綜合計算模式下，單個用戶應用的規?？赡懿淮?，但因為云計算的超大規模和多租戶，很多相似的用戶應用其總和規模足夠龐大，因此，也可以通過GPU、FPGA或專用芯片的方式進行加速優化。

那么，要做的就是揚長避短，把不同類型的處理引擎協作起來，把各種引擎的優勢充分利用起來，形成超異構計算架構：

DSA負責相對確定的大計算量的工作；

GPU負責應用層有一些性能敏感的并且有一定彈性的工作；

CPU啥都能干，負責兜底。

于是整個系統架構就變成了超異構架構。

總結一下計算架構發展的四個階段：

第一階段，單CPU串行計算；

第二極端，多核CPU的并行計算；

第三階段，CPU+xPU的異構計算；

第四階段，CPU+GPU+DSA+etc.的超異構計算。

2 Chiplet技術方案

2.1 方案1：設計規模不變，優化單DIE面積和良率等

一般情況下，在同等工藝同等功耗技術下，我們可以簡單地認為，面積和成本成正比的。Chiplet實現用面積更小的DIE，實現同等規模設計，其優勢主要為：

單DIE面積變小，增加芯片良率。而通常，單DIE的面積是已經平衡好良率的情況下的，再減小面積優化良率，可能效果并不是很明顯。并且，多DIE封裝會帶來額外的良率風險。這樣，一里一外的問題，通過多DIE來優化良率的效果可能就不會很明顯。

可以讓一些DIE不采用先進工藝，通過較低一些的工藝降低成本。

在不改變性能的條件下，通過Chiplet封裝可以降低成本；也可以反過來說，在同樣成本條件下，通過Chiplet封裝可以提升性能。

2.2 方案2：單DIE設計規模不變，多DIE集成

當我們確定好單個DIE的性能和面積（功耗）的時候，這個時候相當于是把工藝的價值挖掘到了最優。需要Chiplet的價值，也同樣需要工藝的價值，都不能少。我們要做的是在工藝價值的基礎上，再疊加Chiplet封裝的價值。而不是如方案1一樣，為了Chiplet而Chiplet，反而放棄工藝的價值。因此，我們可以在原有DIE的基礎上，通過多DIE封裝來立竿見影地提升性能。

2.3 方案3：多DIE集成設計規模倍增，并且重構系統

通常，CPU組成的芯片，性能不夠；而GPU、DSA組成的芯片無法單獨工作，需要外掛CPU，形成CPU+XPU的異構計算架構；而SOC本質上是CPU+xPU的多個異構系統的集成。異構計算和SOC，本質上都是以CPU為中心的系統，XPU是一個個孤島，所有的事情都需要CPU的參與才能把這些處理引串起來。超異構完全打破不同處理引擎之間的界限，CPU和其他XPU同樣的地位，XPU間可以非常充分的交互，達到系統充分的整合。超異構計算可以做到：

性能和靈活性兼顧。因為二八定律的緣故，絕大部分計算是在DSA級別的處理引擎中完成，所以性能效率很好。而用戶關心的應用依然是在CPU級別的處理引擎完成，又兼顧了靈活可編程性。

因為超異構計算架構可以駕馭更大的系統，因此，可以做到，在性能效率和DSA同量級的情況下，性能相比DSA再數量級的提升。

2.4 方案性能提升對比

注意：本節內容是定性分析，還無法做到定量分析。方案1，可以實現性能的百分比增長。方案1的道理很好理解，本來的目標是優化成本，在同等性能情況下，能夠百分比地優化成本。我們相應地折算一下，在同等成本下，方案1可以做到性能的百分比提升。方案2，可以實現性能的線性增長。方案2也很好理解，通過增加更多數量的DIE來提升并行度，以此來提升性能。集成多少個DIE，性能就增加到多少倍。方案3，可以實現性能的指數增長。方案3通過整個系統重構，挖掘系統的一些可加速的點，然后再實現整個系統的充分整合重構。以此來提升性能?？梢赃_到數量級的性能增長。

3 總結

3.1 設計規模的量變，引起系統架構的質變

規模是一個很重要的因素。云計算百萬臺的超大規模，其軟硬件架構和運營模式跟傳統的數百臺的私有機房是完全迥異的。深度神經網絡，通過更大量數據、更深層次網絡的量變，成就了AI的“智”變。芯片也是同樣的道理，隨著規模的增長，很多設計方案考慮的問題會跟以前完全不一樣。在小規模的時候，我們強調定制，極度優化性能和功耗等；但等到超大規模IC設計，我們更多關注的是通用性、可編程性、易用性、生態等。 Chiplet機制，提供了立竿見影讓芯片設計規模數量級增加的能力。如果我們不在系統架構層次創新，充分利用芯片規模數量級增加的這個優勢，只是簡單的平行擴展，那真是暴殄天物，浪費Chiplet給系統架構師們的饋贈。換個角度，現有的異構計算也好，SOC也好，無法駕馭Chiplet提供的超大規模芯片系統。需要本質的、體系性的系統架構創新，來更好地駕馭Chiplet的價值。

3.2 超異構，讓Chiplet價值得到更大的發揮

超異構集成更多的處理引擎，提供更高的并行性，實現更分布式的系統，可以更好地駕馭數量級增加的芯片設計規模。此外，Chiplet更好地容納現有宏系統的承載，通過超異構，使得很多性能優化措施得到落實，從而使得性能指數級增長（而不是根據面積的增加，線性增長）。可以說，超異構，成就了Chiplet更大的價值，使得Chiplet方案得到更大范圍的落地，促進Chiplet技術的成熟和市場繁榮。

3.3 Chiplet和超異構的關系：雙劍合璧，相互成就