當AI技術芯片的功耗和熱量不斷攀升,散熱成為技術進步新瓶頸。微軟最新研發的微流體冷卻系統突破傳統冷板限制,將液體冷卻劑直接引入芯片內部,散熱效率提升最高3倍。這項技術不僅顯著降低溫升與能耗,還為3D芯片架構和更高密度的數據中心鋪平道路,標志著AI技術算力基礎設施邁向更高效、更可持續的新階段。
最近,AI 技術芯片非常“熱”——是字面意義上的熱。
數據中心用于運行最新 AI 技術的芯片,明顯比前幾代硅芯片產生了更多的熱量。任何感受過手機或筆記本電腦發熱的人都明白,電子設備不喜歡高溫。當 AI 技術算力和新芯片設計的需求日益增長,當前的冷卻技術將在短短幾年內成為限制 AI 技術進步的瓶頸。為解決這個問題,微軟已成功測試了一種新的冷卻系統,其散熱效果比目前常用的冷板冷卻技術高出3倍。
這種新系統采用了微流體技術(Microfluidics),這種方法將液體冷卻劑直接引入硅芯片內部——即熱源所在。冷卻系統中的微小通道被直接蝕刻在硅芯片的背面,形成溝槽,使冷卻液能夠直接流經芯片,并高效帶走熱量。
該團隊還使用了 AI 技術來識別芯片上獨特的熱特征,并更精確地引導冷卻劑。研究人員表示,微流體技術可以提高下一代 AI 技術芯片的效率和可持續性。目前數據中心中使用的大多數 GPU 都采用冷板冷卻,但冷板與熱源之間隔著好幾層材料,這種結構限制了其散熱效率,而隨著每一代新的 AI 技術芯片功能越來越強大,產生的熱量也越來越多。最快在5年內,“如果你仍然嚴重依賴傳統的冷板技術,你就會陷入瓶頸。”微軟云運營與創新部門高級技術項目經理薩希·馬杰蒂(Sashi Majety)說。
近期,微軟宣布已成功開發出一種芯片內微流體冷卻系統,能夠有效冷卻一臺運行模擬 Microsoft Teams 會議核心服務的服務器。
微軟公司副總裁、云運營與創新首席技術官朱迪·普里斯特:“微流體技術將允許實現功率密度更高的設計,這將使芯片能夠具備更多客戶關心的功能,并在更小的空間內提供更好的性能。但我們需要證明這項技術和設計是可行的,然后我想做的下一件事就是測試可靠性。
該公司的實驗室規模測試表明,根據工作負載和配置的不同,微流體技術的散熱性能最高可比冷板提升三倍,微流體技術還將 GPU 內部硅芯片的最高溫升降低了65%,但這一結果會因不同芯片類型而有所差異。該團隊預計,這種先進的冷卻技術還將提高電源使用效率(PUE,衡量數據中心能效的關鍵指標),并降低運營成本。”
01利用 AI 技術進行仿生設計
微流體技術并非新概念,但使其投入實用一直是整個行業面臨的挑戰。“在開發像微流體這樣的技術時,系統思維至關重要。你需要理解跨越硅芯片、冷卻劑、服務器和數據中心的系統交互,以充分利用它。”微軟云運營與創新系統技術總監侯薩姆·阿利薩(Husam Alissa)強調,僅僅是設計出合適的溝槽就很困難。微通道的尺寸與人類頭發絲相當,這意味著沒有任何容錯空間。
在原型開發的工作中,微軟與瑞士初創公司 Corintis 合作,利用 AI 技術優化了一種仿生散熱設計,其冷卻效率高于傳統的直上直下通道。這種仿生設計類似于樹葉或蝴蝶翅膀的脈絡——自然界已被證明擅長以最高效的路徑輸運所需物質,并分配養分。
微流體技術需要的不僅僅是創新的通道設計,更是一個復雜的工程挑戰。它需要確保通道足夠深,能夠循環足夠的冷卻液而不堵塞,同時又不能太深以致削弱硅芯片強度,帶來破裂風險。僅在過去一年,該團隊就進行了4次設計迭代。
微流體技術還需要為芯片設計防泄漏封裝、尋找最佳冷卻劑配方、測試不同的蝕刻方法,并開發將蝕刻步驟添加到芯片制造中的分步流程。這一突破只是微軟在基礎設施領域持續投資與創新、以滿足 AI 技術服務與算力需求的一個縮影。
例如,該公司計劃在本季度資本支出超過300億美元。這些投資包括開發其自有的 Cobalt 和 Maia 系列芯片,這些芯片專為更高效地運行微軟和客戶工作負載而設計。例如,自微軟部署其 Cobalt 100 芯片以來,微軟及其客戶正受益于這種芯片的高能效、可擴展性與卓越性能。
然而,芯片只是整個系統性難題中的一部分,因為硅芯片是在數據中心內復雜的板卡、機架和服務器系統中工作的。微軟的系統方法意味著要微調這個堆棧的每個部分,使其協同工作,最大化性能和效率。開發下一代冷卻技術,如微流體技術,正是這一系統優化的重要環節。
下一步,微軟將繼續研究如何將微流體冷卻技術整合到其未來幾代自研芯片中。公司還表示,將繼續與制造和硅芯片合作伙伴合作,將微流體技術納入其數據中心的量產流程。
“硬件是我們服務的基礎。” Microsoft 365 核心管理技術研究員吉姆·克利韋因(Jim Kleewein)說,“我們都與這個基礎利害相關——它的可靠性、成本效益、速度、我們能從中獲得的行為一致性以及可持續性等等。微流體技術改善了成本、可靠性、速度、行為一致性、可持續性等每一個方面。”
02微流體技術的優勢
事實上,一個簡單的 Microsoft Teams 通話就能展現出微流體冷卻技術的潛在優勢。
Microsoft Teams 不是一種單一服務,而是大約300個不同服務組成的集合,它們無縫協作,各自承擔不同職責:連接客戶、主持會議、存儲聊天、合并音頻、錄制內容以及轉錄。克利韋因解釋:“每項服務都有不同的特點,對服務器的不同部件壓力也不同。服務器使用率越高,產生的熱量就越多,這很合理。”
例如,大多數 Microsoft Teams 通話往往在整點或半點開始。呼叫控制器在這些時間點的前五分鐘到后三分鐘非常繁忙,而在其他時間則不太繁忙。處理需求峰值有兩種方法,一是部署大量昂貴卻時常閑置的冗余資源,二是讓服務器超負荷運行,即所謂的“超頻” (overclocking)。但是因為超頻會顯著提升芯片溫度,若過度使用可能導致損壞。
克利韋因說:“每當我們遇到峰值工作負載時,我們都希望能夠超頻,而微流體技術將允許我們進行超頻,而無需擔心燒毀芯片,因為這種更高效的芯片冷卻技術有成本和可靠性上的優勢,還有速度優勢,這讓我們可以更安全的實現超頻。”
03在更大的技術圖景中理解冷卻技術
微流體技術是微軟技術藍圖中的一環,旨在推動冷卻技術革新,并優化云堆棧中的每一部分。
傳統上,數據中心通過大型風扇吹風來冷卻,但液體的導熱效率遠高于空氣。微軟已在其數據中心部署的一種液體冷卻形式是冷板。冷板放置在芯片頂部,冷液體流入,在冷板內部的通道中循環,從下方的芯片吸收熱量,然后熱液體流出進行冷卻。
芯片通常被多層材料封裝以保護芯片,但這些材料也像毯子一樣,既阻礙了內部熱量散發,又阻擋外部冷卻效果,從而限制了冷板的性能。但預計適用于 AI 技術的下一代芯片將消耗更大的算力,因此可能會變得過熱而無法通過冷板有效散熱。
而通過微流體通道直接冷卻芯片的效率要高得多——不僅在于散熱,還在于整個系統的運行。由于去除了多層絕緣結構,冷卻劑可直接接觸發熱的硅芯片,從而在更高溫下即可實現有效散熱。這將節省原先用于給冷卻劑制冷的能源,同時冷卻效果優于當前冷板,還能有效利用廢熱。
微軟還旨在通過軟件和其他方法優化數據中心運營。“如果微流體冷卻能使用更少的電力來冷卻數據中心,那將減輕對附近社區電網的壓力。”專攻計算效率的微軟云技術研究員兼公司副總裁里卡多·比安基尼(Ricardo Bianchini)補充。
散熱問題不僅制約了 AI 技術計算與芯片設計,也制約了數據中心的設計。數據中心的一大優勢在于服務器之間的物理距離很近。距離會降低服務器之間的通信速度,也就是所謂的延遲。但如今的服務器密度已經達到一定程度,超過這個程度就會出現散熱問題。微流體技術能夠提高數據中心的服務器密度。這意味著數據中心有可能在無需額外建筑的情況下提升計算能力。
04芯片創新的未來
微流體技術還有潛力開啟全新的芯片架構,例如 3D 芯片。正如將服務器緊密排列可以降低延遲一樣,堆疊芯片可以進一步降低延遲。這種 3D 架構的制造極具挑戰性,因為它會產生大量熱量。然而,微流體技術可以將冷卻劑輸送到非常靠近功率消耗點的位置,因此“我們未來可能會讓液體直接流過芯片內部”,比安基尼補充解釋。
這類似 3D 堆疊結構中的設計。這將涉及一種不同的微流體設計,在堆疊的芯片之間使用圓柱形針柱,有點像多層停車場的柱子,流體圍繞它們流動。普里斯特表示:“任何時候我們能更高效地做事并簡化流程,這都為新的創新打開了機會,我們可以研究新的芯片架構。”
突破散熱限制后,數據中心機架可容納更多芯片,或在單芯片上集成更多核心,從而提升速度并支持更小型、更高性能的數據中心。
微軟表示,通過成功演示微流體等新型冷卻技術的可行性,公司希望為整個行業開發更高效、更可持續的下一代芯片鋪平道路。
吉姆·克利韋因,Microsoft 365 核心管理技術研究員吉姆·克利韋因:“我們希望微流體技術成為每個人都做的事情,而不僅僅是我們做的事情。采用者越多,技術發展越快,對微軟、客戶乃至整個行業都更有利。”
-
芯片
+關注
關注
463文章
54007瀏覽量
465905 -
微軟
+關注
關注
4文章
6741瀏覽量
107847 -
AI
+關注
關注
91文章
39755瀏覽量
301354
原文標題:AI 技術芯片越來越「燙」,微軟新技術快速降溫!
文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
Altair CFD 以技術賦能工程創新?
中航光電持續深耕流體傳輸及液冷散熱領域
電壓放大器在芯片散熱驅動液冷系統實驗中的應用
如何通過優化電能質量在線監測裝置的散熱系統來降低功耗?
研發者眼中的網紅產品——“15w轉”【其利天下】
航空發動機三大生命線:燃油/潤滑/冷卻系統核心技術深度解析
【技術貼】超低功耗黑科技!艾為AW86320 高壓液冷驅動IC,散熱新寵誕生
意法半導體與新加坡能源集團共同開發新型雙溫冷卻系統
Modbus轉ETHERNET IP網關:快速冷卻系統的智能化升級密鑰
? 尼得科從5月開始量產AI數據中心新型冷卻系統產品——行間式(In Row式)大型CDU
ST電機控制方案如何為數據中心等高功率冷卻系統“降溫增效”
微軟最新研發微流體冷卻系統助力散熱效率提升最高三倍
評論