背 景
在阿里云數據中心,內存故障是服務器穩定運行面臨的主要挑戰之一。大規模數據中心中的內存故障,不僅會降低服務器的可靠性,還可能中斷數據中心的服務并影響服務器的性能。因此,內存可靠性成為數據中心中服務器可靠性、可用性和可維護性(Reliability, Availability, Serviceability–RAS)的關鍵要素。
新一代內存標準DDR5具有更高的帶寬、更低的功耗和更高的密度。然而,它也為內存可靠性帶來了新的挑戰,其中包括:
DDR5引入了新的架構和信號傳輸方式,需要更復雜的電路設計和優化;
DDR5內存模塊容量更大,但也增加了故障的風險;
In-DRAM糾錯碼(ECC)雖然可以糾正內存中單比特的錯誤,但它也導致主機錯誤觀察不夠明確。
為了應對這些挑戰,阿里云與英特爾合作改進了DDR5內存的可靠性。具體措施包括:
1.主板管理控制器(BMC)的統一帶外(OOB)內存錯誤數據收集:通過BMC實現內存錯誤數據的統一收集,為后續分析提供數據基礎。
2.內置人工智能輔助(AI輔助)的故障分析:BMC中集成AI輔助,實時預測和分析內存故障。
3.英特爾Memory Resilience Technology(英特爾 MRT):英特爾 MRT已在阿里云數據中心部署,用于提前預警和預防潛在的內存故障。
4.與阿里云巡洋艦系統(Alibaba Cruiser System)集成:將內存健康評估和預測警報與阿里云的服務器監控系統集成,以確保業務的穩定性。
這些舉措共同為阿里云數據中心提供了快速且全面的硬件監控服務,幫助確保了服務器的可靠性和業務的正常運行。
內存可靠性面臨的挑戰
內存故障可能由多種不同類型內存底層錯誤產生,例如單比特錯誤(SBE)、行類型錯誤、列類型錯誤、多陣列錯誤、存儲器模塊(DIMM)錯誤等。每種內存錯誤都有其特定的頻率和受影響模式。例如,某些錯誤類型會零星出現或間歇性發生,難以有效追蹤,而有些錯誤類型則可能持續報錯。有些錯誤類型存在更高的不可糾正錯誤(Uncorrectable Errors–UE)風險,需要立即采取RAS(可靠性、可用性和可維護性)措施,而其他一些錯誤類型觸發UE的風險相對較低,但在短時間內可能導致大量可糾正錯誤 (Correctable Errors–CE),從而影響系統性能。沒有一種通用的解決方案可以解決所有內存錯誤。
傳統的解決方案之一是在觀察到不可糾正錯誤(UE)后更換故障的DIMM。然而,此舉無法避免系統崩潰的成本。另一種方法是基于計數的可糾正錯誤(CE)評級策略來預測內存故障這種策略在預測復雜內存故障方面效果較差,因為CE和UE的發生不僅取決于硬件的內存故障狀態,還取決于隱性的運行時上下文、ECC糾正能力和內存特定的故障模式。因此,內存錯誤具有高度的不確定性,預測UE非常困難。
雖然沒有通用的解決方案,但我們可以探索更智能的方法來處理內存故障。例如,結合機器學習和實時監測,以更精確地預測UE和CE的發生。內存錯誤是一個復雜且關鍵的問題,需要綜合考慮多種因素來優化系統的可靠性和性能。
基于BMC的人工智能輔助故障分析助力提升DDR5內存的可靠性
阿里云和英特爾聯合研究和開發了面向DDR5的內存故障預測和預防解決方案。該方案通過BMC實現內存錯誤數據的統一收集,為后續分析提供數據基礎。在BMC中集成英特爾 MRT技術提供AI輔助的實時預測和分析內存故障,用于提前預警和預防潛在的內存故障。數據收集、故障分析和預警與阿里云的服務器監控系統集成(阿里云巡洋艦系統),為阿里云的數據中心提供快速而全面的硬件監控服務,以確保業務的穩定性。

圖1. 解決方案架構圖
這一解決方案的關鍵特點包括:
基于BMC的細粒度內存故障采集
通過BMC收集細粒度的可糾正錯誤(CE)和不可糾正錯誤(UE)信息,包括詳細的位級錯誤數據。相比使用帶內(in-band)方式收集內存錯誤數據,例如錯誤檢測和糾正(EDAC)驅動程序或基于BIOS SMI中斷觸發,基于BMC的帶外內存收集更可靠且統一,具有細粒度的數據粒度和豐富的錯誤信息。
基于微觀內存故障類型的錯誤分析
通過歷史可糾正錯誤(CE)信息的詳細數據,檢測底層內存故障類型。與僅關注CE計數不同,該解決方案從多個因素檢查內存錯誤數據,包括空間分布(例如channel、rank、sub-channel、 bank、row、column等)、時間模式(例如瞬態、間歇、永久)、錯誤位(error bit)位置、內存特定故障模式、CPU錯誤糾錯碼(ECC)設計以及系統RAS配置等綜合評估故障風險。
AI輔助故障分析
利用機器學習方法訓練了一個AI模型,通過對海量DDR5內存日志進行比較,預測內存故障。預先訓練的內存故障預測AI模型集成到主板管理控制器(BMC)中,通過BMC為服務器提供內存故障的實時預測與分析,從而減少大規模數據中心中的服務器停機時間。
集成阿里云巡洋艦硬件故障檢測系統
實時內存健康評估和預測警報已與阿里云巡洋艦系統集成,為阿里云數據中心的物理服務器提供快速而全面的硬件監控服務。
英特爾Memory Resilience Technology
英特爾 Memory Resilience Technology(英特爾 MRT)是一項旨在提高數據中心內存可靠性的技術,它使數據中心運營商能夠主動預測潛在的內存故障風險,確保數據中心的運行和工作負載的連續性。以下是該技術的關鍵功能:
1.基于帶外的細粒度內存故障數據收集:實現細粒度內存錯誤數據的統一收集,為后續分析提供數據基礎。
2.分析定位內存故障點:提供底層內存故障定位及分析。
3.預測性故障警報:提前發現可能出現的內存故障。
4.基于預測的內存頁面離線:根據預測,將內存頁面離線,以防止潛在故障影響。
5.基于預測的內存故障區域隔離:根據預測及系統相應RAS配置,隔離內存故障區域,以避免潛在內存錯誤發生。
英特爾 Memory Resilience Technology利用多維模型和人工智能算法,在微觀層面檢測內存故障。它為每個DIMM分配健康分數,并實時檢測潛在的故障。通過人工智能分析海量的內存錯誤日志優化內存故障預測模型,該技術可以準確地定位潛在問題,并在故障發生之前識別和防止內存故障。
雖然沒有通用的解決方案可以解決所有內存錯誤,但英特爾Memory Resilience Technology為數據中心提供了一種智能且綜合的方法,以優化系統的可靠性和性能。
利用BDAT數據診斷硬件故障
英特爾BIOS參考代碼實現了系統驗證功能,可以生成包括內存余量數據在內的全面系統數據。這些數據從標準的BIOS數據ACPI表 (BDAT)中暴露出來,該表在ACPI表中定義。BDAT數據是系統BIOS的基本支持,它在整個BIOS引導流程中生成,并集成到ACPI RSDT表中。通過分析BDAT數據,可以有效提升生產系統的診斷和問題調試的效率。
結果與分析
阿里云已在不同工作負載下的阿里云數據中心的數千臺采用第四代英特爾 至強 可擴展處理器的平臺上部署了英特爾 Memory Resilience Technology,并正在將平臺升級至第五代英特爾至強 可擴展處理器。
新一代處理器擁有更可靠的性能,更出色的能效。它在運行各種工作負載時均可實現顯著的每瓦性能增益,在AI、數據中心、網絡和科學計算的性能和總體擁有成本(TCO)方面亦有更出色的表現。相較上一代產品,第五代英特爾 至強 可擴展處理器可在相同功耗范圍內提供更高的算力和更快的內存。此外,它與上一代產品的軟件和平臺兼容,因此部署新系統時可大大減少測試和驗證工作。

圖2. 第五代英特爾 至強 可擴展處理器具備更強大性能
初步結果表明,該解決方案可以在不可糾正錯誤(UE)發生之前有效地預測,并在傳統的基于CE計數的CE風暴識別機制被觸發之前警報可糾正錯誤(CE)風暴案例。UE和CE風暴警報的預測提前時間因底層故障模型而異,從幾分鐘到幾小時甚至幾天不等。該方案經過迭代,預期能夠通過優化的DDR5模型預測57%的UE和74%的CE風暴6 。
除了有效的UE和CE風暴預測外,從BMC收集的帶外(OOB)內存錯誤對于進一步診斷和排除內存和系統問題至關重要。

圖3. 高效的UE和CE風暴預測
結 論
通過BMC集成英特爾 Memory Resilience Technology技術,可以有效提高阿里云數據中心DDR5內存可靠性。對于阿里云而言,改善整體數據中心的總體擁有成本(TCO)至關重要。英特爾和阿里云正在合作開發下一代的DDR5故障預測技術和提供對新內存技術的方法。
-
英特爾
+關注
關注
61文章
10279瀏覽量
179492 -
內存
+關注
關注
9文章
3174瀏覽量
76168 -
阿里云
+關注
關注
3文章
1029瀏覽量
45527 -
DDR5
+關注
關注
1文章
467瀏覽量
25638
原文標題:英特爾攜手阿里云提升DDR5內存的可靠性
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄

英特爾和阿里云開發DDR5內存故障預測和預防解決方案
評論