国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英特爾和阿里云開發DDR5內存故障預測和預防解決方案

英特爾中國 ? 來源:英特爾中國 ? 2024-10-12 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背 景

在阿里云數據中心,內存故障是服務器穩定運行面臨的主要挑戰之一。大規模數據中心中的內存故障,不僅會降低服務器的可靠性,還可能中斷數據中心的服務并影響服務器的性能。因此,內存可靠性成為數據中心中服務器可靠性、可用性和可維護性(Reliability, Availability, Serviceability–RAS)的關鍵要素。

新一代內存標準DDR5具有更高的帶寬、更低的功耗和更高的密度。然而,它也為內存可靠性帶來了新的挑戰,其中包括:

DDR5引入了新的架構和信號傳輸方式,需要更復雜的電路設計和優化;

DDR5內存模塊容量更大,但也增加了故障的風險;

In-DRAM糾錯碼(ECC)雖然可以糾正內存中單比特的錯誤,但它也導致主機錯誤觀察不夠明確。

為了應對這些挑戰,阿里云與英特爾合作改進了DDR5內存的可靠性。具體措施包括:

1.主板管理控制器(BMC)的統一帶外(OOB)內存錯誤數據收集:通過BMC實現內存錯誤數據的統一收集,為后續分析提供數據基礎。

2.內置人工智能輔助(AI輔助)的故障分析:BMC中集成AI輔助,實時預測和分析內存故障。

3.英特爾Memory Resilience Technology(英特爾 MRT):英特爾 MRT已在阿里云數據中心部署,用于提前預警和預防潛在的內存故障。

4.與阿里云巡洋艦系統(Alibaba Cruiser System)集成:將內存健康評估和預測警報與阿里云的服務器監控系統集成,以確保業務的穩定性。

這些舉措共同為阿里云數據中心提供了快速且全面的硬件監控服務,幫助確保了服務器的可靠性和業務的正常運行。

內存可靠性面臨的挑戰

內存故障可能由多種不同類型內存底層錯誤產生,例如單比特錯誤(SBE)、行類型錯誤、列類型錯誤、多陣列錯誤、存儲器模塊(DIMM)錯誤等。每種內存錯誤都有其特定的頻率和受影響模式。例如,某些錯誤類型會零星出現或間歇性發生,難以有效追蹤,而有些錯誤類型則可能持續報錯。有些錯誤類型存在更高的不可糾正錯誤(Uncorrectable Errors–UE)風險,需要立即采取RAS(可靠性、可用性和可維護性)措施,而其他一些錯誤類型觸發UE的風險相對較低,但在短時間內可能導致大量可糾正錯誤 (Correctable Errors–CE),從而影響系統性能。沒有一種通用的解決方案可以解決所有內存錯誤。

傳統的解決方案之一是在觀察到不可糾正錯誤(UE)后更換故障的DIMM。然而,此舉無法避免系統崩潰的成本。另一種方法是基于計數的可糾正錯誤(CE)評級策略來預測內存故障這種策略在預測復雜內存故障方面效果較差,因為CE和UE的發生不僅取決于硬件的內存故障狀態,還取決于隱性的運行時上下文、ECC糾正能力和內存特定的故障模式。因此,內存錯誤具有高度的不確定性,預測UE非常困難。

雖然沒有通用的解決方案,但我們可以探索更智能的方法來處理內存故障。例如,結合機器學習和實時監測,以更精確地預測UE和CE的發生。內存錯誤是一個復雜且關鍵的問題,需要綜合考慮多種因素來優化系統的可靠性和性能。

基于BMC的人工智能輔助故障分析助力提升DDR5內存的可靠性

阿里云和英特爾聯合研究和開發了面向DDR5的內存故障預測和預防解決方案。該方案通過BMC實現內存錯誤數據的統一收集,為后續分析提供數據基礎。在BMC中集成英特爾 MRT技術提供AI輔助的實時預測和分析內存故障,用于提前預警和預防潛在的內存故障。數據收集、故障分析和預警與阿里云的服務器監控系統集成(阿里云巡洋艦系統),為阿里云的數據中心提供快速而全面的硬件監控服務,以確保業務的穩定性。

wKgaomcJ4GmAQKB1AAD2MP2cv5I691.png

圖1. 解決方案架構圖

這一解決方案的關鍵特點包括:

基于BMC的細粒度內存故障采集

通過BMC收集細粒度的可糾正錯誤(CE)和不可糾正錯誤(UE)信息,包括詳細的位級錯誤數據。相比使用帶內(in-band)方式收集內存錯誤數據,例如錯誤檢測和糾正(EDAC)驅動程序或基于BIOS SMI中斷觸發,基于BMC的帶外內存收集更可靠且統一,具有細粒度的數據粒度和豐富的錯誤信息。

基于微觀內存故障類型的錯誤分析

通過歷史可糾正錯誤(CE)信息的詳細數據,檢測底層內存故障類型。與僅關注CE計數不同,該解決方案從多個因素檢查內存錯誤數據,包括空間分布(例如channel、rank、sub-channel、 bank、row、column等)、時間模式(例如瞬態、間歇、永久)、錯誤位(error bit)位置、內存特定故障模式、CPU錯誤糾錯碼(ECC)設計以及系統RAS配置等綜合評估故障風險。

AI輔助故障分析

利用機器學習方法訓練了一個AI模型,通過對海量DDR5內存日志進行比較,預測內存故障。預先訓練的內存故障預測AI模型集成到主板管理控制器(BMC)中,通過BMC為服務器提供內存故障的實時預測與分析,從而減少大規模數據中心中的服務器停機時間。

集成阿里云巡洋艦硬件故障檢測系統

實時內存健康評估和預測警報已與阿里云巡洋艦系統集成,為阿里云數據中心的物理服務器提供快速而全面的硬件監控服務。

英特爾Memory Resilience Technology

英特爾 Memory Resilience Technology(英特爾 MRT)是一項旨在提高數據中心內存可靠性的技術,它使數據中心運營商能夠主動預測潛在的內存故障風險,確保數據中心的運行和工作負載的連續性。以下是該技術的關鍵功能:

1.基于帶外的細粒度內存故障數據收集:實現細粒度內存錯誤數據的統一收集,為后續分析提供數據基礎。

2.分析定位內存故障點:提供底層內存故障定位及分析。

3.預測性故障警報:提前發現可能出現的內存故障。

4.基于預測的內存頁面離線:根據預測,將內存頁面離線,以防止潛在故障影響。

5.基于預測的內存故障區域隔離:根據預測及系統相應RAS配置,隔離內存故障區域,以避免潛在內存錯誤發生。

英特爾 Memory Resilience Technology利用多維模型和人工智能算法,在微觀層面檢測內存故障。它為每個DIMM分配健康分數,并實時檢測潛在的故障。通過人工智能分析海量的內存錯誤日志優化內存故障預測模型,該技術可以準確地定位潛在問題,并在故障發生之前識別和防止內存故障。

雖然沒有通用的解決方案可以解決所有內存錯誤,但英特爾Memory Resilience Technology為數據中心提供了一種智能且綜合的方法,以優化系統的可靠性和性能。

利用BDAT數據診斷硬件故障

英特爾BIOS參考代碼實現了系統驗證功能,可以生成包括內存余量數據在內的全面系統數據。這些數據從標準的BIOS數據ACPI表 (BDAT)中暴露出來,該表在ACPI表中定義。BDAT數據是系統BIOS的基本支持,它在整個BIOS引導流程中生成,并集成到ACPI RSDT表中。通過分析BDAT數據,可以有效提升生產系統的診斷和問題調試的效率。

結果與分析

阿里云已在不同工作負載下的阿里云數據中心的數千臺采用第四代英特爾 至強 可擴展處理器的平臺上部署了英特爾 Memory Resilience Technology,并正在將平臺升級至第五代英特爾至強 可擴展處理器。

新一代處理器擁有更可靠的性能,更出色的能效。它在運行各種工作負載時均可實現顯著的每瓦性能增益,在AI、數據中心、網絡和科學計算的性能和總體擁有成本(TCO)方面亦有更出色的表現。相較上一代產品,第五代英特爾 至強 可擴展處理器可在相同功耗范圍內提供更高的算力和更快的內存。此外,它與上一代產品的軟件和平臺兼容,因此部署新系統時可大大減少測試和驗證工作。

wKgaomcJ4HeAQvDcAAN2TtK4kNk471.png

圖2. 第五代英特爾 至強 可擴展處理器具備更強大性能

初步結果表明,該解決方案可以在不可糾正錯誤(UE)發生之前有效地預測,并在傳統的基于CE計數的CE風暴識別機制被觸發之前警報可糾正錯誤(CE)風暴案例。UE和CE風暴警報的預測提前時間因底層故障模型而異,從幾分鐘到幾小時甚至幾天不等。該方案經過迭代,預期能夠通過優化的DDR5模型預測57%的UE和74%的CE風暴6 。

除了有效的UE和CE風暴預測外,從BMC收集的帶外(OOB)內存錯誤對于進一步診斷和排除內存和系統問題至關重要。

wKgaomcJ4ICAYbCGAACtmC5TQ_U630.png

圖3. 高效的UE和CE風暴預測

結 論

通過BMC集成英特爾 Memory Resilience Technology技術,可以有效提高阿里云數據中心DDR5內存可靠性。對于阿里云而言,改善整體數據中心的總體擁有成本(TCO)至關重要。英特爾和阿里云正在合作開發下一代的DDR5故障預測技術和提供對新內存技術的方法。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10279

    瀏覽量

    179492
  • 內存
    +關注

    關注

    9

    文章

    3174

    瀏覽量

    76168
  • 阿里云
    +關注

    關注

    3

    文章

    1029

    瀏覽量

    45527
  • DDR5
    +關注

    關注

    1

    文章

    467

    瀏覽量

    25638

原文標題:英特爾攜手阿里云提升DDR5內存的可靠性

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英特爾FPGA 支持阿里的加速即服務

    客戶在云中開發與部署加速器解決方案,以便應用到人工智能推理、視頻流分析、數據庫加速和需要密集型計算的其他領域。 英特爾 FPGA 支持的加速即服務也被稱作阿里
    的頭像 發表于 10-17 16:23 ?8651次閱讀

    DDR5進入放量元年,內存性能提升50%以上!

    近日,英特爾和微星分別官宣,Alder Lake 12代酷睿處理器和Z690主板即將發布,這兩款產品的發布消息一出,將DDR5內存也帶火了起來。據媒體宣稱,英特爾的CPU與微星的主板均
    的頭像 發表于 10-25 08:00 ?1.2w次閱讀

    Introspect DDR5/LPDDR5總線協議分析儀

    M5513是一款適用于下一代DDR5多路復用列雙列直插存儲器的全包式存儲器測試系統 存儲器模塊(MR-DIMM)。該測試系統以極快的速度運行,是長期運行的理想解決方案 DIMM開發和測試。它包含一個完整
    發表于 08-06 12:03

    阿里巴巴攜手英特爾開發一款基于FPGA的解決方案,以幫助客戶提升業務應用的性能

    應用工作負載。 通過使用英特爾? Arria? 10 FPGA、基于英特爾? 至強? 處理器的服務器及軟件開發工具構成即用型預配置基礎設施以進行應用加速,阿里
    發表于 03-15 14:27

    凌華科技發布兩款基于最新的英特爾? 酷睿?處理器的模塊化電腦

    Size C 計算模塊,最高提供 24個內核, 128GB DDR5 SO-DIMM, PCIe Gen5, 2x 2.5GbE LAN, 以及軍用寬溫等級選項●支持英特爾? Time
    發表于 02-15 10:30

    英特爾和谷歌推出面向谷歌Anthos的英特爾精選解決方案

    在今年早些時候,英特爾和谷歌就準備進行更深層次的戰略合作。近日兩家公司宣布推出為第二代英特爾?至強?可擴展處理器優化的面向谷歌Anthos的全新英特爾?精選
    的頭像 發表于 09-02 11:10 ?3365次閱讀

    內存ddr4和顯卡ddr5

    今年,小米10等智能手機都開始用上了LPDDR5內存,此后,這樣規格的內存應該也會成為新一代旗艦手機的標配。不過在PC端,DDR5內存還是需
    發表于 07-30 15:27 ?3247次閱讀

    英特爾攜手阿里推出了全新領航員計劃2.0,共推數智經濟發展

    在2020阿里云棲大會期間,英特爾公布了眾多與阿里巴巴的最新技術創新進展,包括:共同開發云原生軟件、發布阿里
    的頭像 發表于 09-21 23:16 ?2219次閱讀

    DDR5放量元年 上游三巨頭積極部署

    近日,英特爾和微星分別官宣,Alder Lake 12代酷睿處理器和Z690主板即將發布,這兩款產品的發布消息一出,將DDR5內存也帶火了起來。據媒體宣稱,英特爾的CPU與微星的主板均
    的頭像 發表于 10-26 16:54 ?2870次閱讀

    金士頓DDR5內存通過英特爾內存解決方案_瑞虎8西伯利亞版上市發布

    2021年10月9日北京訊,全球存儲領袖金士頓宣布,即將推出的DDR5內存已通過英特爾平臺認證,這是一個重要的里程碑,因為金士頓的DDR5內存
    的頭像 發表于 03-16 09:23 ?1754次閱讀

    英特爾? Agilex? M系列滿足不斷增加的內存帶寬需求

    英特爾? Agilex? M 系列 FPGA 具有多種獨特的功能,可以滿足不斷增加的內存帶寬和計算效率需求。它支持包括 HBM2e、DDR5、LPDDR5
    的頭像 發表于 04-24 14:34 ?2147次閱讀

    英特爾13代酷睿模組的最佳之選——科賦DDR5超頻電競內存

    ,對比英特爾 12 代,性能提升40%左右,而且內存模組也支持更高的DDR5運行頻率,這就不得不提到存儲界的領軍品牌KLEVV科賦,在九月底發布的DDR5新款電競超頻
    發表于 12-02 09:45 ?1364次閱讀

    英特爾阿里攜手共創數智新紀元

    在2024年云棲大會的璀璨舞臺上,英特爾攜手阿里及眾多行業精英,共繪AI時代計算的宏偉藍圖,探索前沿技術與多元解決方案的無限潛力。此次盛
    的頭像 發表于 09-23 12:53 ?1291次閱讀

    DDR5內存的工作原理詳解 DDR5DDR4的主要區別

    DDR5內存的工作原理詳解 1. DDR5內存簡介 DDR5(Double Data Rate 5
    的頭像 發表于 11-22 15:38 ?7686次閱讀

    DDR5內存DDR4內存性能差異

    DDR5內存DDR4內存性能差異 隨著技術的發展,內存技術也在不斷進步。DDR5
    的頭像 發表于 11-29 14:58 ?5030次閱讀