国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SSD的可靠性可靠性量化指標MTBF

SSDFans ? 來源:Memblaze ? 作者:Memblaze ? 2021-10-11 09:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

企業環境復雜多變,快速增長的業務需求使得企業在數據存儲規模、存儲性能和可靠性等多方面提出了越來越高的要求。SSD固態硬盤憑借極高的讀寫性能、極低延遲成為越來越多企業的首選解決方案,并在數據庫、虛擬化、應用加速、大數據、云計算乃至人工智能等領域發揮重要作用。企業級SSD往往需要在高并發、大壓力、24小時全天候運行的嚴苛環境下運行,其可靠性是企業級用戶的重點關注之一。

可靠性指的是一個部件或系統在規定的操作條件下,在特定的時間內繼續執行其預定功能的能力。對企業級SSD而言,它是非常重要的一項指標,不僅直接決定產品出貨的良率、故障率等核心指標,而且對數據可用性、一致性的保護,也起著關鍵作用。

01

可靠性量化指標 —— MTBF

SSD的“可靠性”通常以MTBF量化衡量。MTBF全稱Mean Time between Failures,平均故障間隔時間,即產品在總的使用階段累計工作時間與故障次數的比值。它反映了產品的時間質量,產品故障越少,MTBF越高,產品可靠性也就越高。

與消費級SSD產品相比,企業級SSD在可靠性方面面臨更高挑戰。根據OCP(Open Compute Project)給出的建議,部署于數據中心的企業級SSD MTBF平均故障間隔時間要在2,000,000小時,也是目前企業級SSD奉行的標準。但是,MTBF是需要實際跑測驗證的,不能憑空而來。按照傳統方法,要完成多次200萬小時的驗證顯然不可能。那么,這長達200萬小時的平均故障間隔時間,又是如何得到的呢?

答案是基于一定樣本量,在一定時間段內通過加速因子加速(如寫入量加速、運行環境溫度加速)進行統計推斷。過程模擬典型用戶場景,通過實測驗證理論值,提前驗收產品質量。嚴謹的跑測驗證將直接決定MTBF“可靠性指標”是否真的可靠。

02

MTBF 的表征時期

和大部分電子產品一樣,SSD同樣符合浴盆曲線(失效率曲線)特性,它分為三個關鍵時期:

早期失效期(Infant Mortality)

產品在剛生產好并加電使用時,因良率等因素會導致其失效率較高。為保證交付到客戶手上的SSD符合企業級可靠性標準,企業級SSD廠商會對所有生產線上的產品進行一定時長的老化跑測,以最大程度暴露產品可能的早期失效,保證客戶拿到的產品不存在早期失效問題。

偶然失效期(Random Failures or Normal Life)

這一階段對應正式出貨產品,產品失效率較低,且較穩定。產品可靠性指標MTBF所描述的就是這個時期,即產品的穩定使用階段。

磨損期(Wearout Phase)

該階段因產品磨損、老化等因素,其失效率會隨時間的延長而呈指數級增加。此時SSD宣稱壽命已經結束,雖可繼續使用,但壞塊會隨著PE的增加而加速上升,SSD的有效預留空間(OP)逐漸消耗殆盡,設備失效率提高。對企業級SSD而言,進入磨損期的產品已不建議繼續使用。

03

MTBF = MTTF

在MTBF之外,你可能還聽過另外一個可靠性描述的詞——MTTF。對于一個可維護的設備來說,MTBF = MTTF + MTTR,三者關系如下:

MTTF (Mean Time To Failure,平均失效時間):指系統兩次失效的平均時間,取所有從系統開始正常運行到發生故障之間的時間段的平均值。MTTF =∑T1/ N;

MTTR (Mean Time To Repair,平均修復時間):指系統從發生故障到維修結束之間時間段的平均值。MTTR =∑(T2+T3)/ N;

MTBF (Mean Time Between Failure,平均無故障時間):指系統兩次故障發生之間(包括故障維修)時間段的平均值。MTBF =∑(T2+T3+T1)/ N。

因為MTTR通常遠遠小于MTTF,所以MTBF近似等于MTTF。

04

MTTF理論計算公式,2,000,000小時如何而來?

最簡單的情況下,MTTF計算遵循如下公式:

其中:

Ai 為 SSD i 的加速因子;

ti 為 SSD i 的測試時間;

nf 為出現故障 SSD 的數量;

a 為置信度(confidence limit,60%);

x2 為卡方分布(chi-squared distribution)。

上述等式中的加速因子通常分為3類:

未加速因子:A=1,通常用于固件故障;

TBW(Total Bytes Written)加速因子 :通過增加數據寫入強度進行壽命加速;

溫度加速因子 :通過升高測試環境溫度進行故障出現加速。

TBW (Total Bytes Written) 加速因子

TBW是SSD壽命單位,以壽命為1.5 DWPD,用戶容量3.84TB PBlaze6 SSD為例,其5年總的數據寫入量(也就是現場部署寫入量field)為10.5 PB,對應每天數據寫入量為5.76 TB。如果增加每天的數據寫入量(加速寫入量stress),相當于加快消耗SSD壽命,可以加速故障出現。TBW加速因子計算方法如下:

假設一個用戶容量為100G的SSD,其產品規格書定義SSD壽命為175TBW,典型使用場景下可使用5年(43800個小時)。其在1008小時內寫入130TB的數據,寫放大為1.2,則TBW加速因子為32,如果短時間內寫入更多數據,則TBW加速因子也會相應提升。

溫度加速因子

NAND因其固有特性,數據保持力會隨著溫度的升高而降低。阿倫尼烏斯公式(Arrhenius Equation)指出,在室溫 40℃ 下SSD放置 1 年(8670個小時),相當于在 85℃ 的老化室中放置 52 個小時。

JESD 22-A108定義了溫度隨時間對SSD的影響,執行高溫運行壽命(HTOL,High Temperature Operating Life)測試,可確定長時間高溫條件下SSD運行的可靠性。協議規定,如果沒有特殊要求,SSD需在 125 °C 的結溫壓力下測試。但企業級SSD一般會設計高溫保護邏輯,防止溫度過高造成NAND數據保持力下降和元器件的損壞,所以SSD的實際工作溫度不會達到125℃。

對于溫度加速因子,計算方法如下:

其中:

Ea 為失效模型的活化能 ,一般為0.7 eV;

k 為玻爾茲曼常數,8.617 x 10-5 eV/°K;

T? 為工作溫度 (標準取值為 55°C 或者 328°K);

T? 為測試加速溫度。

MTTF計算示例

假設樣本量為 400,測試時間為 1008 小時,加速因子Ai = A(TBW) * A(T) 為10,失敗的數量為0,置信度為60%,則 MTTF = MTBF = 4,400,000小時。

d48aa190-29cf-11ec-82a8-dac502259ad0.png

注意,MTBF是和溫度嚴格相關的。這一點在OCP Datacenter NVMe SSD Specification中也有提到:

MTBF 2,500,000小時(AFR≤0.35%),對應的SSD運行溫度為0℃~50℃;

MTBF 2,000,000小時(AFR≤0.44%),對應的SSD運行溫度為0℃~55℃。

但理論和現實總是有差距的。現實中產品意義上的MTBF測試,很難達到10倍的加速因子,TBW加速因子僅能用于測試NAND顆粒的壽命,實際測試中還需要考慮電路和物理接口等硬件部分的可靠性。而這部分,只能靠溫度來加速。實際操作中,MTBF=200萬小時的測試,需要至少用2000片樣品在加速因子作用下,跑滿1000小時以上。

05

MTBF 和 AFR 又是什么關系?

除了MTBF指標,還有其他可靠性量化表征指標,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互轉化。

故障率λ:SSD關鍵元器件選型時,需要確保每個元器件的故障率 λ 達標。相比故障率指標,MTBF的定義更加直接,也更適用于表現系統級的可靠性;

AFR:年化故障率,可以更好地了解在任何一年中發生硬盤故障的幾率。

MTBF 和 AFR轉化公式如下:

MTBFhours = 1/λhours

MTBFyears = 1/(λhours*24*365)

AFR = 365*24hours*λhours = 8760hours/MTBFhours

MTBF 和 AFR 的數值對應關系如下:

d4f7e25a-29cf-11ec-82a8-dac502259ad0.png

企業級SSD產品可靠性MTBF ≥ 2,000,000小時(@55℃),換算為年化失效率AFR ≤ 0.44%,對應FFR(Functional Failure Requirement,SSD在整個磨損壽命時間范圍內累積的功能失效率,以5年保修期為參考)≤2.2%。

Memblaze全系列企業級SSD均按照2,000,000小時MTBF @55℃ /2,500,000小時MTBF@50℃為標準,滿足55℃/50℃環境下7×24小時穩定不間斷運行要求、40℃環境下數據至少3個月斷電保持能力以及低于1E-17的UBER不可修復錯誤率。

06

MTBF的驗證

Memblaze自研測試平臺Whale系統

在數據可靠性技術領域,Memblaze自研了MemSolid 技術集,以保證企業級數據的一致性和可靠性。通過全路徑數據保護、LDPC軟判決解碼糾錯技術、元數據跨Channel備份保護、Die間動態RAID5恢復壞塊數據機制,以及重讀保護和過溫保護等技術,實現了PBlaze可持續的數據一致性保護,保障企業關鍵業務數據資產始終處于安全可靠的存儲環境中。

為確保出廠的SSD產品能夠滿足MTBF的標準,Memblaze運用十余年在固態硬盤領域的經驗積累,以及對用戶實際應用的理解,自主研發出MTBF測試平臺 —— Whale系統。

它參照JEDEC標準打造,適用于PCIe SSD的研發(DVT)、環境應力(EST,Environmental Stress Test)、數據保持力、生產(老化,ORT,Ongoing Reliability Testing)、RDT等測試。Whale系統預置了最接近客戶真實使用場景的測試案例,采用合理的加速因子對RDT階段產品進行長時間跑測,成為產品量產前的質量保障。

根據Memblaze的出貨量和實際故障率統計,PBlaze系列SSD的實際累計產品失效率(CFR,Cumulative Failure Rate)遠低于標稱的年化故障率。

經過十幾年在SSD行業的深耕打磨,Memblaze 已經形成從芯片、軟件、硬件、生產、出貨等各個環節的嚴密設計和嚴格的質量管控體系,能夠保證PBlaze系列企業級固態硬盤為客戶提供卓越的可靠性,也極大降低了客戶系統運行開銷(OPEX)和總體擁有成本(TCO),而Memblaze也將繼續以匠心精神,不斷打磨,不負所期!

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲器
    +關注

    關注

    39

    文章

    7739

    瀏覽量

    171662
  • SSD
    SSD
    +關注

    關注

    21

    文章

    3111

    瀏覽量

    122223

原文標題:揭秘:SSD的“可靠性”到底可不可靠

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是高可靠性

    ,PCB決定了電子封裝的質量和可靠性。隨著電子產品越發小型化、輕量化、多功能化,以及無鉛、無鹵等環保要求的持續推動,PCB行業正呈現出“線細、孔小、層多、板薄、高頻、高速”的發展趨勢,對可靠性的要求會
    發表于 01-29 14:49

    芯片可靠性(RE)性能測試與失效機理分析

    2025年9月,國家市場監督管理總局發布了六項半導體可靠性測試國家標準,為中國芯片產業的質量基石奠定了技術規范。在全球芯片競爭進入白熱化的今天,可靠性已成為衡量半導體產品核心價值的關鍵指標。01芯片
    的頭像 發表于 01-09 10:02 ?778次閱讀
    芯片<b class='flag-5'>可靠性</b>(RE)性能測試與失效機理分析

    如何測試單片機MCU系統的可靠性

    用什么方法來測試單片機系統的可靠性,當一個單片機系統設計完成,對于不同的單片機系統產品會有不同的測試項目和方法,但是有一些是必須測試的。 下面分享我的一些經驗: 1、測試單片機軟件功能的完善
    發表于 01-08 07:50

    化繁為簡:直線電機如何通過結構簡化提升可靠性

    在工業領域,設備的 可靠性 和 平均無故障時間 是衡量其價值的重要指標。復雜的機械結構往往意味著更多的故障點和更高的維護成本。直線電機以其極具革命的 簡潔結構 ,從設計源頭大幅提升了系統的
    的頭像 發表于 08-29 09:49 ?586次閱讀

    可靠性設計的十個重點

    保障。規定定性定量的可靠性要求規定定性定量的可靠性要求。有了可靠性指標,開展可靠性設計才有目標,才能對開發的產品
    的頭像 發表于 08-01 22:55 ?1055次閱讀
    <b class='flag-5'>可靠性</b>設計的十個重點

    太誘MLCC電容的可靠性如何?

    眾所周知,多層陶瓷電容器(MLCC)已成為消費電子、汽車電子、工業控制等領域的核心被動元件。太陽誘電(太誘)通過材料創新、工藝優化與嚴苛測試體系,構建了MLCC電容的可靠性護城河,其產品失效率長期
    的頭像 發表于 07-09 15:35 ?860次閱讀

    影響電源模塊可靠性和性能的挑戰

    在早前Flex Power Modules的一篇博客文章中,我們探討了電源模塊平均故障間隔時間(MTBF)計算值的可靠性。我們當時的結論是,只有在完全相同、靜態的條件下比較產品時,數據表上的數值才有
    的頭像 發表于 07-07 15:33 ?1027次閱讀
    影響電源模塊<b class='flag-5'>可靠性</b>和性能的挑戰

    關于LED燈具的9種可靠性測試方案

    LED燈具的可靠性試驗,與傳統燈具有顯著區別。作為新一代光源,LED燈具正在逐漸取代傳統節能燈的市場,因此無法簡單地沿用傳統燈具的測試方法。那么,LED燈具需要進行哪些可靠性試驗呢?標準名稱:LED
    的頭像 發表于 06-18 14:48 ?1070次閱讀
    關于LED燈具的9種<b class='flag-5'>可靠性</b>測試方案

    可靠性測試包括哪些測試和設備?

    在當今競爭激烈的市場環境中,產品質量的可靠性成為了企業立足的根本。無論是電子產品、汽車零部件,還是智能家居設備,都需要經過嚴格的可靠性測試,以確保在各種復雜環境下都能穩定運行,為用戶提供可靠的使用體驗。那么,
    的頭像 發表于 06-03 10:52 ?1452次閱讀
    <b class='flag-5'>可靠性</b>測試包括哪些測試和設備?

    半導體測試可靠性測試設備

    在半導體產業中,可靠性測試設備如同產品質量的 “守門員”,通過模擬各類嚴苛環境,對半導體器件的長期穩定性和可靠性進行評估,確保其在實際使用中能穩定運行。以下為你詳細介紹常見的半導體測試可靠性測試設備。
    的頭像 發表于 05-15 09:43 ?1269次閱讀
    半導體測試<b class='flag-5'>可靠性</b>測試設備

    提供半導體工藝可靠性測試-WLR晶圓可靠性測試

    隨著半導體工藝復雜度提升,可靠性要求與測試成本及時間之間的矛盾日益凸顯。晶圓級可靠性(Wafer Level Reliability, WLR)技術通過直接在未封裝晶圓上施加加速應力,實現快速
    發表于 05-07 20:34

    電機微機控制系統可靠性分析

    可靠性是電機微機控制系統的重要指標,延長電機平均故障間隔時間(MTBF),縮短平均修復時間(MTTR)是可靠性研究的目標。電機微機控制系統的故障分為硬件故障和軟件故障,分析故障的性質和
    發表于 04-29 16:14

    IGBT的應用可靠性與失效分析

    包括器件固有可靠性和使用可靠性。固有可靠性問題包括安全工作區、閂鎖效應、雪崩耐量、短路能力及功耗等,使用可靠性問題包括并聯均流、軟關斷、電磁干擾及散熱等。
    的頭像 發表于 04-25 09:38 ?3068次閱讀
    IGBT的應用<b class='flag-5'>可靠性</b>與失效分析

    電路可靠性設計與工程計算技能概述

    電路可靠性設計與工程計算通過系統學習電路可靠性設計與工程計算,工程師不僅能提高電路的可靠性和穩定性,還能優化產品設計過程,減少潛在的故障風險,從而提升產品的市場競爭力和消費者信任度。為什么工程師需要
    的頭像 發表于 03-26 17:08 ?764次閱讀
    電路<b class='flag-5'>可靠性</b>設計與工程計算技能概述

    產品可靠性的關鍵指標

    平均故障間隔時間 (MTBF) 是您在產品數據表中看到的常見指標,通常作為可靠性和耐用的標志。但是,盡管 MTBF 被廣泛使用,也是工程學
    的頭像 發表于 03-13 14:19 ?1246次閱讀
    產品<b class='flag-5'>可靠性</b>的關鍵<b class='flag-5'>指標</b>