国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVMeSSD的錯(cuò)誤特征

SSDFans ? 來(lái)源:SSDFans ? 2023-06-12 16:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVMeSSD由于其高吞吐量和超低延遲,已經(jīng)成為現(xiàn)代數(shù)據(jù)中心的主要內(nèi)容。盡管NVMeSSD很受歡迎,但其在大規(guī)模部署下的可靠性仍然未知。在本文中,收集了在阿里巴部署的100多萬(wàn)臺(tái)NVMessd的日志,并進(jìn)行了廣泛的分析。從這項(xiàng)研究中,確定了NVMeSSD的一系列主要的可靠性變化。在好的方面中,NVMeSSD對(duì)早期故障和訪問(wèn)模式的變化更有彈性。壞的一面是,NVMeSSD變得更容易受到復(fù)雜的相關(guān)故障的影響。更重要的是,本文發(fā)現(xiàn)超低延遲的特性使NVMeSSD更有可能受到故障-慢速故障的影響。

背景及動(dòng)機(jī)

NVMeSSD現(xiàn)在是現(xiàn)代數(shù)據(jù)中心的新歡。NVMeSSD具有高達(dá)6GB/s的帶寬和微秒級(jí)延遲,是基于sata的性能提升。除了性能之外,任何大規(guī)模部署的硬件的可靠性都是非常值得關(guān)注的。雖然在該領(lǐng)域有大量關(guān)于SATASSD失效特征的研究,但他們的研究結(jié)果可能對(duì)NVMeSSD沒(méi)有決定性意義。首先,使用低延遲接口,NVMeSSD特別容易發(fā)生故障-慢故障。簡(jiǎn)而言之,NVMeSSD故障-慢故障導(dǎo)致驅(qū)動(dòng)器顯示異常的性能下降(例如,在正常流量下的高延遲)。與SATASSD不同,故障-慢故障可能被相對(duì)較高的延遲(>100μs)所掩蓋,NVMeSSD由于其超低延遲特性(~10μs),很容易受到影響。此外,NVMeSSD不僅僅是帶有接口升級(jí)的SATASSD。相反,NVMeSSD的內(nèi)部體系結(jié)構(gòu)經(jīng)歷了相當(dāng)大的變化。供應(yīng)商還集成了一系列技術(shù)來(lái)提高NVMeSSD的整體可靠性,如獨(dú)立NAND冗余陣列(RAIN)或低密度奇偶校驗(yàn)代碼(LDPC)。不幸的是,由于目前還沒(méi)有大規(guī)模的NVMeSSD故障停止研究,最近的進(jìn)展的影響仍然未知。

DATA SET

一、Data Collection

5021f5cc-05ea-11ee-962d-dac502259ad0.png

SMART logs.在本文的集群中,每天都會(huì)收集關(guān)于SMART屬性的報(bào)告。這些指標(biāo)的讀數(shù)可以是累積的(例如,介質(zhì)誤差數(shù)),也可以是瞬時(shí)的(例如,溫度)。在實(shí)踐中,供應(yīng)商可能不一定遵循確切的計(jì)數(shù)或報(bào)告機(jī)制。因此,本文會(huì)根據(jù)制造商手冊(cè)對(duì)數(shù)字進(jìn)行標(biāo)準(zhǔn)化。

Performance logs.集群的一個(gè)主要子集配備了節(jié)點(diǎn)級(jí)守護(hù)進(jìn)程,以監(jiān)視和記錄Linux內(nèi)核性能日志,包括存儲(chǔ)設(shè)備的重要統(tǒng)計(jì)數(shù)據(jù),如延遲、IOPS和吞吐量。目前,守護(hù)進(jìn)程每天運(yùn)行3個(gè)小時(shí)(從晚上9點(diǎn)到12點(diǎn)),并且只記錄每個(gè)監(jiān)視窗口的平均值(15秒長(zhǎng))。在三個(gè)小時(shí)內(nèi),流量相對(duì)穩(wěn)定(約70%的峰值流量),主要由內(nèi)部工作負(fù)載和大型外部客戶(hù)端(即較少的突發(fā)流量)主導(dǎo)。

Failure tickets.集群中的每個(gè)節(jié)點(diǎn)都設(shè)置了一個(gè)守護(hù)進(jìn)程來(lái)監(jiān)視和報(bào)告停止失敗。在報(bào)告后,將生成一個(gè)故障記錄單(并由工程師手動(dòng)檢查),其中包含受害者驅(qū)動(dòng)器的基本信息(例如,模型和主機(jī)名)和時(shí)間戳。

二、Overview

502baae0-05ea-11ee-962d-dac502259ad0.png

在基本信息中,本文將驅(qū)動(dòng)器型號(hào)命名為制造商-型號(hào),并使用字母順序表示制造商的世代(例如,I-A代表制造商I的最早型號(hào))。每個(gè)模型都可以通過(guò)容量和NAND體系結(jié)構(gòu)區(qū)分。II-E是一種獨(dú)特的情況,因?yàn)樗捎昧艘环N新的(既不是平面的,也不是3D堆疊的)單元,因此被命名為NEW(匿名的)。最后,列出了每個(gè)模型的相對(duì)總體(即總%)。

使用特性描述了高級(jí)管理信息。第一列是按年計(jì)算的平均通電時(shí)間。第二列和第三列分別表示超額配置率(即OP)和計(jì)算出的平均寫(xiě)放大因子(即WAF)。

可靠性相關(guān)的主要指標(biāo)有五個(gè)。

Critical Warning:由NVM引入的嚴(yán)重警告表明,驅(qū)動(dòng)器可能有嚴(yán)重的介質(zhì)錯(cuò)誤(即,在只讀或降級(jí)模式下),可能出現(xiàn)硬件故障,或超過(guò)溫度報(bào)警閾值。

CRC Error:傳輸錯(cuò)誤的數(shù)量(例如,驅(qū)動(dòng)器和主機(jī)之間的故障互連)

Media Error:數(shù)據(jù)損壞錯(cuò)誤的數(shù)量(即,無(wú)法訪問(wèn)閃存媒體中存儲(chǔ)的數(shù)據(jù))

Program/Erase Error:閃光單元編程錯(cuò)誤的數(shù)量(例如,無(wú)法從復(fù)制過(guò)程中即將被垃圾收集的塊對(duì)閃光單元進(jìn)行編程)

Annual Replacement Rate (ARR):設(shè)備故障數(shù)除以設(shè)備年數(shù)

前四個(gè)健康指標(biāo)的讀數(shù)有嚴(yán)重的偏差,其中零占有效記錄的絕對(duì)多數(shù)(例如,關(guān)鍵警告的99.97%)。因此,同時(shí)列出了平均值和中值(即平均值/中值)。

三、Failure tickets

503e2e0e-05ea-11ee-962d-dac502259ad0.png

對(duì)于每種類(lèi)型的故障,列出了其分布(Dist)以及所有NVMessd(ARR)、基于mlc的(ARR_M)、3D-TLC(ARR_3D)和NEW-NANDssd(ARR_N)中相應(yīng)的ARR。

四、NVMe SSD vs. SATA/SAS SSD

在本文的數(shù)據(jù)集中的NVMeSSD的ARR遠(yuǎn)高于來(lái)自Netapp的企業(yè)存儲(chǔ)系統(tǒng)的SATA/SASSSD。NVMeSSD的平均ARR和中位ARR分別為0.98%和0.69%,分別比SATA/SASSSD高2.77×和2.83×。通過(guò)NAND類(lèi)型和光刻技術(shù)進(jìn)一步分解了SSD種群,并得到了類(lèi)似的結(jié)果。

The Fail-stop

一、Infant Mortality

發(fā)現(xiàn):嬰兒死亡率是硬件早期部署期間的一個(gè)的失敗趨勢(shì),但在NVMeSSD中并不顯著。

5049a14e-05ea-11ee-962d-dac502259ad0.png

對(duì)于這個(gè)結(jié)論,本文采用每月失效條件概率(FCP)來(lái)演示失效趨勢(shì)(。FCP的計(jì)算方法是,當(dāng)月要更換的驅(qū)動(dòng)器數(shù)除以該月存活的驅(qū)動(dòng)器數(shù)。如圖1所示,選取了六個(gè)流行的家族進(jìn)行統(tǒng)計(jì)。從目視檢查中,可以發(fā)現(xiàn)大多數(shù)家族在早期并沒(méi)有顯著的嬰兒死亡率。

5054cfba-05ea-11ee-962d-dac502259ad0.png

為了進(jìn)一步探究其原因,本文繼續(xù)從SMART屬性的角度觀察內(nèi)部的健康指標(biāo)。對(duì)于圖2中的II-D和III-B,幾乎所有與健康相關(guān)的指標(biāo)都經(jīng)歷了嬰兒死亡率,因?yàn)樗鼈儚囊粋€(gè)更高的值開(kāi)始,然后隨著時(shí)間的推移下降到一個(gè)穩(wěn)定的范圍。一般來(lái)說(shuō),其他家族也遵循這一趨勢(shì)。這說(shuō)明即使是NVMe SSD在早期依舊會(huì)累積大量的錯(cuò)誤,因此,本文假設(shè)FTL錯(cuò)誤處理的改進(jìn)很可能使NVMeSSD在早期更有彈性。(本文的作者相信。這可以作為供應(yīng)鏈和現(xiàn)場(chǎng)管理員的緩解信號(hào),因?yàn)橐郧暗淖龇ㄍǔR笤七\(yùn)營(yíng)商在初始部署之前存儲(chǔ)額外的部件。)

二、WAF

發(fā)現(xiàn):NVMeSSD對(duì)于高寫(xiě)放大(WAF>2)變得更加健壯,但極低寫(xiě)放大(WAF≤1)仍然是罕見(jiàn)但致命的。

寫(xiě)放大是SSDI/O中常見(jiàn)的現(xiàn)象,由于SSD內(nèi)部操作(如垃圾收集和對(duì)齊),邏輯寫(xiě)會(huì)產(chǎn)生額外的寫(xiě)入NAND的數(shù)據(jù)。為了克服這個(gè)缺點(diǎn),制造商經(jīng)常使用寫(xiě)壓縮技術(shù)來(lái)組合小的或緩沖區(qū)重復(fù)寫(xiě)。但是在先前的研究中指出當(dāng)WAF小于1的驅(qū)動(dòng)器的故障率與高于2的驅(qū)動(dòng)器的故障率相似時(shí),寫(xiě)壓縮技術(shù)可能會(huì)造成破壞。因此,本文對(duì)于NVMe SSD做了類(lèi)似的統(tǒng)計(jì)分析。

圖3顯示了8個(gè)流行驅(qū)動(dòng)器系列的WAF和故障率之間的相關(guān)性,包括不同類(lèi)型的NAND和制造商。首先,對(duì)于WAF高于1,沒(méi)有在大多數(shù)驅(qū)動(dòng)家族中觀察到WAF和ARR之間的強(qiáng)正相關(guān)關(guān)系(II-D驅(qū)動(dòng)家族被認(rèn)為是一個(gè)例外)。這表明NVMeSSD受隨機(jī)小寫(xiě)的影響較小(這是高寫(xiě)放大的主要原因)。其次,對(duì)于具有低WAF的驅(qū)動(dòng)器(即WAF≤1),它們的故障率仍然相對(duì)較高。平均而言,這些低WAF驅(qū)動(dòng)器的ARR率可能比平均水平高2.19×。

因此,可以得出結(jié)論,在NVMeSSD中,雖然低WAF可能仍然是致命的,但高WAF不再令人擔(dān)憂(yōu)。

505e8794-05ea-11ee-962d-dac502259ad0.png

二、節(jié)點(diǎn)間/機(jī)架內(nèi)故障

發(fā)現(xiàn):空間相關(guān)(節(jié)點(diǎn)內(nèi)/機(jī)架內(nèi))NVMeSSD故障在長(zhǎng)期跨度內(nèi)(即1天至1個(gè)月)存在時(shí)間相關(guān),但在短跨度內(nèi)不再普遍。

為了研究這種相關(guān)模式是否仍然困擾著NVMeSSD,本文檢查了數(shù)據(jù)集中的節(jié)點(diǎn)內(nèi)/機(jī)架故障時(shí)間間隔。使用相對(duì)失敗百分比(RPF)來(lái)計(jì)算相關(guān)失敗的可能性。在RPF中,分子是指在特定周期(例如,0到1分鐘)之間發(fā)生的故障集的數(shù)量。分母是一個(gè)特定驅(qū)動(dòng)器模型的所有故障之和。

507e2ae0-05ea-11ee-962d-dac502259ad0.png

表4和圖4列舉了NVMeSSD的相關(guān)故障模式。首先,所有NVMe驅(qū)動(dòng)器模型的累積rpf(即總行)要高得多,對(duì)于節(jié)點(diǎn)內(nèi)和機(jī)架內(nèi)的場(chǎng)景,分別增加了14.69×和1.78×。第二,與SATASSD不同(主要在短時(shí)間間隔內(nèi)相關(guān)),NVMeSSD的相關(guān)失敗通常只在長(zhǎng)時(shí)間間隔內(nèi)觀察到(即1天至1個(gè)月)。同時(shí),為了確保這些故障是由于空間時(shí)間相關(guān)性導(dǎo)致的,而不是各個(gè)機(jī)架或是節(jié)點(diǎn)內(nèi)自然的平均故障導(dǎo)致,本文特地進(jìn)行了驗(yàn)證實(shí)驗(yàn),將數(shù)據(jù)中的設(shè)備到達(dá)時(shí)間和所處物理位置全部打亂,再次進(jìn)行測(cè)試,結(jié)果如表重點(diǎn)Hypo負(fù)載所示,節(jié)點(diǎn)內(nèi)的相關(guān)故障以及時(shí)間間隔內(nèi)的相關(guān)故障均顯著下降,這說(shuō)明這些故障確實(shí)存在不平衡性。

508c22a8-05ea-11ee-962d-dac502259ad0.png

雖然密切相關(guān)的故障的下降意味著經(jīng)歷系統(tǒng)級(jí)故障的風(fēng)險(xiǎn)較低,但長(zhǎng)時(shí)間間隔的相關(guān)故障的激增仍然構(gòu)成了一個(gè)緊迫的威脅。一個(gè)不方便的事實(shí)是,修復(fù)驅(qū)動(dòng)器故障通常從基于軟件的方法開(kāi)始(例如,數(shù)據(jù)清理和fsck),而這種在線(xiàn)檢查和修復(fù)需要時(shí)間。事實(shí)上,在本文集群中,43.90%、14.36%和10.90%的故障驅(qū)動(dòng)器在一天、一周和兩周后得到了修復(fù)。基于這個(gè)發(fā)現(xiàn),本文改進(jìn)了操作過(guò)程,直接使驅(qū)動(dòng)器下線(xiàn),以減少遭受長(zhǎng)期相關(guān)故障的機(jī)會(huì)。

The Fail-slow

一、識(shí)別fail-slow事件和驅(qū)動(dòng)器

本文使用以下基于閾值的方法來(lái)識(shí)別故障-慢速驅(qū)動(dòng)器(類(lèi)似于之前關(guān)于SATASSD和HDD尾部延遲的研究)。

第一步是選擇具有高延遲的可疑驅(qū)動(dòng)器。觀察到集群內(nèi)的性能記錄(例如,延遲、IOPS和吞吐量)記錄通常遵循一個(gè)正偏態(tài)分布。例如,在一個(gè)集群中,中位延遲僅為49.19μs,而平均延遲為667.85μs。因此,我們可以使用延遲閾值(?∞,3rd_quartile+2IQR)來(lái)識(shí)別異常值(即慢驅(qū)動(dòng)器),其中IQR(四分位數(shù)范圍)是通過(guò)從第三個(gè)四分位數(shù)減去第一個(gè)四分位數(shù)來(lái)計(jì)算的。如果驅(qū)動(dòng)器的3小時(shí)平均延遲超過(guò)標(biāo)準(zhǔn),我們將此驅(qū)動(dòng)器標(biāo)記為可疑的慢驅(qū)動(dòng)器,同時(shí)將大流量的情況進(jìn)行排除,保證盡可能少的假陽(yáng)性情況出現(xiàn)。

然后,我們通過(guò)檢查是否存在一致的減速來(lái)確定所選擇的驅(qū)動(dòng)器是否確實(shí)是故障慢的。識(shí)別可疑的故障-慢速驅(qū)動(dòng)器。這部分需要考慮對(duì)等點(diǎn)的情況,簡(jiǎn)單來(lái)說(shuō)就是,在事件中,受害者的速度至少比同類(lèi)速度慢兩倍。則被認(rèn)為是故障-慢速驅(qū)動(dòng)器。其次,將4個(gè)最小跨度設(shè)置為5、15、30和60分鐘,這意味著計(jì)算這四個(gè)時(shí)間間隔內(nèi)與同類(lèi)驅(qū)動(dòng)器速度的比較。如表5中的slowdown ratio。此外,表5還展示了該模型中被識(shí)別為故障慢速的驅(qū)動(dòng)器的百分比。事件的頻率。描述每小時(shí)每1000個(gè)驅(qū)動(dòng)器的事件數(shù),反映了一個(gè)中等大小的集群中故障變慢的嚴(yán)重程度。以下兩列(持續(xù)時(shí)間和事件延遲)顯示了平均故障-慢速事件持續(xù)時(shí)間和平均事件延遲。每個(gè)子象限的最后一行是每個(gè)類(lèi)別(例如,SSD或HDD)的平均值

509676cc-05ea-11ee-962d-dac502259ad0.png

二、SSD vs. HDD

發(fā)現(xiàn):與HDD相比,NVMeSSD的故障更廣泛、更頻繁,會(huì)降低到SATASSD甚至HDD級(jí)別的性能。

比較每個(gè)象限的平均行,發(fā)現(xiàn)ssd中慢驅(qū)動(dòng)器為6.05×(即5分鐘象限為1.41%至0.20%)到51×(60分鐘象限為0.52%至0.01%)。類(lèi)似地,也可以觀察到失敗-慢的發(fā)生(即事件頻率)。在ssd中更為常見(jiàn),范圍從18.59×(5分鐘)到68.50×(60分鐘)。此外,盡管像II-D-1920和III-B-1900這樣的模型仍然提供相對(duì)令人滿(mǎn)意的性能,故障慢的NVMessd通常降低到sata-ssd級(jí)延遲(平均在160μs左右)。更糟糕的是,在幾個(gè)NVMeSSD模型中,最慢的1%事件惡化到平均延遲約22 ms,即使是HDD的性能也不令人滿(mǎn)意。

根本原因。本文作者已經(jīng)將100個(gè)最慢的ssd(大約是已識(shí)別的慢速驅(qū)動(dòng)器的前2%,平均事件延遲為4.4 ms)送回供應(yīng)商進(jìn)行修復(fù)。結(jié)果表明,其中33個(gè)電容器不良,導(dǎo)致緩沖區(qū)故障,延遲高。其中46個(gè)芯片含有壞芯片,其余芯片的根本原因尚不清楚。

二、SSD型號(hào)之間的差異。

發(fā)現(xiàn):制造商是NVMe故障緩慢的主要影響因素。

對(duì)于慢速驅(qū)動(dòng)器百分比,在四個(gè)象限上有一個(gè)明確的順序(即制造商I之后是III和II)。即使是III的最高值(例如,III-b-1900在5分鐘象限內(nèi)的3.04%)也遠(yuǎn)遠(yuǎn)落后于I的模型(即I-A-2000的4.44%),這也適用于III和II之間的比較。然而,我們沒(méi)有觀察到事件持續(xù)時(shí)間、事件延遲和減速比率的可見(jiàn)模式。

發(fā)現(xiàn):較高的故障-慢速驅(qū)動(dòng)器數(shù)量并不總是會(huì)導(dǎo)致較高的故障-慢速事件頻率。

人們可以假設(shè)較高的故障-慢驅(qū)動(dòng)器百分比會(huì)導(dǎo)致較高的事件頻率。雖然這一假設(shè)適用于最長(zhǎng)的持續(xù)時(shí)間要求(60分鐘象限),但在較短的象限中發(fā)現(xiàn)了許多反例(例如,5分鐘象限中的II-A-1920和II-C-1920)。一種可能的解釋是,在較短的持續(xù)時(shí)間要求下,有更多的驅(qū)動(dòng)器有多個(gè)事件,導(dǎo)致一個(gè)小的慢驅(qū)動(dòng)器比例和高的事件頻率。在這里,可以通過(guò)圖5進(jìn)一步驗(yàn)證了這一假設(shè),這是不同持續(xù)時(shí)間要求下每個(gè)驅(qū)動(dòng)器事件的CDF。可以清楚地看到,持續(xù)時(shí)間較短的驅(qū)動(dòng)器比持續(xù)時(shí)間較長(zhǎng)的驅(qū)動(dòng)器積累更多的事件。

50a5578c-05ea-11ee-962d-dac502259ad0.png

三、fail-slow的相關(guān)因素

1、驅(qū)動(dòng)器年齡

發(fā)現(xiàn):fail-slow驅(qū)動(dòng)數(shù)量和事件頻率與年齡密切相關(guān),但僅針對(duì)老年(通電時(shí)間>41個(gè)月)NVMessd。

圖6展示了在5分鐘(左)和60分鐘(右)要求下的種群隨時(shí)間的方差,其中水平虛線(xiàn)是平均值。可以看到,在這兩種情況下,種群數(shù)量最初都在平均值左右振蕩,然后在最后幾個(gè)月開(kāi)始激增。在15分鐘、30分鐘和60分鐘的要求時(shí)也存在類(lèi)似的趨勢(shì)。

50b84f7c-05ea-11ee-962d-dac502259ad0.png

2、工作負(fù)載

發(fā)現(xiàn):工作負(fù)載可能會(huì)顯著影響各種故障慢速特性,而繁重的流量工作負(fù)載可能會(huì)對(duì)故障-慢速的發(fā)生產(chǎn)生長(zhǎng)期的影響。

本文通過(guò)研究四種具有截然不同訪問(wèn)模式的代表性云存儲(chǔ)服務(wù),即塊存儲(chǔ)、緩沖、對(duì)象存儲(chǔ)和查詢(xún),來(lái)評(píng)估工作負(fù)載的影響,如圖6所示,通過(guò)年齡和PE周期進(jìn)行分組。

50c32e56-05ea-11ee-962d-dac502259ad0.png

通過(guò)比較每一組內(nèi)的指標(biāo),可以看到工作負(fù)載可以顯著影響所有四個(gè)fail-slow的指標(biāo)。例如,在組1和組2中,緩沖工作負(fù)載的失敗緩慢種群和事件頻率可能是塊存儲(chǔ)的數(shù)千倍(例如,組1中的39.17%vs.0.02%)。在組3中,在塊存儲(chǔ)和對(duì)象存儲(chǔ)之間,或者在組5中,在塊存儲(chǔ)和緩沖之間,在事件持續(xù)時(shí)間和減速比率之間可以觀察到類(lèi)似的差異。

在實(shí)踐中,緩沖工作負(fù)載下的驅(qū)動(dòng)器通常經(jīng)常有大量的流量(例如,存儲(chǔ)大數(shù)據(jù)工作負(fù)載的中間結(jié)果)。但實(shí)際上已經(jīng)考慮排除了大流量的ssd。因此,一種可能的解釋是,繁忙的流量可能會(huì)產(chǎn)生長(zhǎng)期的影響(例如,使數(shù)據(jù)更加分散),使驅(qū)動(dòng)器更容易發(fā)生故障-慢速故障。

3、SMART屬性

發(fā)現(xiàn):SMART屬性與失敗-慢速指標(biāo)的相關(guān)性可以忽略不計(jì)。

本文評(píng)估了WEFR中自動(dòng)特征選擇的有效性,并將其與使用固定百分比的被選擇特征(從10%線(xiàn)性增加到100%)進(jìn)行比較。圖2顯示,當(dāng)確定6個(gè)驅(qū)動(dòng)器模型的所選特性的百分比時(shí),WEFR的F0.5-score始終高于或等于最高的F0.5-score。具體來(lái)說(shuō),WEFR自動(dòng)確定的MA1、MA2、MB1、MB2、MC1、MC2所選擇的特征的百分比分別為31%、34%、28%、26%、63%和28%,在確定所選特征的百分比時(shí),與最高F0.5-score對(duì)應(yīng)的所選特征的百分比接近。請(qǐng)注意,使用自動(dòng)特性選擇也比調(diào)優(yōu)生產(chǎn)中選定特性的適當(dāng)百分比更靈活。

三、Fail-slow向故障轉(zhuǎn)移

發(fā)現(xiàn):從fail-slow到fail-stop的過(guò)渡很少被觀察到,至少在短時(shí)間間隔內(nèi)(5個(gè)月內(nèi))沒(méi)有觀察到。

表7是一個(gè)示例列聯(lián)表,記錄基于兩個(gè)類(lèi)別的驅(qū)動(dòng)器的頻率計(jì)數(shù):出現(xiàn)在故障記錄單(替換列)或未存在(未替換列),至少有一個(gè)故障慢事件(慢行)(非慢行)。結(jié)果是相當(dāng)令人驚訝的,因?yàn)樵诠收贤V构收现埃挥?0個(gè)驅(qū)動(dòng)器出現(xiàn)故障-慢故障,在慢驅(qū)動(dòng)器(約0.22%)和替換(約0.23%)驅(qū)動(dòng)器中產(chǎn)生相對(duì)較小的數(shù)量。平均和中位數(shù)過(guò)渡時(shí)間分別為73天和67天。一個(gè)可能的原因是,故障很少慢或可能需要很長(zhǎng)時(shí)間過(guò)渡到故障停止故障。因此,我們得出結(jié)論,慢故障不太可能過(guò)渡為故障停止故障,至少在幾個(gè)月內(nèi)不會(huì)。

50dbad32-05ea-11ee-962d-dac502259ad0.png

致謝

感謝本次論文解讀者,來(lái)自華東師范大學(xué)的碩士生梁宇炯,主要研究方向?yàn)镾SD故障預(yù)測(cè)。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 驅(qū)動(dòng)器
    +關(guān)注

    關(guān)注

    54

    文章

    9083

    瀏覽量

    155508
  • SMART
    +關(guān)注

    關(guān)注

    3

    文章

    242

    瀏覽量

    46393
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    21

    文章

    3111

    瀏覽量

    122223
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5651

    瀏覽量

    75015
  • nvme
    +關(guān)注

    關(guān)注

    0

    文章

    299

    瀏覽量

    23839

原文標(biāo)題:NVMeSSD的錯(cuò)誤特征

文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    錯(cuò)誤時(shí)鐘偏移計(jì)算導(dǎo)致錯(cuò)誤時(shí)序收斂的解決方案

    描述 本設(shè)計(jì)咨詢(xún)主要介紹一個(gè)錯(cuò)誤的時(shí)鐘偏移計(jì)算導(dǎo)致錯(cuò)誤時(shí)序收斂的問(wèn)題。 出現(xiàn)問(wèn)題的情況: 這可能會(huì)影響使用生成時(shí)鐘的設(shè)計(jì),其具有以下特征: 使用 Vivado 2018.2.x 及更早版本。 用戶(hù)
    的頭像 發(fā)表于 12-24 11:16 ?7622次閱讀

    labview 將矩陣的特征值排序,再把排序后的特征值對(duì)應(yīng)的特征向量組成矩陣

    將矩陣的特征值排序,取最大的前90%,再把前90%由大到小特征值所對(duì)應(yīng)的特征向量組成一個(gè)新的矩陣,應(yīng)該要怎么做呢?我嘗試著用特征值連到一維數(shù)組排序,但是顯示
    發(fā)表于 04-17 21:11

    特征阻抗簡(jiǎn)介

    傳輸線(xiàn)的特征阻抗,又稱(chēng)為特性阻抗,是我們?cè)谶M(jìn)行高速電路設(shè)計(jì)的時(shí)候經(jīng)常會(huì)提到的一個(gè)概念。但是很多人對(duì)這個(gè)概念并不理解,有時(shí)還會(huì)錯(cuò)誤的理解為直流阻抗。弄明白這個(gè)概念對(duì)我們更好的進(jìn)行高速電路設(shè)計(jì)很有必要。高速電路的很多設(shè)計(jì)規(guī)則都和特征
    發(fā)表于 05-30 07:48

    子詞駐留特征在電話(huà)語(yǔ)音確認(rèn)中的應(yīng)用

    語(yǔ)速和插入刪除錯(cuò)誤是導(dǎo)致自動(dòng)電話(huà)轉(zhuǎn)接系統(tǒng)發(fā)生錯(cuò)誤的重要原因。該文給出一種基于子詞似然比(LLR)和子詞駐留特征融合的語(yǔ)音確認(rèn)方法減少上述錯(cuò)誤。提出基于最小分類(lèi)
    發(fā)表于 04-02 08:37 ?17次下載

    基于不變量的軟錯(cuò)誤檢測(cè)方法

    的檢測(cè)方法.不變量是運(yùn)行時(shí)刻保持不變的程序特征.在軟錯(cuò)誤發(fā)生后,由于程序受到影響,不變量一般不再滿(mǎn)足.根據(jù)該原理,在源代碼中插入以不變量為內(nèi)容的斷言,利用發(fā)生軟錯(cuò)誤后斷言報(bào)錯(cuò)來(lái)檢測(cè)軟錯(cuò)誤
    發(fā)表于 01-17 14:00 ?0次下載

    P4610是基于3D NAND介質(zhì)的NVMeSSD并適用于有大量熱數(shù)據(jù)緩存的場(chǎng)景?

    第一個(gè)是IOPS吞吐能力,P4610是基于3D NAND介質(zhì)的NVMeSSD,在混合讀寫(xiě)情況下,基于3D Xpoint技術(shù)的傲騰SSD的IOPS是P4610的三倍以上。
    的頭像 發(fā)表于 09-10 12:01 ?7428次閱讀

    CAN總線(xiàn)錯(cuò)誤的類(lèi)型介紹

    在本系列文章中,我們將為您詳細(xì)介紹CAN總線(xiàn)錯(cuò)誤的相關(guān)知識(shí),包括CAN總線(xiàn)錯(cuò)誤的基礎(chǔ)概念、CAN總線(xiàn)錯(cuò)誤的類(lèi)型、CAN錯(cuò)誤幀和CAN節(jié)點(diǎn)錯(cuò)誤
    的頭像 發(fā)表于 06-13 16:08 ?9384次閱讀

    can總線(xiàn)的信號(hào)錯(cuò)誤介紹

    錯(cuò)誤幀用于在接收和發(fā)送消息時(shí)檢測(cè)出錯(cuò)誤通知錯(cuò)誤的幀,它由錯(cuò)誤標(biāo)志和錯(cuò)誤界定符構(gòu)成。
    發(fā)表于 08-24 18:20 ?4087次閱讀

    虹科干貨 | 帶你全面認(rèn)識(shí)“CAN總線(xiàn)錯(cuò)誤”(二)——CAN錯(cuò)誤類(lèi)型

    AsimpleintrotoCANerrorsCAN總線(xiàn)錯(cuò)誤介紹在本系列文章中,我們將為您詳細(xì)介紹CAN總線(xiàn)錯(cuò)誤的相關(guān)知識(shí),包括CAN總線(xiàn)錯(cuò)誤的基礎(chǔ)概念、CAN總線(xiàn)錯(cuò)誤的類(lèi)型、CAN
    的頭像 發(fā)表于 06-09 09:46 ?3432次閱讀
    虹科干貨 | 帶你全面認(rèn)識(shí)“CAN總線(xiàn)<b class='flag-5'>錯(cuò)誤</b>”(二)——CAN<b class='flag-5'>錯(cuò)誤</b>類(lèi)型

    虹科干貨 | 帶你全面認(rèn)識(shí)“CAN總線(xiàn)錯(cuò)誤”(一)——CAN總線(xiàn)錯(cuò)誤錯(cuò)誤

    AsimpleintrotoCANerrorsCAN總線(xiàn)錯(cuò)誤介紹在本系列文章中,我們將為您詳細(xì)介紹CAN總線(xiàn)錯(cuò)誤的相關(guān)知識(shí),包括CAN總線(xiàn)錯(cuò)誤的基礎(chǔ)概念、CAN總線(xiàn)錯(cuò)誤的類(lèi)型、CAN
    的頭像 發(fā)表于 05-27 10:39 ?6048次閱讀
    虹科干貨 | 帶你全面認(rèn)識(shí)“CAN總線(xiàn)<b class='flag-5'>錯(cuò)誤</b>”(一)——CAN總線(xiàn)<b class='flag-5'>錯(cuò)誤</b>與<b class='flag-5'>錯(cuò)誤</b>幀

    虹科干貨 | 帶你全面認(rèn)識(shí)“CAN總線(xiàn)錯(cuò)誤”(二)——CAN錯(cuò)誤類(lèi)型

    AsimpleintrotoCANerrorsCAN總線(xiàn)錯(cuò)誤介紹在本系列文章中,我們將為您詳細(xì)介紹CAN總線(xiàn)錯(cuò)誤的相關(guān)知識(shí),包括CAN總線(xiàn)錯(cuò)誤的基礎(chǔ)概念、CAN總線(xiàn)錯(cuò)誤的類(lèi)型、CAN
    的頭像 發(fā)表于 06-02 09:41 ?2435次閱讀
    虹科干貨 | 帶你全面認(rèn)識(shí)“CAN總線(xiàn)<b class='flag-5'>錯(cuò)誤</b>”(二)——CAN<b class='flag-5'>錯(cuò)誤</b>類(lèi)型

    哪些錯(cuò)誤PLC新手容易犯?

    PLC新手在使用和編程PLC時(shí)容易犯以下一些常見(jiàn)錯(cuò)誤: (1)電氣接線(xiàn)錯(cuò)誤:PLC的輸入和輸出需要正確地與外部設(shè)備進(jìn)行連接。新手可能會(huì)犯接線(xiàn)錯(cuò)誤,例如接錯(cuò)線(xiàn)圈端子、斷開(kāi)或短路電線(xiàn)等。這可能導(dǎo)致PLC
    的頭像 發(fā)表于 10-11 17:10 ?1853次閱讀

    c語(yǔ)言代碼錯(cuò)誤怎么找

    當(dāng)我們編寫(xiě)C語(yǔ)言代碼時(shí),常常會(huì)遇到一些錯(cuò)誤。這些錯(cuò)誤可能是語(yǔ)法錯(cuò)誤,邏輯錯(cuò)誤或者是運(yùn)行時(shí)錯(cuò)誤。無(wú)論是什么類(lèi)型的
    的頭像 發(fā)表于 11-24 10:05 ?6219次閱讀

    腳本錯(cuò)誤scripterror怎么解決

    “腳本錯(cuò)誤”(Script Error)通常是在運(yùn)行或嘗試運(yùn)行一段腳本或程序時(shí)出現(xiàn)的錯(cuò)誤。這種錯(cuò)誤可能源于許多不同的原因,包括語(yǔ)法錯(cuò)誤、運(yùn)行環(huán)境問(wèn)題、依賴(lài)庫(kù)缺失等。解決腳本
    的頭像 發(fā)表于 11-26 14:46 ?1.5w次閱讀

    常見(jiàn)xgboost錯(cuò)誤及解決方案

    的XGBoost錯(cuò)誤及其解決方案: 1. 數(shù)據(jù)預(yù)處理錯(cuò)誤 錯(cuò)誤 :未對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,如缺失值處理、特征編碼、特征縮放等。 解決方案
    的頭像 發(fā)表于 01-19 11:22 ?5075次閱讀