国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文讀懂 | 識別靜默數據損壞的來源

PDF Solutions ? 2025-09-19 18:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Laura Peters

文章來源:https://semiengineering.com/identifying-sources-of-silent-data-corruption/


在大型數據中心,靜默數據錯誤(SDE,Silent Data Errors)正引發廣泛擔憂 —— 這類錯誤會在系統內傳播,對 AI 訓練任務等長時間運行的程序造成嚴重影響。


從技術角度看,靜默數據錯誤(又稱靜默數據損壞-SDC,Silent Data Corruption)本身并不常見。但在由數千臺服務器組成的集群中(這些服務器搭載數百萬臺高利用率運行的處理器芯片),這類破壞性事件卻變得十分普遍。盡管任務模式測試正捕獲更多靜默數據錯誤,但事實證明,要檢測出所有數據損壞錯誤,其復雜程度遠超預期 ——這需要對設計、制造、可測試性設計(DFT)、測試流程,以及軟硬件運維環節進行針對性調整。


新思科技(Synopsys)工程架構總監 Jyotika Athavale指出:“當受影響的器件處理數據時,若無意中導致所處理數據出現未被察覺的錯誤,便會引發靜默數據損壞。例如,受影響的中央處理器(CPU)可能在完全沒有數據損壞提示的情況下,對數據進行錯誤計算。如今,計算密集型機器學習算法需在數萬個節點上執行,這類數據損壞可能在不觸發任何警報的情況下破壞整個數據集,而解決此類問題往往需要數月時間,進而帶來巨額成本損失。此外,該問題的復雜性與規模也使其難以通過主動措施防范;更關鍵的是,芯片生產周期較長,針對靜默數據損壞(SDC)的修復方案可能需要數年時間才能在新硬件中落地。”


靜默數據錯誤的棘手之處在于,其并非源于單一來源或單一機制。普迪飛(PDF Solutions )首席技術官 Andrzej Strojwas 表示:“靜默數據損壞(SDC)的潛在根本原因繁多。有人認為最可能的誘因是測試疏漏,但許多此類故障只有在實際應用環境中被觸發后才會顯現。例如,由于嚴苛的容差要求和形形色色的布局模式,晶體管層面可能存在漏電這類系統性缺陷。測試過程中可能遺漏對特定模式的敏感性檢測,進而演變為可靠性問題。此外,器件老化也是重要因素,會導致閾值電壓發生變化。不過,通過適當的測試結構設計,這些問題都可得到有效應對。”


靜默數據損壞(SDC)可能發生在硅片全生命周期的任何階段,這也是業界采用多種硅生命周期管理方法應對此類錯誤的核心原因。


西門子 EDA(Siemens)旗下 Tessent 部門工程副總裁Janusz Rajski解釋道:“要消除早期失效現象,必須通過壓力測試加速器件老化。生產階段則需采用高質量、確定性的測試方法,同時在系統內也需執行相同的測試流程。部分企業會在核心閑置時開展測試,也有企業將其作為預防性維護措施,按周或按月定期執行,但無論哪種方式,系統內的測試都會非常全面 —— 這無疑是一項重大變革。”


5955f0ac-9540-11f0-8ce9-92fbcf53809c.png

(圖 1:器件全生命周期內的半導體故障率。來源:西門子EDA )


Janusz Rajski補充道:“靜默數據損壞(SDC)是個亟待解決的嚴重問題。多家企業發布的數據顯示,每 1000 臺服務器中,約有 1 臺可能受到此類問題影響。顯然,在任務關鍵型或安全關鍵型應用中,其影響會更為嚴重。超大規模數據中心最先發現這一問題,正是因為其處理器數量龐大,但實際上其他領域也存在類似情況。”

在測試層面,工程師們也在深入研究芯片架構優化方向。愛德萬測試(Advantest)應用研究與技術副總裁Ira Leventhal表示:“我們需要一種我稱之為‘架構感知測試’的方法 —— 因為在邏輯芯片中,只有特定的計算單元才有可能將故障傳播至整個網絡。因此,核心思路也就變成了‘將特定測試向量聚焦于核心的這些關鍵區域’—— 不僅要采用傳統掃描測試并核驗結果,還需將部分功能測試整合到自動測試設備(ATE)的測試環節中。”


測試越接近任務模式,就越容易捕獲靜默數據錯誤導致的故障結果。


Ira Leventhal指出:“我們可在 93k 測試工具上使用 LinkScale 卡,通過高速接口開展掃描測試,本質上是讓器件按照實際任務模式的運行邏輯工作。這種情況下,無需像系統級測試那樣運行全套測試場景,只需聚焦核心的特定區域,通過特定方式驅動器件運行,即可觸發靜默數據損壞(SDC)問題。這在異構集成場景中尤為重要 —— 我們需在芯片級發現所有潛在問題,確保芯片具備抵御靜默數據損壞的能力。這類措施能幫助我們在問題管控中占據主動。”


然而,即便在測試環節占據主動,企業也逐漸意識到,解決靜默數據損壞(SDC)問題真正需要的是整個供應鏈的協同。盡管器件制造商、測試企業與可測試性設計(DFT)提供商之間的合作已催生出更完善的篩選與緩解方案,但隨著器件和系統復雜度不斷提升,靜默數據錯誤問題只會愈發嚴峻,因此行業仍需長期策略支撐。例如,Meta 正探索如何提升應用對靜默數據損壞的容錯能力。Meta 工程總監斯里Sriram Sankar表示:“我們正在推進一項長期工作,旨在改進并推廣具備內在抗靜默數據損壞(SDC)能力的架構解決方案與設計模式。”


鑒于整個供應鏈解決靜默數據損壞(SDC)問題的緊迫性,OCP啟動了 “服務器組件彈性工作流” 項目,參與者包括AMD、安謀Arm、谷歌Google、英特爾Intel、微軟Microsoft、Meta 和英偉達NVIDIA等多家企業。去年 6 月,該項目為六個以解決靜默數據錯誤(SDE)為目標的研究項目提供了資金支持。


其他企業也認為,這一領域需要研究界的深度參與。谷歌工程總監Rama Govindaraju在近期的小組討論中表示:“僅依靠過往的方法,無法顯著推動問題的解決進程。 這一領域需要更多創新性研究,因為它需要更全面的解決方案,且必須引入新想法、創新性思路。靜默數據損壞(SDC)是個極其復雜的問題,需要開發大量研究成果和端到端解決方案。”


追溯靜默數據損壞(SDC)的根源,需從設計階段著手。新思科技杰出架構師Adam Cron指出:“我們曾交流過的一家芯片設計企業表示,即便是設計錯誤,也可能成為靜默數據錯誤(SDE)的來源。硅后驗證工具可為多線程應用生成邊界情況工作負載;隨后,在制造測試和現場測試階段,借助硅后激勵器可在硅片層面發現設計錯誤。這些測試也可用于仿真和驗證環節,以判斷設計邏輯是否存在問題。但有時,只有借助實際流片的硅片,才能發現這些特殊錯誤。”


Adam Cron特別強調,流片制造的實際硅片對于識別新故障(尤其是新工藝節點下的故障)至關重要:“內存有時需要針對新工藝的內建自測試(BiST)算法,以發現這些新的缺陷特征。通過流片制造實際硅片,是防范特定設計風格或物理布局方案日后演變為靜默數據錯誤(SDE)的有效保障。”


目前,半導體行業在兩方面取得了顯著進展:一是通過測試更有效地篩選缺陷,二是通過軟件管控靜默數據錯誤(SDE)造成的損害。然而,設計中的 “邊際性”(marginality)和工藝中的變異性,可能是靜默數據損壞(SDC)的核心誘因,且這類誘因極難察覺。有些潛伏性缺陷能通過所有測試和檢查,但一旦處于實際應用環境中,就可能在現場發生故障。


泰瑞達(Teradyne)技術與營銷總監Nitza Basoco解釋道:“就靜默數據錯誤(SDE)而言,某些知識產權(IP)模塊可能存在邊際性問題,但在‘零時刻’(time zero,即出廠時)仍可通過測試。然而,當信號路徑與環境條件呈現特定組合時,這類邊際性缺陷可能演變為關鍵性缺陷。而且,由于缺陷對多種因素的組合敏感,其是否會導致故障具有不確定性。”


盡管傳統測試是在故障發生后進行檢測,但部分策略已轉向預防導向。proteanTecs 聯合創始人兼首席技術官 Evelyn Landman表示:“我們專注于預測這些故障 —— 如今,一個主要問題是,這些故障會反饋給設備供應商,而供應商需投入巨額資源進行故障分析。在很多情況下,他們無法復現故障,導致‘未發現故障’(no trouble found,簡稱 NTF)率居高不下。我們的核心目標是從源頭避免故障發生。我們發現,在未采用我們方法的案例里,部分退回的故障芯片存在缺陷,而通過我們的方法本可提前發現這些問題。”


例如,借助對漏電流敏感的專用工藝監視器,結合模型可預測每顆芯片的預期漏電流。若實際漏電流超過預期值,即表明可能存在導致靜默數據錯誤的缺陷。


第二種方法是通過遙測監視器追蹤時序余量 —— 時序余量的變化是預測故障的關鍵指標。時序余量變化可能由多種因素引起,例如連接松動導致金屬線電阻升高,或特征粗糙度導致晶體管計算速度變慢。


時序延遲還與故障傳播路徑密切相關:若時序延遲沿短路徑傳播,微小延遲可能不會被察覺;若沿較長的關鍵路徑傳播,即便微小延遲也可能導致故障。然而,所有這些監視器都會占用硅片面積,產生成本開銷。尤其是在先進工藝節點下,器件可集成的傳感器數量有限,一旦空間耗盡便無法再增加。因此,遙測傳感器的部署必須經過周密規劃,優先部署在最關鍵的位置。


靜默數據錯誤發生率上升的部分原因,可能與芯片處于高壓力運行模式的時間增加有關。


Nitza Basoco指出:“系統級芯片(SoC)的設計初衷并非使其以最高電壓、最高頻率、高功耗狀態 24 小時不間斷運行 —— 原本設計的高負載運行時長本就較短。但如今,芯片大部分時間都處于高壓力環境中,因此故障風險顯著升高。我們需要明確芯片的實際運行工況,并調整相關設計或運行參數,以確保這些器件在與認證環境差異極大的工況下,仍能保持較長的使用壽命。”


Ira Leventhal提出了靜默數據損壞的三大管控方法:“在靜默數據損壞問題的管控方面,我們有三種核心手段 —— 檢測錯誤、降低錯誤發生率、構建缺陷容錯系統。這三種手段必須同時采用。我把它比作通信領域的問題應對邏輯:我們從不期望通信鏈路絕對可靠,因此始終會執行錯誤檢查。若系統檢測到錯誤,便會啟動重試機制 —— 這是預期的運行模式。”


此外,針對靜默數據損壞(SDC)的測試并非孤立進行。Adam Cron補充道:“任何用于檢測缺陷組件的設計結構,都有助于發現那些故障時會‘靜默失效’的器件。目前尚無專門針對靜默數據錯誤的工具,但任何可反映硅片整體質量狀況的特征都十分有用。例如,將工藝監視器與異常值檢測分析技術相結合,可幫助篩選出可能在現場出現問題的芯片。”


由于 Meta、谷歌等企業已找到通過軟件管控靜默數據錯誤的方法,行業對這類錯誤的警報聲已有所緩和。Nitza Basoco 提醒道:“目前,問題已得到初步控制,但如果靜默數據錯誤(SDE)的發生率上升到現有管控措施或臨時應對方案無法應對的程度,行業必須提前做好準備。”

行業也在積極針對多芯片組件采取預防措施。Janusz Rajski表示:“適用于 3D 集成電路(3D-IC)的可測試性設計(DFT)架構正逐步形成,該架構會將靜默數據損壞錯誤和設計規模不斷擴大的問題納入考量。測試壓縮并非新技術,但在這些核心中的應用已非常普遍。其次,流掃描網絡(可實現打包數據在不同核心間的傳輸)已應用于大多數大型設計,能以極高速度傳輸數據。我們還在開發 iJTAG 技術,以支持對大量儀器進行并行編程。在去年的國際測試會議(ITC)上,我們推出了在線測試(in-system test)技術,該技術可提供確定性測試能力,尤其適用于關注靜默數據錯誤或有特定可靠性、可用性與可維護性(RAS)需求的客戶。最后,還需借助監視器掌握工藝邊界(如工藝 - 電壓 - 溫度(PVT)邊界),部署時序裕量傳感器、路徑傳感器等結構傳感器,同時將傳感器讀數與測試結果進行關聯分析。”


PDF

結語


盡管通過可測試性設計(DFT)、工藝監視器和更全面的測試流程,制造和測試階段捕獲的靜默數據錯誤數量不斷增加,但在識別靜默數據錯誤(SDE)的所有根本原因、降低其造成的影響,以及防止其在數據中心內部傳播方面,行業仍有很長的路要走。

盡管如此,領先企業已積極采取行動:他們不僅采用更全面的基于任務模式的測試方法,還引入了系統內測試技術。超大規模數據中心運營商、集成電路(IC)制造商、測試企業、可測試性設計(DFT)提供商和 EDA 企業之間加強數據共享與協作,將有助于形成更全面的解決方案,同時避免供應鏈內部出現勞動重復的情況。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據中心
    +關注

    關注

    18

    文章

    5651

    瀏覽量

    75017
  • SDC
    SDC
    +關注

    關注

    0

    文章

    50

    瀏覽量

    16254
  • 數據損壞
    +關注

    關注

    0

    文章

    4

    瀏覽量

    5439
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    讀懂接口模塊的組合應用有哪些?

    讀懂接口模塊的組合應用有哪些?
    發表于 05-17 07:15

    讀懂如何去優化AC耦合電容?

    讀懂如何去優化AC耦合電容?
    發表于 06-08 07:04

    讀懂什么是NEC協議

    讀懂什么是NEC協議?
    發表于 10-15 09:22

    讀懂中斷方式和輪詢操作有什么區別嗎

    讀懂中斷方式和輪詢操作有什么區別嗎?
    發表于 12-10 06:00

    讀懂傳感器的原理與結構

    讀懂傳感器傳感器在原理與結構上千差萬別,如何根據具體的測量目的、測量對象以及測量環境合理地選用傳感器,是在進行某個量的測量時首先要解決的問題。當傳感器確定之后,與之相配套的測量方法和測量設備也就
    發表于 01-13 07:08

    讀懂NB-IoT 的現狀、挑戰和前景

    讀懂 NB-IoT 的現狀、挑戰和前景
    的頭像 發表于 02-28 15:42 ?7457次閱讀

    讀懂,電容如何識別資料下載

    電子發燒友網為你提供讀懂,電容如何識別資料下載的電子資料下載,更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料,希望可以幫助到廣大的電
    發表于 04-17 08:47 ?3次下載
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>,電容如何<b class='flag-5'>識別</b>資料下載

    讀懂MCU的特點、功能及如何編寫

    讀懂MCU的特點、功能及如何編寫
    發表于 12-05 09:51 ?24次下載
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MCU的特點、功能及如何編寫

    讀懂,什么是BLE?

    讀懂,什么是BLE?
    的頭像 發表于 11-27 17:11 ?4612次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>,什么是BLE?

    讀懂車規級AEC-Q認證

    讀懂車規級AEC-Q認證
    的頭像 發表于 12-04 16:45 ?1990次閱讀

    讀懂微力扭轉試驗機的優勢

    讀懂微力扭轉試驗機的優勢
    的頭像 發表于 11-30 09:08 ?1296次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>微力扭轉試驗機的優勢

    讀懂新能源汽車的功能安全

    電子發燒友網站提供《讀懂新能源汽車的功能安全.pdf》資料免費下載
    發表于 09-04 09:22 ?4次下載

    讀懂MSA(測量系統分析)

    讀懂MSA(測量系統分析)
    的頭像 發表于 11-01 11:08 ?2287次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MSA(測量系統分析)

    讀懂單燈控制器工作原理

    讀懂單燈控制器工作原理
    的頭像 發表于 11-11 13:13 ?2494次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>單燈控制器工作原理

    如何處理復雜的靜默數據損壞問題

    在本系列的第篇文章中,我們探討了靜默數據損壞(Silent Data Corruption,SDC)的定義及其對當前計算數據狀況的影響。為
    的頭像 發表于 11-21 18:01 ?1564次閱讀