东京热tokyo综合久久精品,女性久久人澡人人添人人,国产亚洲欧洲997久久综合

作者：Laura Peters

文章來源：https://semiengineering.com/identifying-sources-of-silent-data-corruption/

在大型數據中心，靜默數據錯誤（SDE，Silent Data Errors）正引發廣泛擔憂 —— 這類錯誤會在系統內傳播，對 AI 訓練任務等長時間運行的程序造成嚴重影響。

從技術角度看，靜默數據錯誤（又稱靜默數據損壞-SDC，Silent Data Corruption）本身并不常見。但在由數千臺服務器組成的集群中（這些服務器搭載數百萬臺高利用率運行的處理器芯片），這類破壞性事件卻變得十分普遍。盡管任務模式測試正捕獲更多靜默數據錯誤，但事實證明，要檢測出所有數據損壞錯誤，其復雜程度遠超預期 ——這需要對設計、制造、可測試性設計（DFT）、測試流程，以及軟硬件運維環節進行針對性調整。

新思科技（Synopsys）工程架構總監 Jyotika Athavale指出：“當受影響的器件處理數據時，若無意中導致所處理數據出現未被察覺的錯誤，便會引發靜默數據損壞。例如，受影響的中央處理器（CPU）可能在完全沒有數據損壞提示的情況下，對數據進行錯誤計算。如今，計算密集型機器學習算法需在數萬個節點上執行，這類數據損壞可能在不觸發任何警報的情況下破壞整個數據集，而解決此類問題往往需要數月時間，進而帶來巨額成本損失。此外，該問題的復雜性與規模也使其難以通過主動措施防范；更關鍵的是，芯片生產周期較長，針對靜默數據損壞（SDC）的修復方案可能需要數年時間才能在新硬件中落地。”

靜默數據錯誤的棘手之處在于，其并非源于單一來源或單一機制。普迪飛（PDF Solutions ）首席技術官 Andrzej Strojwas 表示：“靜默數據損壞（SDC）的潛在根本原因繁多。有人認為最可能的誘因是測試疏漏，但許多此類故障只有在實際應用環境中被觸發后才會顯現。例如，由于嚴苛的容差要求和形形色色的布局模式，晶體管層面可能存在漏電這類系統性缺陷。測試過程中可能遺漏對特定模式的敏感性檢測，進而演變為可靠性問題。此外，器件老化也是重要因素，會導致閾值電壓發生變化。不過，通過適當的測試結構設計，這些問題都可得到有效應對。”

靜默數據損壞（SDC）可能發生在硅片全生命周期的任何階段，這也是業界采用多種硅生命周期管理方法應對此類錯誤的核心原因。

西門子 EDA（Siemens）旗下 Tessent 部門工程副總裁Janusz Rajski解釋道：“要消除早期失效現象，必須通過壓力測試加速器件老化。生產階段則需采用高質量、確定性的測試方法，同時在系統內也需執行相同的測試流程。部分企業會在核心閑置時開展測試，也有企業將其作為預防性維護措施，按周或按月定期執行，但無論哪種方式，系統內的測試都會非常全面 —— 這無疑是一項重大變革。”

（圖 1：器件全生命周期內的半導體故障率。來源：西門子EDA ）

Janusz Rajski補充道：“靜默數據損壞（SDC）是個亟待解決的嚴重問題。多家企業發布的數據顯示，每 1000 臺服務器中，約有 1 臺可能受到此類問題影響。顯然，在任務關鍵型或安全關鍵型應用中，其影響會更為嚴重。超大規模數據中心最先發現這一問題，正是因為其處理器數量龐大，但實際上其他領域也存在類似情況。”

在測試層面，工程師們也在深入研究芯片架構優化方向。愛德萬測試（Advantest）應用研究與技術副總裁Ira Leventhal表示：“我們需要一種我稱之為‘架構感知測試’的方法 —— 因為在邏輯芯片中，只有特定的計算單元才有可能將故障傳播至整個網絡。因此，核心思路也就變成了‘將特定測試向量聚焦于核心的這些關鍵區域’—— 不僅要采用傳統掃描測試并核驗結果，還需將部分功能測試整合到自動測試設備（ATE）的測試環節中。”

測試越接近任務模式，就越容易捕獲靜默數據錯誤導致的故障結果。

Ira Leventhal指出：“我們可在 93k 測試工具上使用 LinkScale 卡，通過高速接口開展掃描測試，本質上是讓器件按照實際任務模式的運行邏輯工作。這種情況下，無需像系統級測試那樣運行全套測試場景，只需聚焦核心的特定區域，通過特定方式驅動器件運行，即可觸發靜默數據損壞（SDC）問題。這在異構集成場景中尤為重要 —— 我們需在芯片級發現所有潛在問題，確保芯片具備抵御靜默數據損壞的能力。這類措施能幫助我們在問題管控中占據主動。”

然而，即便在測試環節占據主動，企業也逐漸意識到，解決靜默數據損壞（SDC）問題真正需要的是整個供應鏈的協同。盡管器件制造商、測試企業與可測試性設計（DFT）提供商之間的合作已催生出更完善的篩選與緩解方案，但隨著器件和系統復雜度不斷提升，靜默數據錯誤問題只會愈發嚴峻，因此行業仍需長期策略支撐。例如，Meta 正探索如何提升應用對靜默數據損壞的容錯能力。Meta 工程總監斯里Sriram Sankar表示：“我們正在推進一項長期工作，旨在改進并推廣具備內在抗靜默數據損壞（SDC）能力的架構解決方案與設計模式。”

鑒于整個供應鏈解決靜默數據損壞（SDC）問題的緊迫性，OCP啟動了 “服務器組件彈性工作流” 項目，參與者包括AMD、安謀Arm、谷歌Google、英特爾 Intel、微軟Microsoft、Meta 和英偉達NVIDIA等多家企業。去年 6 月，該項目為六個以解決靜默數據錯誤（SDE）為目標的研究項目提供了資金支持。

其他企業也認為，這一領域需要研究界的深度參與。谷歌工程總監Rama Govindaraju在近期的小組討論中表示：“僅依靠過往的方法，無法顯著推動問題的解決進程。這一領域需要更多創新性研究，因為它需要更全面的解決方案，且必須引入新想法、創新性思路。靜默數據損壞（SDC）是個極其復雜的問題，需要開發大量研究成果和端到端解決方案。”

追溯靜默數據損壞（SDC）的根源，需從設計階段著手。新思科技杰出架構師Adam Cron指出：“我們曾交流過的一家芯片設計企業表示，即便是設計錯誤，也可能成為靜默數據錯誤（SDE）的來源。硅后驗證工具可為多線程應用生成邊界情況工作負載；隨后，在制造測試和現場測試階段，借助硅后激勵器可在硅片層面發現設計錯誤。這些測試也可用于仿真和驗證環節，以判斷設計邏輯是否存在問題。但有時，只有借助實際流片的硅片，才能發現這些特殊錯誤。”

Adam Cron特別強調，流片制造的實際硅片對于識別新故障（尤其是新工藝節點下的故障）至關重要：“內存有時需要針對新工藝的內建自測試（BiST）算法，以發現這些新的缺陷特征。通過流片制造實際硅片，是防范特定設計風格或物理布局方案日后演變為靜默數據錯誤（SDE）的有效保障。”

目前，半導體行業在兩方面取得了顯著進展：一是通過測試更有效地篩選缺陷，二是通過軟件管控靜默數據錯誤（SDE）造成的損害。然而，設計中的 “邊際性”（marginality）和工藝中的變異性，可能是靜默數據損壞（SDC）的核心誘因，且這類誘因極難察覺。有些潛伏性缺陷能通過所有測試和檢查，但一旦處于實際應用環境中，就可能在現場發生故障。

泰瑞達（Teradyne）技術與營銷總監Nitza Basoco解釋道：“就靜默數據錯誤（SDE）而言，某些知識產權（IP）模塊可能存在邊際性問題，但在‘零時刻’（time zero，即出廠時）仍可通過測試。然而，當信號路徑與環境條件呈現特定組合時，這類邊際性缺陷可能演變為關鍵性缺陷。而且，由于缺陷對多種因素的組合敏感，其是否會導致故障具有不確定性。”

盡管傳統測試是在故障發生后進行檢測，但部分策略已轉向預防導向。proteanTecs 聯合創始人兼首席技術官 Evelyn Landman表示：“我們專注于預測這些故障 —— 如今，一個主要問題是，這些故障會反饋給設備供應商，而供應商需投入巨額資源進行故障分析。在很多情況下，他們無法復現故障，導致‘未發現故障’（no trouble found，簡稱 NTF）率居高不下。我們的核心目標是從源頭避免故障發生。我們發現，在未采用我們方法的案例里，部分退回的故障芯片存在缺陷，而通過我們的方法本可提前發現這些問題。”

例如，借助對漏電流敏感的專用工藝監視器，結合模型可預測每顆芯片的預期漏電流。若實際漏電流超過預期值，即表明可能存在導致靜默數據錯誤的缺陷。

第二種方法是通過遙測監視器追蹤時序余量 —— 時序余量的變化是預測故障的關鍵指標。時序余量變化可能由多種因素引起，例如連接松動導致金屬線電阻升高，或特征粗糙度導致晶體管計算速度變慢。

時序延遲還與故障傳播路徑密切相關：若時序延遲沿短路徑傳播，微小延遲可能不會被察覺；若沿較長的關鍵路徑傳播，即便微小延遲也可能導致故障。然而，所有這些監視器都會占用硅片面積，產生成本開銷。尤其是在先進工藝節點下，器件可集成的傳感器數量有限，一旦空間耗盡便無法再增加。因此，遙測傳感器的部署必須經過周密規劃，優先部署在最關鍵的位置。

靜默數據錯誤發生率上升的部分原因，可能與芯片處于高壓力運行模式的時間增加有關。

Nitza Basoco指出：“系統級芯片（SoC）的設計初衷并非使其以最高電壓、最高頻率、高功耗狀態 24 小時不間斷運行 —— 原本設計的高負載運行時長本就較短。但如今，芯片大部分時間都處于高壓力環境中，因此故障風險顯著升高。我們需要明確芯片的實際運行工況，并調整相關設計或運行參數，以確保這些器件在與認證環境差異極大的工況下，仍能保持較長的使用壽命。”

Ira Leventhal提出了靜默數據損壞的三大管控方法：“在靜默數據損壞問題的管控方面，我們有三種核心手段 —— 檢測錯誤、降低錯誤發生率、構建缺陷容錯系統。這三種手段必須同時采用。我把它比作通信領域的問題應對邏輯：我們從不期望通信鏈路絕對可靠，因此始終會執行錯誤檢查。若系統檢測到錯誤，便會啟動重試機制 —— 這是預期的運行模式。”

此外，針對靜默數據損壞（SDC）的測試并非孤立進行。Adam Cron補充道：“任何用于檢測缺陷組件的設計結構，都有助于發現那些故障時會‘靜默失效’的器件。目前尚無專門針對靜默數據錯誤的工具，但任何可反映硅片整體質量狀況的特征都十分有用。例如，將工藝監視器與異常值檢測分析技術相結合，可幫助篩選出可能在現場出現問題的芯片。”

由于 Meta、谷歌等企業已找到通過軟件管控靜默數據錯誤的方法，行業對這類錯誤的警報聲已有所緩和。Nitza Basoco 提醒道：“目前，問題已得到初步控制，但如果靜默數據錯誤（SDE）的發生率上升到現有管控措施或臨時應對方案無法應對的程度，行業必須提前做好準備。”

行業也在積極針對多芯片組件采取預防措施。Janusz Rajski表示：“適用于 3D 集成電路（3D-IC）的可測試性設計（DFT）架構正逐步形成，該架構會將靜默數據損壞錯誤和設計規模不斷擴大的問題納入考量。測試壓縮并非新技術，但在這些核心中的應用已非常普遍。其次，流掃描網絡（可實現打包數據在不同核心間的傳輸）已應用于大多數大型設計，能以極高速度傳輸數據。我們還在開發 iJTAG 技術，以支持對大量儀器進行并行編程。在去年的國際測試會議（ITC）上，我們推出了在線測試（in-system test）技術，該技術可提供確定性測試能力，尤其適用于關注靜默數據錯誤或有特定可靠性、可用性與可維護性（RAS）需求的客戶。最后，還需借助監視器掌握工藝邊界（如工藝 - 電壓 - 溫度（PVT）邊界），部署時序裕量傳感器、路徑傳感器等結構傳感器，同時將傳感器讀數與測試結果進行關聯分析。”

PDF

結語

盡管通過可測試性設計（DFT）、工藝監視器和更全面的測試流程，制造和測試階段捕獲的靜默數據錯誤數量不斷增加，但在識別靜默數據錯誤（SDE）的所有根本原因、降低其造成的影響，以及防止其在數據中心內部傳播方面，行業仍有很長的路要走。

盡管如此，領先企業已積極采取行動：他們不僅采用更全面的基于任務模式的測試方法，還引入了系統內測試技術。超大規模數據中心運營商、集成電路（IC）制造商、測試企業、可測試性設計（DFT）提供商和 EDA 企業之間加強數據共享與協作，將有助于形成更全面的解決方案，同時避免供應鏈內部出現勞動重復的情況。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴