小花のん无码播放,久久免费国产美女裸体精东,久久久久久亚洲综合影院红桃

2024年，Meta訓練了一款AI模型“Llama 3”，并將相關訓練成果匯總發表了一篇論文，受到廣泛關注。在為期54天的預訓練過程中，Llama 3遭遇了466次訓練中斷，其中意外中斷高達419次。通過進一步調查，Meta了解到，這些異常中斷中78%源自GPU及主機組件等硬件問題。

此類硬件問題不僅會導致工作任務中斷，還可能導致靜默數據損壞（SDC），造成意外數據丟失或異常，而這些問題往往長期難以被察覺。

Meta預訓練時遭遇的中斷雖出乎意料，但這種現象其實不難理解。像Llama 3這樣的AI模型處理需求巨大，必須依賴超大規模計算集群支持。僅在訓練環節，AI工作負載往往需要數十萬個計算節點及其配套GPU持續協同工作數周甚至數月之久。

高強度、大規模的AI處理和數據交換會產生大量熱量、電壓波動和噪聲，這些因素給計算硬件施加了巨大的壓力。相較于以往的常規條件，GPU等底層芯片的退化速度大幅加快，性能和可靠性也隨之下降。

這種情況在5nm以下制程中尤為突出，無論是制造環境和實際應用廠家，都能觀察到明顯的芯片退化和故障行為。

那么，我們該如何應對此類情況？又該如何減少意外中斷和SDC？隨著行業不斷推出更新、規模更大AI工作任務，面對市場對處理能力與規模持續攀升的需求，芯片設計團隊應如何確保最佳性能和可靠性？

確保芯片可靠性、可用性和可維護性（RAS）

以Meta為代表的AI創新企業已構建起完善的監控診斷體系，旨在持續改善計算環境的可用性與可靠性。然而隨著算力需求激增、硬件故障頻發以及SDC問題日益嚴峻，行業亟需建立更深層的測試與遙測能力，而且這種能力需要貫穿每個XPU/GPU內部的晶粒、多芯片封裝以及互連架構等基礎層面。

芯片生命周期管理（SLM）解決方案正是保障端到端RAS的關鍵所在，其覆蓋范圍貫穿芯片設計、制造、啟動調試及現場運維全流程。

憑借更出色的可見性、監控和芯片層級診斷，設計團隊可以：

通過遙測數據了解芯片故障或發生SDC的原因。

識別芯片組件、Multi-Die封裝和高速互連中的電壓或時序退化、過熱和機械故障。

更精確地分析AI工作任務的熱性能和功耗性能分析。

檢測、特征分析和解決輻射、電壓噪聲以及可能引發位翻轉和SDC的潛在故障機制。

提高芯片的良率、質量和現場RAS。

在寄存器傳輸級（RTL）設計階段采用triple modular redundancy and dual core lock step（三模冗余和雙核鎖步等以可靠性為核心的技術），降低SDC風險。

建立準確的硅前老化仿真方法檢測敏感或脆弱電路，并用抗老化電路替換。

優化可靠性模型中的異常檢測（識別偏離正常行為的數據點），最大程度減少現場SDC。

新思科技SLM解決方案

作為系統設計的全球領導者，新思科技提供SLM IP和分析解決方案，可顯著提升芯片健康狀態，并在系統生命周期的各個階段提供關鍵運行指標。

該解決方案具備三大監測特性，即環境監測、結構監測和功能監測，分別可以基于器件運行環境了解和優化芯片性能；識別從設計到現場運行階段的性能變化；以及用于跟蹤關鍵器件功能的健康狀況和異常情況。

我們的SLM IP和分析解決方案包括：

工藝、電壓和溫度監測器

確保最優運行狀態，同時最大化性能、功耗與可靠性。

全芯片高精度分布式監測，支持通過頻率調節實現熱管理。

支持28nm至3nm工藝節點。

路徑裕量監測器

測量1000多條綜合和功能路徑（測試和現場）的時序裕量。

基于實際裕量優化芯片性能。

自動化路徑選擇、IP插入和掃描生成功能。

時鐘和延遲監測器

測量一個或多個信號的邊緣之間的延遲。

監測時鐘占空比的質量。

借助內置自測（BIST）跟蹤，測量內存讀取訪問時間。

對數字延遲線進行特征分析。

UCIe監測、測試和修復

監測Die-to-Die UCIe通道的信號完整性。

生成算法BIST向量，以檢測互連故障類型，包括通道間串擾。

通過冗余分配執行累積通道修復（制造和現場）。

高速訪問和測試

支持通過功能接口（PCIe、USB、SPI等）進行測試。

適用于現場運行以及晶圓分揀、最終測試和系統級測試。

可以與自動化測試設備結合使用。

通過減少引腳數量，方便現場遠程診斷，降低測試成本。

高帶寬內存（HBM）外部測試和修復

全面且經過硅驗證的DRAM堆疊測試、修復和診斷引擎。

支持第三方HBM DRAM堆疊提供商解決方案。

高性能Die-to-Die互連測試和修復支持。

與HBM PHY協同工作，并支持一系列HBM協議和配置。

SLM分層子系統

面向片上系統（SoC）的自動化分層SLM和測試可管理性解決方案。

借助系統內調度，自動集成和訪問所有IP/核心。

預先驗證、隨時可用的ATE向量和向量移植功能。

AI時代的芯片測試和遙測

隨著AI器件和工作任務的規模和處理需求持續上升，系統可靠性、芯片健康和SDC問題愈發常見。雖然不存在能夠徹底規避這些問題的單一解決方案或萬能方法，但在芯片層級進行更深入、更全面的測試、修復和遙測，能極大緩解相關風險。其中，檢測或預測現場芯片退化的能力尤為關鍵，這使我們能夠在突發或災難性系統故障發生之前及時采取糾正措施。

在AI技術快速演進的時代背景下，我們必須提供端到端的可見性和RAS保障，這使得芯片測試、修復和遙測的重要性與日俱增。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

新思科技

新思科技

+關注

關注
5

文章
930

瀏覽量
52698
Meta

Meta

+關注

關注
0

文章
316

瀏覽量
12365
AI芯片

AI芯片

+關注

關注
17

文章
2077

瀏覽量
36596

原文標題：應對硬件故障與靜默數據損壞：新思科技SLM方案以端到端可靠性守護AI芯片萬億算力

文章出處：【微信號：Synopsys_CN，微信公眾號：新思科技】歡迎添加關注！文章轉載請注明出處。

搜索歷史

新思科技SLM解決方案守護AI芯片萬億算力

評論