微觀世界的“體檢”難題
在一枚比指甲蓋還小的芯片中,集成了數(shù)十億甚至上百億個晶體管,例如 NVIDIA 的 H100 GPU 包含 800 億個晶體管。要如何確定每一個晶體管都在正常工作?這是一個超乎想象的復雜工程。如果讓人類拿著顯微鏡一個接一個地檢查,測試一顆芯片可能需要數(shù)百年。然而在現(xiàn)代工廠中,這必須在幾秒鐘內完成。這就是可測性設計(DFT, Design for Testability)的用武之地。
一聊起年輕時研發(fā)過ATE,很多人就會問我半導體測試究竟是如何進行的?索性回憶回憶寫點東西。本文將帶你走完一顆芯片從晶圓廠誕生到被認證為“良品”的全過程,揭示這一支撐整個數(shù)字世界的幕后技術。
1. 測試的本質其實就是輸入與輸出的游戲
測試的核心邏輯非常簡單:施加一個特定的輸入,驗證是否出現(xiàn)了預期的輸出。但在現(xiàn)代半導體中,這個問題變得極其棘手。因為芯片外部可供連接的引腳(Pin)通常只有幾百到幾千個,而內部卻有數(shù)十億個晶體管。我們無法直接從外部“看到”內部每一個晶體管的狀態(tài)。
打個比方:這就像醫(yī)生給人看病。當身體不舒服時,你怎么知道是胃、腸還是膽囊出了問題?醫(yī)生不能直接把肚子剖開看,而是通過內窺鏡深入體內,或者注射顯影劑觀察反應。
芯片測試也是如此。我們在設計芯片時,就必須預埋特殊的電路結構,讓內部狀態(tài)變得“可見”且“可控”。這就是 DFT 的起點。
2. DFT給植入芯片的“聽診器”
DFT(Design for Test)意為“為測試而設計”。如果不預先設計這些電路,芯片造出來后就是個“黑盒”,根本無法測試。
掃描鏈架構 (Scan Architecture):芯片的窗口
這是 DFT 最基礎的技術。工程師將芯片內部的觸發(fā)器(Flip-flops)連接成一條長長的“掃描鏈”(Scan Chain)。
- Shift-in(移入): 像串糖葫蘆一樣,把想要的數(shù)據(jù)(0或1)通過少量的引腳由外部推入芯片內部每一個節(jié)點。
- Capture(捕獲): 讓芯片運行一個時鐘周期,捕捉運算結果。
- Shift-out(移出): 將結果像傳送帶一樣送出芯片,與預期值進行比對。
通過這種方式,原本深埋在芯片內部、無法觸及的邏輯門,就變得可以通過外部引腳進行控制和觀測了。
ATPG:自動“找茬”生成器
有了掃描鏈,我們需要決定輸入什么數(shù)據(jù)才能發(fā)現(xiàn)故障。這就需要 ATPG (Automatic Test Pattern Generation) 工具。它基于“故障模型(Fault Model)”自動生成測試向量。常見的故障模型:
- Stuck-at Fault(固定型故障): 某根信號線像被膠水粘住了一樣,永遠保持在 0 或 1,無法翻轉。
- Transition Fault(跳變故障): 信號雖然能變,但變慢了(例如從 0 變到 1 的時間太長,導致時序違例)。
掃描壓縮 (Scan Compression)
為了降低成本,現(xiàn)代芯片采用了掃描壓縮技術。核心思想是用極少的外部測試引腳,驅動內部成百上千條掃描鏈并行工作。這能將測試時間壓縮數(shù)十倍,直接決定了芯片的生產(chǎn)成本。
3. ATE半導體測試最昂貴的“判官”
任何關于芯片測試的討論都離不開 ATE (Automatic Test Equipment,自動測試設備)。這些由 Teradyne(泰瑞達) 和 Advantest(愛德萬) 等巨頭制造的機器,單臺造價從數(shù)十萬到數(shù)百萬美元不等。ATE 在做什么?表面上看,ATE 只是負責供電、給信號、讀結果。但實際上它是一臺超高精度的物理儀器:
- 電平控制: 精確控制輸入電壓(例如 0.7V 代表 0,1.2V 代表 1)。
- 時序控制: 以納秒甚至皮秒級的精度,定義何時讀取輸出(Strobe Timing)。
- 參數(shù)測量: 測量微安級的漏電流(Leakage)或納安級的待機功耗。
并行測試 (Multi-site Testing)
在工廠里,時間就是金錢。哪怕每顆芯片減少 1 秒的測試時間,對于產(chǎn)量上億的芯片來說也是巨額的利潤。因此,工程師的主要目標之一就是縮短測試時間。最有效的手段是“同測”——用一臺 ATE 同時測試 4、8、16 甚至 32 顆芯片。這雖然讓測試程序極其復雜,但能顯著攤薄昂貴的機臺成本。
4. 測試的三大關卡
芯片測試并非一次性完成,而是分階段進行的“闖關游戲”。
第一關:晶圓測試 (Wafer Sort / CP Test)
時間點: 晶圓剛出廠,還沒被切割。目的: “排雷”。 盡早剔除壞品。因為后續(xù)的封裝(Packaging)成本很高,把壞的芯片封裝起來是純粹的浪費。在這個階段,探針卡扎在晶圓上進行測試。CP 測試通常無法做到全速或高溫測試,它更像是一個初篩,把明顯的壞品打上標記(Ink out),不讓它們進入下一環(huán)節(jié)。
第二關:封裝測試 (Final Test / FT)
時間點: 芯片切割并封裝完成后。目的: “終審”。這是最關鍵的一步。芯片被放入插座(Socket)中,環(huán)境更加穩(wěn)定。
- 全功能驗證: 測試所有邏輯功能。
- 三溫測試: 在常溫、高溫(如 125°C)和低溫(如 -40°C)下分別測試,確保芯片在極端環(huán)境下不崩潰。
- 老化測試 (Burn-in): 這是一個將芯片置于高溫高壓下長時間運行的過程,目的是通過加速老化,把那些有潛在缺陷、壽命短的“夭折”芯片(Infant Mortality)提前篩選出來,保證出廠產(chǎn)品的可靠性。
第三關:系統(tǒng)級測試 (System Level Test / SLT)
時間點: FT 之后,出貨之前。目的: “實戰(zhàn)演習”。隨著制程越來越先進(如 5nm, 3nm),芯片內部變得極其復雜,有些缺陷只有在跑真實操作系統(tǒng)或應用時才會暴露。SLT 就是把芯片插在一個類似手機或電腦主板的測試板上,真的去啟動 Android/Windows,跑 3DMark 或特定的業(yè)務負載。這是為了攔截那些“ATE 測不出來,但用戶一用就死機”的隱蔽缺陷。
5. 生產(chǎn)線上的生存法則
在量產(chǎn)中,測試流程遵循兩條鐵律:
- SOF (Stop on Failure): 一旦發(fā)現(xiàn)任何錯誤,立即停止測試該芯片。對于量產(chǎn)來說,壞了就是壞了,多測一秒都是浪費。
- 由簡入繁: 先測最便宜、最容易失敗的項目(如短路測試),后測復雜昂貴的項目。
典型測試流程:
- Continuity (連通性): 檢查引腳是否短路或斷路。
- DC Parametric (直流參數(shù)): 測漏電流、功耗。
- Scan Test (掃描測試): 用 ATPG 抓邏輯缺陷。
- MBIST (內存自測): 芯片自己測試內部的 SRAM/Cache。
- 補充: 如果發(fā)現(xiàn)內存有壞點,許多芯片可以通過 Repair (修復) 機制,啟用備用的冗余電路來替代壞點,把“壞”芯片修成“好”芯片。
- Trim (修調): (補充) 對于模擬電路,通過燒斷內部熔絲(Fuse)來校準電壓或頻率。
- Functional (功能測試): 模擬實際工作模式。
6. Binning區(qū)分芯片的三六九等
并不是所有通過測試的芯片都是一樣的。這就涉及到了 Binning(分級)。
物理分級 (HBIN)
決定了機械臂把芯片放到哪個盤子里。
- Bin 1: 完美良品(特等品)。
- Bin 2: 普通良品。
- Bin 99: 廢品(扔進垃圾桶)。
性能分級 (Performance Binning),這是商業(yè)價值的來源。
- Speed Binning (速度分級): 同樣的設計,有的芯片能跑 3.0GHz,有的只能跑 2.5GHz。前者標成 Intel i9 賣高價,后者標成 i7 或 i5。這通常是由于制造工藝的微小隨機差異造成的。
- Functional Binning (功能分級): 著名的“皮衣刀法”。比如 NVIDIA 的 GPU,如果 100 個核心里壞了 2 個,廠商不會扔掉它,而是通過熔絲把壞的 2 個核心屏蔽掉,作為次旗艦(如 4080)出售;如果壞了 10 個,就做成 4070。
- Leakage Binning (漏電分級): 低漏電的芯片發(fā)熱小、省電,常被用于移動設備或標為“低功耗版”溢價出售。
7. 良率 (Yield)決定生死的數(shù)字
良率 = (良品數(shù)量 / 總芯片數(shù)量) × 100%在半導體行業(yè),良率就是一切。對于月產(chǎn)數(shù)萬片晶圓的工廠,98% 和 99% 的良率差異,可能意味著每年數(shù)億美元的利潤差距。
D0 (Defect Density) 與芯片面積
良率通常遵循泊松分布模型:其中 D_0 是缺陷密度,A 是芯片面積。這個公式告訴我們一個殘酷的事實:芯片做得越大,良率就越難控制。 這就是為什么現(xiàn)在的 AI 芯片(面積巨大)賣得那么貴,以及為什么行業(yè)要轉向 Chiplet(小芯片)技術——把大芯片切碎了做,能顯著提高良率。
零缺陷的博弈
測試工程師面臨永恒的困境:
- Test Escape (漏測): 把壞芯片當好芯片賣出去了 -> 導致客戶退貨,品牌受損。
- Overkill (誤殺): 把好芯片當壞芯片扔掉了 -> 直接損失真金白銀。
優(yōu)秀的測試策略,就是在這兩者之間尋找最佳的平衡點。
補充知識JTAG 標準在 DFT 領域,你常會聽到 JTAG (IEEE 1149.1)。這是一個行業(yè)標準接口,最初就是為了解決電路板級測試難題而發(fā)明的。它定義了 TAP 控制器和邊界掃描技術,是實現(xiàn)上述 DFT 功能的物理基礎之一。
Load Board 與 Probe CardATE 是通用設備,如何連接特定的芯片?
- Probe Card (探針卡): 用于晶圓測試,上面有成千上萬根比頭發(fā)還細的探針,直接扎在晶圓的焊盤上。
- Load Board (負載板/DIB): 用于封裝后測試,是一個巨大的電路板,上面裝有特制的插座(Socket)來放置芯片。這些硬件接口的設計質量直接影響測試的穩(wěn)定性。
KGD (Known Good Die)在 Chiplet 和 2.5D/3D 封裝(如臺積電 CoWoS)流行的今天,CP 測試的重要性被拔高了。因為一個封裝里可能封裝了 4 顆 HBM 顯存和 1 顆 GPU 核心,只要其中一顆 Die 是壞的,整個昂貴的封裝就報廢了。因此,廠商需要 KGD——在晶圓階段就必須 100% 確信這顆 Die 是好的。
半導體測試不僅僅是“找壞人”,它是芯片制造中定義質量、決定成本、劃分等級的關鍵環(huán)節(jié)。當你下一次看到新聞中提到某款芯片“良率突破”或“頻率提升”,請記住,這背后不僅是制造工藝的進步,更是無數(shù)測試工程師通過海量數(shù)據(jù)分析、精密電路設計和嚴苛篩選策略所構建的質量長城。是他們決定了一顆沙子提煉出的硅片,究竟是以幾百美元的價格驅動超級計算機,還是作為廢料被丟棄。
聲明:
本號對所有原創(chuàng)、轉載文章的陳述與觀點均保持中立,推送文章僅供讀者學習和交流。文章、圖片等版權歸原作者享有,如有侵權,聯(lián)系刪除。
-
芯片
+關注
關注
463文章
54010瀏覽量
465980 -
晶體管
+關注
關注
78文章
10396瀏覽量
147733 -
芯片測試
+關注
關注
6文章
172瀏覽量
21150
發(fā)布評論請先 登錄
RF功率晶體管耐用性的三個電氣參數(shù)驗證
什么是晶體管 晶體管的分類及主要參數(shù)
晶體管對于CPU有什么影響
芯片上如何集成晶體管 晶體管的結構特點有哪些
晶體管和芯片的關系
芯片內部晶體管的工作原理
揭秘芯片測試:如何驗證數(shù)十億個晶體管
評論