一、引言
機器學習(ML)在半導體制造領域的應用,正面臨傳統算法難以突破的核心瓶頸。盡管行業能產生海量生產數據,但兩大關鍵問題始終未能有效解決:一是極端類別不平衡,二是初始生產階段訓練數據集匱乏。這兩個問題在半導體測試環節尤為突出 —— 該環節芯片故障率常低于 0.5%,且新產品需在歷史數據極少的情況下,實現實時質量預測。
這一問題的影響極為深遠:若有缺陷的芯片(die)在早期晶圓分選測試中未被檢出,會流入后續高成本加工流程(封裝、最終測試),最終仍會失效,不僅造成巨額成本損失,還會導致工期延誤,而更高效的早期檢測算法本可完全規避此類問題;反之,若合格芯片在晶圓分選階段被誤判為不合格,也會直接造成成本浪費與產能損耗。
近期研究表明,專用機器學習方法已能突破上述限制 ——即便訓練數據嚴重不足,仍能實現顯著的性能提升。其核心在于兩點:一是選擇專為制造場景設計的算法,二是采用貼合實際部署場景的評估方法。
二、類別不平衡挑戰深度解析
(一)制造數據不平衡的極端性
在工業領域,半導體制造是類別不平衡問題最嚴峻的場景之一。高良率生產環境下,芯片故障率通常低于 1%,部分產品甚至低至 0.5%;若通過軟分箱(soft bin)分類法分析特定失效模式,不平衡問題會進一步加劇 —— 部分失效類型在初始數據集中完全沒有樣本記錄。
這種極端的數據偏差會直接導致傳統機器學習算法 “失效”:傳統模型以 “整體準確率” 為核心優化目標,若分類器對所有樣本一概預測 “合格”,雖能實現 99% 以上的準確率,但二類錯誤(Type II Error,俗稱 “漏檢缺陷”)率會飆升至 100%,這類模型對實際缺陷識別毫無實用價值。
(二)制造時序的制約
半導體數據收集的 “時序性”,進一步放大了類別不平衡問題。生產數據需數月時間才能逐步積累(積累速度取決于生產爬坡率與實際產量),而在初始生產階段,制造商亟需預測模型支撐質量決策,但此時往往缺乏足夠的歷史數據,根本無法訓練傳統機器學習系統。
這便形成了典型的 “雞生蛋” 困境:制造商需要預測模型優化早期生產流程,而傳統機器學習方法又依賴大規模均衡數據集 —— 但這類數據集在早期關鍵階段完全不存在。
三、制造場景專用算法方案
(一)算法選擇標準
研究團隊針對 59 個生產批次(每批次含 25 片晶圓,單顆芯片的測試參數約 17500 項),開展了系統評估,最終鎖定 3 類算法方案。選擇核心聚焦兩點:一是能有效處理類別不平衡問題,二是具備適配制造環境的計算效率。
評估框架采用雙重方法設計:一是 “時間驗證法”(模擬真實生產場景下的模型重訓過程,貼合實際運維需求),二是傳統的 5 折交叉驗證(用于客觀評估模型基準性能)。這種雙重評估模式既確保了算法的落地實用性,又保障了評估方法的科學嚴謹性。
(二)現有基準分類器特性
作為基準的現有分類器(Incumbent Classifier),通過集成提升(boosting)技術,能夠高效應對大規模數據集、數據缺失值與異常值問題。該方法能有效降低模型偏差,并支持增量學習 —— 這一特性對數據持續積累的制造環境至關重要(畢竟生產數據是實時新增的)。
但 boosting 算法也存在明顯短板:在小數據集上極易出現過擬合現象,且訓練過程需消耗大量計算資源,對制造場景的硬件配置有一定要求。
其核心性能指標如下:
具備分布式計算能力,可隨生產規模擴展
支持增量學習,能實時整合新增生產數據
對數據缺失值和異常值的處理能力較強
訓練階段的計算成本相對較高
(三)基于采樣的高級分類器(Classifier-A)
專用算法(分類器 A,Classifier-A)在核心架構中,創新性整合了對多數類(合格芯片樣本)的隨機下采樣策略與少數類(缺陷芯片樣本)的過采樣策略。該設計專門針對半導體測試數據的極端類別不平衡問題,同時還能保持對數據異常值的魯棒性,無需額外增加數據預處理步驟。
其核心性能優勢具體體現在:
通過自動化采樣實現訓練數據內部平衡,全程無需人工干預,降低運維成本
借助隨機特征選擇降低模型方差,減少 “個別異常數據影響整體預測” 的情況
內置正則化機制,增強對數據異常值的抗干擾能力,適配制造場景的復雜數據環境
大幅減少人工超參數調優工作量,從 “反復試錯” 變為 “開箱即用”,加速部署節奏
該算法通過集成技術聚焦方差優化,能顯著提升模型整體準確率,尤其適配制造早期階段的小數據集場景 —— 正好解決了 “初始生產沒數據” 的痛點。
(四)傳統局部信息分類器(Classifier-B)
傳統機器學習方法(分類器 B,Classifier-B)依賴數據點周圍的局部信息做預測決策。盡管這類方法訓練速度快,且支持增量學習,但存在兩大致命局限:一是處理高維測試數據時性能明顯下滑(半導體測試參數多達上萬項,正好命中短板),二是對數據噪聲和異常值高度敏感—— 這些缺陷在制造環境中會直接導致測試準確率大幅下降,難以落地實用。
四、性能分析與實驗結果
(一)AUC-ROC 性能對比
在模擬小數據集的時序驗證場景下(還原初始生產階段的數據狀態),基于采樣的專用分類器(Classifier-A)表現始終最優:當使用前 10 個批次的數據訓練時,其中位 AUC-ROC 得分比現有基準分類器高約 2 個百分點,缺陷識別能力顯著更強。

前 10 批次中位 AUC 值均值對比表(數據來源:研究實驗)
更關鍵的是,在訓練初期(數據量最少的時候),專用算法的性能優勢更為顯著 —— 正好匹配 “初始生產階段最缺數據、最需要精準模型” 的場景。隨著訓練數據逐步增加,各算法的性能差距會有所縮小,但專用算法的優勢始終穩定保持,不會出現 “數據多了反而不準” 的情況。
(二)計算效率權衡
運行時間分析結果顯示,算法的訓練速度與推理性能之間存在明顯的權衡關系,具體表現為:
Classifier-B:訓練速度最快,但推理速度最慢(每秒處理的芯片測試量少),難以適配半導體測試的實時性需求(生產線不能等模型“慢慢算”);
現有基準分類器:推理速度略優于Classifier-A,在對實時性要求極高的場景(如高速晶圓測試線)中具備一定優勢;
Classifier-A:推理耗時約為現有基準分類器的 3 倍,但從實際價值看,2個百分點的 AUC 提升能大幅減少漏檢缺陷,避免的下游成本損失,遠超過推理環節的計算開銷。
簡單說:多花一點計算時間,能省一大筆返工成本,這筆 “賬” 對制造商來說很劃算。
(三)統計顯著性與穩定性
為了驗證算法性能的可靠性,時序驗證過程中,研究團隊通過多組不同隨機種子的實驗,量化了算法性能的波動性。結果顯示:無論數據劃分方式、模型初始化條件如何變化,Classifier-A 的性能優勢均保持一致—— 這說明其性能提升是算法本身的穩健性優化帶來的,不是 “碰巧選對了數據集”,落地到不同產線、不同產品時,效果都能穩定復現。
五、制造場景實施要點
(一)特征工程與篩選
半導體測試數據具有典型的高維特性(每顆芯片約 17500 個測試參數),其中很多參數對缺陷預測毫無意義,因此必須構建穩健的特征篩選流程。有效的實施需滿足兩大核心目標:一是精準篩選出具有強預測信號的特征(留下 “有用的”),二是嚴格控制模型計算復雜度(去掉 “沒用的”),避免在小數據集場景下出現過擬合。
在平衡模型復雜度與可用訓練數據時,參數篩選尤為關鍵。專用算法(如 Classifier-A)通過內置的特征選擇機制,能自主處理高維特征空間,不用工程師手動 “一個個試參數”,大幅減輕人工特征工程的工作量,降低部署難度。
(二)超參數優化
傳統機器學習算法需要大量人工調優超參數(比如學習率、正則化系數),往往要試幾十組甚至上百組參數才能找到最優解,耗時耗力。而專用分類器(如 Classifier-A)內置了方差控制與自動化采樣策略,大部分超參數能 “自動適配”,不用工程師反復調試,顯著降低部署復雜度,實現 “快速上線、快速用”。
更重要的是,其內置的正則化機制能同時實現 “防止過擬合” 與 “保留少數類(缺陷樣本)模式敏感性”——這一平衡是半導體缺陷檢測的核心需求:既不能 “把合格的判成缺陷”(過擬合導致誤判),也不能 “把缺陷的當成合格”(對少數類不敏感導致漏檢)。
(三)與現有系統集成
現代制造場景不是 “重新建一套系統”,而是 “在現有基礎上升級”,因此算法必須能與現有數據處理、決策系統無縫銜接。專用算法支持增量學習:隨著生產數據的持續積累,模型能實現動態迭代優化,不用 “推倒重來” 做全量重訓,完全適配制造運營的時序需求。
這種特性帶來的好處是:從生產爬坡期到滿產期,模型能跟著數據 “一起成長”,不用工程師頻繁停機更新模型,為 “從生產爬坡到滿產” 的全階段,提供了可持續的模型維護方案,不會影響生產線正常運行。
六、業務價值與成本影響
(一)早期缺陷檢測的核心價值
專用算法的核心價值,在于 “把缺陷檢測的時間點提前”—— 在晶圓分選階段(而非最終測試階段)就精準識別潛在失效芯片,避免對失效芯片進行后續高成本加工(封裝、組裝的成本比晶圓測試高 10 倍以上)。
考慮到封裝和最終測試環節的高昂成本,即便早期檢測準確率僅實現小幅提升(比如 2 個百分點),也能為企業帶來顯著的成本節約,相當于 “花小錢,省大錢”。
(二)縮短投資回報周期
采用專用類別不平衡算法后,制造商從生產第一天起就能獲得可用的預測模型,不用像傳統方法那樣,等數月積累均衡訓練數據 ——這一特性可即時為質量決策提供支撐,顯著縮短 AI/ML 項目的投資回報周期(比如從 6 個月縮短到 1 個月),讓技術投入更快看到收益。
對制造商來說,這意味著 “新產品一投產,AI 就能用”,不用承擔 “等待數據期間的質量風險”,還能加速技術價值轉化。
(三)減少下游浪費
晶圓分選到最終測試的預測準確率提升,能直接減少下游加工浪費:避免缺陷芯片流入高成本制造環節,不用再做 “無用功”。Classifier-A 等專用算法能精準識別 “難判樣本”(比如參數接近合格線的芯片),同時降低一類錯誤(誤拒合格芯片)與二類錯誤(漏檢缺陷芯片)的發生率 ——既不浪費好芯片,也不放走壞芯片,工程實用價值顯著。
七、未來方向與可擴展性
(一)數據增長與模型演進
隨著制造產量的提升、生產數據的持續積累,專用算法的增量學習能力可支持模型實現動態迭代優化,不用全量重訓—— 這種模式既能以低成本實現模型維護(不用每次都花大量計算資源訓模型),又能保留早期學習成果,確保模型性能隨數據積累穩步提升,不會出現 “數據多了性能反而倒退” 的情況。
(二)集成方法探索
當前單一專用算法(如 Classifier-A)已展現出顯著的性能優勢,未來可進一步探索 “多專用分類器集成” 方案(比如讓 Classifier-A 與其他算法 “協同工作”)。但需要注意的是:Classifier-A 等專用算法已內置集成技術,外部集成策略可能難以帶來額外的性能增益,后續需要結合實際制造場景(如不同芯片類型、不同測試設備)開展驗證,不能盲目 “為了集成而集成”。
(三)制造場景 AI 部署優化

八、結論
半導體行業的獨特約束 ——數據收集的時效性(數據慢積累)、極端類別不平衡(缺陷太少)、對預測模型的即時需求(投產就要用)—— 要求行業必須采用超越傳統算法的專用機器學習方法。研究結果明確表明:精心選擇的專用算法,即便在訓練數據嚴重不足的情況下,仍能實現顯著的性能提升,不是 “紙上談兵”,而是 “能落地用”。
專用類別不平衡算法帶來的 2 個百分點 AUC 提升,可直接轉化為三大核心價值:制造成本降低(少返工、少浪費)、質量控制改善(漏檢少、誤判少)、AI 投資回報加速(早用早收益)。隨著行業持續擴大人工智能應用規模,這類專用方法將成為突破制造環境固有數據局限性的核心工具,不是 “可選方案”,而是 “必選方案”。
從工程實踐角度看,半導體制造場景的 AI 應用,不能 “照搬互聯網行業的模型”,必須跳出傳統機器學習的固有框架,采用專為制造約束設計的算法。大量研究證據表明,在半導體測試場景中應用專用類別不平衡技術,既能快速創造業務價值(投產就能省成本),又能為后續數據積累后的模型優化筑牢基礎,實現 “短期見效、長期向好” 的目標。
-
半導體
+關注
關注
339文章
30719瀏覽量
263990 -
檢測
+關注
關注
5文章
4856瀏覽量
94134 -
機器學習
+關注
關注
66文章
8553瀏覽量
136928
發布評論請先 登錄
如何理解矢量測量中“平衡”與“不平衡
三相不平衡的原因、危害以及解決措施
三相不平衡治理裝置的應用優勢
天線與饋線匹配中的平衡與不平衡變換有什么區別?
怎么解決變頻器電流不平衡的問題
基于主動學習不平衡多分類AdaBoost改進算法
不平衡類別的機器學習
三相電壓不平衡產生原因_三相電壓不平衡的治理措施
機器學習中樣本比例不平衡應該怎樣去應付
半導體缺陷檢測升級:機器學習(ML)攻克類別不平衡難題,小數據也能精準判,降本又提效!
評論