国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

分類模型評估指標匯總

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-10 21:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:努力的孔子

對模型進行評估時,可以選擇很多種指標,但不同的指標可能得到不同的結果,如何選擇合適的指標,需要取決于任務需求。

正確率與錯誤率

正確率:正確分類的樣本數/總樣本數,accuracy

錯誤率:錯誤分類的樣本數/總樣本數,error

正確率+錯誤率=1

這兩種指標最簡單,也最常用

缺點

不一定能反應模型的泛化能力,如類別不均衡問題。

不能滿足所有任務需求

如有一車西瓜,任務一:挑出的好瓜中有多少實際是好瓜,任務二: 所有的好瓜有多少被挑出來了,顯然正確率和錯誤率不能解決這個問題。

查準率與查全率

先認識幾個概念

正樣本/正元組:目標元組,感興趣的元組

負樣本/負元組:其他元組

對于二分類問題,模型的預測結果可以劃分為:真正例 TP、假正例 FP、真負例 TN、 假負例 FN,

真正例就是實際為正、預測為正,其他同理

顯然 TP+FP+TN+FN=總樣本數

混淆矩陣

把上面四種劃分用混淆矩陣來表示

從而得出如下概念

查準率:預測為正里多少實際為正,precision,也叫精度

查全率:實際為正里多少預測為正,recall,也叫召回率

查準率和查全率是一對矛盾的度量。通常來講,查準率高,查全率就低,反之亦然。

例如還是一車西瓜,我希望將所有好瓜盡可能選出來,如果我把所有瓜都選了,那自然所有好瓜都被選了,這就需要所有的瓜被識別為好瓜,此時查準率較低,而召回率是100%,

如果我希望選出的瓜都是好瓜,那就要慎重了,寧可不選,不能錯選,這就需要預測為正就必須是真正例,此時查準率是100%,查全率可能較低。

注意我說的是可能較低,通常如果樣本很好分,比如正的全分到正的,負的全分到負的,那查準率、查全率都是100%,不矛盾。

P-R曲線

既然矛盾,那兩者之間的關系應該如下圖

這條曲線叫 P-R曲線,即查準率-查全率曲線。

這條曲線怎么畫出來的呢?可以這么理解,假如我用某種方法得到樣本是正例的概率(如用模型對所有樣本進行預測),然后把樣本按概率排序,從高到低

如果模型把第一個預測為正,其余預測為負,此時查準率為1,查全率接近于0,

如果模型把前2個預測為正,其余預測為負,此時查準率稍微降低,查全率稍微增加,

依次...

如果模型把除最后一個外的樣本預測為正,最后一個預測為負,那么查準率很低,查全率很高。

此時我把數據順序打亂,畫出來的圖依然一樣,即上圖。

既然查準率和查全率互相矛盾,那用哪個作為評價指標呢?或者說同時用兩個指標怎么評價模型呢?

兩種情形

如果學習器A的P-R曲線能完全“包住”學習器C的P-R曲線,則A的性能優于C

如果學習器A的P-R曲線與學習器B的P-R曲線相交,則難以判斷孰優孰劣,此時通常的作法是,固定查準率,比較查全率,或者固定查全率,比較查準率。

通常情況下曲線會相交,但是人們仍希望把兩個學習器比出個高低,一個合理的方式是比較兩條P-R曲線下的面積。

但是這個面積不好計算,于是人們又設計了一些其他綜合考慮查準率查全率的方式,來替代面積計算。

平衡點:Break-Event Point,簡稱BEP,就是選擇 查準率=查全率 的點,即上圖,y=x直線與P-R曲線的交點

這種方法比較暴力

F1 與 Fβ 度量

更常用的方法是F1度量

即 F1 是 P 和 R 的調和平均數。

與算數平均數 和 幾何平均數相比,調和平均數更重視較小值。

在一些應用中,對查準率和查全率的重視程度有所不同。

例如商品推薦系統,為了避免騷擾客戶,希望推薦的內容都是客戶感興趣的,此時查準率比較重要,

又如資料查詢系統,為了不漏掉有用信息,希望把所有資料都取到,此時查全率比較重要。

此時需要對查準率和查全率進行加權

即 P 和 R 的加權調和平均數。

β>0,β度量了查全率對查準率的重要性,β=1時即為F1

β>1,查全率更重要,β<1,查準率更重要

多分類的F1

多分類沒有正例負例之說,那么可以轉化為多個二分類,即多個混淆矩陣,在這多個混淆矩陣上綜合考慮查準率和查全率,即多分類的F1

方法1

直接在每個混淆矩陣上計算出查準率和查全率,再求平均,這樣得到“宏查準率”,“宏查全率”和“宏F1”

方法2

把混淆矩陣中對應元素相加求平均,即 TP 的平均,TN 的平均,等,再計算查準率、查全率、F1,這樣得到“微查準率”,“微查全率”和“微F1”

ROC 與 AUC

很多學習器是為樣本生成一個概率,然后和設定閾值進行比較,大于閾值為正例,小于為負例,如邏輯回歸。

而模型的優劣取決于兩點:

這個概率的計算準確與否

閾值的設定

我們把計算出的概率按從大到小排序,然后在某個點劃分開,這個點就是閾值,可以根據實際任務需求來確定這個閾值,比如更重視查準率,則閾值設大點,若更重視查全率,則閾值設小點,

這里體現了同一模型的優化,

不同的模型計算出的概率是不一樣的,也就是說樣本按概率排序時順序不同,那切分時自然可能分到不同的類,

這里體現了不同模型之間的差異,

所以ROC可以用來模型優化和模型選擇,理論上講 P-R曲線也可以。

ROC曲線的繪制方法與P-R曲線類似,不再贅述,結果如下圖

橫坐標為假正例率,縱坐標為真正例率,曲線下的面積叫 AUC

如何評價模型呢?

若學習器A的ROC曲線能包住學習器B的ROC曲線,則A優于B

若學習器A的ROC曲線與學習器B的ROC曲線相交,則難以比較孰優孰劣,此時可以比較AUC的大小

總結

模型評估主要考慮兩種場景:類別均衡,類別不均衡

模型評估必須考慮實際任務需求

P-R 曲線和 ROC曲線可以用于模型選擇

ROC曲線可以用于模型優化

參考資料:

周志華《機器學習

本文由博客一文多發平臺 OpenWrite 發布!

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136931
  • 深度學習
    +關注

    關注

    73

    文章

    5598

    瀏覽量

    124396
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    圖像采集卡分類、接口與性能指標詳解

    、接口類型與性能指標直接決定了視覺系統的成像質量、傳輸效率和實時處理能力。以下從分類、主流接口、核心性能指標三個維度展開詳解,覆蓋工業級、商用級全場景應用特性。一
    的頭像 發表于 01-29 16:55 ?454次閱讀
    圖像采集卡<b class='flag-5'>分類</b>、接口與性能<b class='flag-5'>指標</b>詳解

    電纜故障監測指標及其技術手段應用分析

    電纜故障監測通過綜合評估電氣、熱學、機械及信號特征等多維度指標,結合對應技術實現故障的精準定位與預防。其中核心監測指標包含絕緣性能、電氣參數、溫度、機械性能以及局部放電等內容,從多方面實現對電纜運行
    的頭像 發表于 01-28 11:09 ?93次閱讀
    電纜故障監測<b class='flag-5'>指標</b>及其技術手段應用分析

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    , batch_size=512, epochs=20)總結 這個核心算法中的卷積神經網絡結構和訓練過程,是用來對MNIST手寫數字圖像進行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進行分類
    發表于 10-22 07:03

    如何評估諧波治理措施的效果?

    對新能源設備的損耗與危害。具體評估體系可拆解為 核心評估指標、關鍵評估方法、標準化評估流程 三部分,同時需結合新能源場景(光伏、風電、儲能)
    的頭像 發表于 10-14 17:04 ?809次閱讀

    迅為iTOP-RK3568人工智能開發板mobilenet圖像分類模型推理測試

    想快速驗證MobileNet圖像分類模型的實際運行效果?迅為iTOP-RK3568人工智能開發板,讓模型推理測試高效又省心。
    的頭像 發表于 08-28 15:53 ?1430次閱讀
    迅為iTOP-RK3568人工智能開發板mobilenet圖像<b class='flag-5'>分類</b><b class='flag-5'>模型</b>推理測試

    詳解SPICE器件模型分類

    今天我們來聊聊工程師在仿真時比較關注的問題。眾多的器件模型,我在仿真的時候到底應該怎么選擇一個器件的模型?我使用的這個器件模型的精確度夠嗎?我自己能否做一個器件模型來支持我的電路仿真?
    的頭像 發表于 08-28 13:42 ?1462次閱讀
    詳解SPICE器件<b class='flag-5'>模型</b>的<b class='flag-5'>分類</b>

    小白學大模型:國外主流大模型匯總

    )領域。論文的核心是提出了一種名為Transformer的全新模型架構,它完全舍棄了以往序列模型(如循環神經網絡RNNs和卷積神經網絡CNNs)中常用的循環和卷積結構
    的頭像 發表于 08-27 14:06 ?949次閱讀
    小白學大<b class='flag-5'>模型</b>:國外主流大<b class='flag-5'>模型</b><b class='flag-5'>匯總</b>

    NanoEdge AI生成的模型庫,在keil里面編譯后運行,返回都是0,沒挑出單分類,怎么解決?

    我打算識別具有特定特征的曲線,我按照單分類進行訓練。2維數據,輸入時間序列數據,得分90+分,得到模型后。驗證得分90+,我就在keil里面使用驗證所用的數據,挑選了一些無特征和有特征的數據,判斷結果都返回0。 如何解決呢?
    發表于 08-12 07:52

    如何評估協議分析儀的性能指標

    評估協議分析儀的性能指標需從硬件處理能力、協議解析精度、實時響應效率、擴展性與兼容性、用戶體驗五大維度綜合考量。以下是具體指標評估方法,結合實際場景說明其重要性:一、硬件處理能力:決
    發表于 07-18 14:44

    天線的工作原理、分類及性能指標

    到神秘的雷達探測,從家庭電視信號接收到底層的遙感技術,天線的應用無處不在,其性能優劣直接關系到通信質量與信號覆蓋范圍。本文將深入剖析天線的工作原理、分類、性能指標以及測量方法,帶您領略天線的神奇世界。
    的頭像 發表于 07-07 13:39 ?5346次閱讀
    天線的工作原理、<b class='flag-5'>分類</b>及性能<b class='flag-5'>指標</b>

    商湯日日新SenseNova融合模態大模型 國內首家獲得最高評級的大模型

    近日,中國信息通信研究院(以下簡稱“中國信通院”)完成可信AI多模態大模型首輪評估。 商湯日日新SenseNova融合模態大模型在所有模型中,獲得當前最高評級——4+級,并成為國內首家
    的頭像 發表于 06-11 11:57 ?1416次閱讀

    知識分享 | 評估模型架構——如何實現?

    確保良好的模型架構對于開發安全和可靠的軟件非常重要。本文為您介紹MES Model Examiner? (MXAM)如何優化模型架構,簡化復雜度管理步驟,并最終提升軟件質量。
    的頭像 發表于 06-05 11:46 ?652次閱讀
    知識分享 | <b class='flag-5'>評估</b><b class='flag-5'>模型</b>架構——如何實現?

    別踩雷!二手應用材料雙通道磁鐵驅動器及通道電源采購的關鍵評估指標

    本文聚焦二手應用材料雙通道磁鐵驅動器及通道電源采購,系統梳理關鍵評估指標,包括核心性能、元件狀態、功能完整性等方面,為采購者提供科學評估依據,助力規避采購風險,獲取性能可靠的二手設備。 引言 在
    的頭像 發表于 06-05 09:43 ?606次閱讀
    別踩雷!二手應用材料雙通道磁鐵驅動器及通道電源采購的關鍵<b class='flag-5'>評估</b><b class='flag-5'>指標</b>

    激光器的多樣分類與選型關鍵指標全解析

    理解各類激光器的特點及其關鍵指標,對于確保應用效果至關重要。本文將對此進行全面解析。 激光器的多樣分類 激光器作為現代科技的重要產物,根據不同的分類標準,可以劃分為多個種類。以下是從幾個主要維度對激光器的分
    的頭像 發表于 04-23 06:26 ?1678次閱讀
    激光器的多樣<b class='flag-5'>分類</b>與選型關鍵<b class='flag-5'>指標</b>全解析

    快速部署!米爾全志T527開發板的OpenCV行人檢測方案指南

    ,計算HOG特征。HOG特征是一個一維向量,其中每個元素表示圖像中特定位置和方向的梯度強度。 訓練SVM分類器:使用HOG特征作為輸入,訓練SVM分類器。SVM分類器將學習區分行人和非行人。
    發表于 04-11 18:14