国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型精度驗證及調優建議

地瓜機器人 ? 2022-04-07 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當您在板端驗證.bin或在python端評測quantized.onnx發現精度不及預期時(精度損失超過4%),可參照本文第二章所述步驟排查問題。若精度損失較小,則可參考本文第三章嘗試精度調優。

在開始定位模型精度問題之前,我們建議您可以先瀏覽一下模型轉換的內部過程解讀,這將有助于您理解并排查數據和yaml文件準備過程中的問題。

1 內部過程詳解

模型轉換完成浮點模型到地平線混合異構模型的轉換。為了使得這個異構模型能快速高效地在嵌入式端運行,模型轉換重點在解決 輸入數據處理模型優化編譯 兩個問題。


1.1 輸入數據處理

輸入數據處理方面我們為模型插入了預處理節點,幫助實現硬件通路數據和模型輸入數據的轉換對齊。因為地平線的邊緣AI計算平臺會為某些特定類型的輸入通路提供硬件級的支撐方案, 但是這些方案的輸出不一定符合模型輸入的要求。 例如視頻通路方面就有視頻處理子系統,為采集提供圖像裁剪、縮放和其他圖像質量優化功能,這些子系統的輸出往往是yuv420格式圖像, 而我們的算法模型往往是基于bgr/rgb等一般常用圖像格式訓練得到的。為減少客戶板端部署時的工作量,我們將幾種常見的圖像格式轉換以及常用的圖像標準化操作固化進了模型當中,其表現為模型input節點之后插入了預處理節點HzPreprocess(您可以使用開源工具 Netron 觀察轉換過程中的中間產物)。
轉換過程中,工具會根據yaml文件中 input_type_rt input_type_train 指定的數據格式自動向HzPreprocess節點中添加數據格式轉換的操作。根據實際生產經驗, 并不是任意type組合都是需要的,為避免誤用,我們只開放了一些固定的type組合如下表所示。

poYBAGJOlA2AVBk0AAEA05quqro784.png


表格中第一行是 input_type_rt 中支持的類型,第一列是 input_type_train 支持的類型, 其中的 Y/N 表示是否支持相應的 input_type_rtinput_type_train 的轉換。 在.bin模型部署階段,您只需要關注input_type_rt的數據格式。 以下是對 input_type_rt每種格式的說明:

(1) rgb、bgr和gray都是比較常見的圖像數據,注意每個數值都采用UINT8表示。

(2) yuv444是一種常見的圖像格式,注意每個數值都采用UINT8表示。

(3) nv12是常見的yuv420圖像數據,每個數值都采用UINT8表示。

(4) nv12有個比較特別的情況是 input_space_and_range 設置 bt601_video (配置參數介紹可參考《horizon_ai_toolchain_user_guide》3.4. 轉換模型 章節),較于常規nv12情況,它的數值范圍由[0,255]變成了[16,235], 每個數值仍然采用UINT8表示。

(5) featuremap適用于以上列舉格式不滿足您需求的情況,此type只要求您的數據是四維的,每個數值采用float32表示。 例如雷達和語音等模型處理就常用這個格式。
圖像數據標準化操作則是根據yaml文件中的norm_typemean_valuescale_value參數,判斷是否向HzPreprocess節點中添加mean/scale操作。


1.2 模型優化編譯

模型優化編譯方面則完成了模型解析、模型優化、模型校準與量化、模型編譯等幾個重要過程。其內部工作過程及輸入數據準備示例如下圖所示。
暫時無法在文檔外展示此內容

poYBAGJOlA2AVh65AAHtPzWg-9Q223.png

*最右邊一列為各階段圖像輸入類模型預處理示例,主要差異在于normalize操作以及圖像格式的轉換。若為featuremap輸入,則預處理不存在上述差異。

模型解析階段 對于Caffe浮點模型會完成到ONNX浮點模型的轉換。 在原始浮點模型上會根據轉換配置中的配置參數決定是否加入HzPreprocess節點,此階段產出original_float_model.onnx。 這個ONNX模型計算精度仍然是float32,和原始浮點模型輸出結果一致。
理想狀態下,這個HzPreprocess節點應該完成 input_type_rtinput_type_train 的完整轉換, 實際情況是整個type轉換過程會配合地平線AI芯片硬件完成,ONNX模型里面并沒有包含硬件轉換的部分。 因此ONNX的真實輸入類型會使用一種中間類型,這種中間類型就是硬件對 input_type_rt 的處理結果類型, 數據layout(NCHW/NHWC)會保持和原始浮點模型的輸入layout一致。 每種 input_type_rt 都有特定的對應中間類型,如下表:

poYBAGJOlA2ACfR3AABOH3GtW9U701.png

表格中第一行是 input_type_rt 指定的數據類型,第二行是特定 input_type_rt 對應的中間類型, 這個中間類型就是original_float_model.onnx的輸入類型。每個類型解釋如下:

(1) yuv444_128/RGB_128/BGR_128/GRAY_128為對應input_type_rt減去128的結果。

(2) featuremap 是一個四維張量數據,每個數值采用float32表示。

模型優化階段 實現模型的一些適用于地平線平臺的算子優化策略,例如BN融合到Conv等。 此階段的產出是optimized_float_model.onnx,這個ONNX模型的計算精度仍然是float32,經過優化后不會影響模型的計算結果。 模型的輸入數據要求還是與前面的original_float_model一致。

模型校準階段 會使用您提供的校準數據來計算必要的量化閾值參數,這些參數會直接輸入到量化階段,不會產生新的模型狀態。

模型量化階段 使用校準得到的參數完成模型量化,此階段的產出是quantized_model.onnx。 這個模型的輸入計算精度已經是int8,使用這個模型可以評估到模型量化帶來的精度損失情況。 這個模型要求輸入的基本數據格式仍然與 original_float_model 一樣,不過layout和數值表示已經發生了變化, 整體較于 original_float_model 輸入的變化情況描述如下:
(1) 數據layout均使用NHWC。

(2) 當 input_type_rt 的取值為非 featuremap 時,則輸入的數據類型均使用int8, 反之, 當 input_type_rt 取值為 featuremap 時,則輸入的數據類型為float32。

模型編譯階段 會使用地平線模型編譯器,將量化模型轉換為地平線平臺支持的計算指令和數據, 這個階段的產出是***.bin模型,這個bin模型是后續將在地平線邊緣嵌入式平臺運行的模型,也就是模型轉換的最終產出結果。


2 精度問題定位建議流程

精度問題定位流程主要包括如下三個部分:

pYYBAGJOlA6AER1uAAOdfXKgdaw937.png

1)驗證Caffe/Onnx的有效性,確保其單張推理結果與原始浮點模型保持一致;
2)通過對比original_float_model.onnx與原始浮點模型的單張推理結果,確保PC端推理代碼的正確性;
3)通過比對quantized_model.onnx與.bin的單張推理結果,確保板端代碼與PC端代碼的一致性,以及模型集成(將quantized_model.onnx編譯為.bin)的過程沒有引入誤差。


2.1 驗證原始Caffe/Onnx模型有效性

這一步為了排查拿錯模型,或是導出onnx有誤等誤操作。onnx模型的正確性驗證,可參考如下代碼:


from horizon_nn import horizon_onnx
import horizon_nn.horizon_onnxruntime as rt
import numpy as np
import cv2

def preprocess(input_name):
# BGR->RGB、Resize、CenterCrop···
# HWC->CHW
# normalization
return norm_data

def main():
# 加載模型文件
onnx_model = horizon_onnx.load(MODEL_PATH)
# 創建推理Session
sess = rt.InferenceSession(onnx_model.SerializeToString())
# 獲取輸入&輸出節點名稱
input_names = [input.name for input in sess.get_inputs()]
output_names = [output.name for output in sess.get_outputs()]
# 準備模型輸入數據
feed_dict = dict()
for input_name in input_names:
feed_dict[input_name] = preprocess(input_name)
# 開始模型推理,推理的返回值是一個list,依次與output_names指定名稱一一對應
result = sess.run(output_names, feed_dict)
# 后處理
postprocess(result)

if __name__ == '__main__':
main()



2.2 驗證PC端推理代碼的正確性

轉換完成后,將在model_output文件夾下生成四個模型,其中*original_float_model.onnx以及*optimized_float_model.onnx的精度是與原始浮點模型完全一致的。但是由于您通過配置yaml文件中的 input_type_rt 以及norm_type等參數,將圖像格式轉換以及normalize這兩項常用的預處理操作固化進了模型中,因此預處理代碼會與訓練時有所差異,具體差異及注意事項可參考前文1.2節。若發現推理結果與浮點模型不一致,則需再次確認預處理代碼的正確性。常見錯誤如下:

(1)已在yaml文件中配置 norm_type(scale/mean),前處理仍做了重復的normalize操作

(2)讀圖方式與浮點訓練時不一致。skimage、OpenCV、PIL讀圖差異如下表所示

pYYBAGJOlA2ASQvRAACFN6EMgEw381.png

確保PC端代碼的正確性之后,建議您可以測試一下*quantized_model.onnx的精度或單張推理結果,確認量化后精度滿足您的預期,再至板端完成應用開發。若精度不滿足預期,則可參照第三章內容嘗試精度調優。


2.3 驗證.bin模型的正確性

通常來說,將*quantized_model.onnx編譯生成*.bin的過程不會引入誤差,但事有萬一,我們提供了 hb_model_verifier 工具幫助您驗證定點模型和runtime模型的一致性。具體使用方式因OE版本不同而有所差異,您可以通過 hb_model_verifier --help 查看幫助信息,或查閱《hb_mapper_tools_guide》文檔了解該工具的使用方式。驗證通過,終端將打印 Onnx and Arm result Strict check PASSED 提示信息。若驗證失敗,請將模型及OE版本號提供給地平線技術支持人員分析。
但是目前該工具只支持單輸入模型,若為多輸入模型則可使用板端 hrt_model_exec infer工具獲取模型原始輸出。為保證輸入數據的一致性,建議您將python端預處理好的數據通過 np.tofile() 函數保存為二進制文件,并通過 hrt_model_exec infer 工具的 --input_file 參數指定輸入數據(多個輸入文件請以“,”隔開),具體使用方式可通過在板端執行 hrt_model_exec,查看幫助信息。若使用該工具得到的輸出結果與python端不一致,請將模型及OE版本號提供給地平線技術支持人員分析。
*目前 hrt_model_exec infer 工具不支持自動完成featuremap輸入的 padding 操作(該操作與硬件對齊規則相關,具體介紹請參考后文2.4節),您需要在PC端預處理時完成該操作,參考代碼如下:
pad_image = np.zeros((target_h, target_w, 3), dtype=np.int)
pad_image[:image_h, :image_w, :] = image
* target_h, target_w可通過hrt_model_exec model_info工具查看輸入節點的aligned shape屬性獲取


2.4 驗證板端推理代碼的正確性

確認前面所有環節都正常之后,最后我們就只需要排查板端推理代碼是否有誤了。常見問題有如下幾項:

(1)PC端與板端計算環境的差異(例如opencv讀圖差異、浮點計算精度不同等);

(2)輸入數據未對齊至轉換配置的input_type_rt和input_layout_rt;

(3)輸入數據不滿足對齊規則,且未修改InputTensor的aligned_shape屬性(僅針對圖像輸入)。(BPU對齊規則可參考下圖解析)

poYBAGJOlBGAVaZnAAdsiIYtqKQ928.png

其中,featuremap輸入時較為特殊,由于預測庫不會對featuremap數據做padding操作,因此當您的模型輸入為featuremap時,需在預處理時完成數據對齊,參考代碼如下:


if (input_w == out_w) {
memcpy(out, input, static_cast(input_h * input_w) * data_size);
} else {
for (int i = 0; i < input_h; i++) {
memcpy(out, input, static_cast(input_w) * data_size);
input += input_w;
out += out_w;
}
}


3 精度調優


3.1 后量化調優

對于后量化的精度誤差,我們一般會通過以下 3 種方式進行優化,且均需要在 yaml 文件配置后重新轉換模型:

1.調整校準方式

(1)calibration_type 優先嘗試 default,除此之外還可以嘗試 kl/max;

(2)將 calibration_type 配置為 max,并配置 max_percentile 為不同的分位數,我們推薦您優先嘗試 0.99999、0.99995、0.9999、0.9995、0.999;

(3)嘗試啟用 per_channel,可與任意校準方式配合使用。

2.調準校準數據集

(1)可以嘗試適當增加或減少數據量;

(2)嘗試換一批校準數據。

3.將部分尾部算子回退到 CPU 高精度計算

參考依據為轉換日志中模型每一層輸出的余弦相似度,若您觀察到有某一層余弦相似度異常,可嘗試在yaml文件中通過 run_on_cpu 參數配置,將該層指定到cpu進行高精度計算。一般我們僅會嘗試將模型輸出層 1~2 個算子回退至 CPU,太多的CPU算子會較大程度影響模型最終性能。


3.2 Pytorch QAT訓練

如果您的模型經過以上調優手段還是無法解決量化精度問題,那么該模型可能確實是 后量化(post training quantization,PTQ)方案中的 corner case,只能嘗試 量化感知訓練(quantization aware training,QAT)。
目前很多開源訓練框架均已支持 QAT 訓練能力,例如 Pytorch 的 eager-mode 和 fx-graph方案,tf-lite的量化方案等等。相比于后量化,QAT 訓練在浮點模型訓練收斂后進行 finetune,其精度損失由算法同學自行訓練優化,會更加可控,且開源社區中也有非常多的幫助資料。但 QAT 方案因為訓練成本和上手難度相對更高,所以我們更建議您在后量化實在無法解決精度問題時再選擇此方案。
地平線目前僅支持編譯 Pytorch 框架的 QAT 模型,具體示例請參考用戶手冊《horizon_ai_toolchain_user_guide》3.6.3.4 QAT模型量化編譯

本文轉載自地平線開發者社區:https://developer.horizon.ai
原作者:顏值即正義

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據處理
    +關注

    關注

    0

    文章

    649

    瀏覽量

    29990
  • 精度測量
    +關注

    關注

    0

    文章

    8

    瀏覽量

    8398
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    解鎖Zephyr實時操作系統深度調能力

    可以說,代碼編寫只是項目開發的起點,而隨之而來的資源分析與性能調才是確保系統穩定可靠的關鍵環節。
    的頭像 發表于 01-30 09:16 ?5684次閱讀

    Linux系統內核參數調實戰指南

    Linux 內核參數調是系統性能優化的核心環節。隨著云原生架構的普及和硬件性能的飛速提升,默認的內核參數配置往往無法充分發揮系統潛力。在高并發 Web 服務、大數據處理、容器化部署等場景下,合理的內核參數調整可帶來 30%-200% 的性能提升。
    的頭像 發表于 01-28 14:27 ?454次閱讀

    性能測試調實戰與探索(存儲模型優化+調用鏈路分析)

    分析、流量分析、壓測實施和剖解調優等主要環節中,引發對于系統能力底盤夯實和測試策略改進的諸多思考。 在性能測試階段,剖析系統能力實現及調方案,探索更優解及性能測試策略的提升空間。 ? ? 二、熱點數據存儲模型壓測
    的頭像 發表于 01-12 14:46 ?1520次閱讀
    性能測試<b class='flag-5'>調</b><b class='flag-5'>優</b>實戰與探索(存儲<b class='flag-5'>模型</b>優化+調用鏈路分析)

    實戰RK3568性能調:如何利用迅為資料壓榨NPU潛能-在Android系統中使用NPU

    《實戰RK3568性能調:如何利用迅為資料壓榨NPU潛能-在Android系統中使用NPU》
    的頭像 發表于 11-07 13:42 ?671次閱讀
    實戰RK3568性能<b class='flag-5'>調</b><b class='flag-5'>優</b>:如何利用迅為資料壓榨NPU潛能-在Android系統中使用NPU

    構建CNN網絡模型并優化的一般化建議

    通過實踐,本文總結了構建CNN網絡模型并優化的一般化建議,這些建議將會在構建高準確率輕量級CNN神經網絡模型方面提供幫助。 1)避免單層神經網絡:我們清楚神經網絡本身是需要不斷抽象出
    發表于 10-28 08:02

    天翼云基于開源歐拉的智能調實踐

    在數字經濟加速滲透的當下,操作系統作為底層基礎設施的核心,其穩定性與適配性直接關系到行業數字化進程。隨著CentOS停止維護,國內企業面臨操作系統遷移的緊迫需求,天翼云基于開源歐拉研發的CTyunOS,不僅成為這一遷移浪潮中的關鍵解決方案,更通過智能調實踐,為數字經濟筑
    的頭像 發表于 10-17 11:04 ?679次閱讀

    HarmonyOSAI編程智慧調

    DevEco Studio提供智慧調能力,支持通過自然語言交互,分析并解釋當前實例或項目中存在的性能問題,幫助開發者快速定位影響性能的具體原因。該功能從DevEco Studio 6.0.0
    發表于 09-01 15:15

    HarmonyOS AI輔助編程工具(CodeGenie)智慧調

    DevEco Studio提供智慧調能力,支持通過自然語言交互,分析并解釋當前實例或項目中存在的性能問題,幫助開發者快速定位影響性能的具體原因。該功能從DevEco Studio 6.0.0
    發表于 08-14 11:12

    Linux網絡性能調方案

    在當今高并發、大流量的互聯網環境下,網絡性能往往成為系統的瓶頸。作為一名資深運維工程師,我在生產環境中遇到過無數次因為TCP/IP參數配置不當導致的性能問題。今天分享一套完整的Linux網絡性能調方案,幫助大家徹底解決網絡性能瓶頸。
    的頭像 發表于 08-06 18:01 ?1335次閱讀

    Linux內核參數調方案

    在高并發微服務環境中,網絡性能往往成為K8s集群的瓶頸。本文將深入探討如何通過精細化的Linux內核參數調,讓你的K8s節點網絡性能提升30%以上。
    的頭像 發表于 08-06 17:50 ?959次閱讀

    Linux系統性能調方案

    關鍵要點預覽:本文將深入解析Linux系統性能瓶頸的根本原因,提供可直接落地的調方案,讓你的系統性能提升30-50%!
    的頭像 發表于 08-06 17:49 ?892次閱讀

    MySQL配置調技巧

    上個月,我們公司的核心業務系統突然出現大面積超時,用戶投訴電話不斷。經過緊急排查,發現是MySQL服務器CPU飆升到99%,大量慢查詢堆積。通過一系列配置調和SQL優化,最終在30分鐘內恢復了服務。
    的頭像 發表于 07-31 10:27 ?622次閱讀

    Nginx在企業環境中的調策略

    Nginx作為現代互聯網架構中最重要的Web服務器和反向代理服務器,其性能調對企業級應用的穩定性和效率至關重要。本指南將從運維實踐角度出發,詳細介紹Nginx在企業環境中的各種調
    的頭像 發表于 07-14 11:13 ?637次閱讀

    運行kmodel模型驗證一直報錯怎么解決?

    我這運行kmodel模型驗證一直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓練一個kmodel模型會和拿相同pt
    發表于 06-10 08:02

    手把手教你如何調Linux網絡參數

    在高并發網絡服務場景中,Linux內核的默認網絡參數往往無法滿足需求,導致性能瓶頸、連接超時甚至服務崩潰。本文基于真實案例分析,從參數解讀、問題診斷到優化實踐,手把手教你如何調Linux網絡參數,支撐百萬級并發連接。
    的頭像 發表于 05-29 09:21 ?978次閱讀