国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

圖像分類與物件檢測兩種應用的數據格式

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2022-04-09 08:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前面的系列文章里提過,TAO 工具將模型訓練的絕大部分技術難題都進行抽象化處理,大幅度減輕開發人員的負擔,唯獨數據集的收集與整理仍須由人工自行處理,這幾乎是留給操作人員的最后工作了。

大部分關于數據集的問題就是標注格式的轉換,包括 Pascal VOC、OpenImages、COCO 這些影響力較大的數據集,個別使用 .xml、.csv、.json 等不同的文件格式,包括標注欄位的內容與順序也都不盡相同,這通常是困擾使用者的第一個門檻。

好在這些格式之間的轉換,只需要一些簡單的 Python 小工具就能完成,雖然繁瑣但也沒有什么技術難度。

在https://docs.nvidia.com/tao/tao-toolkit/text/data_annotation_format.html里,提供 TAO 工具針對不同應用類型所支持的格式,簡單整理如下:

圖像分類:目錄結構格式

物件檢測:KITTI 與 COCO 格式

實例分割:COCO 格式

語義分割:UNet 格式

體態識別:COCO 格式

其他:自定義格式

這里只將使用率較高的圖像分類與物件檢測兩種應用的數據格式進行說明,其他應用的數據格式請自行參照前面提供的說明鏈接。

1、圖像分類的“目錄結構”格式:

這是以“圖像”為單位的分類應用,每張圖片只會有一個分類屬性,因此格式相對簡單,只要將圖片根據目錄結構的規則進行分類就可以。

圖像分類與物件檢測兩種應用的數據格式

為了配合模型訓練的工作,我們需要將數據集切割成 “train”、“val”、“test” 三大類,分別作為訓練、校驗與測試用途。

在每個數據集下面再延伸出“分類屬性”子目錄,例如做早期用于識別 0~9 手寫數字的 MNIST 數據集,就得在 train/val/test 下面各添加 “0”~“9” 共 10 個子目錄,合計是 2 層 33 個目錄結構。

圖像分類與物件檢測兩種應用的數據格式

如果是使用 ILSVRC 競賽的 1000 分類 ImageNet 數據的話,就得根據這 1000 個分類在三個目錄下創建 1000 個分類屬性子目錄,例如 dog、cat、person 等等,雖然很繁瑣但也不復雜,對模型訓練工具而言,圖像文件名稱是無所謂的。

數據來源通常是兩大類,第一種是自行從網上收集與手動拍攝,第二種是從現成數據集進行提取,包括 ImageNet、Pascal VOC、COCO、OpenImages 這些知名的通用數據集,都有非常豐富的資源。

但現在的最大問題是,如何從這些數據集中提取所需要的圖像,并根據“目錄結構”存放成 TAO 所支持的格式?

這個部分需要使用者自行研究所需要的數據集的結構,撰寫簡單的提取工具。例如 TAO 提供的 classification 圖像分類模型訓練范例項目中,使用 Pascal VOC 2012 數據集來進行圖像分類的模型訓練,但是這個數據集使用下圖左的路徑分布方式,與 TAO 所支持的“目錄結構”格式并不相同,那么該如何處理?

圖像分類與物件檢測兩種應用的數據格式

我們必須對這個數據集的相關資源有進一步了解。在 VOC 數據集的 ImageSets/Main 里存放 63個.txt 文件,刨去 train.txt、trainval.txt 與 val.txt 三個文件,其余 60 個分屬于數據集的 20 個圖像類別的三種用途,例如 xxx_trainval.txt、xxx_train.txt、xxx_val.txt,其中前者的內容是后面兩個文件的合并。

在 classification.ipynb 腳本中提供兩段數據格式轉換的 Python 代碼(請自行查閱),在 “A.Split the dataset into train/val/test” 的環節,執行以下處理:

(1) 將存放在上圖左邊 “JPEGImages” 里面的圖像文件,借助 xxx_trainval.txt 分類列表的協助,復制到上圖右方的 “formated” 下的 20 個分類子目錄; (2) 從 “formated” 的每一類圖像數據,分別切割出 train/val/test 三大分類,放到 “split” 目錄下,作為后面轉換成 tfrecords 的數據源。

經過兩次轉換處理后,在這里的數據內容就該有 3 份相同的圖像數據,只不過使用不同的路徑結構去存放而已。如果不想浪費存儲空間的話,可以將 VOCdeckit 與 formatted 兩個目錄刪除,只需要保留 split 目錄的結構就足夠。

至于其他數據的轉換,也需要使用者對該數據集有充分的了解,畢竟學習數據轉換的精力要遠遠低于自行收集的時間,絕對是劃算的。

2、物件檢測的 KITTI 格式:

絕大部分通用數據集為了提高普及度,都提供多種應用類別的標注 (annotations) 內容,其中 “物件位置 (location)” 是最基本的數據,其他還有與人體相關的骨骼結構標注、語義分割的材質標注、場景描述的標注等等,每種數據集都有其側重點,因此內容種類與格式也都不盡相同,這是大伙要使用數據集的第一個門檻。

物件檢測是比圖像分類更進一步的深度學習應用,要在一張圖像中找出符合條件的物件,數量沒有限定,就看訓練出來的模型具備哪些分類功能。

每個數據集的差異,就是將所包含的圖像,都進行不同功能與不同細膩度的標注內容,這些動輒數萬張到上千萬張的圖像、分類數量從20到數千的不同數據集,也都使用不同的文件格式去儲存這些標注內容,有些是圖像文件與標注文件一一對應,有些則是將上千萬張的標注內容全部存在一個巨大的標注文件里。

例如 COCO 數據集將數百萬張的標注存放在上百兆的 .json 文件里、 OpenImages 數據集上千萬張的標注存放在 1.3GB 的 .csv 文件中,而 Pascal VOC 與 ImageNet 的標注文件則提供一對一對應的 .txt 與 .xml 格式,莫衷一是。

事實上對應物件檢測的應用,我們只需要標注文件中最基本的元素,包括“類別”與“位置”這兩組共 5 個欄位數據就可以。類別部分有的數據集直接使用“類別名”,有的數據集只提供“類別編號”,然后再到類別文件中尋找對應;位置信息部分,有些提供“左上角”與“右下角”坐標位置,有些使用“起點坐標”與“長寬”來表示,都是一組 4 個浮點值。

因此,要從龐大的數據集中,提取我們所需要的類別與位置標注,就必須對個別標注結構進行研究,才能得到我們想要的結果,這個步驟是跳不過去的。網上雖然有很多標注格式轉換的功能,但是通用性受限制,還是需要進行局部修改。

現在來看看 TAO 工具在物件檢測模型訓練所支持KITTI格式內容,主要欄位如下:

圖像分類與物件檢測兩種應用的數據格式

其標注文件是 .txt 純文字格式,在文件內的表達方式如下:

圖像分類與物件檢測兩種應用的數據格式

熟悉物件檢測應用的人,可能會覺得這個 KITTI 標注格式中,有一半以上的欄位是用不上的,為何英偉達卻十分偏好這個格式呢?

如果將視野放大到自動駕駛與 3D 應用領域的話,就能理解英偉達選擇這個格式的理由,因為 KITTI 數據集是由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。

在物件檢測應用中只需要用到“類名”與“邊界框坐標”這兩部分,如果從其他數據集提取數據時只要找出這 5 個數據,如果坐標格式為“起點坐標+長寬”的格式,也能簡單轉換成“起點坐標+重點坐標”形式,寫入對應的 KITTI 標注文件中,其他欄位的內容 “補 0” 就可以,所以整個轉換過程還不是太麻煩。

在 TAO 的視覺項目中的 face-mask-detection/data_utils 里,提供大約 4 轉換成 KITTI 格式的工具,能提供大家作為參考。

只要能將不同數據集之間的格式轉換弄通,就能非常高效的從龐大的數據集資源中,輕松獲取我們所需要的類別數據,進一步訓練出自己專屬的模型,因此這個過程對使用深度學習的工程師是很重要的基本工作。

原文標題:NVIDIA Jetson Nano 2GB 系列文章(58):視覺類的數據格式

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109760
  • 檢測
    +關注

    關注

    5

    文章

    4861

    瀏覽量

    94160
  • 數據格式
    +關注

    關注

    0

    文章

    31

    瀏覽量

    9166

原文標題:NVIDIA Jetson Nano 2GB 系列文章(58):?視覺類的數據格式

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    BLE 藍牙空中報文格式與解析(廣播包)

    BLE 廣播包數據格式解析說明 ...... 矜辰所致
    的頭像 發表于 01-04 17:28 ?1882次閱讀
    BLE 藍牙空中報文<b class='flag-5'>格式</b>與解析(廣播包)

    電能質量在線監測裝置的數據壓縮存儲功能支持的數據格式可以修改嗎?

    電能質量在線監測裝置的數據壓縮存儲功能支持的數據格式 部分可修改 ,具體取決于格式類型(數據文件格式 / 壓縮算法格式)與廠家設計,核心結論
    的頭像 發表于 12-11 16:39 ?1095次閱讀
    電能質量在線監測裝置的<b class='flag-5'>數據</b>壓縮存儲功能支持的<b class='flag-5'>數據格式</b>可以修改嗎?

    電能質量在線監測裝置支持哪些數據格式的離線查看?

    電能質量在線監測裝置支持的離線數據格式主要分為 標準格式 和 通用格式 大類,其中標準格式是行業主流,通用
    的頭像 發表于 12-05 17:19 ?1309次閱讀
    電能質量在線監測裝置支持哪些<b class='flag-5'>數據格式</b>的離線查看?

    使用Firebase AI Logic生成圖像模型的兩種新功能

    為您的應用添加自定義圖像,能夠顯著改善和個性化用戶體驗,有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像兩種新功能: 其一是 Imagen 專屬編輯功能預覽版;其二
    的頭像 發表于 11-30 09:28 ?431次閱讀

    兩種電流檢測電路設計方案 高側 低側 最高耐壓90V

    常用的電流檢測電路有兩種,一是低壓側電流檢測,另一是高壓側電流檢測。 實現方法:
    的頭像 發表于 11-24 16:16 ?1173次閱讀
    <b class='flag-5'>兩種</b>電流<b class='flag-5'>檢測</b>電路設計方案 高側 低側 最高耐壓90V

    用PLC實現卷徑計算的兩種算法

    卷徑計算,是動態計算如鋼卷,紙卷等存料量的一方法,它是實現張力控制和自動充放料、以及甩尾控制的重要前提。卷徑計算目前主流的方法有兩種,一是根據機列速度(產線速度)和和被測卷的轉動角速度求得;另一
    的頭像 發表于 11-14 16:54 ?2089次閱讀
    用PLC實現卷徑計算的<b class='flag-5'>兩種</b>算法

    AOI與AXI檢測技術全面解析:原理、差異與選型指南

    兩種技術的原理、差異及應用場景,為電子制造企業選擇合適的檢測方案提供參考。 基本概念與技術原理 自動光學檢測(AOI)技術 AOI是一基于光學成像的
    的頭像 發表于 11-12 10:22 ?980次閱讀

    負壓法 vs 正壓法:手機外殼氣密性檢測儀的兩種核心技術

    的手機外殼氣密性檢測儀主要采用兩種核心技術:負壓法和正壓法。二者各有優劣,適用于不同的生產需求和檢測場景。正壓法是通過向手機外殼內部充入一定壓力的氣體(通常為潔凈空
    的頭像 發表于 11-05 16:19 ?491次閱讀
    負壓法 vs 正壓法:手機外殼氣密性<b class='flag-5'>檢測</b>儀的<b class='flag-5'>兩種</b>核心技術

    基于級聯分類器的人臉檢測基本原理

    基于級聯分類器的人臉檢測。把這兩種擴展運算結合在一起,就可以大幅度提高檢測器的魯棒性。 上圖是決策樹示意圖。
    發表于 10-30 06:14

    ADI GMSL技術兩種視頻數據傳輸模式的區別

    本文深入介紹GMSL技術,重點說明用于視頻數據傳輸的像素模式和隧道模式之間的差異。文章將闡明這兩種模式之間的主要區別,并探討成功實施需要注意的具體事項。
    的頭像 發表于 10-10 13:49 ?2323次閱讀
    ADI GMSL技術<b class='flag-5'>兩種</b>視頻<b class='flag-5'>數據</b>傳輸模式的區別

    兩種TVS有啥不同?

    當我們查看TVS二極管的規格書,常會看到有以下兩種種引腳功能標識圖:對于初學者,看到感到疑惑,他們一樣嗎?他們有啥區別?為啥有的個尖頭往外,陽極連在一起,有的個尖頭往里,陰極連在一起?一連三問。EMC小哥根據自己經驗略作分析
    的頭像 發表于 09-15 20:27 ?802次閱讀
    這<b class='flag-5'>兩種</b>TVS有啥不同?

    兩種散熱路徑的工藝與應用解析

    背景:兩種常見的散熱設計思路 在大電流或高功率器件應用中,散熱和載流能力是PCB設計中必須解決的難題。常見的兩種思路分別是: 厚銅板方案:通過整體增加銅箔厚度(如3oz、6oz甚至更高),增強導熱
    的頭像 發表于 09-15 14:50 ?788次閱讀

    CMOS 2.0與Chiplet兩種創新技術的區別

    摩爾定律正在減速。過去我們靠不斷縮小晶體管尺寸提升芯片性能,但如今物理極限越來越近。在這樣的背景下,兩種創新技術站上舞臺:CMOS 2.0 和 Chiplet(芯粒)。它們都在解決 “如何讓芯片更強” 的問題,但思路卻大相徑庭。
    的頭像 發表于 09-09 15:42 ?1028次閱讀

    基于RV1126開發板實現自學習圖像分類方案

    在RV1126開發板上實現自學習:在識別前對物體圖片進行模型學習,訓練完成后通過算法分類得出圖像的模型ID。 方案設計邏輯流程圖,方案代碼分為分為個業務流程,主體代碼負責抓取、合成
    的頭像 發表于 04-21 13:37 ?11次閱讀
    基于RV1126開發板實現自學習<b class='flag-5'>圖像</b><b class='flag-5'>分類</b>方案

    LPC55S28修改音頻數據格式后USB Aduio類異常的原因?

    您好 NXP 前輩,我已經更改了 LPC55S28 官方 SDK 上的 USB 音頻數據格式。 我的主要問題是修改音頻流格式類型描述符。 我的想法是將 USB Aduio 每個通道的數據字節數從 2
    發表于 03-20 07:33