亚洲愉拍99热成人精品热久久,一区二区精品在线观看,91精品国产欧美一区二区成人

一

背景

元氣滿滿的10月份就結束了，時間不長，卻產出了上千張照片，找到自己想要的照片有點難度。希望有一種精確的以文搜圖的方法，快速定位到某一類圖片（例如：金色頭發的小姐姐……）。

之前大家熟悉的計算機視覺模型（CV）基本上是采用監督學習的方式，基于某一類數據集進行有限類別的任務學習。這種嚴格的監督訓練方式限制了模型的泛化性和實用性，需要額外的標注數據來完成訓練時未曾見過的視覺“概念”。

能否有一種“識別萬物”的圖像識別大模型呢？今天就借此機會，通過實操來重溫下由OpenAI在2021年初發布的Zero-Shot視覺分類模型CLIP，并移植到愛芯派Pro上實現簡單的以圖搜文示例。

二

CLIP

Summary of our approach

2021年初由OpenAI發布的Zero-shot的視覺分類模型CLIP（Contrastive Language–Image Pre-training），該預訓練的模型在沒有微調的情況下在下游任務上取得了很好的遷移效果。作者在30多個數據集上做了測試，涵蓋了OCR、視頻中的動作檢測、坐標定位等任務。作者特意強調了CLIP的效果：沒有在ImageNet上做微調的CLIP，竟然能和已經在ImageNet上訓練好的ResNet 50打成平手，簡直不可思議。

● CLIP網站：

https://openai.com/research/clip

● CLIP論文：

https://arxiv.org/abs/2103.00020

深度學習在CV領域很成功，但是現在大家使用最多的強監督學習方案總體而言存在以下問題：

● CV數據集標注勞動密集，成本高昂

● 模型只能勝任一個任務，遷移到新任務上非常困難

● 模型泛化能力較差

2.1 預訓練

OpenAI的這項工作CLIP可以解決上述問題，思路看起來很簡單，看下圖就知道了，簡單來說CLIP是使用Text Encoder從文本中提取的語義特征和Image Encoder從圖像中提取的語義特征進行匹配訓練：

pre training

2.2 推理

接下來是Zero-Shot的推理過程。給定一張圖片，如何利用預訓練好的網絡去做分類呢？這里作者很巧妙地設置了一道“多項選擇”。具體來說，我給網絡一堆分類標簽，比如cat, dog, bird，利用文本編碼器得到向量表示。然后分別計算這些標簽與圖片的余弦相似度；最終相似度最高的標簽即是預測的分類結果。

Zero-Shot prediction

從論文中公開的效果非常不錯，CLIP的Zero-Shot遷移能力非常強。在ImageNet各種系列分類任務上，CLIP無需ImageNet標注數據訓練，通過Zero-Shot分類效果就可以達到ResNet監督訓練結果，并且泛化性和魯棒性更好。

CLIP on ImageNet

三

愛芯派Pro（AX650N）

搭載愛芯元智第三代高能效比智能視覺芯片AX650N。集成了八核Cortex-A55 CPU，10.8TOPs@INT8 NPU，支持8K@30fps的ISP，以及H.264、H.265編解碼的VPU。接口方面，AX650N支持64bit LPDDR4x，多路MIPI輸入，千兆EtherNet、USB、以及HDMI 2.0b輸出，并支持32路1080p@30fps解碼內置高算力和超強編解碼能力，滿足行業對高性能邊緣智能計算的需求。通過內置多種深度學習算法，實現視覺結構化、行為分析、狀態檢測等應用，高效率支持Transformer模型和視覺大模型。提供豐富的開發文檔，方便用戶進行二次開發。

愛芯派Pro（AX650N inside）

四

上板示例

為了方便大家快速體驗CLIP的效果，我們在Github上開源了對應的DEMO以及相關預編譯好的NPU模型，方便大家快速體驗。

● Github鏈接：

https://github.com/AXERA-TECH/CLIP-ONNX-AX650-CPP

提供的DEMO包內容說明

文件名	描述
main	DEMO執行程序
image_encoder.axmodel	圖像編碼模型（AX650N NPU）
image_encoder.onnx	圖像編碼模型（CPU）
images	測試圖片集
text_encoder.onnx	文本編碼模型
text.txt	文本輸入序列
vocab.txt	文本詞集
feature_matmul.onnx	特征比對模型

4.1 耗時統計

CLIP image encoder的模型，我們采用精度更好的基于ViT-B的Backbone

Backbone	輸入尺寸	參數量	計算量
ViT-B/32	1,3,224,224	86M	4.4G MACs

單獨運行的耗時分析如下：

root@maixbox:~/qtang/CLIP# /opt/bin/ax_run_model -m image_encoder.axmodel -w 3 -r 10
 Run AxModel:
    model: image_encoder.axmodel
    type: NPU3
    vnpu: Disable
  affinity: 0b001
   repeat: 10
   warmup: 3
    batch: 1
 pulsar2 ver: 1.8-patch1 6fa8d395
 engine ver: [Axera version]: libax_engine.so V1.27.0_P3_20230627143603 Jun 27 2023 14:58:22 JK 1.1.0
  tool ver: 1.0.0
  cmm size: 93238580 Bytes
 ------------------------------------------------------
 min =  4.158 ms  max =  4.220 ms  avg =  4.198 ms
 ------------------------------------------------------