国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT助力模型性能提升

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-10-09 14:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

夸克瀏覽器是阿里旗下的一個搭載極速AI引擎的高速智能瀏覽器。夸客以極速智能搜索為定位,致力于為用戶提供交互更智能高效、內(nèi)容更專業(yè)權(quán)威的新一代搜索引擎,同時也在產(chǎn)品極致體驗上不斷實現(xiàn)突破。

夸克目前不僅提供極致的搜索體驗,也在探索以深度學習為基礎的AI工具,通過高效的算法效果和全流程的性能優(yōu)化,提供更好的用戶體驗。深度學習模型在實際應用的過程中,效果遠好于傳統(tǒng)模型,但由于算法復雜度過高,預測性能成為制約模型最終能否上線的核心問題。NVIDIA TensorRT通過計算圖的優(yōu)化、高效Kernel的實現(xiàn)及更高效硬件的利用加速模型預測耗時,使預測速度提升了1~3倍。

智能相機功能對ORC實時性提出新要求

夸克瀏覽器為用戶提供智能相機功能,打開夸克APP后,通過相機入口(如下左圖紅框所示)進入智能相機功能,可以看到智能相機提供的具體功能(如下右圖所示),包括萬能掃描、學習輔導、萬物識別等功能,這些功能對實時性要求極高,不少功能的底層核心技術依賴OCR。作為核心一環(huán),OCR需要承接巨大流量,其效果及性能影響整個上層業(yè)務的用戶體驗。

OCR全流程包含檢測、識別等多個模型以及復雜的前后處理,整體耗時10s級別,耗時過長嚴重影響用戶體驗,無法達到上線要求。主要影響性能的因素有以下三點:單個模型占用顯存過大導致全流程無法部署在同一個GPU上,需要在多個GPU上進行數(shù)據(jù)傳輸,多GPU部署導致GPU利用率不高;模型本身性能慢,涉及復雜的檢測和識別模型;全流程中模型前后處理復雜。

NVIDIA TensorRT助力模型性能提升

對比目前性能優(yōu)化方案,夸克選擇了采用NVIDIA TensorRT作為模型優(yōu)化的底層框架對模型進行優(yōu)化。TensorRT提供完整端到端模型性能優(yōu)化工具,支持TF和ONNX等相關框架模型,使用后對模型性能帶來巨大提升。

1、TensorRT對模型結(jié)構(gòu)進行優(yōu)化,使用高效Kernel實現(xiàn),并且支持FP16和INT8量化。部分模型通過使用TensorRT,模型性能達到2-3倍的提升,并且顯存降到原來的30%~50%。

2、有模型在使用FP16精度后,模型效果下降,夸克團隊在NVIDIA工作人員的指導下,通過對模型設置混合精度,模型的性能較FP16略微下降,但整體效果能夠達到要求。

3、對于部分轉(zhuǎn)TensorRT失敗的模型,對模型進行分析,單獨抽取模型耗時的部分進行模型優(yōu)化。

4、在使用TensorRT的過程中,通過Nsight Systems發(fā)現(xiàn)TensorRT OP在某些場景性能表現(xiàn)不盡人意,在NVIDIA工作人員指導下,通過調(diào)整OP的使用方式解決該問題。

TensorRT助力OCR全流程性能優(yōu)化

通過使用NVIDIA TensorRT,夸克瀏覽器極大地提升了模型性能和降低模型本身顯存占用,提高了GPU的使用率。在對整體流程和模型進行優(yōu)化后,全部模型能夠部署在單個GPU上,并且整體耗時在400ms內(nèi)。

夸克技術人員表示:TensorRT文檔齊全,功能使用方便,用戶能夠以低門檻使用其帶來的優(yōu)化,無需手動編寫復雜模型轉(zhuǎn)換工具,大大地減少了用戶投入成本。對比其他模型優(yōu)化框架,TensorRT具有更好的通用性、易用性和性能。

通過這次對OCR全流程的性能優(yōu)化,夸克瀏覽器也積累了一套適合內(nèi)部使用的模型性能優(yōu)化方案,在遇到其他模型性能問題時也有的放矢。目前夸克已經(jīng)把TensorRT相關優(yōu)化工具集成到其瀏覽器的內(nèi)部平臺上,同時應用到其他業(yè)務的模型中,并取得良好的效果。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109781
  • AI
    AI
    +關注

    關注

    91

    文章

    39812

    瀏覽量

    301479
  • 瀏覽器
    +關注

    關注

    1

    文章

    1043

    瀏覽量

    37086

原文標題:NVIDIA TensorRT 加速夸克瀏覽器AI應用,對模型性能提升起到關鍵作用

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級到緊湊型模型,針對 NVIDIA 平臺進行了優(yōu)化,助力 Mistral AI 實現(xiàn)云到邊緣分布式智能愿景。
    的頭像 發(fā)表于 12-13 09:58 ?1251次閱讀

    利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據(jù)生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1142次閱讀

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    助力打造實時、動態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1237次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構(gòu)建了多維度的核心實現(xiàn)路徑:一
    的頭像 發(fā)表于 10-21 11:04 ?1182次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程

    ? 由 NVIDIA、Google DeepMind 以及 Disney Research 聯(lián)合開發(fā)的開源物理引擎 Newton,現(xiàn)可在 NVIDIA Isaac Lab 中使用。這一物理引擎將助力
    的頭像 發(fā)表于 09-30 09:52 ?3078次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機器人研發(fā)進程

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構(gòu)技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?934次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術<b class='flag-5'>提升</b>AI推理<b class='flag-5'>性能</b>

    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4463次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實現(xiàn)與優(yōu)化

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1793次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和
    的頭像 發(fā)表于 07-16 09:16 ?2058次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2200次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?3299次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延遲場景中的<b class='flag-5'>性能</b>紀錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?1891次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應用的最佳實踐

    NVIDIA助力解決量子計算領域重大挑戰(zhàn)

    NVIDIA 加速量子研究中心提供了強大的工具,助力解決量子計算領域的重大挑戰(zhàn)。
    的頭像 發(fā)表于 03-27 09:17 ?1280次閱讀

    NVIDIA發(fā)布全球首個開源人形機器人基礎模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技術,助力人形機器人開發(fā)。其中包括全球首個開源且完全可定制的基礎模型NVIDIA Isaac GR00T N1,該
    的頭像 發(fā)表于 03-20 14:34 ?1719次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務就緒型基礎,助力構(gòu)建能夠獨立工作或以團隊形式完成復雜任務的高級 AI 智能體。
    發(fā)表于 03-19 09:31 ?396次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放推理 AI <b class='flag-5'>模型</b>系列,<b class='flag-5'>助力</b>開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺