国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

騰訊云與NVIDIA仍持續為AI推理加速進行合作

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2022-08-31 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊云計算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 兩個 AI 組件。基于 GPU 異構計算平臺針對業界 AI 訓練和推理任務進行了全方位的加速優化。TACO Kit 不僅大大提升了 GPU 集群上多機多卡分布式訓練的效率,對于 GPU 上的模型推理也通過集成 NVIDIA TensorRT 帶來了顯著加速。雙方團隊就 GPU 推理加速這一話題將進行持續深入的合作,推出定制化的優化方案,為業界客戶帶來顯著的性能收益。

騰訊云計算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一種異構計算加速軟件服務,具備領先的 GPU 共享技術和業界唯一的 GPU 在離線混部能力,搭配騰訊自研的軟硬件協同優化組件和硬件廠商特有優化方案,支持物理機、云服務器、容器等產品的計算加速、圖形渲染、視頻轉碼各個應用場景,幫助用戶實現全方位全場景的降本增效。

其中,AI 加速引擎 TACO Train 和 TACO Infer 是騰訊云虛擬化團隊依托云帆團隊,立足于騰訊內部豐富的 AI 業務場景,深耕訓練框架優化、分布式框架優化、網絡通信優化、推理性能優化等關鍵技術,攜手打造的一整套 AI 加速方案。為了更好的服務用戶,騰訊云決定將內部深度優化的加速方案免費提供給公有云用戶,助力廣大用戶提高 AI 產品迭代效率。

無論對于 AI 訓練或 AI 推理,如何有效提升 AI 任務的性能,節省硬件資源成本,是業界持續追求的目標。在訓練方面,隨著 AI 模型規模的擴大及訓練數據的增多,用戶對模型的迭代效率要求也隨之增長,單個 GPU 的算力已無法滿足大部分業務場景,使用單機多卡或多機多卡訓練已成為趨勢。但用戶在部署分布式訓練系統時,時常面臨著難以充分利用 GPU 資源、訓練效率低下的問題,而分布式訓練性能調優卻是需要同時進行通信優化、計算優化的極其復雜的問題。

在推理方面,對多種多樣的工作負載進行推理加速也是業界共同的需求。這需要考慮如何對不同框架訓練的模型進行統一的高效部署;如何整合各類加速軟件和技術,對接不同模型和業務場景。

在訓練方面,TACO Train 推出 Tencent TensorFlow(以下簡稱 TTF), 針對特定業務場景的 XLA,Grappler 圖優化,以及自適應編譯框架解決冗余編譯的問題,并對 TensorFlow 1.15 添加了對CUDA 11的支持,讓用戶可以使用NVIDIA A100 Tensor Core GPU來進行模型訓練。另外,TACO Train 推出 LightCC 這一基于 Horovod 深度優化的分布式訓練框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能夠對 2D AllReduce 充分利用通信帶寬;在 GPU 上訓練時提供高效的梯度融合方式;并使用 TOPK 壓縮通信,降低通信量,提高傳輸效率。最后,騰訊云自研了用戶態網絡協議棧 HARP,可以通過 Plug-in 的方式集成到NVIDIA NCCL中,無需任何業務改動,加速云上分布式訓練性能,從而解決了目前普遍使用的內核網絡協議棧存在著一些必要的開銷導致其不能很好地利用高速網絡設備的問題。

在推理方面,TACO Infer 通過跨平臺統一的優化接口賦能用戶,讓渴望加速計算的用戶輕松駕馭騰訊云上豐富的異構算力。TACO Infer 針對 GPU 推理任務,集成了NVIDIA TensorRT,利用其極致的模型優化能力,使推理過程能夠達到令人滿意的性能。此外,TACO 也將自定義的高性能 kernel 實現與TensorRT相結合,極大地提升用戶的推理效率。

TACO Kit 針對 GPU 的訓練優化,為諸多業務帶來了顯著的性能提升。在某電商平臺推薦業務Wide & Deep 模型訓練任務中,TACO Train 提供的方案通過定制化高性能 GPU 算子,使延遲從 14.3ms 下降至 2.8ms;整體訓練性能提升 43%,成本下降 11%;在另一電商推薦場景 MMoE 模型的訓練任務中,TACO Train 提供的訓練方案,在NVIDIA V100 Tensor Core GPU集群上,使計算速度性價比相比于 CPU 集群提升了 3.2 倍,收斂速度性價比相比于 CPU 集群提升了 24.3 倍。

目前,騰訊云 TACO Kit 與 NVIDIA 雙方團隊仍持續為 AI 推理加速進行合作。未來也將針對一些常見的業務模型,圍繞TensorRT進行聯合優化,將模型推理的性能推向更高的水準,為業界有推理加速需求的客戶提供一站式的優化方案。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109721
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135432
  • AI
    AI
    +關注

    關注

    91

    文章

    39756

    瀏覽量

    301366
  • 騰訊云
    +關注

    關注

    0

    文章

    224

    瀏覽量

    17448

原文標題:騰訊云與 NVIDIA 深度合作,打造計算加速套件 TACO Kit 加速 GPU AI 計算全鏈路

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA DGX SuperPODRubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統整合了 NVIDIA 在計算、網絡和軟件領域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺的十分之一,可
    的頭像 發表于 01-14 09:14 ?605次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的
    的頭像 發表于 10-21 11:04 ?1165次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數據工廠團隊 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理
    的頭像 發表于 09-23 15:19 ?1266次閱讀

    蘑菇車聯與騰訊達成戰略合作

    9月16日,蘑菇車聯(MOGOX)與騰訊達成戰略合作,全面推動MogoMind大模型關鍵能力升級。雙方將通過服務、算力等方面的技術合作
    的頭像 發表于 09-17 14:13 ?738次閱讀

    NVIDIA到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    的發布持續深化了雙方的 AI 創新合作NVIDIANVIDIA Blackwell 架構上優化了這兩款全新的開放權重模型并實現了
    的頭像 發表于 08-15 20:34 ?2298次閱讀
    <b class='flag-5'>NVIDIA</b>從<b class='flag-5'>云</b>到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實現150萬TPS<b class='flag-5'>推理</b>

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    模態的技術特性,DeepSeek正加速推動AI在金融、政務、科研及網絡智能化等關鍵領域的深度應用。 信而泰:AI推理引擎賦能網絡智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發表于 07-16 15:29

    NVIDIA計劃打造全球首個工業AI平臺

    NVIDIA 宣布,其正在為歐洲制造商構建全球首個工業 AI 。這家總部位于德國的 AI 工廠將配備 1 萬個 GPU,包括通過 NVIDIA
    的頭像 發表于 06-16 14:17 ?1428次閱讀

    NVIDIA攜手諾和諾德借助AI加速藥物研發

    NVIDIA 宣布與諾和諾德開展合作,借助創新 AI 應用加速藥物研發。此次合作也將支持諾和諾德與丹麥
    的頭像 發表于 06-12 15:49 ?1267次閱讀

    NVIDIA攜手微軟加速代理式AI發展

    代理式 AI 正在重新定義科學探索,推動各行各業的研究突破和創新發展。NVIDIA 和微軟正通過深化合作提供先進的技術,從到 PC 加速
    的頭像 發表于 05-27 14:03 ?1033次閱讀

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理

    Oracle 數據庫與 NVIDIA AI 相集成,使企業能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA
    的頭像 發表于 03-21 12:01 ?1426次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b><b class='flag-5'>合作</b>助力企業<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
    的頭像 發表于 03-20 15:35 ?1548次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展
    的頭像 發表于 03-20 15:03 ?1231次閱讀

    通用汽車和NVIDIA合作構建定制化AI系統

    通用汽車和 NVIDIA 宣布正在借助 AI、仿真和加速計算技術,合作打造下一代汽車、工廠和機器人。
    的頭像 發表于 03-20 14:40 ?1734次閱讀

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式
    發表于 03-19 15:24 ?577次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>合作</b>助力企業<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    NVIDIA 后訓練的全新 Llama Nemotron 推理模型,代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、Crowd
    發表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> <b class='flag-5'>AI</b> 模型系列,助力開發者和企業構建代理式 <b class='flag-5'>AI</b> 平臺