伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA全棧加速代理式AI應用落地

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2025-07-14 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在近期舉辦的 AWS 中國峰會上,NVIDIA 聚焦于“NVIDIA 全棧加速代理式 AI 應用落地”,深入探討了代理式 AI (Agentic AI) 技術的前沿發展以及在企業級應用中的深遠影響。本文將為您詳細介紹此次分享的技術亮點及實踐應用。

AI Agent 技術發展現狀

隨著人工智能技術的不斷演進,從感知式 AI 到生成式 AI,再到代理式 AI,我們正見證全新工作方式的誕生。代理式 AI 不僅使更強大的 AI 應用成為可能,而且正迅速成為解決特定業務問題的關鍵工具。數據顯示,到 2025 年,約有一半的組織將使用 AI智能體(AI Agent) 幫助解決特定業務問題。隨著技術發展,每個人都可以創建自己的 AI Agent。一些工作流可使周期時間縮短 40%。根據 Gartner 報告,到 2028 年,約三分之一的企業級軟件開發將引入 AI Agent,而 2024 年這一數字不到 1%,可見相關方面發展迅速。

AI Agent 工作原理與架構

AI Agent 的運行需要人類撰寫 prompt,設定角色、場景、任務及需要 AI 執行的操作,并告知整體信息。之后,大語言模型自行生成計劃,確定工具,甚至協同調動其他 Agent。經過一系列分析和生成后,需通過批判總結決定 Agent 是繼續迭代還是返回結果給用戶。

首先,Agent 需持續學習和迭代。通過建立飛輪系統,讓模型在實際應用中學習,反哺模型迭代,提高模型魯棒性和適應性。其次,作為企業級應用,安全性和隱私保護至關重要。需保證結果可靠性,盡量避免大語言模型幻覺。同時,人機或用戶與 AI 的交互應盡可能友好,以發揮最佳效果。

AI Agent 技術框架與實現

一、AI Agent 構建模塊

構建 AI Agent,有三個重要組成部分,從下往上看:

NVIDIANIM是預構建的容器工具,使用非常簡單,只需幾分鐘即可部署企業級安全穩定的大語言模型推理服務。通過 docker 拉取一個 docker 鏡像,完成下載模型等前置工作后,就可以通過一個 Open AI API 或其他行業標準的 API 格式來調用,從而得到一個線上生產環境可用的、安全穩定的大語言模型推理服務。NIM 集成了優化的推理引擎,如 TensorRT-LLM、vLLM 等,這些推理引擎可以幫助優化首 token 延遲、吞吐等指標,在 TCO 可控的情況下,盡量提高吞吐和整體細分表現。此外 NIM 可以在任意地點便捷部署和擴展,包括數據中心、工作站,甚至云上或邊緣(如公有云、混合云、私有云等)。NVIDIA 也與國內外的云廠商進行集成,如亞馬遜云科技等,可在云上快速使用產品。

NVIDIA NeMo是一套數據飛輪框架,涵蓋模型訓練和應用的多個模塊。通過該數據飛輪,我們可以持續優化迭代模型和應用。

與 AI Agent 最為緊密的是NVIDIA AI Blueprint,它是我們提供的工作流,可向開發者展示如何快速構建安全的、企業級應用。NVIDIA AI Blueprint 涵蓋 PDF 轉音頻、視頻搜索與總結等多模態模型和工具,可以通過“搭積木”的方式,將多個 Blueprint 模塊化的組成一個工作流來解決復雜問題。同時也可以調用外部工具,使整個應用場景或覆蓋面更加全面。典型應用包括 AI 研究助理 Agent、客服機器人、安全 AI Agent 等,均作為參考,用戶可通過 NeMo 構建符合應用場景的內容。

二、生成式 AI 數據飛輪:

數據飛輪是一種反饋循環機制,通過從交互或流程中收集數據,持續優化 AI 模型,進而產生更優的結果和更有價值的數據。

NVIDIA NeMo 是一個生成式 AI 的框架,其中:

NeMo Curator:在模型預訓練階段需獲取大量數據集,但是從網上獲取的海量數據集質量往往參差不齊。需要進行質量篩選和去重等步驟。通過集成的 GPU 加速模塊,對于十分耗時的質量檢測、去重等步驟,可以通過 NeMo Curator 快速實現。

NeMo Customizer:模型數據收集完成后,可通過 NeMo Customizer 開始模型訓練或微調。

NeMo Evaluator:模型訓練好后,由 NeMo Evaluator 評估其質量,判斷其是否符合預期、滿足業務需求。

訓練好的模型上線部署后,我們將其構建成更復雜的工作流,將單個 NIM 和其他工具總結成 Blueprint,以服務我們的業務場景。

在 RAG(檢索增強生成)或 Agent 過程中,向量檢索是一個十分重要的技術模塊。NVIDIA cuVS集成了 GPU 加速的 ANN (Approximate Nearest Neighbors) 算法,可以提高向量檢索的效率。作為企業級應用,安全性和隱私保護至關重要,NVIDIA Guardrails作為 AI 護欄,可以檢測生成過程中比較危險或不太友好的內容,使線上服務更加安全可靠。

經過上述鏈路,最后線上驗證過的數據通過回路回到數據集,這部分數據再經過 NeMo Customizer 進行訓練微調,就完成了數據閉環。通過這樣一步一步的迭代,線上數據反哺回模型訓練。

三、面向企業應用的大語言模型定制

我們的模型能力不斷增強,使得線上服務效果更加安全可靠。Customizer 涵蓋的能力多元,從最初的簡單微調、復雜的 sft,到現在常用的強化學習方法。我們還可根據企業特定場景進行相應微調。

以 DeepSeek-V3 訓練為例,Transformer Engine 集成了類似 DeepSeek-V3 的 FP8 block wise 算子和 recipe。在 Megatron-Core 層面,基于 DeepSeek-V3 特定架構,支持了 MLA 結構。同時,對 MTP 也有較好支持,還有負載均衡和路由策略。除了支持外,還有相關優化。

DeepSeek-V3 使用 DualPipe 流水線并行策略,Megatron-Core 中也有類似策略,稱為 1F1B (F: Forward, B: Backward)。通過 1F1B 的流水線機制,很好地將 MoE 計算與通信進行 overlap,減小訓練延遲,提高訓練效率。

同時,對于 DeepSeek 開源的內容,我們也有較好集成。在并行方面,Megatron-Core 擅長并行,我們做了 MoE parallel folding。這是指在一個模型里既有 Attention 層,也有 MoE 層,我們針對不同層進行處理。可以使用 parallel folding 方法,將其并行策略解耦,即 Attention 部分和 MoE 層分別采用不同的并行策略,以達到整體更好的效率。NeMo,即更面向用戶的層面,除了支持 DeepSeek 的 sft,同時也支持把 DeepSeek-R1 蒸餾到小模型。

四、加速推理的優化技術

如今模型越來越大,參數達到千億級,需要更強的推理算力。同時,這些模型都是推理模型,邏輯推理需要更多的思考時間,甚至需要超過 100 倍的思考 token。此外,我們的模型現在也支持更長的上下文窗口,在使用過程中,無論是對話系統中的多輪對話,還是 Agent 使用過程中的 Agent-to-Agent、human-to-Agent 等交互手段,都會使上下文 context 變得更長,甚至達到百萬級輸入 token 以上,這些都對計算推理提出了更多的挑戰,也推動著新型優化技術的誕生。

1. 分離式部署 (PD 分離):

大語言模型的推理分為兩個階段。第一個是預填充 (Prefill) 階段,這是一個計算密集 (Compute-Bound) 階段,需要較多算力。第二個是解碼 (Decode) 階段,在這個階段,隨著吐出的 token 越來越多,它進入了一個內存密集 (Memory-Bound) 階段。為了更好地利用預填充和解碼的相關特性來優化首 token 延遲和吞吐,分離式部署是比較適應大語言模型推理場景的部署技術。將預填充和解碼兩個階段分開,結合其計算特點,分配適合其特定型號的 GPU,并針對不同特性制定不同策略,結合線上 SLA 服務標準,分配不同數量的節點,以優化首 token 延遲和吞吐。

2. NVIDIA Dynamo:

NVIDIA Dynamo是針對分離式部署或大規模分布式部署的框架,具備以下特點:

分布式部署:支持便捷地擴充至上千卡 GPU 的線上部署。

GPU 管理及調度(GPU 規劃器):可根據線上實時請求變化或 SLA 服務標準動態調整預填充節點或解碼節點的數量,以更好地滿足服務需求。

智能路由:在多個節點的情況下,可以結合 KV Cache 等指標,將 decode 任務分配給最佳節點。

典型應用場景案例

一、AI 研究助理 Agent

AI 研究助理 Agent 執行 PDF 轉音頻的任務。將論文、博客等文檔輸入到模型中,通過工具轉換為 markdown 文件。在此過程中,需要為 Agent 提供復雜的 prompt。首先,按照要求整理出文件大綱,然后根據大綱將腳本分段,進行深入探索并總結有思考性的內容。然后,對整體腳本進行優化,并將多個部分組合輸出整理成結構化文本。在這個過程中,人類需要做的是梳理出多個 prompt,并在多個階段調用不同尺寸的模型來處理不同任務。文檔輸入時內容龐雜,使用尺寸更大的模型來處理復雜任務。總結時可使用尺寸更小的模型來提高工作流的經濟效益。通過這一系列步驟后,輸出文本再通過類似 ElevenLabs 的 TTS 服務或 TTS 模型合成為音頻文件,返回給用戶。

二、軟件安全檢測 Agent

隨著 CVE.org 記錄的漏洞突破 20 萬大關,軟件安全補丁管理面臨嚴峻挑戰。傳統人工分析、日常掃描漏洞需耗時數日,而基于事件驅動 RAG 技術的軟件安全檢測 Agent 可將緩解時間壓縮至秒級,通過實時檢測新軟件包或漏洞特征,智能判定組件風險,并自主執行全流程檢查清單,最終向安全團隊提交包含可操作建議的分析報告。

三、視頻分析 Agent

用于視頻搜索和總結的 Agent 每天可分析 10 萬 PB 級的視頻數據。該 Agent 使用NVIDIA Cosmos Nemotron的視覺語言模型,可以從視頻數據中提取文本信息,再通過NeMo Retriever Embedding抽取為 embedding,形成向量數據庫。同時,并行流程通過分析從視頻中提取的信息構建圖數據庫。當有新視頻輸入時,就可通過召回鏈路查詢上述數據庫,再通過大模型進行總結生成,完成整個視頻分析鏈路。

總結

從 AI 研究助理、軟件安全檢測到大規模視頻分析,這些應用場景正切實推動代理式 AI 落地,在解決復雜業務問題、提升工作效率方面發揮關鍵作用。NVIDIA 通過全棧解決方案和工具,助力企業構建安全、穩定、高效的代理式 AI 應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5663

    瀏覽量

    109957
  • AI
    AI
    +關注

    關注

    91

    文章

    40403

    瀏覽量

    301970
  • 人工智能
    +關注

    關注

    1819

    文章

    50177

    瀏覽量

    266177
  • AWS
    AWS
    +關注

    關注

    0

    文章

    444

    瀏覽量

    26599

原文標題:NVIDIA 全棧加速代理式 AI 應用落地

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA攜手微軟加速機器人和物理AI的發展

    在 GTC 大會上,微軟宣布了其代理式和物理 AI 系統統一平臺的更新,加速從實驗到生產落地的進程。將 Microsoft Foundry 與 NV
    的頭像 發表于 03-23 15:21 ?454次閱讀

    NVIDIA推出BlueField-4 STX存儲架構

    NVIDIA 今日宣布推出 NVIDIA BlueField-4? STX 模塊化參考架構,該架構可助力企業、云計算及 AI 服務商輕松部署加速存儲基礎設施,以滿足
    的頭像 發表于 03-18 14:40 ?176次閱讀

    NVIDIA推出Vera CPU以顯著提升系統性能與能效

    NVIDIA 今日發布 NVIDIA Vera CPU,這是全球首款專為代理式 AI 與強化學習時代打造的處理器,其效率是傳統機架級 CPU 的 2 倍,速度提升 50%。
    的頭像 發表于 03-18 14:33 ?384次閱讀

    NVIDIA 擴展開放模型系列,推動代理式、物理和醫療 AI 下一階段發展

    新聞摘要: ●NVIDIA Nemotron 3 模態理解模型 (Omni-understanding Models) 為 AI 智能體提供動力 ,使其能夠實現自然對話、復雜推理和高級視覺能力
    的頭像 發表于 03-17 09:18 ?383次閱讀
    <b class='flag-5'>NVIDIA</b> 擴展開放模型系列,推動<b class='flag-5'>代理式</b>、物理和醫療 <b class='flag-5'>AI</b> 下一階段發展

    首屆中國NVIDIA DGX Spark黑客松大賽開啟報名

    NVIDIA 前沿技術生態,聚焦 DGX Spark 平臺的開發能力,以代碼為刃,以算力為鋒,共同探索 DGX Spark
    的頭像 發表于 03-14 16:39 ?2520次閱讀

    NVIDIA推出代理式AI藍圖與電信推理模型

    借助全新開源大型電信模型與 NVIDIA Blueprint,電信運營商能夠利用自有數據訓練 AI 智能體,構建自主網絡。
    的頭像 發表于 03-06 17:37 ?2931次閱讀

    生命科學領先企業采用 NVIDIA BioNeMo 平臺加速 AI 驅動的藥物研發

    Discovery、Basecamp Research、Boltz 及生態系統領先企業,將 NVIDIA BioNeMo、代理式 AI 與物理 AI 相結合,推動科學研究與藥物研發規
    的頭像 發表于 01-14 11:40 ?549次閱讀
    生命科學領先企業采用 <b class='flag-5'>NVIDIA</b> BioNeMo 平臺<b class='flag-5'>加速</b> <b class='flag-5'>AI</b> 驅動的藥物研發

    代理式 AI 重構 EDA:從對話助手到虛擬工程師

    電子發燒友網報道(文?/?吳子鵬)代理式?AI(Agentic AI)作為?AI?領域的新興方向,是一種能夠通過自主感知、推理、規劃與執行,獨立完成復雜多步驟任務的?
    的頭像 發表于 08-28 07:54 ?3270次閱讀

    全球知名品牌借助NVIDIA技術規模化交付個性化廣告

    營銷領先者正借助使用 OpenUSD、NVIDIA Omniverse 和代理式 AI 技術開發的解決方案,加速內容創作管線。
    的頭像 發表于 08-12 15:15 ?1422次閱讀

    代理式AIAI智能體在不同行業中的實際應用

    代理式 AI 的時代已經到來。如今,代理式 AI 已經驅動應用邁向深度場景融合與規模化落地。這波演進浪潮標志著
    的頭像 發表于 07-28 14:28 ?1297次閱讀

    NVIDIA技術助力企業創建主權AI智能體

    AI Factory 的經驗證設計將加速基礎設施與軟件(包括全新 NVIDIA NIM 微服務和經擴展的 NVIDIA Blueprint)相結合,為各國和企業簡化了
    的頭像 發表于 06-16 14:28 ?1418次閱讀

    NVIDIA攜手諾和諾德借助AI加速藥物研發

    NVIDIA 宣布與諾和諾德開展合作,借助創新 AI 應用加速藥物研發。此次合作也將支持諾和諾德與丹麥 AI 創新中心 (DCAI) 關于使用 Gefion
    的頭像 發表于 06-12 15:49 ?1356次閱讀

    NVIDIA攜手微軟加速代理式AI發展

    代理式 AI 正在重新定義科學探索,推動各行各業的研究突破和創新發展。NVIDIA 和微軟正通過深化合作提供先進的技術,從云到 PC 加速代理式
    的頭像 發表于 05-27 14:03 ?1127次閱讀

    基于代理式AI建立網絡安全防御體系

    NVIDIA AI 安全為先進的代理式系統提供信任、控制和管理支持。
    的頭像 發表于 05-07 14:29 ?1224次閱讀

    NVIDIA攜手谷歌云助力企業引入代理式AI

    谷歌 Gemini 模型即將支持本地部署,可通過搭載 NVIDIA Blackwell 架構的基礎設施,在 Google 分布式云上運行 NVIDIA 機密計算。
    的頭像 發表于 04-11 16:32 ?1301次閱讀