国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA ? 2025-08-15 20:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動 AI 技術的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型的發布持續深化了雙方的 AI 創新合作。NVIDIA 在 NVIDIA Blackwell 架構上優化了這兩款全新的開放權重模型并實現了推理性能加速,在 NVIDIA 系統上至高達到每秒 150 萬個 Token (TPS)。

這兩個 gpt-oss 模型是具有鏈式思維和工具調用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型 (MoE) 架構和 SwigGLU 激活函數。其注意力層使用 RoPE 技術,上下文規模為 128k,交替使用完整上下文和長度為 128 個 Token 的滑動窗口。兩個模型的精度為 FP4,可運行在單個 80GB 數據中心 GPU 上,并由 Blackwell 架構提供原生支持。

aa412ec8-79bb-11f0-a18e-92fbcf53809c.jpg

這兩個模型在 NVIDIA Hopper 架構 Tensor Core GPU 上訓練而成,gpt-oss-120b 模型訓練耗時超過 210 萬小時,而 gpt-oss-20b 模型訓練耗時約為前者的十分之一。除了NVIDIA TensorRT-LLM外,NVIDIA 還與 Hugging Face Transformers、Ollama、vLLM 等多個頂級開源框架合作,提供優化內核和模型增強。本文將介紹 NVIDIA 如何將 gpt-oss 集成到軟件平臺以滿足開發者需求。

aa49f9f4-79bb-11f0-a18e-92fbcf53809c.png

表 1. OpenAI gpt-oss-20b 和 gpt-oss-120b 模型規格,包括總參數量、活躍參數量、專家模型數和輸入上下文長度

NVIDIA 還與 OpenAI 和社區一同對性能進行優化,增加了以下功能:

Blackwell 上用于注意力預填充 (prefill)、注意力解碼 (decode) 和 MoE 低延遲的 TensorRT-LLM Gen 內核。

Blackwell 上的 CUTLASS MoE 內核。

Hopper 上用于專用注意力機制的 XQA 內核。

通過適用于 LLM 的 FlashInfer 內核服務庫提供優化的注意力與 MoE 路由內核。

支持 MoE 的 OpenAI Triton 內核,適用于 TensorRT-LLM 和 vLLM。

使用 vLLM 進行部署

NVIDIA 與 vLLM 合作,在共同驗證準確性的同時,分析并提升了 Hopper 和 Blackwell 架構的性能。數據中心開發者可通過 FlashInfer LLM 內核服務庫使用經 NVIDIA 優化的內核。

vLLM 建議使用 uv 進行 Python 依賴項管理。用戶可以使用 vLLM 啟動一個與 OpenAI API 兼容的 Web 服務器。以下命令將自動下載模型并啟動服務器。更多詳細信息參見文檔和 vLLM Cookbook 指南。

uv run--with vllm vllm serve openai/gpt-oss-20b

使用 TensorRT-LLM 進行部署

上述優化已包含在 NVIDIA / TensorRT-LLM GitHub 庫中,開發者可根據庫中的部署指南啟動其高性能服務器,并按照指南從 Hugging Face 下載模型 checkpoint。NVIDIA 與 Transformers 庫合作,提升了新模型的開發者體驗。指南還提供 Docker 容器以及低延遲和最大吞吐量場景下性能配置的指導。

在 NVIDIA 系統上實現

每秒 100 萬個 Token 以上的性能

NVIDIA 工程師與 OpenAI 密切合作,確保了新發布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA Blackwell 和 NVIDIA Hopper 平臺上實現第零天 (Day 0) 性能提升。

根據早期性能測量結果,規模更大、計算需求更高的 gpt-oss-120b 模型,在 NVIDIA 系統上可實現每秒 150 萬個 Token 的性能或服務約 5 萬名并發用戶。Blackwell 搭載了許多能夠提高推理性能的架構技術,包括使用了 FP4 Tensor Core 的第二代 Transformer Engine,以及高帶寬的第五代 NVIDIA NVLink 和 NVIDIA NVLink Switch,使得 72 顆 Blackwell GPU 可視作一個大型 GPU 運行。

NVIDIA 平臺的性能、靈活性和創新速度使得該生態系統能夠在 Day 0 便以高吞吐量和低單位 Token 成本運行最新模型。

通過 NVIDIA Launchable 試用經過優化的模型

還可以使用 Open AI Cookbook 上 JupyterLab Notebook 中的 Python API 部署 TensorRT-LLM,并將其作為NVIDIA Launchable在構建平臺中使用。用戶可以在預配置環境中一鍵部署經過優化的模型,并在多個云平臺進行測試。

使用 NVIDIA Dynamo 進行部署

NVIDIA Dynamo是一個幫助開發者為大規模應用部署 OpenAI gpt-oss 等模型的開源推理服務平臺。它與主流的推理后端集成,并提供 LLM 感知路由、彈性自動擴展和分離服務等功能。在應用輸入序列長度 (ISL) 長的情況下,Dynamo 的分離服務可顯著提升性能。在 32K ISL 場景中,Dynamo 在系統吞吐量和 GPU 預算相同的情況下,交互性能較合并服務提升了 4 倍。如需使用 Dynamo 進行部署,可參考該指南:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

在 NVIDIA GeForce RTX AI PC 本地運行

開發者可在本地運行 AI ,以實現更快的迭代、更低的延遲和更可靠的數據隱私保護。兩個模型均具有原生 MXFP4 精度,可在 NVIDIA RTX PRO GPU 驅動的專業工作站上運行,其中 gpt-oss-20b 可部署在任何具有不低于 16GB 顯存的 GeForce RTX AI PC 上。開發者可通過 Ollama、Llama.cpp 或 Microsoft AI Foundry Local,使用其常用的應用和 SDK 體驗這兩個模型。如需使用,請訪問 RTX AI Garage。

aa559afc-79bb-11f0-a18e-92fbcf53809c.jpg

圖 1. 使用 Ollama 安裝和運行模型的步驟

通過 NVIDIA NIM 簡化企業部署

企業開發者可通過 NVIDIA API 目錄中的NVIDIA NIM預覽 API 和 Web Playground 環境試用 gpt-oss 模型。這兩個模型已被打包成 NVIDIA NIM,可靈活、輕松地部署在任何 GPU 加速的基礎設施上,同時保證數據隱私和提供企業級安全。

下載和部署預打包、可移植式且經過優化的 NIM:

下載 gpt-oss-120b

鏈接:https://www.nvidia.cn/ai/

文檔:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-120b

下載 gpt-oss-20b

鏈接:https://www.nvidia.cn/ai/

文檔:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-20b

隨著兩個 gpt-oss 模型被全面集成到 NVIDIA 開發者生態系統中,開發者可選擇最有效的解決方案??稍?NVIDIA API 目錄用戶界面或通過 OpenAI Cookbook 中的 NVIDIA 開發者指南開始使用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109721
  • OpenAI
    +關注

    關注

    9

    文章

    1245

    瀏覽量

    10063

原文標題:NVIDIA 從云到邊緣加速 OpenAI gpt-oss 模型部署,實現 150 萬 TPS 推理

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型產品:Qwen2.5-VL在BM1684X邊緣計算部署全攻略

    前言:部署意義與應用場景1.1Qwen-2-5-VL與BM1684X的組合行業意義:?邊緣AI革命:大模型云端下沉
    的頭像 發表于 01-13 14:17 ?4605次閱讀
    <b class='flag-5'>從</b><b class='flag-5'>模型</b><b class='flag-5'>到</b>產品:Qwen2.5-VL在BM1684X<b class='flag-5'>邊緣</b>計算<b class='flag-5'>部署</b>全攻略

    如何在NVIDIA Jetson AGX Thor上部署1200億參數大模型

    上一期介紹了如何在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務,以及使用 Chatbox 作為前端調用 vLLM 運行的模型(上期文章
    的頭像 發表于 12-26 17:06 ?4818次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上<b class='flag-5'>部署</b>1200億參數大<b class='flag-5'>模型</b>

    GPT-5.1發布 OpenAI開始拼情商

    -5.1 Thinking:高級推理模型,在簡單任務上更快,在復雜任務上更持久,也更容易理解。 對于新上線的GPT-5.1大模型,OpenAI?官方表示出色的 AI 不僅是要夠聰明,還
    的頭像 發表于 11-13 15:49 ?702次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    部署熱門開源模型的應用場景,框架已支持 GPT-OSS、DeepSeek、Llama 2 及 Llama 3 等主流模型的端
    的頭像 發表于 10-21 11:04 ?1166次閱讀

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1780次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發布

    Dynamo 0.4在NVIDIA Blackwell上通過PD分離將性能提升4倍

    近期,OpenAIgpt-oss、月之暗面的 Kimi K2 等多個新的前沿開源模型相繼問世,標志著大語言模型 (LLM) 創新浪潮的加速
    的頭像 發表于 08-22 15:59 ?1430次閱讀
    Dynamo 0.4在<b class='flag-5'>NVIDIA</b> Blackwell上通過PD分離將性能提升4倍

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企
    的頭像 發表于 08-14 11:34 ?1402次閱讀

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發布兩款全新的大語言模型gpt-oss-120b和gpt-oss-20b,性能與o4-mini 水平相當,并且可以在消費級硬件上運行
    的頭像 發表于 08-13 16:43 ?1566次閱讀

    OpenAINVIDIA共同開發全新開放模型

    NVIDIAgpt-oss-120b 帶來業界領先性能,在單個 NVIDIA Blackwell 系統上實現每秒 150
    的頭像 發表于 08-12 15:11 ?1556次閱讀

    亞馬遜科技現已上線OpenAI開放權重模型

    客戶現可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權重模型實現將先進的開放權重模型與全球最廣泛
    的頭像 發表于 08-06 19:29 ?844次閱讀

    OpenAI發布2款開源模型

    OpenAI開源了兩款高性能權重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「
    的頭像 發表于 08-06 14:25 ?1028次閱讀

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署
    的頭像 發表于 07-04 14:38 ?2184次閱讀

    邊緣計算中的機器學習:基于 Linux 系統的實時推理模型部署與工業集成!

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個機器學習模型(神經網絡)部署邊緣設備上,利用ModbusTCP寄存器
    的頭像 發表于 06-11 17:22 ?994次閱讀
    <b class='flag-5'>邊緣</b>計算中的機器學習:基于 Linux 系統的實時<b class='flag-5'>推理模型</b><b class='flag-5'>部署</b>與工業集成!

    基于RAKsmart服務器的AI大模型實時推理方案設計

    面對高并發請求、嚴格的響應延遲要求及波動的業務負載,傳統本地化部署的算力瓶頸愈發顯著。RAKsmart服務器憑借其彈性計算資源池、分布式網絡架構與全棧AI加速能力,為AI大模型實時
    的頭像 發表于 05-13 10:33 ?603次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務器的后續產品,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI
    的頭像 發表于 03-20 15:03 ?1232次閱讀