国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務

麗臺科技 ? 來源:麗臺科技 ? 2025-11-13 14:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入NVIDIAJetson AGX Thor的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務。

具體內(nèi)容包括:

vLLM 簡介與優(yōu)勢

vLLM Docker 容器構(gòu)建

使用 vLLM 在線下載模型

使用 vLLM 運行本地模型

使用 Chatbox 作為前端調(diào)用 vLLM 運行的模型

一、vLLM 簡介與優(yōu)勢

1什么是 vLLM?

vLLM 是一個高效的大語言模型推理和服務引擎,專門優(yōu)化了注意力機制和內(nèi)存管理,能夠提供極高的吞吐量。

2在 Jetson AGX Thor 上運行 vLLM 的優(yōu)勢:

PagedAttention 技術:顯著減少內(nèi)存碎片,提高 GPU 利用率

Continuous Batching 機制:能夠連續(xù)動態(tài)處理不同長度的請求

開源生態(tài):支持主流開源模型(Llama、Qwen、ChatGLM 等)

二、vLLM Docker 容器構(gòu)建

在上一期NVIDIA Jetson AGX Thor Developer Kit 開發(fā)環(huán)境配置教程中,我們已經(jīng)完成了 Docker 的安裝與配置,現(xiàn)在,只需要使用 Docker 拉取 vLLM 鏡像即可。

163bee3c-becd-11f0-8c8f-92fbcf53809c.jpg

當前 Docker 版本

1. 參照上期教程介紹的方法,注冊并登錄 NGC 之后,搜索 vLLM 進入容器頁面,點擊“Get Container”,復制鏡像目錄。

169bcfdc-becd-11f0-8c8f-92fbcf53809c.png

2. 在命令行運行docker pull nvcr.io/nvidia/vllm:25.10-py3下載鏡像。

16fff49e-becd-11f0-8c8f-92fbcf53809c.jpg

3. 下載完成后,運行容器,創(chuàng)建啟動命令。

sudodocker run -d -t
 --net=host
 --gpusall
 --ipc=host
 --name vllm
 -v /data:/data
 --restart=unless-stopped
 nvcr.io/nvidia/vllm:25.10-py3
1756c936-becd-11f0-8c8f-92fbcf53809c.png

注:關鍵參數(shù)說明

-d (detach):后臺運行容器

-t (tty):分配一個偽終端,方便日志輸出

--name vllm:為容器指定名稱"vllm"

--net=host:使用主機網(wǎng)絡模式,容器與主機共享網(wǎng)絡命名空間

--gpus all:將所有可用的 GPU 設備暴露給容器

--ipc=host:使用主機的 IPC 命名空間,改善進程間通信性能

-v /data:/data:將主機的 /data 目錄掛載到容器的 /data 目錄,后面可用于持久化模型文件、配置文件等數(shù)據(jù)

--restart=unless-stopped:Docker 容器的重啟策略參數(shù),表示容器在非人工主動停止時(如崩潰、宿主機重啟),會自動重啟,但若被手動停止,則不會自動恢復

4. 容器創(chuàng)建成功后,使用docker exec -it vllm /bin/bash命令進入此容器。

17b396b6-becd-11f0-8c8f-92fbcf53809c.jpg

三、使用 vLLM 在線下載模型

1. 從 Hugging Face 上下載模型權(quán)重:

通常默認的模型下載目錄為:.cache/huggingface/hub/,通過設置環(huán)境變量,我們將指定模型下載到:export HF_HOME=/data/huggingface目錄,然后執(zhí)行vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct",此命令會從 Hugging Face 上在線拉取下載模型并開始運行。

180b7b4c-becd-11f0-8c8f-92fbcf53809c.png

2. 等待模型文件下載完成(需科學上網(wǎng))。

1871ec42-becd-11f0-8c8f-92fbcf53809c.png

注:為方便后續(xù)調(diào)用,建議通過本地終端確認模型已下載到預設目錄(如下圖所示)。

18d399f6-becd-11f0-8c8f-92fbcf53809c.png

在沒有前端的情況下,可以通過 curl 命令向 vLLM 服務發(fā)送聊天請求。

curl http://localhost:8000/v1/chat/completions 
-H "Content-Type: application/json" 
-d '{
 "model":"Qwen/Qwen2.5-Math-1.5B-Instruct",
 "messages": [{"role":"user","content":"12*17"}],
 "max_tokens":500
}'
19303c9c-becd-11f0-8c8f-92fbcf53809c.png

注:關鍵參數(shù)說明

curl:命令行工具,用于傳輸數(shù)據(jù)

http://localhost:8000:本地服務器地址和端口

/v1/chat/completions:OpenAI 兼容的聊天補全 API 端點

-H:設置 HTTP 請求頭

"Content-Type:application/json":指定請求體為 JSON 格式

-d:設置請求數(shù)據(jù)

"model":"Qwen/Qwen2.5-Math-1.5B-Instruct":指定要使用的模型,這個名稱應該與 vLLM 服務啟動時指定的模型名稱一致

"messages:[{"role": "user", "content": "12*17"}]:定義對話歷史和當前消息

消息對象字段:"role" 指消息角色;"user"指用戶消息,"Content"指消息具體內(nèi)容;"12*17"指用戶提出的數(shù)學問題

"max_tokens":500:限制模型生成的最大 token 數(shù)量

四、使用 vLLM 運行本地模型

如前所述,模型已下載保存至本地指定目錄,可以直接通過其路徑啟動服務。

以上方“Qwen/Qwen2.5-Math-1.5B-Instruct”為例,該模型權(quán)重路徑為:

“/data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35”。

1999a84e-becd-11f0-8c8f-92fbcf53809c.png

執(zhí)行以下命令,即可正常運行本地模型。

vllmserve /data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35

五、使用 Chatbox 作為前端調(diào)用 vLLM 運行的模型

1. 局域網(wǎng)內(nèi)訪問 Chatbox 官網(wǎng)(https://chatboxai.app),下載并安裝Windows版本。

2. 點擊“設置提供方” — “添加”,輸入名稱,再次點擊“添加”。

19f5c912-becd-11f0-8c8f-92fbcf53809c.png1a5214ce-becd-11f0-8c8f-92fbcf53809c.jpg1ab1a2ea-becd-11f0-8c8f-92fbcf53809c.png

上下滑動 點擊查看

3. API 主機可輸入 Jetson AGX Thor 主機 IP 以及 vLLM 服務端口號。

(例:http://192.168.23.107:8000)

1b0a7c44-becd-11f0-8c8f-92fbcf53809c.jpg

4. 選擇 vLLM 運行的模型,點擊“+”。

1b622d7c-becd-11f0-8c8f-92fbcf53809c.jpg1bbdab66-becd-11f0-8c8f-92fbcf53809c.jpg

5. 點擊“新對話”,右下角選擇該模型即可開啟對話。

1c156f36-becd-11f0-8c8f-92fbcf53809c.jpg

6. 運行示例

由于 Qwen2.5-Math 是一款數(shù)學專項大語言模型,我們在此示例提問一個數(shù)學問題,運行結(jié)果如下:

1c6c678c-becd-11f0-8c8f-92fbcf53809c.jpg

更多精彩教程,敬請期待!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5513

    瀏覽量

    109200
  • 模型
    +關注

    關注

    1

    文章

    3658

    瀏覽量

    51804
  • 開發(fā)環(huán)境

    關注

    1

    文章

    254

    瀏覽量

    17562
  • Docker
    +關注

    關注

    0

    文章

    527

    瀏覽量

    14062

原文標題:輕松部署!在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA Jetson AGX Thor Developer Kit開發(fā)環(huán)境配置指南

    NVIDIA Jetson AGX Thor 專為物理 AI 打造,與上一代產(chǎn)品 NVIDIA Jets
    的頭像 發(fā)表于 11-08 09:55 ?6490次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> <b class='flag-5'>Thor</b> Developer Kit開發(fā)環(huán)境配置指南

    京東和美團已選用NVIDIA Jetson AGX Xavier 平臺

    電商巨頭選用NVIDIA Jetson AGX Xavier打造下一代配送機器人 京東、美團采用NVIDIA AI計算平臺,以滿足大量處理需求
    的頭像 發(fā)表于 08-01 14:54 ?1384次閱讀

    NVIDIA Jetson介紹

    首發(fā)極術社區(qū)如對Arm相關技術感興趣,歡迎私信 aijishu20加入技術微信群。分享內(nèi)容NVIDIA Jetson是嵌入式計算平臺,具有低功耗、高性能和小體積等特點,可加速各行業(yè)的AI應用落地
    發(fā)表于 12-14 08:05

    怎么做才能通過Jetson Xavier AGX構(gòu)建android圖像呢?

    我正在使用 NvidiaJetson Xavier AGX 按照“android 用戶指南”為 imx8 qm Mek 套件構(gòu)建 android 圖像(android 13)。當我運行命令
    發(fā)表于 06-07 08:58

    NVIDIA Jetson AGX Orin提升邊緣AI標桿

    最新發(fā)布的 NVIDIA Jetson AGX Orin 提升邊緣 AI 標桿,使我們在最新一輪行業(yè)推理基準測試中的領先優(yōu)勢更加明顯。
    的頭像 發(fā)表于 04-09 08:24 ?2308次閱讀

    使用NVIDIA Jetson AGX Xavier部署新的自主機器

    Jetson AGX Xavier 目前在 VGG19 推理方面的效率比 Jetson TX2 高 7 倍多,使用 ResNet-50 的效率高 5 倍,考慮到未來的軟件優(yōu)化和增強,效
    的頭像 發(fā)表于 04-18 15:17 ?7950次閱讀

    NVIDIA 推出 Jetson AGX Orin 工業(yè)級模塊助力邊緣 AI

    Jetson 邊緣 AI 和機器人平臺 ,您可以在此類復雜的環(huán)境中部署 AI 和傳感器融合算法。 NVIDIA 在 COMPUTEX 2023 發(fā)布了全新
    的頭像 發(fā)表于 06-05 10:45 ?2038次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Orin 工業(yè)級模塊助力邊緣 AI

    利用 NVIDIA Jetson 實現(xiàn)生成式 AI

    交互速率運行的 Llama-2-70B 模型。 圖 1. 領先的生成式 AI 模型在? Jetson AGX Orin 推理性能 如要在 Jet
    的頭像 發(fā)表于 11-07 21:25 ?2107次閱讀
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 實現(xiàn)生成式 AI

    NVIDIA Jetson AGX Thor開發(fā)者套件概述

    NVIDIA Jetson AGX Thor 開發(fā)者套件為您提供出色的性能和可擴展性。它由 NVIDIA Blackwell GPU和128
    的頭像 發(fā)表于 08-11 15:03 ?1646次閱讀

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    ·專為物理 AI 和機器人打造的機器人計算機 NVIDIA Jetson AGX Thor 開發(fā)者套件和量產(chǎn)級模組,現(xiàn)已發(fā)售。 ·超過 200 萬開發(fā)者正在使用
    發(fā)表于 08-26 09:28 ?1215次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 <b class='flag-5'>Jetson</b> <b class='flag-5'>Thor</b> 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    NVIDIA三臺計算機解決方案如何協(xié)同助力機器人技術

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務器的 Omniverse 和 Cosmos,以及 Jetson AGX
    的頭像 發(fā)表于 08-27 11:48 ?2063次閱讀

    NVIDIA Jetson AGX Thor開發(fā)者套件重磅發(fā)布

    開發(fā)者與未來創(chuàng)造者們,準備好迎接邊緣AI的史詩級革新了嗎?NVIDIA以顛覆性技術再次突破極限,正式推出Jetson AGX Thor開發(fā)者套件!作為繼傳奇產(chǎn)品
    的頭像 發(fā)表于 08-28 14:31 ?1277次閱讀

    ADI借助NVIDIA Jetson Thor平臺加速人形機器人研發(fā)進程

    當前,人形機器人正逐步邁向?qū)嶋H應用部署階段,其落地節(jié)奏取決于物理智能與實時推理能力的發(fā)展。隨著NVIDIA Jetson Thor平臺的正式
    的頭像 發(fā)表于 08-29 14:07 ?2706次閱讀

    通過NVIDIA Jetson AGX Thor實現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進一步優(yōu)化推理性能。該平臺同時支持推測解碼等新技術
    的頭像 發(fā)表于 10-29 16:53 ?1140次閱讀

    NVIDIA Jetson系列開發(fā)者套件助力打造面向未來的智能機器人

    NVIDIA Jetson AGX ThorAGX Orin 以及 Jetson Orin N
    的頭像 發(fā)表于 12-13 10:20 ?2112次閱讀