阿里巴巴推出了全新開源千問3.5系列,專為構(gòu)建原生多模態(tài)智能體而設(shè)計。該系列的首個模型是一款總參數(shù)為397B、具備推理能力的原生視覺語言模型(VLM),基于由混合專家模型(MoE)和門控Delta網(wǎng)絡(luò)(Gated Delta Networks)組成的混合架構(gòu)構(gòu)建。千問3.5能夠理解和導航用戶界面,相較上一代VLM有了顯著提升。
千問3.5適用于各種用例,包括:
編碼任務,包括Web開發(fā)
視覺推理任務,包括移動端和Web界面
聊天應用
復雜搜索
| 千問3.5 | |
| 模態(tài) | 視覺、語言 |
| 總參數(shù) | 397B |
| 激活參數(shù) | 17B |
| 激活率 | 4.28% |
| 輸入上下文長度 | 256K token,可擴展至1M token |
| 支持的語言 | 200+ |
| 其他配置信息 | |
| 專家 | 512 |
| 共享專家 | 1 |
| 每個token使用的專家數(shù)量 | 11(10個路由專家+ 1個共享專家) |
| 層數(shù) | 60 |
| 詞表大小 | 248,320 |
表1. 千問3.5模型的規(guī)格和配置詳情
使用NVIDIA端點進行構(gòu)建
您可以在NVIDIA官網(wǎng)上免費使用由NVIDIA GPU驅(qū)動的GPU加速端點使用千問3.5進行構(gòu)建。作為NVIDIA開發(fā)者計劃的一部分,您可以在瀏覽器中快速體驗、試驗不同的提示詞,并使用自己的數(shù)據(jù)測試模型,以評估其在實際場景中的性能。
視頻1.了解如何在NVIDIA GPU加速端點上測試千問3.5
您還可以通過API來調(diào)用NVIDIA托管的模型,注冊NVIDIA開發(fā)者計劃即可免費使用。
import requests invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" headers = { "Authorization": "Bearer $NVIDIA_API_KEY", "Accept": "application/json", } payload = { "messages": [ { "role": "user", "content": "" } ], "model": "qwen/qwen3.5-397b-a17b", "chat_template_kwargs": { "thinking": True }, "frequency_penalty": 0, "max_tokens": 16384, "presence_penalty": 0, "stream": True, "temperature": 1, "top_p": 1 } # re-use connections session = requests.Session() response = session.post(invoke_url, headers=headers, json=payload) response.raise_for_status() response_body = response.json() print(response_body)
要使用工具調(diào)用功能,只需定義一個由OpenAI兼容工具組成的數(shù)組,并將其添加到聊天補全接口的tools參數(shù)中。
NVIDIA NIM可以輕松將千問3.5從開發(fā)階段遷移到生產(chǎn)環(huán)境。NIM提供經(jīng)過優(yōu)化的容器化推理微服務,將模型與性能調(diào)優(yōu)、標準化API和企業(yè)所需的部署靈活性打包集成。您可以在各類環(huán)境中下載并運行,無論是本地、云上或混合環(huán)境。
使用NVIDIANeMo自定義模型
千問3.5已具備出色的“開箱即用”多模態(tài)功能,NVIDIA NeMo框架仍提供了關(guān)鍵的工具集,使其進一步適配特定領(lǐng)域的需求。開發(fā)者可以使用NeMo Automodel庫微調(diào)千問3.5 397B參數(shù)架構(gòu),實現(xiàn)高吞吐效率。
NeMoAutomodel是一個原生PyTorch訓練庫,提供Day 0 Hugging Face支持,無需繁瑣的模型轉(zhuǎn)換,即可在現(xiàn)有檢查點上直接進行訓練。無論是執(zhí)行全量監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT),還是使用LoRA等內(nèi)存高效方法,都有助于快速開展實驗。
作為參考實現(xiàn)指南,開發(fā)者可以利用醫(yī)學視覺問答技術(shù)教程,該教程詳細說明了如何在放射學數(shù)據(jù)集上微調(diào)千問3.5。在大規(guī)模場景下,NeMo支持多節(jié)點Slurm和Kubernetes部署,從而確保即使是最大的MoE模型,也能在特定領(lǐng)域的推理和復雜智能體工作流中實現(xiàn)低延遲的優(yōu)化,并將延遲降至最低。
開始使用千問3.5
從數(shù)據(jù)中心部署到可隨時隨地進行容器化部署的NVIDIA NIM,NVIDIA提供了千問3.5的集成解決方案。訪問Hugging Face上的千問3.5模型頁面,并前往NVIDIA官網(wǎng)體驗千問3.5的功能。
關(guān)于作者
Anu Srivastava 是高級技術(shù)營銷經(jīng)理,專注于開放 AI 模型。她與主要合作伙伴和基金會合作,為開源開發(fā)者生態(tài)系統(tǒng)提供 NVIDIA 加速平臺支持。加入 NVIDIA 之前,她曾在 Google 擔任各種工程職務超過 10 年,并擁有德克薩斯大學奧斯汀分校計算機科學學位。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5592瀏覽量
109722 -
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135434 -
阿里巴巴
+關(guān)注
關(guān)注
7文章
1647瀏覽量
49191
原文標題:基于 NVIDIA GPU 加速端點,使用千問3.5 VLM 開發(fā)原生多模態(tài)智能體
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
《CST Studio Suite 2024 GPU加速計算指南》
NVIDIA火熱招聘GPU高性能計算架構(gòu)師
AI開發(fā)者福音!阿里云推出國內(nèi)首個基于英偉達NGC的GPU優(yōu)化容器
NVIDIA-SMI:監(jiān)控GPU的絕佳起點
Nvidia GPU風扇和電源顯示ERR怎么解決
在Ubuntu上使用Nvidia GPU訓練模型
慕尼黑電子展回顧:啟明智顯多模態(tài)硬件智能體引領(lǐng)科技潮流
?VLM(視覺語言模型)?詳細解析
移遠通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗
移遠通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
百度文心快碼推出AI原生開發(fā)環(huán)境工具Comate AI IDE
沐曦股份曦云C系列GPU深度適配通義千問Qwen3.5模型
沐曦股份曦云C系列GPU全面適配通義千問Qwen3.5三款新模型
基于NVIDIA GPU加速端點使用千問3.5 VLM開發(fā)原生多模態(tài)智能體
評論