阿里巴巴推出了全新開(kāi)源千問(wèn)3.5系列,專為構(gòu)建原生多模態(tài)智能體而設(shè)計(jì)。該系列的首個(gè)模型是一款總參數(shù)為397B、具備推理能力的原生視覺(jué)語(yǔ)言模型(VLM),基于由混合專家模型(MoE)和門控Delta網(wǎng)絡(luò)(Gated Delta Networks)組成的混合架構(gòu)構(gòu)建。千問(wèn)3.5能夠理解和導(dǎo)航用戶界面,相較上一代VLM有了顯著提升。
千問(wèn)3.5適用于各種用例,包括:
編碼任務(wù),包括Web開(kāi)發(fā)
視覺(jué)推理任務(wù),包括移動(dòng)端和Web界面
聊天應(yīng)用
復(fù)雜搜索
| 千問(wèn)3.5 | |
| 模態(tài) | 視覺(jué)、語(yǔ)言 |
| 總參數(shù) | 397B |
| 激活參數(shù) | 17B |
| 激活率 | 4.28% |
| 輸入上下文長(zhǎng)度 | 256K token,可擴(kuò)展至1M token |
| 支持的語(yǔ)言 | 200+ |
| 其他配置信息 | |
| 專家 | 512 |
| 共享專家 | 1 |
| 每個(gè)token使用的專家數(shù)量 | 11(10個(gè)路由專家+ 1個(gè)共享專家) |
| 層數(shù) | 60 |
| 詞表大小 | 248,320 |
表1. 千問(wèn)3.5模型的規(guī)格和配置詳情
使用NVIDIA端點(diǎn)進(jìn)行構(gòu)建
您可以在NVIDIA官網(wǎng)上免費(fèi)使用由NVIDIA GPU驅(qū)動(dòng)的GPU加速端點(diǎn)使用千問(wèn)3.5進(jìn)行構(gòu)建。作為NVIDIA開(kāi)發(fā)者計(jì)劃的一部分,您可以在瀏覽器中快速體驗(yàn)、試驗(yàn)不同的提示詞,并使用自己的數(shù)據(jù)測(cè)試模型,以評(píng)估其在實(shí)際場(chǎng)景中的性能。
視頻1.了解如何在NVIDIA GPU加速端點(diǎn)上測(cè)試千問(wèn)3.5
您還可以通過(guò)API來(lái)調(diào)用NVIDIA托管的模型,注冊(cè)NVIDIA開(kāi)發(fā)者計(jì)劃即可免費(fèi)使用。
import requests invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" headers = { "Authorization": "Bearer $NVIDIA_API_KEY", "Accept": "application/json", } payload = { "messages": [ { "role": "user", "content": "" } ], "model": "qwen/qwen3.5-397b-a17b", "chat_template_kwargs": { "thinking": True }, "frequency_penalty": 0, "max_tokens": 16384, "presence_penalty": 0, "stream": True, "temperature": 1, "top_p": 1 } # re-use connections session = requests.Session() response = session.post(invoke_url, headers=headers, json=payload) response.raise_for_status() response_body = response.json() print(response_body)
要使用工具調(diào)用功能,只需定義一個(gè)由OpenAI兼容工具組成的數(shù)組,并將其添加到聊天補(bǔ)全接口的tools參數(shù)中。
NVIDIA NIM可以輕松將千問(wèn)3.5從開(kāi)發(fā)階段遷移到生產(chǎn)環(huán)境。NIM提供經(jīng)過(guò)優(yōu)化的容器化推理微服務(wù),將模型與性能調(diào)優(yōu)、標(biāo)準(zhǔn)化API和企業(yè)所需的部署靈活性打包集成。您可以在各類環(huán)境中下載并運(yùn)行,無(wú)論是本地、云上或混合環(huán)境。
使用NVIDIANeMo自定義模型
千問(wèn)3.5已具備出色的“開(kāi)箱即用”多模態(tài)功能,NVIDIA NeMo框架仍提供了關(guān)鍵的工具集,使其進(jìn)一步適配特定領(lǐng)域的需求。開(kāi)發(fā)者可以使用NeMo Automodel庫(kù)微調(diào)千問(wèn)3.5 397B參數(shù)架構(gòu),實(shí)現(xiàn)高吞吐效率。
NeMoAutomodel是一個(gè)原生PyTorch訓(xùn)練庫(kù),提供Day 0 Hugging Face支持,無(wú)需繁瑣的模型轉(zhuǎn)換,即可在現(xiàn)有檢查點(diǎn)上直接進(jìn)行訓(xùn)練。無(wú)論是執(zhí)行全量監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT),還是使用LoRA等內(nèi)存高效方法,都有助于快速開(kāi)展實(shí)驗(yàn)。
作為參考實(shí)現(xiàn)指南,開(kāi)發(fā)者可以利用醫(yī)學(xué)視覺(jué)問(wèn)答技術(shù)教程,該教程詳細(xì)說(shuō)明了如何在放射學(xué)數(shù)據(jù)集上微調(diào)千問(wèn)3.5。在大規(guī)模場(chǎng)景下,NeMo支持多節(jié)點(diǎn)Slurm和Kubernetes部署,從而確保即使是最大的MoE模型,也能在特定領(lǐng)域的推理和復(fù)雜智能體工作流中實(shí)現(xiàn)低延遲的優(yōu)化,并將延遲降至最低。
開(kāi)始使用千問(wèn)3.5
從數(shù)據(jù)中心部署到可隨時(shí)隨地進(jìn)行容器化部署的NVIDIA NIM,NVIDIA提供了千問(wèn)3.5的集成解決方案。訪問(wèn)Hugging Face上的千問(wèn)3.5模型頁(yè)面,并前往NVIDIA官網(wǎng)體驗(yàn)千問(wèn)3.5的功能。
關(guān)于作者
Anu Srivastava 是高級(jí)技術(shù)營(yíng)銷經(jīng)理,專注于開(kāi)放 AI 模型。她與主要合作伙伴和基金會(huì)合作,為開(kāi)源開(kāi)發(fā)者生態(tài)系統(tǒng)提供 NVIDIA 加速平臺(tái)支持。加入 NVIDIA 之前,她曾在 Google 擔(dān)任各種工程職務(wù)超過(guò) 10 年,并擁有德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)學(xué)位。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5674瀏覽量
110028 -
gpu
+關(guān)注
關(guān)注
28文章
5235瀏覽量
135912 -
阿里巴巴
+關(guān)注
關(guān)注
7文章
1648瀏覽量
49286
原文標(biāo)題:基于 NVIDIA GPU 加速端點(diǎn),使用千問(wèn)3.5 VLM 開(kāi)發(fā)原生多模態(tài)智能體
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
《CST Studio Suite 2024 GPU加速計(jì)算指南》
NVIDIA火熱招聘GPU高性能計(jì)算架構(gòu)師
AI開(kāi)發(fā)者福音!阿里云推出國(guó)內(nèi)首個(gè)基于英偉達(dá)NGC的GPU優(yōu)化容器
Nvidia GPU風(fēng)扇和電源顯示ERR怎么解決
在Ubuntu上使用Nvidia GPU訓(xùn)練模型
慕尼黑電子展回顧:?jiǎn)⒚髦秋@多模態(tài)硬件智能體引領(lǐng)科技潮流
商湯絕影在行業(yè)率先實(shí)現(xiàn)原生多模態(tài)大模型的車端部署
?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析
移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗(yàn)
移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗(yàn)
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)
沐曦股份曦云C系列GPU深度適配通義千問(wèn)Qwen3.5模型
沐曦股份曦云C系列GPU全面適配通義千問(wèn)Qwen3.5三款新模型
基于NVIDIA GPU加速端點(diǎn)使用千問(wèn)3.5 VLM開(kāi)發(fā)原生多模態(tài)智能體
評(píng)論