NVIDIA今天在其官方博客中表示,今天與谷歌合作,在所有NVIDIA AI平臺(tái)上為Gemma推出了優(yōu)化。Gemma是谷歌最先進(jìn)的新輕量級(jí)2B(20億)和7B(70億)參數(shù)開(kāi)放語(yǔ)言模型,可以在任何地方運(yùn)行,降低了成本,加快了特定領(lǐng)域用例的創(chuàng)新工作。
這兩家公司的團(tuán)隊(duì)密切合作,主要是使用NVIDIA TensorRT LLM加速谷歌Gemma開(kāi)源模型的性能。開(kāi)源模型Gemma采用與Gemini模型相同的底層技術(shù)構(gòu)建,而NVIDIA TensorRT LLM是一個(gè)開(kāi)源庫(kù),用于在數(shù)據(jù)中心的NVIDIA GPU、云服務(wù)器以及帶有NVIDIA RTX GPU的PC上運(yùn)行時(shí),可以極大優(yōu)化大型語(yǔ)言模型推理。這也這使得開(kāi)發(fā)人員能夠完全利用全球超過(guò)1億臺(tái)數(shù)量的RTX GPU AI PC完成自己的工作。

同時(shí),開(kāi)發(fā)人員還可以在云計(jì)算服務(wù)器中的NVIDIA GPU上運(yùn)行Gemma,包括在谷歌云基于H100 Tensor Core GPU,以及很快谷歌將于今年部署的NVIDIA H200 TensorCore GPU——該GPU具有141GB的HBM3e內(nèi)存,內(nèi)存帶寬可以達(dá)到4.8TB/s。

另外,企業(yè)開(kāi)發(fā)人員還可以利用NVIDIA豐富的工具生態(tài)系統(tǒng),包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM,對(duì)Gemma進(jìn)行微調(diào),并在其生產(chǎn)應(yīng)用程序中部署優(yōu)化模型。

NVIDIA表示,先期上線支持Gemma的是Chat with RTX,這是一款NVIDIA技術(shù)演示應(yīng)用,使用檢索增強(qiáng)生成和TensorRT LLM擴(kuò)展,在基于RTX GPU的本地Windows PC上為用戶提供生成式AI應(yīng)用的功能。通過(guò)RTX聊天,用戶可以輕松地將PC上的本地文件連接到大型語(yǔ)言模型,從而使用自己的數(shù)據(jù)對(duì)聊天機(jī)器人進(jìn)行個(gè)性化設(shè)置。
由于該模型在本地運(yùn)行,因此可以快速提供結(jié)果,并且用戶數(shù)據(jù)保留在設(shè)備上。與基于云的LLM服務(wù)不同,使用Chat with RTX聊天可以讓用戶在本地PC上處理敏感數(shù)據(jù),而無(wú)需與第三方共享或連接互聯(lián)網(wǎng)。
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109738 -
GPU芯片
+關(guān)注
關(guān)注
1文章
307瀏覽量
6517 -
LLM
+關(guān)注
關(guān)注
1文章
346瀏覽量
1331 -
生成式AI
+關(guān)注
關(guān)注
0文章
538瀏覽量
1085
原文標(biāo)題:TensorRT LLM加速Gemma!NVIDIA與谷歌牽手,RTX助推AI聊天
文章出處:【微信號(hào):Microcomputer,微信公眾號(hào):Microcomputer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
谷歌正式發(fā)布Gemma Scope 2模型
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
NVIDIA TensorRT LLM 1.0推理框架正式上線
TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計(jì)
谷歌推出AI模型Gemma 3 270M
DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化
Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開(kāi)發(fā)
NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開(kāi)放下載
NVIDIA RTX AI PC為AnythingLLM加速本地AI工作流
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
谷歌Gemma 3n預(yù)覽版全新發(fā)布
使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐
TensorRT LLM加速Gemma!NVIDIA與谷歌牽手,RTX助推AI聊天
評(píng)論