Meta 最新開源大語言模型采用 NVIDIA 技術構建,其經過優化后可在云、數據中心、邊緣和 PC 的 NVIDIA GPU 上運行。
NVIDIA 發布對其所有平臺的優化措施,此舉將加快最新一代大語言模型(LLM)Meta Llama 3 的運行速度。
在與 NVIDIA 加速計算相結合后,該開源模型能夠使開發者、研究者和企業在各種應用中負責任地進行創新。
在 NVIDIA AI 上進行訓練
Meta 工程師在搭載 24,576 個 NVIDIA Tensor Core GPU 的計算機集群上對 Llama 3 進行了訓練,這些 GPU 通過 RoCE 和 NVIDIA Quantum-2 InfiniBand 網絡相連。
為進一步推動生成式 AI 的發展,Meta 最近介紹了將其基礎設施擴展到 35 萬個 NVIDIA GPU 的計劃。
將 Llama 3 投入使用
通過 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、數據中心、邊緣和 PC。
開發者可通過瀏覽器在 ai.nvidia.com 上試用 Llama 3。該模型被打包成一項帶有標準應用編程接口的 NVIDIA NIM 微服務,可以部署在任何位置。
企業可使用 NVIDIA NeMo 和自己的數據對 Llama 3 進行微調。NeMo 是一個 LLM 開源框架,通過安全、受支持的 NVIDIA AI Enterprise 平臺提供。自定義模型可使用 NVIDIA TensorRT-LLM 進行推理性能優化,并通過 NVIDIA Triton 推理服務器進行部署。
在設備和 PC 上運行 Llama 3
Llama 3 還可在用于機器人和邊緣計算設備的 NVIDIA Jetson Orin 上運行,創建類似 Jetson AI Lab 中的交互式代理。
此外,用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 也能加快 Llama 3 的推理速度。這些系統將開發者的目標范圍擴大到全球超過 1 億臺由 NVIDIA 提供加速的系統。
利用 Llama 3 獲得最佳性能
為聊天機器人部署 LLM 的最佳實踐包括實現低延遲、快速讀取和最佳 GPU 利用率之間的平衡,并以此來降低成本。
這種服務需要以用戶閱讀速度的兩倍(約為每秒 10 個 token)提供 token(大致相當于字詞)。
如果在使用 700 億參數級 Llama 3 進行的初步測試中應用這些指標,那么單個 NVIDIA Tensor Core GPU 每秒可生成約 3,000 個 token,足以同時為約 300 名用戶提供服務。
這意味著一臺搭載 8 個GPU 的 NVIDIA HGX 服務器每秒可提供 24,000 個 token,相當于同時支持 2,400 多名用戶,進一步降低了成本。
在邊緣設備方面,80 億參數版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多達 40 個 token,在 Jetson Orin Nano 上每秒可生成多達 15 個 token。
推進社區模型的發展
作為一個積極的開源貢獻者,NVIDIA 致力于優化社區軟件,幫助用戶應對最嚴峻的挑戰。開源模型還能提高 AI 的透明度,讓廣大用戶享受到 AI 安全性和彈性方面的工作成果。
-
NVIDIA
+關注
關注
14文章
5594瀏覽量
109758 -
GPU芯片
+關注
關注
1文章
307瀏覽量
6519 -
邊緣計算
+關注
關注
22文章
3527瀏覽量
53462 -
大模型
+關注
關注
2文章
3650瀏覽量
5188
原文標題:NVIDIA 全面加快 Meta Llama 3 的推理速度
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
Meta與NVIDIA達成多年戰略合作伙伴關系
NVIDIA TensorRT LLM 1.0推理框架正式上線
NVIDIA Spectrum-X 以太網交換機助力 Meta 和 Oracle 加速網絡性能
使用 NPU 插件對量化的 Llama 3.1 8b 模型進行推理時出現“從 __Int64 轉換為無符號 int 的錯誤”,怎么解決?
ServiceNow攜手NVIDIA構建150億參數超級助手
企業使用NVIDIA NeMo微服務構建AI智能體平臺
今日看點丨臺積電、Intel合資運營代工業務;韓國計劃向當地汽車行業注入3萬億韓元援助
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅動的工程設計和科學應用
英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理
英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理
NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺
NVIDIA全面加快Meta Llama 3的推理速度
評論