精品国产麻豆久久久,国内精品久久久影院8f,久久国产成人午夜AV影院

Top 10 最智能開源模型均使用混合專家模型架構(gòu)。

Kimi K2 Thinking、DeepSeek-R1、Mistral Large 3 等模型在 NVIDIA Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)上運(yùn)行速度提升 10 倍。

如今，幾乎任一前沿模型的內(nèi)部結(jié)構(gòu)都采用混合專家(MoE) 模型架構(gòu)，這種架構(gòu)旨在模擬人腦的高效運(yùn)作機(jī)制。

正如大腦會(huì)根據(jù)任務(wù)激活特定區(qū)域，MoE 模型將工作分配給各個(gè)專門的專家，并在每個(gè)AI token的生成過程中只激活與之相關(guān)的專家。這樣一來，無需成比例增加計(jì)算量，就能夠?qū)崿F(xiàn)更快速、更高效的 token 生成。

業(yè)界已認(rèn)識(shí)到這一優(yōu)勢(shì)。在獨(dú)立 AI 基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis (AA) 的榜單上，Top 10 最智能開源模型均采用 MoE 架構(gòu)，包括深度求索的 DeepSeek-R1、月之暗面的 Kimi K2 Thinking、OpenAI 的 gpt-oss-120B 以及 Mistral AI 的 Mistral Large 3。

然而，大規(guī)模部署 MoE 模型并同時(shí)保持高性能向來極具挑戰(zhàn)。NVIDIA Grace Blackwell機(jī)架級(jí)擴(kuò)展系統(tǒng)通過軟硬件的極致協(xié)同設(shè)計(jì)，將硬件與軟件優(yōu)化相結(jié)合，以實(shí)現(xiàn)性能和效率最大化，從而使規(guī)模化部署 MoE 模型變得切實(shí)可行且簡(jiǎn)便直接。

Kimi K2 Thinking MoE 模型在 AA 榜單被評(píng)為當(dāng)前最智能的開源模型。它在 NVIDIA Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)上的性能較在 NVIDIA HGX Hopper 上實(shí)現(xiàn)了 10 倍的飛躍。基于DeepSeek-R1和 Mistral Large 3 MoE 模型展現(xiàn)的卓越性能，這一突破性進(jìn)展表明 MoE 架構(gòu)正在成為前沿模型的首選架構(gòu)，同時(shí)也印證了 NVIDIA 全棧推理平臺(tái)是釋放其全部潛力的關(guān)鍵所在。

什么是 MoE，為何它已成為前沿模型的標(biāo)準(zhǔn)

直到最近，構(gòu)建更智能 AI 的行業(yè)標(biāo)準(zhǔn)還只是打造更大、更稠密的模型，這些模型會(huì)調(diào)用所有參數(shù) (當(dāng)今最強(qiáng)大的模型往往擁有數(shù)千億參數(shù)) 來生成每個(gè) token。雖然很強(qiáng)大，但這種方法需要巨大的計(jì)算能力和能源，使其難以擴(kuò)展。

正如人類大腦在處理不同認(rèn)知任務(wù) (無論是語言處理、物體識(shí)別還是數(shù)學(xué)解題) 時(shí)會(huì)調(diào)用不同的特定區(qū)域，MoE 模型也由多個(gè)專業(yè)化的“專家”組成。針對(duì)每一個(gè)輸入的 token，路由器僅激活其中最相關(guān)的專家。這種設(shè)計(jì)意味著，盡管整體模型可能包含數(shù)千億參數(shù)，但生成單個(gè) token 僅需使用其中一小部分參數(shù)——通常只需數(shù)百億參數(shù)參與計(jì)算。

正如人腦通過不同區(qū)域處理不同任務(wù)，MoE 模型也通過路由器選擇最相關(guān)的專家來生成每個(gè) token。

通過有選擇性地僅調(diào)用最重要的專家模型，MoE 模型在不增加計(jì)算成本的前提下實(shí)現(xiàn)了更高的智能水平和適應(yīng)性。這使其成為高效 AI 系統(tǒng)的基石，這類系統(tǒng)專為”每美元性能”與”每瓦特性能”而優(yōu)化，能夠在單位資金和單位能耗下產(chǎn)出顯著更高的智能價(jià)值。

鑒于這些優(yōu)勢(shì)，MoE 迅速成為前沿模型的首選架構(gòu)也就不足為奇。今年以來，已有超過 60% 的開源 AI 模型采用這一架構(gòu)。自 2023 年初至今，該架構(gòu)更推動(dòng)模型智能水平實(shí)現(xiàn)近 70 倍的飛躍式增長(zhǎng)，不斷推動(dòng) AI 突破能力疆界。

自 2025 年初以來，幾乎所有領(lǐng)先的前沿模型都采用了 MoE 設(shè)計(jì)。

“我們兩年前從 Mixtral 8x7B 開始，在開源 MoE 模型架構(gòu)領(lǐng)域開展的開創(chuàng)性工作，確保了先進(jìn)智能技術(shù)廣泛應(yīng)用于各類場(chǎng)景變得可行并且可持續(xù)。”Mistral AI 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Guillaume Lample 表示，“Mistral Large 3 的 MoE 架構(gòu)使我們能夠擴(kuò)展 AI 系統(tǒng)至更高的性能與效率，同時(shí)大幅降低能耗和計(jì)算需求。”

通過極致協(xié)同設(shè)計(jì)突破 MoE 擴(kuò)展瓶頸

前沿的 MoE 模型體量龐大且結(jié)構(gòu)復(fù)雜，無法部署在單塊 GPU 上。要運(yùn)行這些模型，必須將專家分布在多塊 GPU 上，這種技術(shù)稱為“專家并行”。即使在 NVIDIA Hopper 這樣的高性能平臺(tái)上，部署 MoE 模型仍會(huì)遇到一些挑戰(zhàn)，比如：

內(nèi)存限制：對(duì)于每個(gè) token，GPU 必須從高帶寬內(nèi)存中動(dòng)態(tài)加載被選中專家的參數(shù)，導(dǎo)致內(nèi)存帶寬頻繁承受巨大壓力。

延遲：專家子網(wǎng)絡(luò)必須執(zhí)行近乎瞬時(shí)的 all-to-all 通信模式，以交換信息并形成最終完整的答案。然而在 Hopper 平臺(tái)上，當(dāng)專家組分布于超過八塊 GPU 時(shí)，通信需通過高延遲的橫向擴(kuò)展網(wǎng)絡(luò)進(jìn)行，這限制了專家并行計(jì)算的優(yōu)勢(shì)。

解決方案：極致協(xié)同設(shè)計(jì)

NVIDIA Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)，搭載了 72 塊 NVIDIA Blackwell GPU 協(xié)同工作，如同單一系統(tǒng)般運(yùn)行，提供 1.4 ExaPLOPS AI 性能和 30 TB 高速共享內(nèi)存。這 72 塊 GPU 通過 NVLink Switch 連接成單一龐大的 NVLink 互連結(jié)構(gòu)，使每塊 GPU 都能以 130 TB 每秒的 NVLink 連接速度相互通信。

MoE 模型能夠利用這種設(shè)計(jì)將專家并行擴(kuò)展到遠(yuǎn)超以往的極限——將專家分布在多達(dá) 72 塊 GPU 的更大規(guī)模集群中。

這種架構(gòu)方法通過以下方式直接解決了 MoE 的擴(kuò)展瓶頸：

減少每塊 GPU 上的專家數(shù)量：將專家分布在最多 72 塊 GPU 上，可減少每塊 GPU 承載的專家數(shù)量，從而最大限度減輕對(duì)每塊 GPU 高帶寬內(nèi)存的參數(shù)加載壓力。每塊 GPU 上較少的專家數(shù)量還釋放了內(nèi)存空間，使各 GPU 能夠服務(wù)更多并發(fā)用戶并支持更長(zhǎng)的輸入序列。

加速專家通信：分布于不同 GPU 的專家可通過 NVLink 即時(shí)通信。NVLink Switch 還具備執(zhí)行部分計(jì)算所需的算力以整合來自不同專家的信息，從而加速最終結(jié)果的生成。

其他全棧優(yōu)化措施同樣對(duì)釋放 MoE 模型的卓越推理性能至關(guān)重要。NVIDIA Dynamo框架通過將預(yù)填充和解碼任務(wù)分配至不同 GPU 來協(xié)調(diào)分離服務(wù)，使解碼任務(wù)得以采用大規(guī)模專家并行處理，而預(yù)填充任務(wù)則采用更契合其工作負(fù)載的并行技術(shù)。NVFP4格式在保持精度的同時(shí)，進(jìn)一步提升了性能與效率。

開源推理框架（如 NVIDIA TensorRT-LLM、SGLang 和 vLLM）均支持針對(duì) MoE 模型的這些優(yōu)化方案。其中，SGLang 在推動(dòng)在 Grace Blackwell 平臺(tái)上實(shí)現(xiàn)大規(guī)模 MoE 模型部署方面發(fā)揮了重要作用，助力驗(yàn)證并完善了當(dāng)前廣泛采用的諸多技術(shù)方案。

為了讓全球企業(yè)都能獲得這一卓越性能，Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng) 正通過主要云服務(wù)提供商及NVIDIA 云合作伙伴進(jìn)行部署。

CoreWeave 聯(lián)合創(chuàng)始人兼首席技術(shù)官 Peter Salanki 表示：“在 CoreWeave 平臺(tái)上，客戶正通過構(gòu)建智能工作流，將 MoE 模型實(shí)現(xiàn)大規(guī)模部署。通過與 NVIDIA 的緊密合作，我們得以打造出一個(gè)高度集成的平臺(tái)，能夠?qū)?MoE 模型的性能、可擴(kuò)展性和可靠性融為一體。只有在專為 AI 打造的云平臺(tái)上，才能實(shí)現(xiàn)這樣的突破。”

DeepL 等客戶正采用 Grace Blackwell 機(jī)架級(jí)擴(kuò)展設(shè)計(jì)來構(gòu)建和部署其新一代 AI 模型。

DeepL 研究團(tuán)隊(duì)負(fù)責(zé)人 Paul Busch 表示：“DeepL 正借助 NVIDIA Grace Blackwell 硬件訓(xùn)練 MoE 模型，通過推進(jìn)模型架構(gòu)提升訓(xùn)練與推理階段的效率，為 AI 性能樹立新標(biāo)桿。”

性能體現(xiàn)在每瓦特性能上

NVIDIA Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)能夠高效擴(kuò)展復(fù)雜的元學(xué)習(xí)模型，實(shí)現(xiàn)每瓦性能 10 倍的提升。這一性能飛躍不僅是標(biāo)準(zhǔn)上的突破，它使 token 收入可以實(shí)現(xiàn) 10 倍增長(zhǎng)，徹底改變了 AI 在能效受限、成本敏感型數(shù)據(jù)中心中的規(guī)模化經(jīng)濟(jì)模型。

在華盛頓特區(qū) NVIDIA GTC 大會(huì)上，NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛重點(diǎn)展示了 Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)如何使 DeepSeek-R1 的性能達(dá)到相較在 NVIDIA Hopper 架構(gòu)上實(shí)現(xiàn) 10 倍的提升，且這樣的性能提升同樣適用于其他 DeepSeek 模型。

Together AI 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Vipul Ved Prakash 表示：“憑借 Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)和 Together AI 的定制化優(yōu)化方案，我們?cè)?DeepSeek-V3 等 MoE 模型的大規(guī)模推理工作負(fù)載表現(xiàn)已超越客戶預(yù)期。這些性能提升源于 NVIDIA 的全棧優(yōu)化技術(shù)，結(jié)合了 Together AI 在內(nèi)核、運(yùn)行時(shí)引擎和推測(cè)解碼等領(lǐng)域的推理技術(shù)突破性進(jìn)展。”

這種性能優(yōu)勢(shì)在其他前沿模型中同樣顯而易見。

Kimi K2 Thinking 作為最智能的開源模型，再次印證了其卓越性能——在 Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)部署時(shí)，其代際性能提升達(dá) 10 倍。

Fireworks AI 當(dāng)前在 NVIDIA Blackwell 平臺(tái)部署 Kimi K2 使其在Artificial Analysis (AA) 的榜單上取得最高排名。

Fireworks AI 聯(lián)合創(chuàng)始人兼首席執(zhí)行官喬琳表示：“NVIDIA Grace Blackwell 機(jī)架級(jí)擴(kuò)展設(shè)計(jì)使 MoE 模型運(yùn)行效率大幅提升，展望未來，其有望徹底改變我們運(yùn)行大規(guī)模 MoE 模型的方式，其相較于 Hopper 平臺(tái)實(shí)現(xiàn)的重大性能飛躍，為前沿模型的運(yùn)行速度和效率樹立了全新標(biāo)桿。”

Mistral Large 3 在 Grace Blackwell 機(jī)架級(jí)擴(kuò)展架構(gòu)上實(shí)現(xiàn)了相較前代 Hopper 10 倍的性能提升。這種代際飛躍為這款新型 MoE 模型帶來了更優(yōu)的用戶體驗(yàn)、更低的每 token 成本以及更高的能效表現(xiàn)。

大規(guī)模驅(qū)動(dòng)智能

NVIDIA Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)意在為除 MoE 模型之外的工作負(fù)載也提供強(qiáng)大的性能。

當(dāng)我們審視 AI 的發(fā)展方向時(shí)，原因便不言而喻：新一代多模態(tài) AI 模型擁有處理語言、視覺、音頻等不同模態(tài)的專門化組件，并且僅會(huì)激活與當(dāng)前任務(wù)相關(guān)的部分。

在智能體系統(tǒng)中，不同的”智能體”分別專精于規(guī)劃、感知、推理、工具使用或搜索等任務(wù)，而編排器則統(tǒng)籌這些智能體以實(shí)現(xiàn)單一目標(biāo)。這兩種模式的核心邏輯都與 MoE 相呼應(yīng)：將相關(guān)問題各部分分配給最相關(guān)的專家處理，再協(xié)調(diào)各環(huán)節(jié)輸出以達(dá)成最終結(jié)果。

將這一原理擴(kuò)展至大規(guī)模部署——即多個(gè)應(yīng)用程序和智能體為眾多用戶提供服務(wù)的情境——將釋放出全新的效率水平。這種方法無需為每個(gè)智能體或應(yīng)用程序重復(fù)構(gòu)建龐大的 AI 模型，而是建立一個(gè)共享的專家池供所有系統(tǒng)調(diào)用，確保每個(gè)請(qǐng)求都能精準(zhǔn)路由至對(duì)應(yīng)的專家。

MoE 模型是一種強(qiáng)大的架構(gòu)，正引領(lǐng)行業(yè)邁向大規(guī)模能力、效率與規(guī)模并存的未來。Grace Blackwell 機(jī)架級(jí)擴(kuò)展系統(tǒng)現(xiàn)已解鎖這種潛力，而基于 NVIDIA Vera Rubin 架構(gòu)的 NVIDIA 的路線圖將持續(xù)拓展前沿模型的邊界。

深入了解 Grace Blackwell如何擴(kuò)展復(fù)雜的 MoE 模型，請(qǐng)參閱技術(shù)深度解讀。本文屬于Think SMART系列，該系列分享領(lǐng)先的 AI 服務(wù)提供商、開發(fā)者和企業(yè)如何借助NVIDIA 全棧式推理平臺(tái)的最新技術(shù)突破，提升其推理性能并提高投資回報(bào)率。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴