本周GTC 2026正在上演,英偉達(dá)CEO黃仁勛再次強(qiáng)調(diào)了AI工廠的概念,表明核心為構(gòu)建覆蓋云、邊緣乃至太空的全棧AI基礎(chǔ)設(shè)施,并提出到2027年相關(guān)營收將達(dá)1萬億美元的預(yù)測(cè)。從云端來看,本次GTC聚焦Vera Rubin AI工廠平臺(tái)。它是一個(gè)由Vera CPU、Rubin GPU、NVLink 6及CPO共封裝光學(xué)交換機(jī)等七種芯片構(gòu)成的完整系統(tǒng),旨在將整個(gè)數(shù)據(jù)中心整合為一臺(tái)巨型計(jì)算機(jī)。為應(yīng)對(duì)推理成本的挑戰(zhàn),英偉達(dá)還引入了與Groq合作的LPU推理架構(gòu),通過讓GPU負(fù)責(zé)“預(yù)填充”、LPU專攻“解碼”的協(xié)同模式,將推理的每瓦特Token生成效率提升了35倍。
從Scale-out和Scale-up互聯(lián)角度來看,英偉達(dá)過去2年并沒有在架構(gòu)上做過多的革新,而是著重強(qiáng)調(diào)Scale-up的大規(guī)模HBD擴(kuò)展,通過革新NVLink 與 NVSwitch整體性能構(gòu)建Scale-up網(wǎng)絡(luò),并通過 Spectrum 以太網(wǎng)交換機(jī)與 ConnectX 網(wǎng)卡的持續(xù)升級(jí)構(gòu)建 Scale-out 網(wǎng)絡(luò)。英偉達(dá)代表的是一個(gè)整體的AI交付解決方案,也是一種以英偉達(dá)計(jì)算芯片及其互聯(lián)體系所衍生的封閉生態(tài)。
大家還沉浸在英偉達(dá)AI全棧的狂歡中,整個(gè)北美的AI網(wǎng)絡(luò)正在以不同的形態(tài)演進(jìn)。近期,OCP正式發(fā)布ESUN(Ethernet for Scale-up Networking,面向縱向擴(kuò)展網(wǎng)絡(luò)的以太網(wǎng))1.0規(guī)范,旨在解決傳統(tǒng)以太網(wǎng)在大規(guī)模AI集群場(chǎng)景下的多維度瓶頸——包括小數(shù)據(jù)包傳輸開銷過高、多供應(yīng)商設(shè)備互操作性缺失、無損傳輸能力不足等長(zhǎng)期痛點(diǎn),最終目標(biāo)是將標(biāo)準(zhǔn)以太網(wǎng)打造為支撐EB級(jí)AI工作負(fù)載。

(圖:ESUN 協(xié)議棧)
而在北美云廠商巨頭一側(cè),打破Scale-out與Scale-up互聯(lián)生態(tài)區(qū)隔的新形態(tài)正在逐步上演。Scale-up、Scale-across 和 Scale-out 之間的界限在硬件最強(qiáng)勢(shì)的北美正在逐步模糊化。

(圖源:semiengineering.com)
北美互聯(lián)架構(gòu)創(chuàng)新案例:Maia 200
On Die NIC 網(wǎng)卡(NIC)集成進(jìn)主芯片
Maia 200 是微軟第一顆為 AI 推理場(chǎng)景深度定制的系統(tǒng)級(jí)芯片,于 2026 年 1 月正式發(fā)布。它基于 TSMC N3(3nm)工藝制造,集成超過 1400 億晶體管,TDP 功耗包絡(luò)為 750W,在算力密度、內(nèi)存容量與互聯(lián)帶寬三個(gè)維度上均實(shí)現(xiàn)了跨代躍升。
Maia 200 最具革命性的架構(gòu)決策,是將高性能以太網(wǎng) NIC 直接集成到主芯片 Die 上(On-Die NIC),通過這種方式實(shí)現(xiàn)了Scale-out和Scale-up網(wǎng)絡(luò)的融合,這一設(shè)計(jì)具體實(shí)現(xiàn)如下:

(參考第一代Maia 100其構(gòu)建的Scale-up組網(wǎng)形態(tài))
1片間帶寬
提供單向帶寬 1.4 TB/s ,雙向帶寬2.8 TB/s 。
2互聯(lián)形態(tài)
在機(jī)架內(nèi)部,四顆Maia 200通過直接鏈路全連接,形成計(jì)算域;跨機(jī)架基于自研ATL(AI傳輸層)協(xié)議,基于標(biāo)準(zhǔn)以太網(wǎng)物理層進(jìn)行大規(guī)模擴(kuò)展,從而實(shí)現(xiàn)低延遲、無損的集合通信。比上一代Maia 100有所升級(jí)的是,ATL 網(wǎng)絡(luò)用于硬件級(jí)的包噴灑,多路徑路由、擁塞感知流量控制等高性能RDMA技術(shù),可覆蓋更大的集群域。
3互聯(lián)規(guī)模
多個(gè)節(jié)點(diǎn)內(nèi)計(jì)算單元(4顆一組)通過工業(yè)標(biāo)準(zhǔn)高密度以太網(wǎng)交換機(jī) ASIC 互聯(lián),形成可擴(kuò)展至 6,144 臺(tái)加速器的統(tǒng)一Scale-up 域,覆蓋 MoE 模型的全局 All-to-All 專家路由流量。
總結(jié),Maia 200 架構(gòu)雖然相對(duì)激進(jìn),但用同一物理層的以太網(wǎng),同時(shí)承載 Scale-up 和 Scale-out 流量,通過 ATL 協(xié)議層差異化處理兩類通信語義從而實(shí)現(xiàn)了統(tǒng)一的 Scale-up 與 Scale-out 網(wǎng)絡(luò)棧,大幅降低了部署和運(yùn)維復(fù)雜度。
北美互聯(lián)架構(gòu)創(chuàng)新案例:Meta MTIA系列
Meta 的高速迭代策略并非試圖“預(yù)測(cè)”模型走向,而是通過縮短反饋閉環(huán)來“緊跟”模型演變。AI 模型的迭代速度,快于傳統(tǒng)芯片的研發(fā)周期。芯片設(shè)計(jì)基于對(duì)未來工作負(fù)載的預(yù)測(cè),但等硬件量產(chǎn)上線時(shí)(通常需要兩年時(shí)間),這些工作負(fù)載可能已發(fā)生巨大變化。Meta沒有孤注一擲、長(zhǎng)期等待,而是刻意采用迭代式研發(fā)思路:每一代 MTIA 都基于上一代優(yōu)化,采用模塊化小芯片(芯粒,將大芯片拆分為多個(gè)獨(dú)立小模塊拼接,降低研發(fā)難度、提升復(fù)用性)設(shè)計(jì),融入最新的 AI 工作負(fù)載洞察與硬件技術(shù),并以更短的周期完成部署。這種更緊湊的迭代閉環(huán),讓Meta的硬件能更好地適配不斷演變的模型,同時(shí)加速新技術(shù)的落地應(yīng)用。這一技術(shù)創(chuàng)新和奇異摩爾的Kiwi Fabric 計(jì)算與芯粒解耦技術(shù)路線不謀而合。
Meta 芯片MTIA的快速迭代
Meta發(fā)布的這四款A(yù)I芯片分別為MTIA 300、MTIA 400、MTIA 450和MTIA 500,由Meta與博通公司合作開發(fā),基于開源的RISC-V架構(gòu)并由TSMC生產(chǎn)。目前,MTIA 300已經(jīng)開始生產(chǎn),預(yù)計(jì)其他3款芯片將在2027年初至年底之間出貨。



(圖源:微軟)
摩爾定律的放緩并未束縛定制硅片的步伐。從MTIA 300到MTIA 500,Meta在不到兩年的時(shí)間里,完成了內(nèi)存帶寬4.5倍、計(jì)算性能25倍的跨越式增長(zhǎng)。同時(shí),Scale-Up互聯(lián)能力從初代奠基走向成熟,已實(shí)現(xiàn)對(duì)72卡的全連接支持,并以1.2 TB/s的聚合帶寬,將多顆芯片無縫整合為統(tǒng)一的算力節(jié)點(diǎn)——這正是系統(tǒng)級(jí)協(xié)同設(shè)計(jì)的威力所在。
網(wǎng)絡(luò)接口芯粒創(chuàng)新
從MTIA 300開始,其顯著特點(diǎn)包括內(nèi)置網(wǎng)卡芯片、用于卸載通信任務(wù)的專用消息引擎、用于歸約任務(wù)的近內(nèi)存計(jì)算。這些低延遲、高帶寬的通信組件為后續(xù)MTIA芯片中高效的GenAI推理和訓(xùn)練奠定了基礎(chǔ)。在之后的迭代中,每代 MTIA 均內(nèi)置 2個(gè)網(wǎng)絡(luò)芯粒,相當(dāng)于將 NIC 集成進(jìn)封裝內(nèi)部。這個(gè)技術(shù)路徑與上述微軟Maia 200 的設(shè)計(jì)趨同。
1專用消息引擎
負(fù)責(zé)卸載AllReduce、AllGather等集合通信操作,使計(jì)算芯粒得以從繁重的同步任務(wù)中徹底解放,專注執(zhí)行矩陣運(yùn)算。
2近內(nèi)存計(jì)算
在數(shù)據(jù)不離開芯片存儲(chǔ)層次的前提下完成Reduce類集合操作,大幅降低跨芯粒通信的延遲與能耗。
3內(nèi)置網(wǎng)絡(luò)芯粒
將NIC功能從獨(dú)立板卡“溶解”進(jìn)芯片封裝,實(shí)現(xiàn)通信路徑的物理級(jí)縮短,為構(gòu)建低開銷、高密度的Scale-up互連提供硬件基礎(chǔ)。
現(xiàn)有需求與未來演進(jìn)的靈活組合
從 DeepSeek V3 問世至今不足 15 個(gè)月,AI 的進(jìn)化速度已徹底超越人類的認(rèn)知象限。縱觀海外, 北美市場(chǎng) AI 用戶習(xí)慣已深度成型,中國出海軍團(tuán)正在奮起直追。MiniMax 2025 年全年?duì)I收達(dá) 7903.8 萬美元(同比增長(zhǎng) 158.9%),其中海外收入 5766 萬美元,占比 73%,覆蓋全球超 200 個(gè)國家和地區(qū)、累計(jì)服務(wù) 2.36 億用戶。Kimi 旗下 K2.5 大模型發(fā)布不足 20 天,累計(jì)收入便超越 2025 年全年總額,海外收入首次超越國內(nèi)。
聚焦國內(nèi):AI 正以前所未有的速度貼近每一位普通用戶。字節(jié)Seedance 2.0 作為首款落地春晚級(jí)超高清直播場(chǎng)景的 AI 視頻大模型,在央視春晚直播中實(shí)現(xiàn)實(shí)時(shí)渲染,引發(fā)全球矚目。與此同時(shí),開源 AI 智能體 OpenClaw("養(yǎng)龍蝦")在發(fā)布兩周內(nèi)席卷全網(wǎng)熱搜,引發(fā)廣大普通消費(fèi)者關(guān)注。
而互聯(lián),作為支撐AI Workload的重要硬件一環(huán),其技術(shù)演進(jìn)不可忽視。就現(xiàn)有廣泛部署的基礎(chǔ)設(shè)施而言,面向 Scale-out 的網(wǎng)絡(luò)仍占重要席位,成熟的 RDMA over Ethernet 生態(tài)已在數(shù)據(jù)中心大規(guī)模落地。以 CX-7 系列為代表的高性能 RDMA 網(wǎng)卡,將端到端延遲壓縮至 800 ns 以內(nèi),相比傳統(tǒng)標(biāo)準(zhǔn)網(wǎng)卡實(shí)現(xiàn) 延遲降低 79%、消息率提升 345%,也是當(dāng)前國內(nèi)主流應(yīng)用網(wǎng)卡。下一代支持高性能RDMA技術(shù)的AI NIC 在國產(chǎn)化替代政策的明確支持下成為重點(diǎn)突破方向并迎來從驗(yàn)證到規(guī)模部署應(yīng)用的關(guān)鍵窗口期。
AI Workload 的快速進(jìn)階——從 Dense Transformer 到 MoE、從短上下文到超長(zhǎng)推理鏈、從訓(xùn)練主導(dǎo)到推理主導(dǎo)——正在為 Scale-up 與 Scale-out 的全局架構(gòu)帶來巨大的不確定性。如今的超節(jié)點(diǎn)網(wǎng)絡(luò)演進(jìn)對(duì)于未來的硬件所需的性能及架構(gòu)提出了挑戰(zhàn)。正如北美市場(chǎng)2大云巨頭的布局,網(wǎng)絡(luò)功能正在從"GPU 附屬品"演變?yōu)楠?dú)立的、可單獨(dú)迭代的核心計(jì)算基礎(chǔ)設(shè)施單元。本質(zhì)上都是在回答同一個(gè)問題:如何在AI快速演進(jìn)迭代下讓互聯(lián)能力與計(jì)算能力以不同的速度獨(dú)立進(jìn)化,同時(shí)最大化整個(gè)超節(jié)點(diǎn)的系統(tǒng)效率。
奇異摩爾的答案:以芯粒為形態(tài), 構(gòu)建覆蓋現(xiàn)在與未來的雙軌互聯(lián)產(chǎn)品線
SoC 單一路徑的本質(zhì)矛盾:它是為穩(wěn)定時(shí)代設(shè)計(jì)的產(chǎn)品形態(tài),卻要服務(wù)于一個(gè)激進(jìn)迭代的時(shí)代。以芯粒為形態(tài)構(gòu)成的AI NIC、基于以太網(wǎng)并支持內(nèi)存語義的G2G IOD互聯(lián)芯粒可分別對(duì)應(yīng)現(xiàn)有和未來AI 網(wǎng)絡(luò)演進(jìn)的產(chǎn)品解決方案,更符合應(yīng)對(duì)未來AI Model的快速迭代。
一方面,未來無論是Scale-out還是Scale-up網(wǎng)絡(luò),對(duì)于網(wǎng)絡(luò)傳輸都需要具備不同層級(jí)的重傳和流控機(jī)制,例如Link Level Retry鏈路層重傳、Credit based flow control基于信用的流量控制機(jī)制等技術(shù)。另一方面,Scale-up相對(duì)Scale-out的傳輸速率要求更高、要求時(shí)延更低,但規(guī)模較小。Scale-up 網(wǎng)絡(luò)面向千卡萬卡,需要更簡(jiǎn)潔高效的傳輸協(xié)議,和基于包的無損多徑網(wǎng)絡(luò)的控制算法。
奇異摩爾基于自己獨(dú)創(chuàng)的HPDE引擎,在統(tǒng)一的微架構(gòu)下,根據(jù)網(wǎng)絡(luò)的不同需求,最大程度復(fù)用公共基礎(chǔ)IP,將不同層次的網(wǎng)絡(luò)傳輸功能分別集成在AI SNIC和GPU互聯(lián)芯粒G2G IOD產(chǎn)品中,實(shí)現(xiàn)研發(fā)平臺(tái)的可復(fù)用性和具靈活性, 從容面對(duì)未來Scale-out和Scale-up網(wǎng)絡(luò)的融合。
開放共創(chuàng)AI Infra未來,奇異摩爾
受邀出席2026 Open AI Infra Summit
4月9-10日,奇異摩爾受邀出席2026 Open AI Infra Summit大會(huì)。會(huì)上奇異摩爾網(wǎng)絡(luò)架構(gòu) VP 葉棟將在其《AI 原生時(shí)代:基于 Scale Out 及 Scale Up 網(wǎng)絡(luò)的智算互聯(lián)解決方案》的演講中,分享奇異摩爾對(duì) AI 智算場(chǎng)景的深度理解,逐一拆解當(dāng)前 Scale-out 與 Scale-up 網(wǎng)絡(luò)面臨的需求與挑戰(zhàn),并分享奇異摩爾在 AI 原生超級(jí)網(wǎng)卡與超節(jié)點(diǎn)互聯(lián)芯粒技術(shù)上的最新解決方案,探討如何通過開放、高效的互聯(lián)技術(shù),為 AI 高性能計(jì)算提供更堅(jiān)實(shí)、更強(qiáng)勁的支撐。
綜上而言,技術(shù)終將更迭,架構(gòu)總會(huì)重塑,但商業(yè)的底層邏輯從未改變——趨勢(shì)洞察決定方向,風(fēng)險(xiǎn)規(guī)避決定存活,而交付能力,決定了一家企業(yè)能否在AI的牌桌上坐到最后。 當(dāng)大潮退去,裸泳者消失,留下來的人將證明:看清本質(zhì)是智慧,靈活轉(zhuǎn)身是勇氣,而持續(xù)交付,才是一家企業(yè)最深沉的護(hù)城河。
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
8300瀏覽量
95353 -
AI
+關(guān)注
關(guān)注
91文章
40400瀏覽量
301967 -
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4108瀏覽量
99432
原文標(biāo)題:現(xiàn)在還是未來?從北美顛覆性創(chuàng)新看AI網(wǎng)絡(luò)互聯(lián)技術(shù)的演進(jìn)
文章出處:【微信號(hào):奇異摩爾,微信公眾號(hào):奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
AI算法能給電源管理帶來哪些顛覆性改變
工業(yè)制造顛覆性挑戰(zhàn)
恭賀!同星智能TSMaster項(xiàng)目榮獲2025全國顛覆性技術(shù)創(chuàng)新大賽優(yōu)勝獎(jiǎng)
5G與6G:從“萬物互聯(lián)“到“智能無界“的跨越
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)
傾佳電子Hydrogen Rectifier制氫電源拓?fù)洹?b class='flag-5'>技術(shù)演進(jìn)與SiC功率模塊的顛覆性作用
從生成式AI到代理式AI:半導(dǎo)體技術(shù)賦能下一波創(chuàng)新浪潮
高德地圖攜手夸克AI眼鏡開啟出行新方式
研華科技榮膺2025智能制造行業(yè)榮格技術(shù)創(chuàng)新獎(jiǎng)
【書籍評(píng)測(cè)活動(dòng)NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》
信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代
阿里展廳同款無人超市技術(shù)解析:RFID與AI視覺如何顛覆零售?
從北美顛覆性創(chuàng)新看AI網(wǎng)絡(luò)互聯(lián)技術(shù)的演進(jìn)
評(píng)論