作者:Arm 終端事業(yè)部產(chǎn)品管理高級總監(jiān) Kinjal Dave
移動設(shè)備正逐步演進為由人工智能 (AI) 所驅(qū)動的工具,能夠適配、預(yù)測并提升人們與世界互動的方式。而隨著端側(cè) AI 變得更加先進和成熟,移動芯片所面臨的壓力也在不斷加劇。
加速產(chǎn)品周期(即每新一代旗艦移動設(shè)備的推出速度都快于上一代)意味著芯片供應(yīng)商和 OEM 廠商必須在更緊迫的時間內(nèi)實現(xiàn)創(chuàng)新,幾乎沒有出錯余地。在面積和散熱受限的移動設(shè)備尺寸條件下,要實現(xiàn)為保持 AI 性能而采用的先進封裝技術(shù),是一項極具挑戰(zhàn)的任務(wù)。與此同時,向 3 納米等更小工藝節(jié)點的發(fā)展也帶來了復(fù)雜的設(shè)計難題。
這正是 Arm 推出集成平臺的原因,通過將 Arm CPU 和 GPU IP,與物理實現(xiàn)和部署就緒的軟件棧相結(jié)合,從而加快產(chǎn)品上市進程,并在最新的先進工藝節(jié)點上實現(xiàn)業(yè)界領(lǐng)先的性能。而 Arm Lumex 就是 Arm 新的專用計算子系統(tǒng) (Compute Subsystem, CSS) 平臺,旨在滿足旗艦移動設(shè)備和 PC 上持續(xù)增長的端側(cè) AI 體驗需求。
為 AI 優(yōu)先時代重新設(shè)計
Lumex 為模塊化且高度可配置的平臺提供最新的協(xié)同設(shè)計、協(xié)同優(yōu)化的 Arm 計算 IP 和先進特性:
新的 Armv9.3 C1 CPU 集群:提供領(lǐng)先的每時鐘周期指令數(shù) (IPC) 性能,并內(nèi)建第二代 Arm 可伸縮矩陣擴展 (SME2)單元,在 CPU 集群上帶來響應(yīng)更迅速的加速 AI 體驗。
新的 Arm Mali G1-Ultra:在實現(xiàn)更快的 AI 推理能力的同時,通過新一代的光線追蹤功能,帶來桌面級別的視覺效果與更豐富的游戲體驗。
新的系統(tǒng) IP 包含 Arm SI L1 系統(tǒng)互連與 Arm MMU L1 系統(tǒng)內(nèi)存管理單元:旨在消除系統(tǒng)性能瓶頸,以及降低推理密集型和計算密集型工作負載中的延遲。
3 納米就緒的 CPU 和 GPU 物理實現(xiàn):專為實現(xiàn)業(yè)界領(lǐng)先的功耗、性能與面積 (PPA) 而打造,并加速在芯片上實現(xiàn)旗艦級性能的進程。

跨 CPU 和 GPU 技術(shù)加速實際場景的 AI 性能
在 CPU 方面,啟用 SME2 技術(shù)的 Armv9.3 C1 CPU 集群結(jié)合了 Arm KleidiAI 對主流框架和運行時庫的原生支持,在包括典型機器學(xué)習(xí) (ML) 推理、語音及生成式 AI 等在內(nèi)的廣泛 AI 工作負載中,相較于上一代 CPU 集群,在相同條件下實現(xiàn)了顯著的速度提升。同時帶來了五倍的 AI 性能提升,以及三倍的能效優(yōu)化。這些基于 SME2 的改進使得用戶能在其常用的消費類電子設(shè)備上享受更流暢的 AI 交互體驗,并獲得更長的續(xù)航時間。

此外,得益于微架構(gòu)優(yōu)化和核心間更緊密的集成,Arm C1 CPU 集群在性能與能效方面樹立了新標(biāo)桿,具體表現(xiàn)為:
在六項行業(yè)領(lǐng)先性能基準測試中,相較于上一代 CPU 集群,在相同條件下的性能水平,平均提升 30%;
在主流應(yīng)用(包括游戲和視頻流媒體)中,相較于上一代 CPU 集群,在相同條件下平均速度提升了 15%;
在視頻播放、社交媒體和網(wǎng)頁瀏覽等日常移動工作負載中,相較于上一代 CPU 集群,在相同條件下的功耗,平均降低 12%;
相較于上一代Arm Cortex-X925 CPU,Arm C1-Ultra CPU 帶來兩位數(shù)的 IPC 性能提升。
Mali G1-Ultra 進一步提升了 AI 性能與效率,相較于上一代 Arm Immortalis-G925 GPU,其在 AI 和 ML 網(wǎng)絡(luò)中的推理速度加快了 20%。
在游戲方面,得益于新的 Arm 光線追蹤單元 v2 (Ray Tracing Unit v2, RTUv2),Mali G1-Ultra 將光線追蹤性能提升了兩倍,為移動設(shè)備帶來了高端桌面級視覺效果;在主流行業(yè)基準測試與游戲應(yīng)用(包括《暗區(qū)突圍》、《堡壘之夜》、《原神》、《崩壞:星穹鐵道》等)中,Mali G1-Ultra 實現(xiàn)了 20% 的圖形性能增長。
Lumex 的可擴展系統(tǒng)主干
要支持 AI 優(yōu)先體驗,不能只局限于計算 IP 的迭代,移動系統(tǒng)級芯片 (SoC) 必須在整個互連和內(nèi)存架構(gòu)層面持續(xù)演進。
正因如此,Arm 推出新的可擴展系統(tǒng)互連,專為滿足高要求 AI 和其他計算密集型工作負載的帶寬與延遲需求而優(yōu)化,可確保在 Lumex 上保持性能領(lǐng)先,同時不影響系統(tǒng)響應(yīng)速度。新的 SI L1 系統(tǒng)互連配備業(yè)內(nèi)先進的,且具有出色面積效率的系統(tǒng)級緩存 (SLC) ,相比標(biāo)準編譯的 RAM,其泄漏功耗降低了 71%,大幅減少了待機功耗。
對于合作伙伴而言,該系統(tǒng)互連技術(shù)提供高度靈活的可擴展解決方案,可針對各類手機和消費類電子設(shè)備優(yōu)化 PPA 需求。SI L1 系統(tǒng)互連面向旗艦移動設(shè)備,具備完全集成的可選 SLC 并支持Arm 內(nèi)存標(biāo)記擴展 (Memory Tagging Extension, MTE)特性,可提供一流的安全性;而 Arm NoC S3 片上網(wǎng)絡(luò)互連則面向注重成本且非一致性的移動系統(tǒng)。
除新的互連技術(shù)外,Arm 還推出了新一代 Arm MMU L1 系統(tǒng)內(nèi)存管理單元,該技術(shù)可在各類手機及消費類電子設(shè)備上實現(xiàn)安全,且成本高效的可擴展虛擬化。
通過物理實現(xiàn)成就業(yè)界領(lǐng)先的 PPA
Lumex 提供針對 3 納米工藝優(yōu)化、生產(chǎn)就緒的 CPU 和 GPU 實現(xiàn),已為多家晶圓代工廠所支持,如此一來,Arm 的芯片合作伙伴和 OEM 廠商能夠:
將這些實現(xiàn)作為靈活的構(gòu)建模塊,以便專注于 CPU 和 GPU 集群層面的差異化設(shè)計;
實現(xiàn)卓越的頻率和 PPA;
在向最新 3 納米工藝節(jié)點過渡時,助力確保芯片一次流片成功。
開發(fā)者即刻暢享 Lumex 優(yōu)勢
為充分釋放 Lumex 性能潛力,開發(fā)者需在實際設(shè)備上市前提前獲取其功能。為此 Arm 推出全新系列的軟件與工具,助力開發(fā)者即刻著手原型設(shè)計、構(gòu)建 AI 工作負載,以及利用 Lumex CSS 平臺的完整 AI 功能。具體包括:
完整的 Android 16 就緒軟件棧,涵蓋可信固件至應(yīng)用程序?qū)樱?/p>
完整且免費的啟用 SME2 的 KleidiAI 軟件庫;
全新的自頂向下的遙測解決方案,用于分析應(yīng)用性能、識別瓶頸并優(yōu)化算法。
KleidiAI 在推出的第一年便大獲成功,現(xiàn)已集成至所有主流的 AI 框架,并廣泛應(yīng)用于各類應(yīng)用程序、設(shè)備,以及安卓等系統(tǒng)服務(wù)。這為接下來開展工作夯實根基,當(dāng)基于 Lumex 的設(shè)備在未來數(shù)月上市時,應(yīng)用程序即刻就能在其 AI 工作負載上實現(xiàn)性能和效率提升。
在圖形處理方面,隨著未來的安卓版本將支持 RenderDoc,以及通過 Lumex 提供 Vulkan 計數(shù)器、Streamline 和 Perfetto 等統(tǒng)一可觀測性工具,開發(fā)者能夠?qū)崟r分析工作負載、調(diào)優(yōu)延遲,并精確平衡電池續(xù)航與視覺效果。

為新一代移動智能奠定基礎(chǔ)
移動計算正邁入一個全新的時代,而智能的構(gòu)建、擴展與交付方式正在定義這個新時代。隨著 AI 成為所有體驗的基礎(chǔ),平臺必須具備預(yù)測、適配、擴展和加速未來發(fā)展的能力。
Lumex 正是基于這一未來愿景而設(shè)計,讓整個生態(tài)系統(tǒng)全面受惠。無論是打造、擴展創(chuàng)新設(shè)備的 OEM 廠商,還是構(gòu)建新一代應(yīng)用的開發(fā)者,Lumex 都能助力 Arm 生態(tài)系統(tǒng)更輕松地交付差異化的 AI 優(yōu)先平臺與體驗——以更智能的性能實現(xiàn)更快速的大規(guī)模部署。
-
ARM
+關(guān)注
關(guān)注
135文章
9580瀏覽量
393260 -
gpu
+關(guān)注
關(guān)注
28文章
5245瀏覽量
135999 -
AI
+關(guān)注
關(guān)注
91文章
40715瀏覽量
302372 -
人工智能
+關(guān)注
關(guān)注
1819文章
50231瀏覽量
266606
原文標(biāo)題:全新 Arm Lumex CSS 平臺加速開發(fā)周期,實現(xiàn)可擴展的高性能端側(cè) AI
文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
新思科技助力Arm Zena CSS快速落地的完整VDK平臺
云開發(fā)者正加速向Arm架構(gòu)遷移
西門子EDA與Arm攜手合作加速系統(tǒng)設(shè)計驗證進程與軟件啟動
Arm Lumex平臺賦能新一代旗艦智能手機體驗升級
Arm亮相2025 OPPO開發(fā)者大會
深入解析Arm Zena CSS計算平臺
Arm正式取消Cortex命名!CPU向著高算力進發(fā),Lumex CSS平臺加持!
深入解析面向不同市場的多樣化Arm計算子系統(tǒng)
全新Arm Lumex CSS平臺加速開發(fā)周期
評論