天堂va久久久噜噜噜久久va,超碰96,91丨九色丨熟女丰满

電子發(fā)燒友網(wǎng)報(bào)道（文/吳子鵬）當(dāng)前，全球端側(cè)AI市場(chǎng)正呈現(xiàn)爆發(fā)式增長(zhǎng)。根據(jù)弗若斯特沙利文的統(tǒng)計(jì)數(shù)據(jù)，全球端側(cè)AI市場(chǎng)規(guī)模預(yù)計(jì)將從2024年的3219億元增長(zhǎng)至2029年的12230億元，復(fù)合年增長(zhǎng)率高達(dá)39.6%。然而，當(dāng)大模型從云端向端側(cè)滲透，算力瓶頸、能效矛盾、開(kāi)發(fā)門檻成為制約端側(cè)AI行業(yè)前進(jìn)的三重枷鎖。

為幫助行業(yè)破解這一難題，國(guó)內(nèi)領(lǐng)先的芯片IP設(shè)計(jì)與服務(wù)提供商安謀科技（中國(guó)）有限公司（以下簡(jiǎn)稱“安謀科技Arm China”）于近日正式發(fā)布了新一代NPU IP——“周易”X3。該產(chǎn)品采用專為大模型打造的最新DSP+DSA架構(gòu)，不僅聚焦硬件性能的飛躍，更通過(guò)軟硬協(xié)同與生態(tài)開(kāi)放，重新定義了端側(cè)AI計(jì)算效率，為基礎(chǔ)設(shè)施、智能汽車、移動(dòng)終端、智能物聯(lián)網(wǎng)四大領(lǐng)域帶來(lái)前所未有的AI計(jì)算體驗(yàn)。

安謀科技Arm China產(chǎn)品研發(fā)副總裁劉浩表示：“在‘All in AI’產(chǎn)品戰(zhàn)略的指引下，我們將持續(xù)加大投入，以前瞻性視野整合頂尖研發(fā)資源，秉持開(kāi)放合作理念，為生態(tài)伙伴提供業(yè)界領(lǐng)先的從硬件、軟件到服務(wù)的端到端解決方案，全力賦能伙伴的產(chǎn)品創(chuàng)新和商業(yè)化落地?！?br />

安謀科技Arm China產(chǎn)品研發(fā)副總裁劉浩

技術(shù)突破：DSP+DSA架構(gòu)實(shí)現(xiàn)端側(cè)AI計(jì)算效能躍升

隨著生成式AI（AIGC）和大模型技術(shù)的快速發(fā)展，智能手機(jī)、AI PC、智能汽車等端側(cè)設(shè)備對(duì)AI能力的需求正呈爆發(fā)式增長(zhǎng)。然而，端側(cè)AI的核心痛點(diǎn)在于“有限資源承載復(fù)雜計(jì)算”。此外，在半導(dǎo)體IP領(lǐng)域，“面向未來(lái)5年的產(chǎn)品方向進(jìn)行前瞻布局”已成為行業(yè)共識(shí)，這讓IC設(shè)計(jì)人員在定義下一代端側(cè)AI計(jì)算芯片時(shí)面臨極大挑戰(zhàn)。

為解決這些產(chǎn)業(yè)難題，“周易”X3 NPU IP應(yīng)運(yùn)而生，旨在打造端側(cè)AI計(jì)算效率的新標(biāo)桿?！爸芤住盭3采用專為大模型打造的DSP+DSA融合架構(gòu)，突破了傳統(tǒng)NPU架構(gòu)的局限——純DSA架構(gòu)雖能高效處理固定算法，但面對(duì)大模型的靈活迭代易陷入“硬管道”困境，而DSP的加入有效彌補(bǔ)了通用計(jì)算的短板。同時(shí)，“周易”X3的架構(gòu)也兼顧了CNN與Transformer的通用架構(gòu)，支持全算力類型并增強(qiáng)浮點(diǎn)運(yùn)算FLOPS，助力實(shí)現(xiàn)從定點(diǎn)到浮點(diǎn)計(jì)算的關(guān)鍵轉(zhuǎn)變。

在架構(gòu)創(chuàng)新方面，“周易”X3還集成了自研解壓硬件WDC，通過(guò)軟件無(wú)損壓縮+硬件解壓的方式，可額外獲得15%-20%的等效帶寬；配合W4A8/W4A16計(jì)算加速模式，有效破解了端側(cè)大模型的帶寬消耗難題；通過(guò)集成AI專屬硬件引擎AIFF（AI Fixed-Function）與專用硬化調(diào)度器，將CPU負(fù)載壓低至0.5%，確保多任務(wù)場(chǎng)景下的低延遲響應(yīng)；支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合計(jì)算及強(qiáng)浮點(diǎn)計(jì)算，可靈活適配智能手機(jī)邊緣部署、AI PC推理、智能汽車等從傳統(tǒng)CNN到前沿大模型的數(shù)據(jù)類型需求，實(shí)現(xiàn)性能與能效的平衡。

談及W4A8/W4A16計(jì)算加速模式創(chuàng)新，安謀科技Arm China產(chǎn)品總監(jiān)鮑敏祺形象地比喻道：“W4A8/W4A16是混合量化策略，旨在平衡模型精度與計(jì)算效率，通過(guò)降低權(quán)重的比特?cái)?shù)來(lái)減少顯存占用，同時(shí)保持激活值較高的精度以最小化推理誤差。如果W4A16計(jì)算是1秒輸出，那么到了W4A8就可能是600毫秒輸出。因?yàn)樵诒ＷC精度的前提下，‘A’（即Activation，激活值）的數(shù)值降低了，就相當(dāng)于算力翻倍。當(dāng)然，端側(cè)需優(yōu)先定義可用模型，再解決系統(tǒng)問(wèn)題——早期端側(cè)聚焦1B-3B模型，但7B模型才具備實(shí)用價(jià)值。當(dāng)端側(cè)要承載更大參數(shù)規(guī)模的AI模型（比如從3B擴(kuò)大到7B），‘W’（即Weight，權(quán)重）也要隨之降低，安謀科技Arm China也在協(xié)同合作伙伴著力優(yōu)化W2A8，以支持7B模型在手機(jī)等終端部署，而保證精度是前提。”

安謀科技Arm China產(chǎn)品總監(jiān)鮑敏祺

這些創(chuàng)新為“周易”X3帶來(lái)了顯著的性能提升：“周易”X3單Cluster支持8-80 FP8 TFLOPS算力靈活配置，單Core帶寬高達(dá)256GB/s。相較于“周易”X2產(chǎn)品，“周易”X3的CNN模型性能提升30%~50%，多核算力線性度達(dá)到70%~80%；在同算力規(guī)格下，AIGC大模型能力較上一代產(chǎn)品實(shí)現(xiàn)10倍增長(zhǎng)。實(shí)測(cè)數(shù)據(jù)顯示，在Llama2 7B大模型中，Prefill階段算力利用率達(dá)72%，Decode階段在自研解壓硬件WDC加持下，有效帶寬利用率超100%。

創(chuàng)新亮點(diǎn)：軟硬協(xié)同，破解端側(cè)AI開(kāi)發(fā)痛點(diǎn)

“周易”X3不僅在硬件上實(shí)現(xiàn)突破，還配套了完善易用的“周易”Compass AI軟件平臺(tái)。通過(guò)“軟硬一體”的協(xié)同設(shè)計(jì)，讓開(kāi)發(fā)者從“能用”到“好用”，顯著提升開(kāi)發(fā)部署效率，破解端側(cè)AI行業(yè)“適配難、周期長(zhǎng)、門檻高”的痛點(diǎn)。

對(duì)此，鮑敏祺指出：“‘周易’X3遵循‘軟硬協(xié)同、全周期服務(wù)與成就客戶’的產(chǎn)品準(zhǔn)則，提供從硬件、軟件到售后服務(wù)的全鏈路支持，以前瞻性設(shè)計(jì)、專業(yè)團(tuán)隊(duì)交付與深度服務(wù)投入，全面助力客戶產(chǎn)品成功與商業(yè)化落地?！?br />
Compass AI軟件平臺(tái)實(shí)現(xiàn)了從模型導(dǎo)入到部署的端到端支持，兼容TensorFlow、ONNX、PyTorch等主流AI框架，覆蓋超160種算子與270多種模型，提供開(kāi)箱即用的Model Zoo。其創(chuàng)新的Hugging Face模型“一鍵部署”功能，讓開(kāi)發(fā)者無(wú)需復(fù)雜適配即可實(shí)現(xiàn)大模型的端側(cè)落地，大幅縮短開(kāi)發(fā)周期。

針對(duì)大模型的動(dòng)態(tài)特性，Compass AI平臺(tái)具備業(yè)界領(lǐng)先的動(dòng)態(tài)Shape支持能力，可高效處理任意長(zhǎng)度輸入序列；同時(shí)支持GPTQ等主流量化方案及Tensor/Channel/Token Level多樣量化方式，配合Bit精度軟件仿真平臺(tái)，讓開(kāi)發(fā)者在平衡性能與精度時(shí)更具靈活性。豐富的調(diào)試工具與白盒部署能力，更滿足了深度開(kāi)發(fā)場(chǎng)景下的定制需求。

同時(shí)，安謀科技Arm China深知生態(tài)的核心在于“開(kāi)放”，已將Compass AI平臺(tái)的Parser、Optimizer、Linux Driver等核心組件開(kāi)放，成為行業(yè)內(nèi)少數(shù)開(kāi)放量化能力的廠商。通過(guò)支持DSL算子編程語(yǔ)言，客戶可自主開(kāi)發(fā)自定義算子或打造專屬模型編譯器，實(shí)現(xiàn)差異化創(chuàng)新。這種“開(kāi)放”的策略，既降低了中小開(kāi)發(fā)者的入門門檻，也為大客戶提供了深度定制的空間。

安謀科技Arm China NPU產(chǎn)品線負(fù)責(zé)人兼首席架構(gòu)師舒浩博士總結(jié)道：“‘周易’X3的產(chǎn)品優(yōu)勢(shì)，源于通用、靈活、高效且軟硬協(xié)同的系統(tǒng)架構(gòu)設(shè)計(jì)，這一設(shè)計(jì)使其兼具廣泛的行業(yè)適用性與靈活的邊端側(cè)AI應(yīng)用場(chǎng)景匹配能力?！?br />

安謀科技Arm China NPU產(chǎn)品線負(fù)責(zé)人兼首席架構(gòu)師舒浩博士

應(yīng)用場(chǎng)景：從“可用”到“好用”的端側(cè)AI革命

“周易”X3的產(chǎn)品定位精準(zhǔn)覆蓋基礎(chǔ)設(shè)施、智能汽車、移動(dòng)終端、智能物聯(lián)網(wǎng)四大核心領(lǐng)域，將算力轉(zhuǎn)化為實(shí)實(shí)在在的應(yīng)用價(jià)值。

在基礎(chǔ)設(shè)施領(lǐng)域，其支持CNN與大模型的混合加速，為邊緣計(jì)算節(jié)點(diǎn)與加速卡提供核心算力，成為數(shù)據(jù)中心算力的重要補(bǔ)充；在智能汽車領(lǐng)域，“周易”X3既可以在ADAS系統(tǒng)中為自動(dòng)泊車等輔助駕駛功能提供高性能AI算力支持，也可以在IVI（車載信息娛樂(lè)系統(tǒng)）中支持基于語(yǔ)音與車內(nèi)外視頻圖像輸入的智能互動(dòng)；在移動(dòng)終端方面，可在AI PC與AI手機(jī)上實(shí)現(xiàn)超分渲染與AI Agent應(yīng)用，讓端側(cè)多模態(tài)交互更流暢；在智能物聯(lián)網(wǎng)領(lǐng)域，通過(guò)本地AI推理提升智能網(wǎng)關(guān)、IPC等設(shè)備的響應(yīng)速度，兼顧實(shí)時(shí)性與隱私保護(hù)。

從產(chǎn)品家族演進(jìn)來(lái)看，“周易”系列已形成從Z1到X3的完整布局，覆蓋從入門級(jí)AIoT到高端智能設(shè)備的全場(chǎng)景需求。現(xiàn)場(chǎng)展示的DeepSeek-R1-Distill-Qwen-1.5B文生文、Stable Diffusion v1.5文生圖等Demo，直觀呈現(xiàn)了端側(cè)大模型的落地效果。

結(jié)語(yǔ)

“周易”X3 NPU IP的發(fā)布，不僅是安謀科技Arm China技術(shù)實(shí)力的體現(xiàn)，更是端側(cè)AI規(guī)?；渴鸬年P(guān)鍵一步。通過(guò)軟硬協(xié)同、前瞻布局和生態(tài)開(kāi)放，它有望推動(dòng)端側(cè)AI從“功能實(shí)現(xiàn)”走向“場(chǎng)景深化”，為智能汽車、移動(dòng)終端等領(lǐng)域注入新動(dòng)力。隨著行業(yè)對(duì)算力、精度和易用性需求的持續(xù)演化，安謀科技Arm China的戰(zhàn)略實(shí)踐或?qū)⒊蔀橹袊?guó)AI芯片IP發(fā)展的參考范式。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴