国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

章鷹觀察 ? 來源:電子發燒友原創 ? 作者:章鷹 ? 2025-08-13 08:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(電子發燒友網報道 文/章鷹)8月12日,在2025金融AI推理應用落地與發展論壇上,華為公司副總裁、數據存儲產品線總裁周越峰宣布,華為此次和銀聯聯合創新,推出AI推理創新技術UCM(推理記憶數據管理其器)和管理系統的算法,這項突破性成果降低對HBM技術的依賴,提升國內AI大模型的推理能力。


該技術是一款以KV Cache為中心的推理加速套件,UCM集成了多類型緩存加速算法工具,實現推理過程中KV Cache記憶數據的分級管理,從而擴大推理上下文窗口,提升推理效率。“銀聯的實際案例和大量測試顯示,UCM顯著降低首Token的時延,最高降低90%,系統吞吐率最大提升22倍,上下文的推理窗口可以擴展10倍以上,這是對于AI推理系統一個巨大的進步。” 周越峰指出。

華為UCM技術已率先應用在中國銀聯“客戶之聲”、“營銷策劃”和“辦公助手”三大業務場景,開展智慧金融AI推理加速應用試點,并且已經取得成果。華為表示,計劃于2025年9月正式開源UCM,將在魔擎社區首發,并共享給業內所有Share Everything(共享架構)存儲廠商和生態伙伴。

AI大模型推理給存儲帶來哪些挑戰?UCM的創新之處如何解讀?本文結合中國信通院人工智能研究平臺與工程化部主任曹峰、華為數據存儲產品線AI存儲首席架構師李國杰的觀點,進行詳細分析。

AI大模型推理給存儲帶來三重挑戰

“ChatGPT的訪問量呈現線性增長,最新訪問量達到4億,受益于中國AI大模型DeepSeek爆發,日均調用量也在快速上升,2025年1月開始,中國AI推理的需求增長20倍,未來三年算力需求爆發。IDC表示,2024年算力需求60%是訓練,40%是推理,到2027年中國用于推理的算力需求——工作負載將達到72.6%。” 中國信通院人工智能研究平臺與工程化部主任曹峰分析說。

當下,AI大模型推理應用落地中,遇到推不動、推得慢和推得貴的三大挑戰。首先,長文本越來越多,輸入超過模型上下文窗口的內容,推理窗口小就推不動;其次,由于中美在AI基礎設施的差距,中國互聯網大模型首Token時延普遍慢于美國頭部廠商的首Token時延,時延長度為后者的兩倍;推得貴,美國大模型的推理吞吐率為中國大模型推理吞吐率的10倍。

華為公司副總裁、數據存儲產品線總裁周越峰指出,AI時代,模型訓練、推理效率與體驗的量綱都以Token數為表征,Token經濟已經到來。

在AI基礎設施投資,中國和美國有差距,為了保障流暢的推理體驗,企業要加大算力投入,但是如何改善AI推理的效率和體驗,在推理效率與成本之間找到最佳平衡點?華為推出UCM,以KV Cache和記憶管理為中心提供全場景化系列化推理加速能力。

UCM兩大關鍵能力和創新算法,破解HBM受困難題

HBM是解決"數據搬運"的關鍵技術。當HBM不足時,用戶使用AI推理的體驗會明顯下降,導致出現任務卡頓、響應慢等問題。華為此次技術突破有望緩解這一瓶頸。

華為重磅推出UCM推理記憶數據管理器,包括對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)、高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協同,實現AI推理“更優體驗、更低成本”。

UCM的創新之處,在于可以根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動,同時融合多種稀疏注意力算法實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2至22倍,從而降低每個Token的推理成本。

“實時數據放在HBM當中,短期記憶數據放在DRAM中,其他數據就放在共享存儲SSD中,極大提高系統的效率和AI推理能力。針對AI推理平衡成本和效能的挑戰,華為推出UCM統一的記憶數據管理器,在兩個層面以系統化的方案來解決問題。” 華為數據存儲產品線AI存儲首席架構師李國杰表示。

一、在底層的框架和機制上提供了多級緩存空間,構建智能管理以及智能流動的基礎框架能力。在此基礎之上,華為構筑了一系列創新的推理的加速算法和加速特性,包括自適應的全局Prefix Cache,降低首Token時延與單位Token成本。

二、采用動態的Training稀疏加速算法,倍數級提升長序列吞吐和體驗。還有后綴檢索、預測加速算法、PD檢索加速和Agent原生記憶加速。

UCM將超長序列Cache分層卸載至外置專業存儲,通過算法創新突破模型和資源限制,實現推理上下文窗口的10倍級擴展,滿足長文本處理需求。

中國銀聯執行副總裁涂曉軍分享說,華為與中國銀聯的聯合創新技術試點中,在中國銀聯的“客戶之聲”業務場景下,借助UCM技術及工程化手段,大模型推理速度提升125倍,僅需10秒就可以精準識別客戶高頻問題,促進服務質量提升。

眾所周知,目前,AI大模型訓練對內存帶寬需求呈指數級增長,傳統DDR內存已無法滿足需求。HBM(高帶寬內存)是一種專用內存技術,用于 AI 處理器GPU 和 HPC 系統,這些系統中帶寬和能效比原始容量更為重要。HBM3 每堆棧可提供高達 819 GB/s 的傳輸速度,對于支持大型語言模型 (LLM)、神經網絡訓練和推理工作負載至關重要。

但是去年12月以來美國將HBM2E列入對中國的禁售清單,國產廠商HBM的突破還在推進中,華為推出UCM的重大意義,在于加速推進國產AI推理生態,其核心價值是推進更快的推理響應和更長的推理序列,以及更優化的成本。

中國信通院人工智能研究平臺與工程化部主任曹峰認為,國產化AI推理生態建設應該加速,KV Cache已經成為架構優化的焦點,以KV Cache為核心的推理方案迭出,背后依賴的高性能存儲、先進調度策略的重要性愈發顯現。

李國杰還強調指出,AI是一個快速發展的行業,每6個月就會迎來新一輪的技術革新,UCM不僅定位于當下,解決AI推理問題,未來發展UCM將從KV Cache分層管理走向Agentic AI原生記憶管理和應用加速。

本文由電子發燒友原創,轉載請注明以上來源。微信號zy1052625525。需入群交流,請添加微信elecfans999,投稿爆料采訪需求,請發郵箱zhangying@huaqiu.com。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    218

    文章

    36005

    瀏覽量

    262109
  • UC
    UC
    +關注

    關注

    2

    文章

    58

    瀏覽量

    61985
  • 銀聯
    +關注

    關注

    0

    文章

    13

    瀏覽量

    9603
  • HBM
    HBM
    +關注

    關注

    2

    文章

    431

    瀏覽量

    15835
  • AI大模型
    +關注

    關注

    0

    文章

    398

    瀏覽量

    999
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用NORDIC AI的好處

    原始傳感器數據,可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術頁] 降低云依賴與時延 直接在設備上做推理,很多決策可以“本地實時”完成,
    發表于 01-31 23:16

    之暗面全新開源旗艦模型Kimi K2.5上線模力方舟

    模力方舟平臺現已上線來自之暗面(Moonshot AI)發布的全新開源旗艦模型Kimi K2.5。
    的頭像 發表于 01-29 10:20 ?882次閱讀
    <b class='flag-5'>月</b>之暗面全新<b class='flag-5'>開源</b>旗艦模型Kimi K2.5<b class='flag-5'>上線</b>模力方舟

    華為發布并開源創新AI容器技術Flex:ai

    1121日,2025AI容器應用落地與發展論壇在上海舉行。華為公司副總裁、數據存儲產品線總裁周躍峰博士在論壇上正式發布AI容器技術——Flex:a
    的頭像 發表于 11-25 15:34 ?667次閱讀

    華為亮相2025金融AI推理應用落地與發展論壇

    創新技術——UCM推理記憶數據管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業正循
    的頭像 發表于 08-15 09:45 ?1225次閱讀

    降低HBM依賴華為發布AI推理創新技術UCM#HBM #華為?

    行業芯事行業資訊
    電子發燒友網官方
    發布于 :2025年08月13日 14:23:40

    今日看點丨華為發布AI推理創新技術UCM;比亞迪汽車出口暴增130%

    ? ? 降低HBM依賴華為發布AI推理創新技術UCM ? 日前,
    發表于 08-13 09:45 ?5321次閱讀

    AI推理芯片賽道猛將,200億市值AI芯片企業赴港IPO

    730日,AI芯片龍頭企業云天勵飛正式向港交所遞交招股說明書。 ? 云天勵飛成立于2014年8,于2023年4在上交所科創板掛牌,截至8
    的頭像 發表于 08-04 09:22 ?4671次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>芯片賽道猛將,200億市值<b class='flag-5'>AI</b>芯片企業赴港IPO

    積算科技上線赤兔推理引擎服務,創新解鎖FP8大模型算力

    北京2025年730日 /美通社/ -- 近日,北京積算科技有限公司(以下簡稱"積算科技")宣布其算力服務平臺上線赤兔推理引擎。積算科技PowerFul-AI應用開發平臺與赤兔合作,
    的頭像 發表于 07-30 21:44 ?911次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發的新一代AI大模型。其核心優勢在于強大的推理引擎能力,融合了自然語言處理(
    發表于 07-16 15:29

    華為宣布開源盤古7B稠密和72B混合專家模型

    電子發燒友網綜合報道 2025年630日,華為正式宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型及基于昇騰的模型推理技術,此舉標志著
    的頭像 發表于 07-06 05:51 ?7412次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年630日] 今日,華為正式宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型和基于昇騰的模型推理技術。 此舉是
    的頭像 發表于 06-30 11:19 ?1336次閱讀

    華為AI WAN在智算邊緣推理網絡中的關鍵優勢

    此前, 2025年324日至27日,MPLS&SRv6 AI Net World Congress 2025在法國巴黎會議中心舉辦。華為數據通信IP標準化高級代表李呈發表了題為“AI
    的頭像 發表于 04-09 09:53 ?1139次閱讀

    開源AI MPU

    向量擴展V擴展、自定義指令)。 ? 開源內容 ?:部分RISC-V核設計(如X280)可定制AI加速指令。 ? 適用場景 ?:邊緣推理、TinyML。 ? 鏈接 ?: SiFive GitHub
    的頭像 發表于 04-02 17:44 ?2419次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI
    的頭像 發表于 03-20 15:03 ?1236次閱讀

    Banana Pi 與瑞薩電子攜手共同推動開源創新:BPI-AI2N

    :瑞薩RZ/V2N高性能處理器與Banana PI開源硬件平臺的深度融合。 開源優勢 :提供部分硬件設計資料、SDK及開發文檔。 生態共建 :聯合開發者社區推出定制化開發套件,支持AI推理
    發表于 03-12 09:43