電子發燒友網報道(文/梁浩斌)去年9月,我們曾報道過,阿里平頭哥一款未公開的AI算力芯片PPU登上央視《新聞聯播》節目,該產品性能參數在新聞背景畫面中被曝光。直到今年1月29日,在平頭哥半導體官網上,一款名為“真武810E”的AI訓推一體芯片正式上線,阿里終于正式公開了PPU的“真身”。
而隨著真武810E的正式亮相,阿里的“AI全棧戰略”也首次浮出水面。通義實驗室、阿里云和平頭哥組成的阿里巴巴AI黃金三角“通云哥”,同時擁有全棧自研芯片平頭哥、亞太第一的阿里云,以及全球最強的開源模型“千問”,可以在芯片架構、云平臺架構和模型架構上協同創新,從而實現在阿里云上訓練和調用大模型時達到最高效率。
GPGPU路線,超越英偉達A100,多個萬卡集群落地
在去年九月的央視新聞畫面中,平頭哥PPU采用HBM2e顯存,單卡顯存容量96GB,片間帶寬為700GB/s,采用PCIe5.0×16通道接口,單卡功耗為400W。從這些外圍硬件參數來看,平頭哥PPU的規格介于英偉達A800和H20之間。而近期也有外媒報道稱,升級版的“真武”PPU性能強于英偉達A100。
而本次平頭哥官網公布的信息基本與此前央視曝光的參數相同。據平頭哥官網介紹,“真武”PPU采用自研并行計算架構和片間互聯技術,配合全棧自研軟件棧,實現軟硬件全自研。其內存為96G HBM2e,片間互聯帶寬達到700 GB/s,Host總線支持PCIe5.0 x 16,可應用于AI訓練、AI推理和自動駕駛。
此前央視曝光的表格里也展示了華為和壁仞兩款算力卡的一些外圍參數數據:華為昇騰910B單卡采用64GB HBM2顯存,片間帶寬392GB/s,接口為PCIe4.0×16,功耗350W;壁仞104P單卡搭載32GB HBM2e顯存,片間帶寬256GB/s,采用PCIe5.0×16接口,功耗為300W。平頭哥PPU在外圍硬件上領先于另外兩款國產算力卡。
值得一提的是,“真武”采用了GPGPU的技術路線,區別于華為昇騰、寒武紀當前產品的ASIC路線。這也是此前真武810E使用“PPU”作為代號的主要原因。
除此之外,真武810E采用了全自研并行計算架構和ICN片間互聯技術,配合全棧自研軟件棧實現軟硬結合。ICN(Inter-Chip-Network)是平頭哥自研的片間互聯技術,具有高性能、高帶寬、低延遲優勢,適用于大模型訓練和推理應用。每顆真武810E芯片配備7個ICN片間互聯端口,配合平頭哥自研互聯加速庫,實現多卡協同工作,從而高效支持大模型訓練及推理需求。
平頭哥自主研發的AI產品軟件棧,擁有獨立知識產權,具備統一的編程接口,可端到端支持用戶自主業務落地和擴展。具備高效性和高兼容性的特點:通過軟件棧提供的API,用戶可以基于SDK直接開發真武應用程序,支持自研生態;沿用當今主流編程環境,開發者可調用軟件棧中統一的API,支持主流AI生態,無需修改應用代碼。
同時平頭哥AI產品軟件棧具備完備的軟件生態及工具鏈,向上支持開發者和業務快速展開,向下兼容底層硬件和優化性能,實現軟硬件高效協同。據業內人士透露,對CUDA兼容極佳是真武PPU一大特點。
真武810E在應用場景上較為廣泛,首先該芯片被定義為“AI訓推一體芯片”,在AI訓練上,真武810E原生支持多種框架,憑借自研片間互聯技術和自研軟件棧,通過軟硬結合解決大規模訓練中的通信瓶頸問題,打造高集群線性加速比。兼容主流AI生態,高效適配各類主流模型、框架、算子庫、OS等,并提供編譯器及多種類型的開源加速庫支持,充分挖掘軟硬件性能潛力,加速訓練迭代效率。
在AI推理端,真武810E原生支持主流推理引擎,并提供平頭哥自研專用推理框架和算子庫,結合大容量內存,為大模型推理提供針對性優化。支持主流AI生態,為業務實現快速、低成本的應用遷移,通過CPU與GPU的靈活配比、彈性伸縮等能力,為客戶提供高性價比的AI推理平臺。
真武810E還具備硬件視頻編解碼能力,在文生視頻、圖文生視頻、圖文生文等場景的推理和訓練實測中均表現出不俗的性能,為基于多模態模型的應用場景提供高性價比算力。
另外自動駕駛也是平頭哥著重介紹的一個應用場景,據介紹,真武810E經過驗證兼容超過50個自動駕駛常見模型,在感知、預測和端到端等多種模型架構下,全面支持智駕模型訓推,并已形成多個萬卡級別集群的部署應用。
目前真武810E已在阿里云落地多個萬卡集群,為頭部車企及方案商提供算力服務,包括國家電網、中科院、小鵬汽車、新浪微博等400多家客戶,證明其卓越的穩定性與可靠性。在去年9月的報道中,我們也發現中國聯通三江源綠電智算融合示范園中,中國聯通·阿里云萬卡綠色算力項目已經落地真武PPU,該項目是國內首個國產化萬卡智算集群,規劃16000卡算力規模,全部采用自主研發技術和設備,是青海聯通打造“新型一體化智算基礎設施建設工程”的標志性成果。
同時阿里內部也已經將“真武”PPU大規模用于千問大模型的訓練和推理,并結合阿里云完整的AI軟件棧進行深度優化,為客戶提供一體化產品和服務。
8年芯片布局,7年大模型研發,打通全棧AI布局
阿里自研AI芯片的歷史其實也已經有一段時間。自2018年,阿里收購中天微,成立平頭哥半導體后,阿里就一直在推動自研云端AI算力芯片。2019年,平頭哥推出了首顆數據中心芯片含光800,這是一顆面向AI推理的芯片,目前官網信息顯示該芯片基于12nm工藝, 集成170億晶體管,性能峰值算力達820 TOPS。 在業界標準的ResNet-50測試中,推理性能達到78563 IPS(每秒處理7.8萬張照片),能效比達500 IPS/W。
2021年,阿里又推出了倚天710服務器CPU,采用Arm架構,128核,主頻為2.75GHz。不過近年阿里的CPU布局重點已經轉向玄鐵RISC-V IP,以及打造芯片設計生態。
平頭哥PPU從去年年初開始部署,到一年后的正式官方亮相,也意味著經過一年的驗證,真武810E PPU已經從性能、生態等多個維度具備大規模應用的能力,宣告阿里自研GPGPU的階段性成功。
在1月26日,通義實驗室發布千問旗艦推理模型Qwen3-Max-Thinking,創下多項權威評測全球新紀錄,性能媲美GPT-5.2、Gemini 3 Pro。全球最大AI開源社區Hugging Face的最新數據顯示,千問開源模型的衍生模型數量突破20萬個,下載量突破10億次,穩居全球第一。
阿里巴巴2009年創建阿里云,2018年成立平頭哥芯片公司,2019年啟動大模型研究,經過長達17年的戰略投入和垂直整合,本次真武810E 的正式亮相,正是代表著“通云哥”全棧AI的完整布局終于實現。
小結:
真武 810E 的亮相標志著阿里 “通云哥” 全棧 AI 戰略的正式落地,未來,依托平頭哥自研芯片的硬核算力、阿里云的平臺優勢以及千問大模型的技術積淀,三者將持續深化協同創新,朝著打造 AI 超級計算機的方向迭代升級,進一步推動算力基礎設施的自主可控,加速 AI 技術向各行業滲透,助力國產 AI 在全球競爭中占據更主動的地位。

來源:平頭哥官網
而隨著真武810E的正式亮相,阿里的“AI全棧戰略”也首次浮出水面。通義實驗室、阿里云和平頭哥組成的阿里巴巴AI黃金三角“通云哥”,同時擁有全棧自研芯片平頭哥、亞太第一的阿里云,以及全球最強的開源模型“千問”,可以在芯片架構、云平臺架構和模型架構上協同創新,從而實現在阿里云上訓練和調用大模型時達到最高效率。
GPGPU路線,超越英偉達A100,多個萬卡集群落地
在去年九月的央視新聞畫面中,平頭哥PPU采用HBM2e顯存,單卡顯存容量96GB,片間帶寬為700GB/s,采用PCIe5.0×16通道接口,單卡功耗為400W。從這些外圍硬件參數來看,平頭哥PPU的規格介于英偉達A800和H20之間。而近期也有外媒報道稱,升級版的“真武”PPU性能強于英偉達A100。

圖源:央視新聞
而本次平頭哥官網公布的信息基本與此前央視曝光的參數相同。據平頭哥官網介紹,“真武”PPU采用自研并行計算架構和片間互聯技術,配合全棧自研軟件棧,實現軟硬件全自研。其內存為96G HBM2e,片間互聯帶寬達到700 GB/s,Host總線支持PCIe5.0 x 16,可應用于AI訓練、AI推理和自動駕駛。
此前央視曝光的表格里也展示了華為和壁仞兩款算力卡的一些外圍參數數據:華為昇騰910B單卡采用64GB HBM2顯存,片間帶寬392GB/s,接口為PCIe4.0×16,功耗350W;壁仞104P單卡搭載32GB HBM2e顯存,片間帶寬256GB/s,采用PCIe5.0×16接口,功耗為300W。平頭哥PPU在外圍硬件上領先于另外兩款國產算力卡。
值得一提的是,“真武”采用了GPGPU的技術路線,區別于華為昇騰、寒武紀當前產品的ASIC路線。這也是此前真武810E使用“PPU”作為代號的主要原因。
除此之外,真武810E采用了全自研并行計算架構和ICN片間互聯技術,配合全棧自研軟件棧實現軟硬結合。ICN(Inter-Chip-Network)是平頭哥自研的片間互聯技術,具有高性能、高帶寬、低延遲優勢,適用于大模型訓練和推理應用。每顆真武810E芯片配備7個ICN片間互聯端口,配合平頭哥自研互聯加速庫,實現多卡協同工作,從而高效支持大模型訓練及推理需求。
平頭哥自主研發的AI產品軟件棧,擁有獨立知識產權,具備統一的編程接口,可端到端支持用戶自主業務落地和擴展。具備高效性和高兼容性的特點:通過軟件棧提供的API,用戶可以基于SDK直接開發真武應用程序,支持自研生態;沿用當今主流編程環境,開發者可調用軟件棧中統一的API,支持主流AI生態,無需修改應用代碼。
同時平頭哥AI產品軟件棧具備完備的軟件生態及工具鏈,向上支持開發者和業務快速展開,向下兼容底層硬件和優化性能,實現軟硬件高效協同。據業內人士透露,對CUDA兼容極佳是真武PPU一大特點。
真武810E在應用場景上較為廣泛,首先該芯片被定義為“AI訓推一體芯片”,在AI訓練上,真武810E原生支持多種框架,憑借自研片間互聯技術和自研軟件棧,通過軟硬結合解決大規模訓練中的通信瓶頸問題,打造高集群線性加速比。兼容主流AI生態,高效適配各類主流模型、框架、算子庫、OS等,并提供編譯器及多種類型的開源加速庫支持,充分挖掘軟硬件性能潛力,加速訓練迭代效率。
在AI推理端,真武810E原生支持主流推理引擎,并提供平頭哥自研專用推理框架和算子庫,結合大容量內存,為大模型推理提供針對性優化。支持主流AI生態,為業務實現快速、低成本的應用遷移,通過CPU與GPU的靈活配比、彈性伸縮等能力,為客戶提供高性價比的AI推理平臺。
真武810E還具備硬件視頻編解碼能力,在文生視頻、圖文生視頻、圖文生文等場景的推理和訓練實測中均表現出不俗的性能,為基于多模態模型的應用場景提供高性價比算力。
另外自動駕駛也是平頭哥著重介紹的一個應用場景,據介紹,真武810E經過驗證兼容超過50個自動駕駛常見模型,在感知、預測和端到端等多種模型架構下,全面支持智駕模型訓推,并已形成多個萬卡級別集群的部署應用。
目前真武810E已在阿里云落地多個萬卡集群,為頭部車企及方案商提供算力服務,包括國家電網、中科院、小鵬汽車、新浪微博等400多家客戶,證明其卓越的穩定性與可靠性。在去年9月的報道中,我們也發現中國聯通三江源綠電智算融合示范園中,中國聯通·阿里云萬卡綠色算力項目已經落地真武PPU,該項目是國內首個國產化萬卡智算集群,規劃16000卡算力規模,全部采用自主研發技術和設備,是青海聯通打造“新型一體化智算基礎設施建設工程”的標志性成果。
同時阿里內部也已經將“真武”PPU大規模用于千問大模型的訓練和推理,并結合阿里云完整的AI軟件棧進行深度優化,為客戶提供一體化產品和服務。
8年芯片布局,7年大模型研發,打通全棧AI布局
阿里自研AI芯片的歷史其實也已經有一段時間。自2018年,阿里收購中天微,成立平頭哥半導體后,阿里就一直在推動自研云端AI算力芯片。2019年,平頭哥推出了首顆數據中心芯片含光800,這是一顆面向AI推理的芯片,目前官網信息顯示該芯片基于12nm工藝, 集成170億晶體管,性能峰值算力達820 TOPS。 在業界標準的ResNet-50測試中,推理性能達到78563 IPS(每秒處理7.8萬張照片),能效比達500 IPS/W。
2021年,阿里又推出了倚天710服務器CPU,采用Arm架構,128核,主頻為2.75GHz。不過近年阿里的CPU布局重點已經轉向玄鐵RISC-V IP,以及打造芯片設計生態。
平頭哥PPU從去年年初開始部署,到一年后的正式官方亮相,也意味著經過一年的驗證,真武810E PPU已經從性能、生態等多個維度具備大規模應用的能力,宣告阿里自研GPGPU的階段性成功。
在1月26日,通義實驗室發布千問旗艦推理模型Qwen3-Max-Thinking,創下多項權威評測全球新紀錄,性能媲美GPT-5.2、Gemini 3 Pro。全球最大AI開源社區Hugging Face的最新數據顯示,千問開源模型的衍生模型數量突破20萬個,下載量突破10億次,穩居全球第一。
阿里巴巴2009年創建阿里云,2018年成立平頭哥芯片公司,2019年啟動大模型研究,經過長達17年的戰略投入和垂直整合,本次真武810E 的正式亮相,正是代表著“通云哥”全棧AI的完整布局終于實現。
小結:
真武 810E 的亮相標志著阿里 “通云哥” 全棧 AI 戰略的正式落地,未來,依托平頭哥自研芯片的硬核算力、阿里云的平臺優勢以及千問大模型的技術積淀,三者將持續深化協同創新,朝著打造 AI 超級計算機的方向迭代升級,進一步推動算力基礎設施的自主可控,加速 AI 技術向各行業滲透,助力國產 AI 在全球競爭中占據更主動的地位。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
阿里
+關注
關注
6文章
467瀏覽量
34228 -
AI芯片
+關注
關注
17文章
2148瀏覽量
36843 -
GPGPU
+關注
關注
0文章
33瀏覽量
5570
發布評論請先 登錄
相關推薦
熱點推薦
國產GPGPU集體爆發!沐曦登陸科創板,龍芯也宣布了
電子發燒友網報道(文/莫婷婷)通用圖形處理器(GPGPU)作為融合圖形處理與通用并行計算能力的協處理器,已成為AI、大數據分析等高性能計算場景的核心基礎設施。目前,全球 GPGPU 市
阿里放大招:自研AI芯片100%國產,不用臺積電代工
電子發燒友網報道(文 / 吳子鵬)8 月 31 日晚間,有消息稱阿里云通義千問大模型面臨算力缺口,阿里緊急追加寒武紀思元 370 芯片訂單至 15 萬片。然而,該消息隨后不久便被阿里云
聯想官宣正式發布天禧AI Claw
3月18日,聯想官宣正式發布天禧AI Claw,它將成為“真正可落地、可持續、可信賴的 AI 隊友”,具備零成本部署、零門檻使用、全天候跨端、安全可托付等核心優勢。它不再是一個只會聽話
Banana Pi 開源社區聯合進迭時空發布最新RISC-V芯片K3開發套件:BPI-SM10(K3-CoM260)
的端側AI智能體開發案例。
BPI-SM10(K3-CoM260)模塊集成了8核X100?通用CPU核心 + 8核A100? AI CPU,可提供130 KDMIPS的通用計算能力和6
發表于 01-30 18:38
臺積電CoWoS平臺微通道芯片封裝液冷技術的演進路線
臺積電在先進封裝技術,特別是CoWoS(Chip on Wafer on Substrate)平臺上的微通道芯片液冷技術路線,是其應對高性能計算和AI
新手小白必看!關于A100云主機租用,你想知道的一切都在這!
“我想租一臺A100云主機來跑我的模型,但完全不知道從何下手。”——這是我們聽到最多的來自AI新手的聲音。A100,這個聽起來就“高大上”的名詞,背后其實是一套清晰、可操作的流程。今天,我們就用
AI業界新聞:OpenAI官宣自研首顆芯片 黃仁勛時隔9年再次給馬斯克“送貨”
給大家帶來一些AI業界新聞: OpenAI官宣自研首顆芯片 OpenAI宣布與博通合作自研AI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
、分布式群體智能
1)物聯網AGI系統
優勢:
組成部分:
2)分布式AI訓練
7、發展重點:基于強化學習的后訓練與推理
8、超越大模型:神經符號計算
三、AGI芯片的實現
1、技術需求
AI
發表于 09-18 15:31
《AI芯片:科技探索與AGI愿景》—— 勾勒計算未來的戰略羅盤
如果說算力是AGI的“燃料”,那么AI芯片就是制造燃料的“精煉廠”。本書的卓越之處在于,它超越了單純的技術拆解,成功繪制了一幅從專用智能邁向通用智能的“戰略路線圖”。作者以
發表于 09-17 09:32
天璣9500芯片信息曝光:AI算力翻倍,全面進化
有爆料稱,聯發科天璣9500采用全新NPU IP架構,相較前代AI性能提升達100%。這意味著端側AI體驗像電梯直達頂層,響應更快、吞吐更高,可運行更大規模模型,生成超清圖、視頻創作更
芯原可擴展的高性能GPGPU-AI計算IP賦能汽車與邊緣服務器AI解決方案
芯原股份 (芯原,股票代碼:688521.SH) 日前宣布其 高性能、可擴展的GPGPU-AI計算IP的最新進展,這些IP現已為新一代汽車電子和邊緣服務器應用提供強勁賦能 。通過將可編程并行計算能力
蘋果A20芯片官宣WMCM技術!
制程工藝,更將引入全新的 WMCM(Wafer - Level Multi - Chip Module,晶圓級多芯片封裝)封裝技術,這無疑為芯片性能提升和手機設計優化帶來了無限可能。 一、A
爆料稱阿里AI眼鏡方案:高通AR1+ 恒玄BES2800雙芯片
2025年底發布。 ? 爆料稱,阿里 AI 智能眼鏡硬件規格將超越 Ray-Ban Meta 智能眼鏡,采用高通 AR1 芯片 + 恒玄 BES2800 雙
發表于 04-11 01:11
?2539次閱讀
阿里神秘AI芯片正式官宣!GPGPU路線,性能超越A100
評論