以下文章來源于腦啟社區,作者腦啟社區
據悉,“杭州靈汐類腦智算集群”已于7月底實現了大模型快速推理API的企業服務試運行。該集群由杭州靈汐類腦科技有限公司牽頭搭建運營,中國電信、中國電子科技南湖研究院以及腦啟社區作為合作方參與,由杭州電信具體承擔集成建設。該集群部署在中國電信杭州智算中心,算力規模超200POPS。這也是類腦智算集群在全球范圍內,首次以支持大模型快速推理的方式,走向商用試運行。
作為類腦智能技術的創新應用成果,該智算集群具有”存算一體、眾核并行、稀疏計算、事件驅動”的特性,可顯著提升計算效率、大幅降低能耗,實現大語言模型推理的“一快、一低、一降”:一是推理速度快,單用戶的推理延遲控制在毫秒級別,速度性能相對于傳統方案有明顯優勢(可流暢響應實時交互及長本文深度推理),告別卡頓;二是首token延遲低,可降至百毫秒乃至十毫秒級;三是智算集群的功耗大幅下降,較業界同等推理算力水平可降低功耗二分之一至三分之二以上。異構融合類腦芯片具有兼容PyTorch框架的類CUDA軟件棧,可直接服務于多類開源大模型的快速推理、而不需要轉換類腦算法。
當前,大模型推理普遍存在吞吐速度慢(每秒十到幾十詞輸出)和高延遲問題(常常超過1秒甚至數秒),對眾多行業場景構成了制約。在此背景下,靈汐科技基于類腦智能技術給出了“高實時、高吞吐、低延遲”的推理服務解決方案,將在金融應用、情感陪聊、快速導覽、大規模數據標注以及無人機實時航拍處理、災害預警與應急處置等領域場景逐步落地。據介紹,該智算集群(中心)將持續升級,新一代類腦智算高密度計算平臺也將在近期正式發布推出,集群能效比預計將進一步提升。
-
集群
+關注
關注
0文章
143瀏覽量
17664 -
靈汐科技
+關注
關注
0文章
18瀏覽量
1517 -
大模型
+關注
關注
2文章
3650瀏覽量
5183
原文標題:首次商用試運行,類腦智算集群支持大模型快速推理服務
文章出處:【微信號:北京靈汐科技有限公司,微信公眾號:北京靈汐科技有限公司】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
中科曙光3套scaleX萬卡超集群落地國家超算互聯網鄭州核心節點
從訓練到推理:大模型算力需求的新拐點已至
杭州靈汐類腦智算集群實現大模型快速推理
評論