国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

算力基礎設施的風險與挑戰

穎脈Imgtec ? 2024-06-13 08:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按算力網絡有一個美好的愿景,就是希望算力和算網,能像電力和電網一樣:

  • 算力可以標準化,有統一的計量單位。類似電力計量的千瓦時,或稱為度數。
  • 有很多算力中心生產算力,類似電廠生產電力。
  • 生產出來的算力,通過接入算網,最終供應給算力的客戶。類似電廠的電力,通過電網接入千家萬戶。
  • 算力“隨時隨地,無處不在”,算力客戶可以非常方便的隨時接入任何位置的算力,支撐自己的業務。類似無處不在的電源接口,方便我們隨時隨地使用電力。
  • 從基礎設施的角度看,就是希望算力基礎設施也能像電力基礎設施一樣,通過更大規模的人力物力投入,實現算力基礎設施的領先。

但算力基礎設施,和我們的能源、電力、交通等傳統基礎設施相比,仍存在許多風險和挑戰。今天這篇文章,我們拋磚引玉。


1、算力基礎設施戰略價值巨大

本章節內容節選自《2022-2023全球計算力指數評估報告》,由IDC、浪潮信息、清華全球產業院。內容有調整。

通過數字技術推動業務變革,進而實現數字化轉型,已經成為傳統企業發展的必由之路。隨著數字技術的不斷進步和發展,以及數據量的爆發性增長,強大的算力,成為了創新和突破的關鍵要素。以人工智能領域為典型,人工智能大模型的發展,受算力發展的直接影響。人工智能算法和技術被應用于各種領域和行業(AI+),如自動駕駛汽車、醫療診斷、金融預測等。 算力的發展不僅激發數字技術的創新和突破,也推動了數字技術在各行各業的廣泛應用與深度融合,為各行業能夠實現科技創新提供了重要支撐。

c773f332-291b-11ef-bd4a-92fbcf53809c.png

在數字經濟時代,算力是國家經濟增長的關鍵驅動力之一。根據上圖可以看到,算力的提高對一國經濟增長的拉動效應非常顯著,且隨著計算力指數的增加,提升效應會越來越明顯。

c7924ddc-291b-11ef-bd4a-92fbcf53809c.png

評估結果顯示,十五個樣本國家的計算力指數平均每提高1點,國家的數字經濟和GDP將分別增長3.6‰和1.7‰。

總之,算力基礎設施支撐并加速新質生產力和千行百業的發展,算力基礎設施是整個國民經濟發展的重中之重。


2、算力基礎設施的風險和挑戰

雖然算力和我們的鐵路、公路、水利、電力等行業一樣,被稱為基礎設施。但算力是新型基礎設施,和這些傳統基礎設施相比,仍存在非常大的差異性。而這些差異性,也基本上就是算力基礎設施存在的風險和挑戰。

本章節,我們就算力基礎設施的風險和挑戰進行分析,無法面面俱到,僅限拋磚引玉。關于算力基礎設施的風險和挑戰,希望能夠得到全行業的重視。全行業一起努力,能夠構建符合技術和市場規律,并且能夠支撐國家數字經濟快速發展的新型算力基礎設施。

2.1 算力難以標準化

如果算力可以公平且標準化的度量,那么算力就可以像電力一樣,大規模生產和消費。但實際的情況,遠比想象的要復雜的多。

我們通過兩個案例進行分析。

首先是CPU處理器的案例。CPU是最通用的處理器,沒有之一。我們以CPU中兩個重要的部件進行分析:

  • Cache,多核CPU中通常集成了L1-L3三級Cache。如果遇到流式數據處理,此刻Cache幾乎沒有價值;如果是循環等結構的業務算法,Cache的價值就非常大。反過來,流式數據處理,會優先選擇Cache盡可能小一些的處理器;而循環類結構的業務算法,會優先選擇大Cache的處理器。
  • 協處理器,CPU內部也集成協處理器,如Intel AVX/AMX指令協處理器。如果是傳統的控制類任務,就不需要AVX/AMX協處理器。但如果是視頻、圖像等任務,就需要AVX;如果是AI類處理,就需要AMX。反過來說,如果是控制類的任務,AVX/AMX協處理器對我來說沒有價值,如果仍需要為這些協處理器的算力付費,則是相對不公平的。客戶會優選沒有AVX、AMX等協處理器的CPU處理器。

第二個案例,CPU vs 專用處理器。如果同樣的1000TOPS算力(折合成TOPS統一單位),CPU算力和專用處理器的算力哪個更好?一般來說,CPU算力更好,因為CPU算力更加通用,可以用在幾乎所有場景,并且對軟件和軟件開發者的要求更低。而專用處理器,僅能支持某個特定場景,甚至某個特定算法算力,對其他的業務場景來說,價值幾乎為零。這樣的話,這兩種算力,能賣相同的價格嗎?我們假設CPU 1000TOPS算力價格為1000元/月,那么,專用處理器 1000TOPS算力的價格10塊錢,都不一定能找到合適的客戶。

算力為什么難以標準化?本質的原因在于計算引擎和業務算法的耦合性。在加減乘數等基本指令的通用CPU基礎上,做的任何優化,其實都是面向某些特定規律的計算或算法優化。這些加速計算引擎只有找到匹配的業務算法,才能發揮價值;反過來,如果沒有匹配的業務算法,計算引擎的價值就很低很低。

簡單總結如下:

  • 一方面,計算引擎微架構的復雜性,決定了計算性能的測量是一件非常復雜、難以面面俱到并且足夠公平的事情。
  • 另一方面,計算的通用性,或者說對業務算法的廣泛覆蓋性,也是一個非常重要的維度。而這個維度,在算力計量之外。
  • 此外,計算引擎和業務算法的耦合性,決定了算力的價值到底能發揮幾何。計算引擎大體上可以分為三類:通用的CPU、并行計算的GPU等、以及專用加速的各種DSA/ASIC,這些計算引擎的算力無法完全按照算力來折算,而要根據算法和計算引擎的匹配,來計算實際算力。
  • 那么,我們是否可以以業務算法為基準,誰能夠更快速的完成一個特點單位的業務算法,誰的性能就好,誰的價值就高。答案也是否定的。因為業務算法千千萬,單個業務算法無法評價,所有的算法加權綜合評價也意義不大。對具體的業務客戶來說,自己的算法能不能更快速更低成本的計算,才是需要關心的事情。
  • 還有一個重要的方面,業務算法本身的價值。比如,同樣的算力,如果用于AI計算,一般來說,價值要高一些。如果用于網絡 存儲計算,則價值要低一些。這些也會影響到專用加速器算力的價格定義。
  • 等等。

總結一下,我們認為,計算是一件非常復雜的事情,算力(也即計算的能力)的標準化,幾乎是一個偽命題。


2.2 業務的算力需求指數級增長

c7bc5f96-291b-11ef-bd4a-92fbcf53809c.png從上圖可以看到,從2012年深度學習的興起,算力需求逐漸增強,跳脫摩爾定律約束,需要GPU加速處理器,以及Scale out的集群計算。這一時期,算力需求每3.4個月翻倍。從2018年開始,隨著大模型的流行,算力需求進一步加速,每2個月就會翻倍。與此同時,Scale Out也越來越難以為繼,集群規模從千卡到萬卡,再到十萬卡。集群規模的不斷擴大,使得AI計算的成本越來越成為天文數字。例如,微軟與OpenAI制定的新一代AI算力芯片和基礎設施項目星際之門,預計耗資1000億美元;目標參數規模為1000萬億,是GPT4的10000倍。業務需求和算力基礎設施的差距成指數級增長,兩者之間的矛盾進一步加劇。要想根本性的解決問題,一方面需要單節點的計算架構的創新(Scale Up創新),也需要更高效的集群網絡解決方案,進一步支持更大規模的集群計算(Scale Out創新)。


2.3 算力技術體系的門檻非常之高

算力涉及芯片、硬件及基礎設施、軟件以及業務四個主要的方案,每一項都非常的復雜,且有極高的技術門檻:

芯片,是計算(算力)的硬件載體。隨著芯片工藝進入10nm以內,逐漸接近物理極限,芯片制造的門檻越來越高,一代新工藝投入通常在千億美金級別。單芯片所能容納的晶體管數量已經達到數百億級,再加上Chiplet先進封裝的加持,未來,單個芯片的晶體管數量會突破萬億級大關。這么龐大的晶體管數量,如果進行芯片的系統架構和微架構設計,也是非常大的挑戰。

硬件設備和外圍基礎設施。在智算時代,硬件設備的功耗都非常的恐怖。傳統CPU服務器單臺功率在300W左右,而目前主流GPU服務器的功耗都達到了10KW左右,整整提升了30倍以上。于是,傳統的風冷散熱已經逐漸走出歷史舞臺,更高技術要求的液冷成為了主流。此外,數據中心的功耗越來越大,綠色數據中心越來越成為必然的要求。如何降低PUE,需要數據中心基礎設施統籌的技術革新和綜合能耗優化,甚至需要能源和電力產業的配合。

軟件,是計算的靈魂。系統級軟件如操作系統(如Linux)、集群操作系統(如Kubernetes),以及其他基礎軟件、數據庫軟件、中間件軟件,以及加速計算框架、業務框架等等,軟件生態五花八門。每一項都非常的復雜,每一項其生態的形成都經過了漫長而艱難的階段。

業務。新的技術、新的場景、新的業務落地,有非常大的難度。特別是跟硬件關聯度非常大,受硬件物理條件的約束的場景,如自動駕駛智能汽車、XR元宇宙、人形機器人等。如何實現軟硬件深度協同和融合的綜合算力技術體系,受到很多現實的約束,實現的難度巨大,需要更多的創新驅動。

總之,從算力芯片,到硬件以及相關軟件和開發框架,軟硬件體系極度龐大和復雜,技術門檻非常高。


2.4 算力技術迭代很快

c7d56a04-291b-11ef-bd4a-92fbcf53809c.png

TSMC 3nm工藝已經量產,2nm、1nm也都在未來幾年的路線圖中。并且,TSMC已經開始在攻關0.1nm工藝,半導體工藝即將進入亞納米(埃米)時代。在存儲領域,近些年來還興起了3D封裝技術,使得集成電路從二維進入三維。在封裝領域,Chiplet先進封裝機制,把多個芯片裸DIE集成到一起,從3D到4D,都進一步增強了單位面積的晶體管集成度。

c7ebacf6-291b-11ef-bd4a-92fbcf53809c.png

隨著單芯片所能容納的晶體管數量逐漸增加,計算的架構也越來越復雜,逐漸從CPU同構、CPU+GPU的異構,走向了CPU+GPU+DSAs的異構融合。2023年9月15日,在湖南長沙的世界計算大會上,《異構融合計算技術白皮書》由工信部電子五所發布(關注軟硬件融合公眾號,回復“白皮書”,可下載此白皮書)。

c8295f92-291b-11ef-bd4a-92fbcf53809c.png

算力芯片的設計模式,已經從“硬件定義軟件”轉向“軟件定義硬件”。傳統的算力芯片設計模式,是先有芯片,然后是驅動和開發框架,再然后是基于框架的軟件任務。但這種方式,每家芯片公司都是一個獨立的架構,獨立的生態。一方面,構建生態的門檻非常高,另一方面,這種方式對客戶非常不友好。特別是在計算的主流方式從單機走向大規模集群計算的當下,客戶既傾向于統一的計算平臺,又不想被特定的廠家綁定。軟件定義硬件的方式,是客戶和芯片供應商最大的公約數。

這里就計算的形態再做進一步展開。隨著大模型的發展,計算需求的規模越來越大,和單顆芯片所能提供的性能差距的數量級,也在不斷增加。千卡集群、萬卡集群,甚至十萬卡、百萬卡集群也已經在路上。超大規模集群計算,甚至跨云邊端的融合計算,已經成為了計算的主流形態。

摩爾定律告訴我們,每18-24個月芯片的性能就會翻倍。NVIDIA黃仁勛的黃氏定律告訴我們,計算性能會每一年翻一倍。這兩個定律意味著,算力芯片的迭代周期是1-2年一代。

軟件的迭代就更快了,軟件開發更是講究“小步快跑”,通常是2-3個月一個小迭代,一年一個大迭代,不然就趕不上業務快速發展的需要。


2.5 算力基礎設施的生命周期非常短

傳統基礎設施,技術更新換代較慢,傳統基礎設施的生命周期很長,通常在50年以上,有的甚至100年以上。

而受算力各項技術的快速更新迭代,特別是摩爾定律和黃氏定律的影響,算力基礎設施的生命周期通常4-5年。因為,4-5年時間之后,硬件的可靠性會越來越差,并且計算的各項支出越來越不夠經濟,必須要更換更加先進的計算設備和相應的軟硬件技術棧。


3、開放的技術棧,開放的產業鏈c84312ac-291b-11ef-bd4a-92fbcf53809c.png

國產算力芯片最大的困境在于生態:構建一個新的計算生態,門檻非常高,千億級投入都不一定成功。但行業除了NVIDIA CUDA生態之外,還有一個更加強大的生態,即全球幾乎所有互聯網公司(客戶)都支持的開源軟件生態。基于開源軟件,實現開源軟件定義的開放硬件,形成一個更加開放更加強大的開源的技術(棧)生態。

c85e6b10-291b-11ef-bd4a-92fbcf53809c.png國家多個部委發文,說要構建全國一體化算力網。但一體化算力網,并不意味著是一家公司獨大,而是意味著算力的充分利用和價值的最大化發揮。我們認為,未來也是類似公有云的競爭態勢,最終形成5家左右具有全國甚至全球影響力的算力網公司,以及10家以上具有行業和領域特色的專業算力網公司。總之,整個產業鏈是開放的:

IDC,聚焦數據中心的基礎設施;自身的基礎設施可以服務公有云和算力中心等各類客戶。

算力中心,聚焦算力生產。通過融合計算的綜合算力創新優化,實現算力的最高性能和最低成本,以及超大規模。算力可以賣給任何一家算力網公司,以及直接賣給大客戶。

算力網,聚焦業務落地。主要聚焦PaaS服務和算力解決方案,服務好客戶業務落地。

業務客戶,可以從自建的私有云、公有云以及算力網獲得優質而低成本的且“無處不在,隨時隨地可獲取”的算力,服務好自身的業務。

只有開放,才能最大限度的發揮各自的創造力和和市場競爭價值,才能最大限度的實現技術的快速進步,才能實現算力芯片和算力產業鏈的獨立自主,甚至全球領先。
在線研討會 | 深入了解Imagination APXM-6200:全新性能密集型應用CPU

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 電網
    +關注

    關注

    13

    文章

    2504

    瀏覽量

    61939
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265271
  • 算力
    +關注

    關注

    2

    文章

    1528

    瀏覽量

    16740
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    海瑞思全流程密封檢測方案為基礎設施筑牢安全防線

    ≤ 1.15 的政策要求進一步收緊能效約束,使液冷技術從基礎設施的“可選方案”,逐步演進為高力場景下的剛性配置。
    的頭像 發表于 02-10 16:11 ?530次閱讀

    中科曙光scaleX萬卡超集群重塑超大規模基礎設施

    在“人工智能+”行動深入推進的當下,基礎設施已成為國家戰略競爭的核心,而超大規模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得
    的頭像 發表于 01-30 15:43 ?712次閱讀

    軌道計算基礎設施:太空光伏為太空AI供電的電源架構演進

    軌道計算基礎設施:太空光伏為太空AI供電的電源架構演進與SiC MOSFET的應用價值深度研究報告 BASiC Semiconductor基本半導體一級代理商傾佳電子(Changer Tech
    的頭像 發表于 01-27 18:16 ?1116次閱讀
    軌道計算<b class='flag-5'>基礎設施</b>:太空光伏為太空AI<b class='flag-5'>算</b><b class='flag-5'>力</b>供電的電源架構演進

    2025年曙光數創全棧液冷技術重塑邊界

    2025年,全球需求的高速增長與綠色低碳的雙重挑戰,將液冷技術推至舞臺中央。曙光數創緊抓戰略機遇,不僅在國內市場份額保持領先地位,更以全棧液冷技術為核心,推動
    的頭像 發表于 01-12 11:47 ?703次閱讀

    從云端集中到邊緣分布:邊緣智如何重塑網絡布局

    隨著大模型推理延遲進入毫秒級時代,整個科技行業都意識到:網絡的規則正在被改寫。這場變革的核心,正是從云端集中式計算向邊緣分布式智能的范式轉移。據行業多家分析機構綜合預測,全球AI基礎設施正面
    的頭像 發表于 12-25 11:34 ?420次閱讀
    從云端集中到邊緣分布:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>網絡布局

    湘軍,讓變成生產

    腦極體
    發布于 :2025年11月25日 22:56:58

    曙光數創穩居2024年中國中心基礎設施液冷溫控設備市場份額第一

    11月18日至20日,CDCE國際數據中心及云計算展在上海新國際博覽中心舉行。大會期間,由中國電子技術標準化研究院、中關村協眾創智信息產業促進會、ICT research聯合編寫的《中國基礎設施
    的頭像 發表于 11-21 17:33 ?1398次閱讀

    華為超節點互聯技術引領AI基礎設施新范式

    今日,華為全聯接大會2025在上海啟幕,華為副董事長、輪值董事長徐直軍發表題為“以開創的超節點互聯技術,引領AI基礎設施新范式”的主題演講,正式發布全球最強超節點和集群。
    的頭像 發表于 09-20 16:15 ?2122次閱讀

    科士達全棧解決方案亮相2025 ODCC,驅動綠色AI智基礎設施革新

    2025年開放數據中心大會(ODCC)于9月9日-11日在北京國際會議中心盛大啟幕。本屆峰會以“擁抱AI變革,點燃網引擎”為主題,聚焦AI爆發背景下基礎設施面臨的能效、部署與可持
    的頭像 發表于 09-17 15:40 ?1238次閱讀
    科士達全棧解決方案亮相2025 ODCC,驅動綠色AI智<b class='flag-5'>算</b><b class='flag-5'>基礎設施</b>革新

    睿海光電推出新一代光互聯解決方案 加速AI基礎設施升級

    睿海光電推出新一代光互聯解決方案 加速AI基礎設施升級 ? 在全球需求爆發性增長的背景下,深圳睿海光電科技有限公司近日發布基于QSF
    的頭像 發表于 08-19 17:15 ?793次閱讀

    Imagination加入龍蜥智基礎設施聯盟,攜手共建AI開源新生態

    近日在2025開放計算技術大會上,由龍蜥社區牽頭的【龍蜥智基礎設施聯盟】正式宣布成立。Imagination作為全球領先的GPUIP供應商,榮幸成為聯盟發起成員之一,攜手阿里云、浪潮信息、中興通訊
    的頭像 發表于 08-08 20:01 ?999次閱讀
    Imagination加入龍蜥智<b class='flag-5'>算</b><b class='flag-5'>基礎設施</b>聯盟,攜手共建AI開源新生態

    AIGC基礎設施技術架構與行業實踐

    AIGC基礎設施技術架構與行業實踐 一、硬件層:AI的物理載體 芯片技術升級? 國際前沿?:某國際芯片巨頭2025年發布的GB200
    的頭像 發表于 05-29 07:44 ?940次閱讀
    AIGC<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>基礎設施</b>技術架構與行業實踐

    曙光AI解決方案助力光大銀行數字化基礎設施升級

    “人工智能+”的國家戰略,希望率先在業內打破“技術懸浮”,計劃將人臉識別、OCR識別、智能客服、大模型、機器學習、RPA、知識圖譜、智能營銷等全業態從國外切換到國產異構。 面對
    的頭像 發表于 05-12 10:46 ?892次閱讀

    RAKsmart智能架構:異構計算+低時延網絡驅動企業AI訓練范式升級

    在AI大模型參數量突破萬億、多模態應用爆發的今天,企業AI訓練正面臨效率與成本的雙重挑戰。RAKsmart推出的智能架構,以異構計算
    的頭像 發表于 04-17 09:29 ?761次閱讀

    PoE交換機如何助力智慧城市基礎設施建設?

    隨著全球城市化的加速發展,智慧城市的概念正逐步成為現實。通過技術手段提升居民生活質量、優化城市運營并促進可持續發展已成為趨勢。彈性且高效的網絡是智慧城市基礎設施的關鍵支撐,而以太網供電(PoE
    發表于 03-25 10:20