国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Graphcore 創業公司推出了一種專門用于 AI 計算的處理器芯片IPU

lhl545545 ? 來源:腦極體 ? 作者:腦極體 ? 2020-10-11 10:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CPU 芯片領域,延續至今的“摩爾定律”正在隨著制程工藝逼近物理極限而有了延緩的趨勢,甚至失效的可能。就在摩爾定律的增長放緩腳步的同時,半導體芯片的計算也正在從通用走向專用,其中AI 計算正是其中增長最快的一種專用計算。

現在,AI 計算正在接棒摩爾定律,延續并超越其倍增神話。2019 年,OpenAI 發布了 AI 算力的增長情況,結果顯示 AI 算力以 3.4 個月的倍增時間實現了指數增長,從 2012 年起,該指標已經增長了 30 萬倍。

在 AI 算力爆炸式增長的過程中,英偉達GPU 功不可沒。廣為人知的一個故事就是 2012 年,來自多倫多大學的 Alex 和他的團隊設計了 AlexNet 的深度學習算法,并用了 2 個英偉達的 GTX580 GPU 進行訓練后,打敗了其他所有計算機視覺團隊開發的算法,成為那一屆 ImageNet 的冠軍。

此后,在計算機視覺和自然語言處理領域,GPU 的高并行計算能力得到了充分的發揮,英偉達的 GPU 也隨著 AI 第三次浪潮的崛起而迎來井噴發展。與此同時,更多為機器學習而專門定制的專用芯片開始出現,比如專用集成電路ASIC)的張量處理單元 TPU、神經網絡單元 NPU 以及半定制芯片 FPGA 等等。

英國一家名為 Graphcore 的創業公司推出了一種專門用于 AI 計算的處理器芯片IPU(Intelligence Processing Unit)。一經問世,IPU就受到 AI 界越來越多的關注。

ARM 創始人,被稱為英國半導體之父的赫曼·豪瑟曾為 Graphcore 的IPU給出很高評價,將其譽為“計算機史上三次革命中,繼 CPU 和 GPU 之后的第三次革命”。赫曼在芯片產業的地位自然不容置疑,但由于 Graphcore 是英國芯片產業中為數不多的新生力量,難免赫曼有“護犢子”的打廣告之嫌。

IPU 出道 2 年時間,現已推出了量產第二代型號為 GC2 的 IPU。那么,IPU 的表現如何,與 GPU 相比有哪些優勢之處,這是本文要重點探討的問題。

GPU 所開啟的深度學習

一個廣為人們熟知的例子就是,在計算機視覺發展初期的 2011 年,谷歌大腦想要在 YouTube 的視頻中識別人類和貓,當時這樣一個簡單的任務,谷歌要動用一家大型數據中心內的 2,000 顆服務器 CPU,這些 CPU 的運行會產生大量的熱量和能耗,關鍵是代價不菲,很少能有研究人員可以用得起這種規模的服務器。

不過在當時,研究人員注意到了英偉達的 GPU,斯坦福大學的吳恩達團隊開始和英偉達合作,將 GPU 應用于深度學習。后來證明,只需要 12 顆英偉達 GPU 就可以達到相當于 2000 顆 CPU 提供的深度學習性能。此后越來越多的 AI 研究人員開始在 GPU 上加速其深度神經網絡 (DNN)的訓練。

現在我們都知道,GPU 能夠在深度學習的訓練中大顯身手,正是源于 GPU 的計算架構正好適用于深度學習的計算模式。深度學習是一種全新的計算模式,其采用的 DNN 算法包含數十億個網絡神經元和數萬億個連接來進行并行訓練,并從實例中自己學習規律。

深度學習算法主要依賴的基本運算方法有矩陣相稱和卷積浮點運算,而 GPU 多核架構在原本圖像渲染中可以大規模處理矩陣乘法運算和浮點運算,很好地可以處理并行計算任務,使得 DNN 訓練速度大幅提升。

此后,GPU 成為輔助完成深度學習算法的主流計算工具,大放異彩。但 GPU 本身并非是專門為 AI 計算而設計的芯片,其中有大量的邏輯計算對于 AI 算法來說毫無用處,所以行業自然也需要專門針對 AI 算法的專用 AI 芯片。

近幾年,全球已經有上百家公司投入到新型 AI 芯片的研發和設計當中,當然最終能夠成功流片并推出商用的仍然是幾家巨頭公司和少數實力雄厚的獨角獸公司。

這其中,2017 年初創成立的 Graphcore 所研發的 AI 芯片 IPU,則成為這些 AI 芯片當中的另類代表,因其不同于 GPU 架構的創新得到了業內的關注。而這正是我們要著重介紹的部分。

更適合 AI 計算的 IPU 芯片

近兩年,AI 芯片出現了各種品類的井噴,其中甚至出現一些堪稱瘋狂的另類產品。

比如一家同樣創立四年的 AI 芯片創業公司 Cerebras Systems 就發布了史上最大的半導體芯片 Wafer Scale Engine(WSE),號稱“晶圓級發動機”,擁有 1.2 萬億個晶體管,比英偉達最大的 GPU 要大出 56.7 倍。這塊芯片主要瞄準的是超級計算和和大型云計算中心市場,其創新之處在于一體化的芯片設計大幅提高了內部的數據通信數據,但其架構仍然類似于 GPU 的計算架構。

而 Graphcore 的 IPU 與 GPU 的架構差異非常大,代表的是一種新的技術架構,可以說是專門為解決 CPU 和 GPU 在 AI 計算中難以解決的問題而設計的。

IPU 為 AI 計算提供了全新的技術架構,同時將訓練和推理合二為一,兼具處理二者工作的能力。

我們以目前已經量產的 IPU 的 GC2 處理器來看,IPU GC2 采用臺積電的 16nm 工藝,擁有 236 億個晶體管,在 120 瓦的功耗下有 125TFlops 的混合精度,另外有 45TB/s 內存的帶寬、8TB/s 片上多對多交換總線,2.5 TB/s 的片間 IPU-Links。

其中,片內有 1216 個 IPU-Tiles 獨立處理器核心,每個 Tile 中有獨立的 IPU 核,作為計算以及 In-Processor-Memory(處理器內的內存)。對整個 GC2 來說共有 7296 個線程(每個核心最多可以跑 6 個線程),能夠支持 7296 個程序并行運行,處理器內的內存總共可以達到 300MB,其設計思路就是要把所有模型放在片內處理。

首先,IPU 作為一個標準的神經網絡處理芯片,可以支持多種神經網絡模型,因其具備數以千計到數百萬計的頂點數量,遠遠超過 GPU 的頂點規模,可以進行更高潛力的并行計算工作。此外,IPU 的頂點的稀疏特性,令其也可以高效處理 GPU 不擅長的稀疏的卷積計算。其次,IPU 也支持了模型參數的復用,這些復用特性可以獲取數據中的空間或時間不變性,對于訓練與推理的性能會有明顯幫助。

其次,為解決芯片內存的寬帶限制,IPU 采用了大規模并行 MIMD(多指令流多數據流)眾核架構,同時,IPU 架構做了大規模分布式的片上 SRAM。片內 300MB 的 SRAM,相對于 GPU 的 GDDR、HBM 來說,可以做到數十倍的性能提升,而且與訪問外存相比,SRAM 的片內時延基本可以忽略不計。

第三,IPU 采用了高效的多核通信技術 BSP(Bulk Synchronous Parallel)。IPU 是目前世界上第一款采用 BSP 通信的處理器,支持內部 1216 個核心之間的通信以及跨不同的 IPU 之間的通信。通過硬件支持 BSP 協議,并通過 BSP 協議把整個計算邏輯分成了計算、同步、交換,能極大方便工程師們的開發工作。

基于以上 IPU 的差異化特點,IPU 在某些批量訓練和推理中能夠獲得更好的性能、更低延時和更快網絡收斂。片內的 SRAM 相對于片外存儲,也有高帶寬和低延時的優勢。

今年 7 月,Graphcore 發布了二代的 Colossus MK2 IPU (MK2),以及包含四顆 MK2 芯片系統方案的 IPU-Machine:M2000 (IPU-M2000),其核心數增加了 20%,達到 1472 個,8832 個可并行執行的線程。片內 SRAM 則多出 3 倍,增加到 900MB,互聯擴展性能是上一代的 16 倍。顯然在計算、數據和通信擴展層面,MK2 都算是延續了第一代 IPU 堆料狂魔的作風。

由 4 個 IPU 芯片構成的 IPU-M2000 系統,可以提供大約 1 PetaFLOPs 的算力?;?IPU 的多層級存儲結構,與 IPU Exchange Memory 等技術優化,整體與 GPU 的 HBM2 存儲比較,可以提供超過 100 倍的帶寬以及大約 10 倍的容量,可以適用于更復雜的 AI 模型和程序。

計算加上數據的突破可以讓 IPU 在原生稀疏計算中展現出領先 GPU 10-50 倍的性能優勢,在通信上,Graphcore 專為為 AI 橫向擴展設計了 IPU-Fabric,解決數據中心大規模計算橫向擴展的關鍵問題。Graphcore 將計算、數據、通信三者的突破技術結合,構建了大規??蓴U展的 IPU-POD 系統,最終可以提供一個 AI 計算和邏輯進行解耦、系統易于部署、超低網絡延時、高可靠的 AI 超算集群。

可以預計,未來 IPU 在各類 AI 應用中將具有更大的優勢,而這也必然會引起英偉達的注意。那么,相較于英偉達 GPU 所占據的 AI 行業生態位的霸主地位,IPU 會有哪些前景,也會遭遇哪些困境呢?

走向通用 AI 計算的“另辟蹊徑”

如果回顧下 AI 芯片的發展經歷,我們看到在經過這幾年專用 AI 芯片的井噴之后,也開始面臨一個尷尬困境,那就是 ASIC 芯片的靈活性或者說可編程性很差,對應的專用 AI 芯片只能應對一種算法應用,而算法本身則在 3-6 個月的時間就有可能變化一次,或許出現很多 AI 芯片還未上市,算法就已經發生進化的問題,一些 AI 芯片注定無法生產。當然,專用 AI 芯片的優勢也很明顯,在性能、功耗和效率上遠勝更加通用的 GPU,對于一些非常具體的 AI 應用場景,這些專用芯片就具有了巨大的收益。

從專注圖像渲染崛起的英偉達的 GPU,走的也是相當于 ASIC 的技術路線,但隨著游戲、視頻渲染以及 AI 加速需要的出現,英偉達的 GPU 也在向著 GPGPU(General Purpose GPU)的方向演進。為保持其在 GPU 領域的寡頭地位,使得英偉達必須一直保持先進的制程工藝,保持其通用性,但是要犧牲一定的效能優勢。

這給后來者一定的啟發,那就是 AI 芯片既要具備一定的靈活的可編程性(通用性),又要具備專用的高效性能優勢。這為 IPU 找到了一個新的細分市場,也就是介入 GPU 不能很好發揮效能的神經網絡模型,比如強化學習等類型,同時又避免的專用 AI 芯片的不可擴展性,能夠部署在更大規模的云計算中心或超算中心,對新算法模型保持足夠的彈性計算空間。

目前來看,IPU 正在成為僅次于 GPU 和谷歌 TPU 的第三大部署平臺,基于 IPU 的應用已經覆蓋包括自然語言處理、圖像 / 視頻處理、時序分析、推薦 / 排名及概率模型等機器學習的各個應用場景。

典型的如通過 IPU 可以訓練胸片,幫助醫學人員快速進行新冠肺炎的診斷;如在金融領域,對涉及算法交易、投資管理、風險管理及詐騙識別的場景進行更快的分析和判斷;此外在生命科學領域、通信網絡等方面,都可以同 IPU 實現高于 GPU 性能的 AI 加速。

(NLP 模型參數的指數增長)

當然,IPU 想要在 AI 計算中擁有挑戰 GPU 地位的資格,除了在性能和價格上面證明自己的優勢之外,還需要在為機器學習框架提供的軟件棧上提供更多選擇,獲得主流 AI 算法廠商的支持,在標準生態、操作系統上也需要有廣泛的支持,對于開發者有更方便的開發工具和社區內容的支持,才能從實際應用中壯大 IPU 的開發生態。

今年, AI 芯片產業正在遭遇洗牌期,一些 AI 芯片企業黯然退場,但這并不意味著 AI 計算遭遇寒冬,反而 AI 算力正在得到大幅提升,以今年數量級提升 GPT-3 的出場就可以看出這樣的趨勢。

一個 AI 芯片從產出到大規模應用必須要經過一系列的中間環節,包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態等等,打通這樣一條鏈條都會面臨一個巨大挑戰。

現在,GPU 已經形成一個非常完整的 AI 算力生態鏈路,而 IPU 則仍然在路上,是否能真正崛起,還需要整個 AI 產業和開發者用實際行動來投票。
責任編輯:pj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135453
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301406
  • 處理器芯片
    +關注

    關注

    0

    文章

    123

    瀏覽量

    20354
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    DPU數據處理器的核心功能和應用領域

    DPU,全稱數據處理器(Data Processing Unit),是一種專門用于處理數據中心中數據流動與基礎設施任務的專用
    的頭像 發表于 02-02 13:52 ?558次閱讀
    DPU數據<b class='flag-5'>處理器</b>的核心功能和應用領域

    Banana Pi BPI-CM6 計算模塊將 8 核 RISC-V 處理器帶入 CM4 外形尺寸

    Banana Pi BPI-CM6是款緊湊型“計算模塊”,本質上是塊小型高性能計算機板,它采用的是 RISC-V 處理器,而非更常見的
    發表于 12-20 09:01

    瑞芯微SOC智能視覺AI處理器

    需要連接多種外設的產品。顯示: 支持雙屏異顯,最高4K@60fps輸出。 RK1126B: 款集成自研NPU的智能視覺AI處理器,專注于視頻輸入端的AI分析與
    發表于 12-19 13:44

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    建立的基礎: ①算力支柱②數據支柱③計算支柱 1)算力 與AI算力有關的因素: ①晶體管數量②晶體管速度③芯片架構④芯片面積⑤制造工藝⑥芯片
    發表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經形態計算、類腦芯片

    : 基于JJ的超導神經元和突觸: 2、半導體與超導體回合式神經形態網絡 工作原理: 3、非超導低溫類腦芯片 (知識盲區了) 4、低溫AI類腦芯片的潛力 四、以樹突為中心的合成大腦 生物神經元的樹突是
    發表于 09-17 16:43

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    一種快速反應能力,是直接的感知;靈感是一種通過思考和探索獲得的創造性想法,是一種創意。 AI怎么模擬直覺與靈感呢?四、AI代替人類的假說
    發表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現AI

    的憶阻、MAC計算單元及存儲 可以利用液體的流體力學特征做個納米級微流體系統,用水柱來實現邏輯門。 ①用有機聚合物溶液實現互連、憶阻
    發表于 09-15 17:29

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    Transformer和視覺Transformer模型。 ViTA是一種高效數據流AI加速,用于在邊緣設備上部署計算密集型視覺Transf
    發表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    的我我們講解了這幾種芯片的應用場景,設計流程、結構等。 CPU: 還為我們講解了一種算法:哈希表算法 GPU: 介紹了英偉達H100GPU芯片。使用了下關鍵技術: ①張量
    發表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽

    、集成芯片、分子器件與分子憶阻,以及打印類腦芯片等。 第五章至第八章分別探討用化學或生物方法實現AIAI在科學發現中創新應用、實現神經形
    發表于 09-05 15:10

    Cadence推出Tensilica NeuroEdge 130 AI處理器

    楷登電子(美國 Cadence 公司,Nasdaq:CDNS)近日宣布推出 Cadence Tensilica NeuroEdge 130 AI處理器(AICP)。這是
    的頭像 發表于 05-17 09:38 ?1396次閱讀

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學習應用設計的硬件加速。它的開發源于對人工智能(AI
    的頭像 發表于 04-22 09:41 ?4368次閱讀
    TPU<b class='flag-5'>處理器</b>的特性和工作原理

    光子 AI 處理器的核心原理及突破性進展

    電子發燒友網(文 / 李彎彎)光子 AI 處理器,作為一種借助光子執行信息處理與人工智能(AI計算
    的頭像 發表于 04-19 00:40 ?4165次閱讀

    AI SoC#炬芯科技端側 AI 處理器芯片:三核異構,存內計算

    炬芯科技端側 AI 處理器芯片產品主要為CPU+DSP雙核異構高算力單芯片解決方案,現在主推的端側 AI
    的頭像 發表于 03-24 14:27 ?3492次閱讀
    <b class='flag-5'>AI</b> SoC#炬芯科技端側 <b class='flag-5'>AI</b> <b class='flag-5'>處理器</b><b class='flag-5'>芯片</b>:三核異構,存內<b class='flag-5'>計算</b>

    【「芯片通識課:本書讀懂芯片技術」閱讀體驗】初識芯片樣貌

    和GPU的功能集成在芯片中,使這顆芯片同時具有CPU和GPU的功能。用APU芯片組裝的臺式計算機不用再配裝顯卡。 神經網絡
    發表于 03-23 09:47