国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大型芯片將打破深度學習的速度壁壘

FPGA技術江湖 ? 來源:FPGA技術江湖 ? 作者:Samuel K. Moore ? 2022-08-15 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Cerebras公司的技術將在數小時而非數周的時間里完成對這些人工智能系統的訓練。

人工智能計算機初創企業Cerebras Systems的聯合創始人兼首席執行官安德魯?費爾德曼(Andrew Feldman)表示,今天的人工智能效率遠低于它本應能達到的效率。

他和公司的其他聯合創始人一致認為,如今的人工神經網絡在訓練上太過耗時,計算量太大。比如說,要讓一輛自動駕駛汽車識別出它在路上會遇到的所有重要物體,則需要向汽車的神經網絡展示大量有關這些物體的圖像。這個過程發生在數據中心,耗電數十千瓦有時甚至數百千瓦的計算機會專門處理這種常常耗時長達數周的任務。假如生成的網絡能夠以所需精確度執行這項任務,則定義網絡連接強度的多個系數隨后會被下載到汽車的計算機中,然后去執行另一半深度學習工作,即推理。

Cerebras的客戶(該公司已經有一些客戶了,不過在去年夏天還在保密狀態)抱怨說,在當今的計算機上進行大型神經網絡訓練可能需要長達6周的時間。以這樣的速度,他們一年可能只能訓練6個神經網絡。“我們的目的是測試更多的想法,”費爾德曼說,“如果你能在2到3個小時內(訓練1個網絡),那么你就可以運行數千個想法。”

記者參觀Cerebras公司位于加州洛思阿圖斯(Los Altos)的總部時,這些客戶和部分潛在新客戶已經在用有橙色護套的光纜將他們的訓練數據導入4臺CS-1計算機中。這些64厘米高、功率為20千瓦的機器不停地運轉,產生的熱量通過墻上的一個孔洞被排放到了硅谷的街道上。

從外觀來說,CS-1計算機本身并不特別。實際上,每個機箱的3/4都被冷卻系統占據,而另外1/4空間中的內容才具有真正的“變革性”:一臺非常強大的計算機幾乎完全由一塊單一芯片組成。不過這塊芯片的面積超過46255平方毫米,是任何市售處理器芯片面積的50多倍。借助1.2萬億個晶體管、40萬個處理器內核、18千兆字節的靜態隨機存儲器(SRAM)以及每秒可移動100千萬億字節的互連技術,Cerebras的晶圓級引擎(WSE)可輕松秒殺其他系統。

Cerebras引用的統計數據是相當驚人的。該公司稱,一個10機架的TPU2集群(谷歌人工智能計算機產品的第二代)消耗的功率是單臺WSE計算機的5倍,占用的空間是它的30倍,性能卻僅為其1/3。單一巨型芯片是否真的是人工智能界一直在等待的答案,今年將變得明朗起來。“(神經網絡)模型越來越復雜,”加州山景城林利集團(Linley Group)的高級分析師邁克?戴姆勒(Mike Demler)說,“能夠快速訓練或再訓練非常重要。”

芝加哥附近的超級計算機巨頭阿貢國家實驗室等客戶已經在自己的辦公場所安裝了這種機器,如果Cerebras的推測是正確的,那么有出色表現的神經網絡的數量將呈爆炸式增長。

費爾德曼解釋說,Cerebras的創始人們(都是服務器公司Sea Micro的老員工,Sea Micro被超微半導體公司AMD收購)在2015年初次開會時便希望打造一臺完美符合現代人工智能工作量性質的計算機。這些工作量由以下幾點定義:快速移動大量數據,接近處理內核的內存,而且這些內核不需要處理其他內核正在處理的數據。

這立刻給包括首席技術官加里?勞特巴赫(Gary Lauter-bach)在內的資深計算機架構師提供了一些想法。首先,他們可以使用成千上萬個用于進行相關神經網絡計算的小內核,而不是使用更少量的通用內核。其次,這些內核應該與一個低能耗且可以快速移動數據的互連方案連接在一起。最后,所有所需數據應位于處理器芯片中,而不是多個單獨的存儲芯片上。

很大程度上正是在這些內核之間移動數據的需要讓WSE變得獨一無二。在兩個內核之間移動數據最快、能耗最低的方法就是將它們放在同一個硅基板上。數據必須從一塊芯片傳輸到另一塊芯片時,速度和功率方面的代價都很高,因為距離很長,傳輸信號的“電線”必須更粗且密度更小。

通過硅片實現所有通信的欲望,加上對小內核和本地存儲的渴望,都指向制造一塊盡可能大的芯片(也許大如一整塊硅晶圓)。費爾德曼說:“顯然我們做不到這一點,這是肯定的。但這很明顯有很大的好處。”

幾十年來,工程師們一直認為研究晶圓級芯片是一個死胡同。畢竟,出色如已故IBM System/360大型機首席架構師吉恩?阿姆達爾(Gene Amdahl),也在與Trilogy Systems公司合作進行的嘗試中失敗了。不過勞特巴赫和費爾德曼說,任何與阿姆達爾的嘗試進行的比較都很可笑而且過時的。阿姆達爾使用的晶圓只有如今晶圓的1/10大,而在這些晶圓上組成的設備尺寸卻是現今設備的30倍。

更重要的是,Triology無法解決芯片制造過程中不可避免出現的錯誤。在其他條件相同的情況下,芯片越大出現缺陷的可能性就越大。如果芯片和一張信紙一樣大,那么它必然會有不少缺陷。

不過,勞特巴赫找到了架構解決方案。由于他們的目標工作量偏向于采用成千上萬個相同的小內核,所以可以容納足夠多的冗余內核來承擔其中高達1%的缺陷所導致的故障,與此同時仍然能有一塊非常強大、非常大的芯片。

當然,為了制造能容納缺陷的巨型芯片,Cerebras還是需要解決大量制造問題。例如,光刻工具能夠將它們的特征定義圖案刻蝕到相對較小的矩形上,并不斷重復。由于在晶圓不同位置刻蝕不同圖案的成本和難度較高,僅此一項就導致無法將許多系統構建在單個晶圓上。

不過WSE不需要這樣做。它就像一塊充滿了完全相同的芯片的普通標準晶圓一樣。最大的挑戰是找到一種將這些偽芯片連接在一起的方法。芯片制造商在每個芯片周圍留下了一條稱為“劃線”的空白硅窄邊。通常會沿著這些線將晶圓切成小塊。Cerebras與臺灣積體電路制造股份有限公司(TSMC)合作開發了一種跨越劃線實現互連的方式,以便每塊偽芯片中的內核都可以通信。

由于所有通信和內存都在一塊硅片上,數據可以暢通無阻地快速移動,實現每秒1000拍比特的內核到內核帶寬和每秒9拍字節的SRAM到內核帶寬。“這多的可不是一點點。”費爾德曼說,”就是因為我們繼續使用了硅,我們將帶寬提升了4個數量級。”

除了實現跨劃線互連,芯片制造硬件也必須修改。即便是用于電子設計自動化的軟件,也必須定制才能在如此大的芯片上工作。“每一條規則、每一種工具和每一種制造設備的設計都像是挑選一塊普通大小的巧克力餅干。而(我們)提供的是一整塊烤盤大的餅干,”費爾德曼說,“其中的每一步都需要創新。”

088eed6a-1c29-11ed-ba43-dac502259ad0.jpg

晶圓級集成“在過去40年里一直被忽視,當然,總有一天它會得到重視”,他說。現在,既然Cerebras已經這樣做了,大門可能會向其他人敞開。“我們認為,其他公司會尋求與我們合作,以解決人工智能之外的問題。”

確實,伊利諾伊大學和加州大學洛杉磯分校的工程師們認為,Cerebras芯片可以促進他們使用硅互連結構技術推進他們的晶圓級計算工作。“這是對我們所做研究的極大驗證,”伊利諾伊大學的拉凱什?庫馬爾(Rakesh Kumar)說,“我們很高興這種事情有商業利益。”

當然,CS-1不僅僅是WSE芯片,但它也沒有更多內容。這既是出于設計,也是出于必要。被看作主板的,是一個位于芯片上方的電力輸送系統,其下方還有一塊水冷冷板。令人驚訝的是,在這款計算機的開發過程中,最大的挑戰便是這個電力傳輸系統。

WSE有1.2萬億個晶體管,其設計工作電壓約為0.8伏,這是處理器的標準配置,但它們的數量過多,共需要2萬安培的電流。勞特巴赫說:“在沒有明顯電壓下降的情況下,將2萬安培的電流注入晶圓是一個相當艱巨的工程學挑戰,這比冷卻晶圓或解決成品率問題要難得多。”

電力無法從WSE的邊緣傳輸,因為互連中的電阻在電壓到達芯片中間之前早已將其降為零。所以應該自上而下垂直傳輸。Cerebras設計了一塊玻璃纖維電路板,里面裝有數百個用于功率控制的專用芯片。100萬根銅柱將玻璃纖維板與WSE上各個點之間約1毫米的距離連接起來。

以這種方式傳送電力似乎很簡單,但事實并非如此。操作過程中,芯片、電路板和冷板都會預熱到相同的溫度,但在預熱時它們膨脹的量各不相同。銅膨脹最大,硅膨脹最小,玻璃纖維的膨脹介于兩者之間。對正常尺寸的芯片來說,這種不匹配是一個令人頭疼的問題,因為這種變化足以切斷它們與印刷電路板的連接,或者產生足以破壞芯片的應力。對于WSE大小的芯片而言,即使是很小的尺寸變化也會轉化為幾毫米的變化。

勞特巴赫說:“與主板(熱膨脹系數)不匹配是一個殘酷的問題。”Cerebras曾嘗試尋找一種熱膨脹系數介于硅和玻璃纖維之間的材料,只有這樣才能保持百萬個電力輸送柱的連接。不過,最終工程師們不得不自己發明材料,這項工作耗時1年半。

WSE明顯比通常用于神經網絡計算的競爭芯片要大,后者包括英偉達的Tesla V100圖形處理器和谷歌的Tensor處理器,但更大意味著更好嗎?

2018年,谷歌、百度和一些頂級學術團體開始研究基準,以便在系統之間進行同類比較。結果是他們于2018年5月發布了訓練基準MLPerf

根據這些基準,神經網絡訓練技術在過去幾年里取得了巨大進步。英偉達DGXSuperPOD(本質上是一臺1500-GPU的超級計算機)用了80秒便解決了ResNet-50圖像分類問題,而使用英偉達DGX-1機器(大概在2017年)需要8小時,使用該公司2015年的K80則需要25天。

Cerebras還沒有發布MLPerf結果或任何其他可獨立驗證的同類比較結果。相反,該公司更愿意讓客戶使用自己的神經網絡和數據來測試CS-1。

分析人士稱這種做法并不罕見。“每個人都有為自己的業務開發的模型,”Moor Insights的人工智能分析師卡爾?弗洛因德(Karl Freund)說,“對買家來說,這是唯一重要的。”

例如,早期客戶阿貢國家實驗室就有一些相當強烈的需求。在訓練神經網絡以實時識別不同類型的引力波事件時,科學家們最近使用了阿貢功率為百萬瓦特的Theta超級計算機1/4的資源,該超級計算機的計算能力在全球排名第28位。

把功耗降低到千瓦級似乎是超級計算的一個重要益處,勞特巴赫懷疑這項功能是否會成為數據中心的一大賣點。“雖然很多數據中心都在說(節約)能源的問題,但歸根結底……他們并不在乎,”他說,“他們想要的是性能。”而這是一個約餐盤大小的處理器完全可以提供的。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    463

    文章

    54010

    瀏覽量

    466040
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265358
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124398

原文標題:大型芯片將打破深度學習的速度壁壘

文章出處:【微信號:HXSLH1010101010,微信公眾號:FPGA技術江湖】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-03 13:50

    如何深度學習機器視覺的應用場景

    檢測應用 微細缺陷識別:檢測肉眼難以發現的微小缺陷和異常 紋理分析:對材料表面紋理進行智能分析和缺陷識別 3D表面重建:通過深度學習進行高精度3D建模和檢測 電子行業應用 PCB板復雜缺陷檢測:連焊、虛焊、漏焊等焊接質量問題 芯片
    的頭像 發表于 11-27 10:19 ?220次閱讀

    打破智能家居生態壁壘,樂鑫一站式Matter解決方案實現無縫互聯

    樂鑫科技作為CSA聯盟核心成員,提供一站式Matter解決方案,助力打破智能家居生態壁壘。方案覆蓋Wi-Fi、Thread等多種連接方式,支持ESP32全系列硬件平臺,并配套提供ESP-Matter
    的頭像 發表于 11-06 15:19 ?1270次閱讀
    <b class='flag-5'>打破</b>智能家居生態<b class='flag-5'>壁壘</b>,樂鑫一站式Matter解決方案實現無縫互聯

    打破智能家居壁壘,Matter協議引領無縫互聯新時代

    ,Matter旨在通過統一的“語言”打破智能家居生態壁壘。它建立在IP協議之上,可無縫兼容Wi-Fi、Thread與BLE(低功耗藍牙)等底層協議。在Matter生態中,BLE主要承擔了新設備的快速配網職責。 Matter的核心優勢在于其出色的互操作性和安全性。它讓不同品
    的頭像 發表于 10-16 15:39 ?460次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    、Transformer 模型的后繼者 二、用創新方法實現深度學習AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊化的指令集架構(ISA)。優勢如下: ①模塊化特性②標準接口③開源
    發表于 09-12 17:30

    如何在機器視覺中部署深度學習神經網絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經常會出現“神經網絡”、“黑箱”、“標注”等術語。這些概
    的頭像 發表于 09-10 17:38 ?901次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經網絡

    深度學習對工業物聯網有哪些幫助

    深度學習作為人工智能的核心分支,通過模擬人腦神經網絡的層級結構,能夠自動從海量工業數據中提取復雜特征,為工業物聯網(IIoT)提供了從數據感知到智能決策的全鏈路升級能力。以下從技術賦能、場景突破
    的頭像 發表于 08-20 14:56 ?1025次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    持續討論。特別是在自動駕駛領域,部分廠商開始嘗試多模態大模型(MLLM)引入到感知、規劃與決策系統,引發了“傳統深度學習是否已過時”的激烈爭論。然而,從技術原理、算力成本、安全需求與實際落地路徑等維度來看,Transforme
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    打破協議壁壘!三格電子Profinet轉EtherCAT主站網關,讓工業設備自由對話

    提供了完美解決方案,正成為眾多工業企業實現智能化升級的得力助手。 一、無縫集成,打破通信壁壘 三格電子的這款網關,巧妙地在 PN(Profinet)側作為 PN IO 從站,能夠輕松連接西門子 PLC 的 Profinet 接口;而在 ECAT(EtherCAT)側則擔當
    的頭像 發表于 07-09 09:47 ?783次閱讀
    <b class='flag-5'>打破</b>協議<b class='flag-5'>壁壘</b>!三格電子Profinet轉EtherCAT主站網關,讓工業設備自由對話

    Profinet轉CanOpen網關,打破協議壁壘的關鍵技術

    Profinet
    北京開疆智能技術有限公司
    發布于 :2025年05月13日 09:52:28

    Profinet轉CanOpen網關,打破協議壁壘的關鍵技術

    兩個使用不同方言的專家需要實時協作,此時開疆智能Profinet轉CanOpen網關便成為打破技術壁壘的關鍵樞紐。
    的頭像 發表于 05-10 14:14 ?549次閱讀
    Profinet轉CanOpen網關,<b class='flag-5'>打破</b>協議<b class='flag-5'>壁壘</b>的關鍵技術

    PROFINET轉EtherCAT網關模塊:打破工業通訊協議壁壘的利刃

    在工業自動化領域,不同品牌PLC之間的通訊一直是工程師們面臨的難題。當歐姆龍NJ系列PLC(EtherCAT主站)需要與西門子S7-1500(PROFINET控制器)進行數據交互時,如何打破協議壁壘
    的頭像 發表于 04-26 15:22 ?1094次閱讀
    PROFINET轉EtherCAT網關模塊:<b class='flag-5'>打破</b>工業通訊協議<b class='flag-5'>壁壘</b>的利刃

    用樹莓派搞深度學習?TensorFlow啟動!

    介紹本頁面指導您在搭載64位Bullseye操作系統的RaspberryPi4上安裝TensorFlow。TensorFlow是一個專為深度學習開發的大型軟件庫,它消耗大量資源。您可
    的頭像 發表于 03-25 09:33 ?1208次閱讀
    用樹莓派搞<b class='flag-5'>深度</b><b class='flag-5'>學習</b>?TensorFlow啟動!

    廠家芯資訊|WTK6900系列語音識別芯片學習功能深度答疑

    在智能硬件全面擁抱語音交互的時代,廣州唯創電子WTK6900系列芯片憑借其獨特的離線自學習能力,已成為智能家居、工業控制等領域的核心交互模塊。本文針對實際應用中的高頻問題,深度解析故障排除方法與優化
    的頭像 發表于 03-20 09:13 ?823次閱讀
    廠家芯資訊|WTK6900系列語音識別<b class='flag-5'>芯片</b>自<b class='flag-5'>學習</b>功能<b class='flag-5'>深度</b>答疑