国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

被帶寬限制的AI性能,怎么樣才能讓人工智能提供更好的性能?

工程師鄧生 ? 來源:雷鋒網 ? 作者: 吳優 ? 2020-12-16 15:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在目前廣泛應用于AI的內存方案中,包括片上存儲、HBM和GDDR。

作者 | 吳優

人工智能經過幾十年的發展,在數據爆炸時代正處于良性循環,大量的數據用于制造和訓練神經網絡,而后利用神經網絡篩選并理解這些數據。

不過,我們仍然對于更好的人工智能有巨大需求,據Open AI的一份報告顯示,從2012到2019年,人工智能訓練集增長將近30萬倍,每3.43個月翻一番,比摩爾定律快25000倍,在摩爾定律將近失效的今天,那么怎么樣才能讓人工智能提供更好的性能?

內存帶寬限制人工智能模型本身

早在兩年前,業內就有人提出,在計算能力和數據量足夠的年代里,內存帶寬才是人工智能發展的瓶頸。

德克薩斯高級計算中心(TACC)研究科學家曾在其2016年的報告《HPC系統中的內存帶寬和系統平衡》中比較過去25年某些HPC服務器的浮點計算情況,結果顯示內存、網絡延遲和帶寬大幅度落后于處理器性能,其中內存帶寬大約每十年落后浮點計算4.5倍。

“一個非常有趣的現象是,內存對人工智能的限制一部分體現在人工智能模型本身,以及用來訓練這些模型的數據量規模急劇增長。”Rambus 大中華區總經理蘇雷在Rambus 2020中國設計峰會上說到。

根據蘇雷的介紹,這種限制在人工智能傳統訓練模型和并行訓練模型上均有體現。

傳統神經網絡訓練通常只使用一個AI/ML引擎,即將神經網絡模型和訓練數據全都嵌入一顆芯片中,訓練的數據在芯片中迭代循環,通過不斷更新模型實現對數據的分類、識別和處理,這一場景下其性能直接取決于計算引擎和緩存速度、內存帶寬。

為提高數據訓練時間,具體多個AI/ML引擎的神經網絡得以出現,這種方法是神經網絡模型的完整副本同時嵌入多個芯片中,神經網絡模型所需的訓練工作量被均分到每一顆芯片中,多個芯片引擎并行處理訓練集,進而提高訓練時間。

并行方案的每一個訓練步驟可分為兩個階段,每個階段受到的帶寬限制不盡相同。

在第一階段,每個訓練的并行引擎將通過它們的訓練結果更新其模型副本,因此并行訓練的每個芯片在運行完每一次訓練迭代后,都會有不同的訓練更新,因此這一階段數據傳輸到芯片的速度直接取決于內存帶寬的大小。

在第二階段,即規約階段(Reduction),需要每個引擎與所有其它引擎交互更新信息,讓芯片彼此了解其它芯片的更新并接受來著其他芯片的更新,得以更新自己的模型,恢復模型間的同步,再次擁有相同的模型副本。顯然,這一階段的性能主要取決于芯片間鏈路帶寬的限制。

HBM 2和GDDR 6,更多的內存選擇

“為縮小內存帶寬和高性能浮點計算之間的差距等問題,我們有新的系統架構和面向特定領域的硅,或者將更多的數據直接放在芯片上,以獲得更高的帶寬,更好的功率和更低的延遲,但是數據總是越來越大,需要更多的內存,所以依然需要在片外存儲器和鏈路性能上取得突破。”Raymond Su表示。

在目前廣泛應用于AI的內存方案中,片上存儲(On-Chip Memory)就是Raymond Su所言的擁有最高帶寬和功率效率但容量有限的方案,其他兩種方案分別是HBM和GDDR,即DRAM解決方案。

HBM是一種基于3D堆棧工藝的高性能DRAM。第一代HBM誕生于2013年,最新一代HBM標準已經演進到HBM2E,能夠支持12個DRAM的堆棧,內存容量高達每堆棧24GB,當傳輸速率達到每管腳3.6Gbps時,HBM2E可以實現每堆棧461GB/s的內存帶寬。

由于HBM2E堆棧需要通過高達1700多條數據“線”的接口連接到相關處理器,遠遠超過標準PCB能夠支持的范圍,因此使用硅中介層作為連接內存堆棧和處理器的中介,在硅中介層中完成精細的數據走線,獲得HBM接口所需數量的數據線數。

HBM2E通過堆疊技術實現高帶寬和高容量,但由于硅中介層的使用,成本偏高。

GDDR是雙倍數據傳輸率存儲器,采用傳統的方法將標準PCB和測試的DRAMs與SoC連接在一起,具有較高的帶寬和較好的能耗效率,其缺點在于更難保證信號完整性和電源完整性。

比較256GB/s下HBM2和GDDR6,HBM2E的接口寬而慢,GDDR6的接口窄而快。HBM2占有面積優勢和能耗優勢,但GDDR6具有成本和方案工程上的實現優勢。

HBM2與GDDR6內存解決方案的高帶寬已經顯而易見,不過想要真正落實到實現高性能人工智能的應用上,還需要IP供應商的支持,在HBM2和GDDR6內存解決方案的IP供應中,Rambus就扮演重要角色。

根據Rambus資深應用工程師曹汪洋在Rambus 2020中國設計峰會上的介紹,Rambus的HMB2E接口解決方案(PHY和控制器)專為AI/ML、HPC的高性能和低延遲而設計。Rambus HBM Gen2 PHY 完全符合JEDEC HBM2E標準,支持每個數據引腳高達3.6Gbps 的數據速率,總帶寬因此達到461 GB/s。該接口具有8個獨立信道,每個信道包含128位,總數據寬度為 1024 位,支持2、4、8 或 12個DRAM的堆棧高度。

Rambus GDDR6 PHY每個引腳的速度高達16 Gbps,可用于TSMC 7nm工藝,GDDR6接口支持2個信道,每個信道有16位,總數據寬度為32位。另外,Rambus GDDR6 PHY 每個引腳的速度高達16 Gbps,最高可提供 64 GB/s 的帶寬。

在Rambus 2020中國設計峰會的交流環節,蘇雷向雷鋒網表示: “Rambus 是全球HBM IP技術的引領者,且在市場份額上排名第一,全球范圍內擁有50多個成功案例,Rambus最新的Rambus HBM2E的方案可以實現全球最高的4Gpbs速率,GDDR6方案可以實現18Gbps速率,位于業界頂尖水平,這能夠幫助客戶的方案設計提供足夠裕量空間,保證整個系統的穩定性,目前燧原已將選擇了Rambus作為其下一代AI訓練芯片的合作伙伴。”

高帶寬之后,信號完整性也是挑戰

在上述文章中提到,HBM和GDDR是可以為AI/ML提供高帶寬,其中速率更高的GDDR6面臨著信號完整性和電源完整性的挑戰。

據雷鋒網了解,信道中不同類型的損耗是影響信號完整性的主要因素,具體又可以分為插入損耗、反射和串擾,插入損耗產于介電損耗或金屬電阻表面粗糙程度,主要通過較好的PCB和封裝設計來控制。信號反射源于阻抗,最終會導致眼圖閉合和信號丟失。串擾由于兩個信號之間的電容和電感耦合引起的,由于從信號中消除串擾的電路很復雜,因此串擾是GDDR6 DRAM信號完整性最具挑戰性的問題。

針對信號完整性問題,蘇雷表示:“ 要確保信號的完整性,就需要從發送端到接收端進行的完整系統建模,需要采用協同設計的方案。Rambus 的GDDR6 PHY解決方案可以穩定在18Gbps并確保傳輸眼圖清晰,走在業界最前列。在高速的傳輸下,還需要對電路板上的封裝設計進行建模,使用比如DFE和反轉等技術,可以提高性能讓眼圖更好的打開 。”

當然除了信號完整性和電源完成性,DRAM數據速率的增長還導致更多其他的問題,“我們需要做的還是兼顧能耗的制約,不斷找尋和提升內存帶寬的方法,為AI/ML更高的性能。”蘇雷說道。

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 帶寬
    +關注

    關注

    3

    文章

    1040

    瀏覽量

    43371
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301427
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265393
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    雙脈沖測試:差分探頭帶寬限制按鍵,該開還是該關?

    才能讓測試數據更精準,避免誤判。 先給大家一個直觀結論:普通場景、干擾大,或者只需要基礎參數,就打開帶寬限制;測試高頻高速器件,或者要精準分析波形細節,就果斷關閉。 下面結合實際測試場景,和大家說清楚背后的
    的頭像 發表于 03-03 08:58 ?38次閱讀
    雙脈沖測試:差分探頭<b class='flag-5'>帶寬限制</b>按鍵,該開還是該關?

    淺談人工智能(2)

    接前文《淺談人工智能(1)》。 (5)什么是弱人工智能、強人工智能以及超人工智能? 弱人工智能(Weak
    的頭像 發表于 02-22 08:24 ?122次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    傲琪人工合成石墨片: 破解智能手機散熱困境的創新解決方案

    近年來,智能手機行業面臨著一個日益嚴峻的挑戰:設備性能不斷提升,但散熱技術卻跟不上處理器功率增長的步伐。消費者對輕薄機身的追求,更加限制了傳統散熱方案的應用空間。 某主流手機廠商的最新旗艦機型研發
    發表于 09-13 14:06

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    應用。 為什么選擇 Neuton 作為開發人員,在產品中使用邊緣人工智能的兩個最大障礙是: ML 模型對于您所選微控制器的內存來說太大。 創建自定義 ML 模型本質上是一個手動過程,需要高度的數據科學知識才能
    發表于 08-31 20:54

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    和生態體系帶到使用者身邊 ,讓我們在技術學習和使用上不再受制于人。 三、多模態實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領域主要
    發表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    和生態體系帶到使用者身邊 ,讓我們在技術學習和使用上不再受制于人。 三、多模態實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領域主要
    發表于 08-07 14:23

    超小型Neuton機器學習模型, 在任何系統級芯片(SoC)上解鎖邊緣人工智能應用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學習模型更易于使用。它創建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進的邊緣設備上進行人工智能處理。在這篇博文中,我們將介紹
    發表于 07-31 11:38

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發的新一代AI大模型。其核心優勢在于強大的推理引擎能力,融合了自然語言處理(NLP)、深度
    發表于 07-16 15:29

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能
    發表于 07-14 11:23

    AI芯片:加速人工智能計算的專用硬件引擎

    人工智能AI)的快速發展離不開高性能計算硬件的支持,而傳統CPU由于架構限制,難以高效處理AI任務中的大規模并行計算需求。因此,專為
    的頭像 發表于 07-09 15:59 ?1584次閱讀

    最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發展的當下,無論是探索未來職業方向,還是更新技術儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學術研究的智能工具,大模型正在工作生活
    發表于 07-04 11:10

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網,WiFi,USB 擴展/重力感應/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能人工智能
    發表于 04-23 10:55

    適用于數據中心和AI時代的800G網絡

    隨著人工智能AI)技術的迅猛發展,數據中心面臨著前所未有的計算和網絡壓力。從大語言模型(LLM)訓練到生成式AI應用,海量數據處理需求推動了網絡帶寬的快速增長。在此背景下,800G網
    發表于 03-25 17:35

    DeepSeek推動AI算力需求:800G光模塊的關鍵作用

    隨著人工智能技術的飛速發展,AI算力需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務對算力的需求持續攀升,直接推動了服務器、光通信設備以及數據中心基礎設施的升級。特別是在大規模算
    發表于 03-25 12:00

    AI人工智能隱私保護怎么

    在當今科技飛速發展的時代,AI人工智能已經深入到我們生活的方方面面,從醫療診斷到交通調度,從教育輔助到娛樂互動,其影響力無處不在。然而,隨著AI人工智能的廣泛應用,其安全性問題也備受關
    的頭像 發表于 03-11 09:46 ?1204次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>人工智能</b>隱私保護怎么<b class='flag-5'>樣</b>