国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

億鑄科技發布基于ReRAM的全數字化存算一體AI大算力芯片技術

lhl545545 ? 來源:億鑄科技 ? 作者:億鑄科技 ? 2022-09-01 11:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在剛剛結束的GTIC 2022全球AI芯片峰會存算一體專題論壇上,億鑄科技創始人、董事長兼CEO熊大鵬博士發表了題為“存算新動能——基于ReRAM的全數字化實現”的演講,介紹了億鑄科技基于ReRAM的全數字化存算一體AI大算力芯片技術等深度內容,以下為演講回顧。

AI芯片正在經歷三個階段:第一個階段是通用CPU;第二個階段是專用的加速芯片,其中比較有代表性的是GPU或者基于dataflow數據流、TPU這種以脈動陣列的方式對AI進行加速的芯片;而現在我們正在進入第三個階段——存算一體芯片。從第一個階段到第二個階段的主要驅動力是計算工藝的提升,以加大計算能力;而第二個階段到第三個階段的轉換我們認為主要是存儲墻所導致的,大量的數據搬運帶來的瓶頸使能耗增加、計算效率大大下降。

就像我們在深圳舉行峰會,大家來自不同城市地區,從各自居住的地方乘坐各種交通工具來到會場,在行程住宿上花費的時間金錢精力遠遠超過了在會議本身上付出的成本。從某種意義上來說,這就類似于存算分離——居住的地方和會場是分開的。想象一下,如果大家都用網絡視頻參加本次峰會,時間金錢精力等成本就會大幅度降低,從這個角度來看,視頻會議就像是存算一體——工作的地方就是居住的地方,居住的地方也是工作的地方。同樣,由于存算分離,AI計算的數據搬運量非常大,會導致功耗大大增加,這就是存儲墻。

此外,不管是傳輸還是計算工藝本身的限制,能效比已經接近極限。無論是20W,75W,150W的模組還是PCIe板卡,目前能支持的最高算力已經達到了天花板。以75W為例,不管是7nm工藝或將來會有的更高工藝,150TOPS到200TOPS已經基本封頂,這是存儲墻帶來的能耗墻導致的。

第三個問題我們稱為編譯墻或是生態墻,也可以說是可編程性,由于存算分離,數據搬運容易發生擁塞,尤其是在動態環境下,對數據進行調度和管理其實非常復雜,所以編譯器無法在靜態可預測的情況下對算子、函數、程序或者網絡做整體的優化,只能手動、一個個或者一層層對程序進行優化,包括層與層之間的適配等,耗費了大量時間。傳統架構的AI對像ResNet-50這種軟件做優化通常需要幾十個人花費幾個月的時間,這就是存儲墻帶來的編譯墻。

而存算一體架構可以打破傳統的馮·諾依曼架構帶來的這“三堵墻”。

硬件加速的基本定律叫做阿姆達爾定律,如同力學里面的牛頓定律。在這個公式中,大家可以看到一個F和一個α,F是計算所花的時間除以數據搬運加上計算時間的百分比,α取決于算力的堆疊或者工藝提升之后工作頻率的提升。計算速度每年大概會提升40%,但是數據搬運的速度大概每年提高不到10%,使得兩者之間的鴻溝越來越大,這個比例未來可能會小于0.8、0.5甚至更低。如果以F為0.5為例,以后無論使用多先進的工藝,性能的提升都不會超過兩倍這個天花板,這也就解釋了為什么基于馮·諾依曼架構AI芯片算力密度的天花板是不可避免的。

那么存算一體又為什么能突破天花板,達成線性上升呢?因為這里的F值約等于1,緩存數據搬運的時間非常小,基本上可以忽略不計,1-F接近0,這個公式在存算一體架構下,硬件加速和α呈線性關系,核數堆得越多或者工藝越先進,硬件加速的倍數就越高。這個公式就從理論上解釋了存算一體可以打破傳統馮·諾依曼架構算力密度、能效比等限制的天生優勢。

就像其他演講者提到的,用純模擬的方式實現存算一體,會比傳統存算分離架構下能效比提升幾十甚至上百倍。憶阻器W相當于一個乘法器和加法器,在數字領域,做一個乘法器和加法器大概需要1700個晶體管左右,但在這里一個簡單的憶阻器就可以代替乘法器和加法器,其系統設計的復雜性和功耗等將得到很大的優化。

當然,模擬的方式也有缺陷,比如精度問題和數模/模數轉換導致的天花板問題。憶阻器是個可編程電阻,所以會受到工藝和工作環境的影響,在這些影響下,精度就會有漂移。尤其對于大算力的AI應用來說,精度期望往往是8位、16位,甚至更高。無論是人臉識別、自動駕駛還是語音識別,都有可能要求16位的整數或者浮點,而16位的精度誤差不能超過百萬分之一,從物理上來說,憶阻器無法達到這樣的精度。

另外一個問題是模擬需要數模/模數轉換,這個就帶來了性能、能耗和晶圓面積過大等方面的瓶頸。所以憶阻器有優點,也有一些需要克服的挑戰。要想解決這些問題,國內國外企業,包括我們自己,都嘗試過數模混合的方式。也就是一部分采用數字化,另一部分采用模擬的方式實現存算一體,因為模擬和數字化各有各的好處。

這里舉一個簡單的例子。如果一個憶阻器表達8位或者16位的精度就會帶來精度問題,那么我們僅僅用這個憶阻器表達4位的精度,如果需要做8位的計算,就用兩個憶阻器來表達,算完之后得到兩個結果:Y1(0)和Y1(1),通過外圍的邏輯組合來完成一個完整的8位乘加。這種方式的好處就是解決了部分精度問題,因為4位精度相對來說比較容易做到,而且數模/模數轉換對精度的要求不高。其不足在于不能絕對保證它的可靠性,而且數模/模數轉換在性能方面還有限制,計算過程相對復雜也導致了能效比下降。

而億鑄科技采用的是全數字化存算一體,全數字化存算一體的好處就在于不管是8位、16位還是32位,不管是整數還是浮點,在整個計算過程中不受到工藝和工作環境的影響,沒有精度損失,也沒有數模/模數轉換導致的性能低、能效比低或者晶圓面積過大等問題。能效比可以超過20TOPS/Watt,如果是在75Watt 的PCIe加速卡上做性能可以超過1POPS(1000TOPS),相對于當前主流的算力產品而言,我們用28nm工藝實現8-10倍能效比。

億鑄科技將存算一體作為一個IP,整體設計還包括CPU、SIMD、對外接口、ISP、Video Codec、NoC片內通訊等等,組成了一個比較完整的芯片。相比當前主流的算力產品,在同樣的功耗下,能效比可以達到8-10倍的提升。另外作為整體解決方案,因為我們在AI的部分不需要外接的高性能DDR,更不需要HBM/GDDR,所以成本大概只有目前主流板卡的1/3-1/6。

說到軟件和軟件生態,圖中左邊這部分對于所有開發者來說都是公開的,下面是傳統架構的AI芯片,右邊和傳統不同的是有后端編譯優化器。存算一體有天生優勢,軟件開發難度相對較低,并且編譯器可以自動優化,避免了每個算子、每個函數、每層的手動優化的過程。

比如,要把整個網絡ResNet-50映射到ReRAM陣列里,為了對資源進行合理地優化分配,在靜態的情況下采用非線性動態優化的策略,設定從frame進去到出來處理的整體時長最短為優化目標。它帶來的好處非常明顯——在算子庫和函數庫里有一些基本的素材,依賴編譯器提供的工具來自動優化執行程序,可以指數級地減少程序開發員的工作。另外一個好處是,芯片落地后,終端用戶部署所花費的時間、人力、物力成本也將大大減少。

最后介紹一下億鑄科技對存儲介質選擇的考量。存算一體有不同的介質選擇:有傳統存儲器Flash、SRAM,也有新型存儲器ReRAM、PCRAM、MRAM等等。在不同的應用環境下,每個介質都有自身的優缺點,但對于AI大算力這個特殊的細分領域來說,從成本、密度、功耗、性能穩定性等各方面綜合考慮,我們選擇了ReRAM,也認為ReRAM是目前最適合存算一體AI大算力的存儲介質。

另外ReRAM還有很多其他優勢,比如億鑄選擇的憶阻器高阻值和低阻值之間的平均差異能夠達到一千倍以上,帶來了穩定可靠的優勢,也使電路設計更加簡單。另外,ReRAM可以兼容CMOS常規的工藝。

2021年被稱為ReRAM的元年,從去年開始ReRAM已經商用落地、規模量產,未來的成長空間非常大。比如ReRAM可以往密度、性能兩方面快速發展。從密度來說,一個是MLC多模態形式,另一個是可以往上3D堆疊,所以從迭代的潛力來看ReRAM也有十分獨特的優勢。

目前在28nm的工藝上,昕原半導體在去年已經開始量產ReRAM,TSMC也開始可以提供量產的能力,二者良率都在90%以上。低端工藝上也有其他廠家可以支持,例如采用Panasonic技術的UMC。

今天是存算一體專場,億鑄科技希望能夠和上下游伙伴們攜手打造存算一體生態,制定中國自己的標準,無論是指令集、SDK、還是開發工具等,打造我們中國自己的生態。我們相信,在存算一體這個領域上,中國和其他國家之間的技術差距非常小,甚至在某些方面還領先于世界。我們相信,只要大家齊心合力一起打造存算一體生態,一定能迎來非常光明的未來。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135427
  • 芯片技術
    +關注

    關注

    1

    文章

    175

    瀏覽量

    18446
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301355
  • 數字化
    +關注

    關注

    8

    文章

    10653

    瀏覽量

    67218

原文標題:億科技 | 存算一體新動能——基于ReRAM的全數字化技術

文章出處:【微信號:億鑄科技,微信公眾號:億鑄科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    “四平臺,芯片國產率超九成,兼容8種國產AI芯片

    調度平臺可支持每天上次的調用,能調度全國1/6的規模,
    的頭像 發表于 04-13 00:03 ?4001次閱讀

    AI一體,這家ReRAM新型存儲受關注

    及相關芯片產品的研發,涵蓋AI一體(Computing in Memory, CIM)IP及大模型加速方案、高性
    的頭像 發表于 12-25 09:43 ?1862次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>,這家<b class='flag-5'>ReRAM</b>新型存儲受關注

    科技王紹迪:AI可穿戴需求爆發,一體成主流AI芯片架構

    集中在AI驅動的細分場景需求釋放,知科技聚焦的一體芯片具備高
    的頭像 發表于 12-23 09:34 ?9514次閱讀
    知<b class='flag-5'>存</b>科技王紹迪:<b class='flag-5'>AI</b>可穿戴需求爆發,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>成主流<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>架構

    湘軍,讓變成生產

    腦極體
    發布于 :2025年11月25日 22:56:58

    AI邊緣一體機TS-SG-SE7(1U)系列產品規格書

    一體機,是基于國產能嵌入式ARM架構、超強SoC
    發表于 10-27 17:50 ?0次下載

    一體AI芯片公司九天睿芯完成超元B輪融資

    全球領先的一體AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B輪融資,規模超
    的頭像 發表于 10-10 11:41 ?1180次閱讀

    后摩爾定律時代,3D-CIM+RISC-V打造國產一體新范式

    、能效與帶寬瓶頸成為行業前行的關鍵阻礙,而美西方的技術禁運更讓中國芯片產業面臨嚴峻挑戰。 ? 在這大背景下,
    發表于 09-17 09:31 ?5880次閱讀
    后摩爾定律時代,3D-CIM+RISC-V打造國產<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>新范式

    文看懂“一體

    今天這篇文章,我們來聊個最近幾年很火的概念——一體。為什么會提出“
    的頭像 發表于 08-18 12:15 ?1431次閱讀
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>”

    一體技術加持!后摩智能 160TOPS 端邊大模型AI芯片正式發布

    ,同步推出力擎?系列M.2卡、謀?系列加速卡及計算盒子等硬件組合,形成覆蓋移動終端與邊緣場景的完整產品矩陣。這系列動作標志著后摩智能在一體
    的頭像 發表于 07-30 07:57 ?8321次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>技術</b>加持!后摩智能 160TOPS 端邊大模型<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>正式<b class='flag-5'>發布</b>

    2025端側AI芯片爆發:一體、非Transformer架構誰主浮沉?邊緣計算如何選型?

    各位技術大牛好!最近WAIC 2025上端側AI芯片密集發布,徹底打破傳統困局。各位大佬在實
    發表于 07-28 14:40

    緩解高性能一體芯片IR-drop問題的軟硬件協同設計

    在高性能計算與AI芯片領域,基于SRAM的一體(Processing-In-Memory, PIM)架構因兼具計算密度、能效和精度優勢成
    的頭像 發表于 07-11 15:11 ?1322次閱讀
    緩解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>IR-drop問題的軟硬件協同設計

    科技入圍工信部強基揭榜行動

    近日,工業和信息部辦公廳(以下簡稱“工信部”)發布了《關于公布強基揭榜行動入圍名單的通知》,
    的頭像 發表于 06-30 14:57 ?1095次閱讀

    軟通智完成超級A輪融資,加速AI產業布局

    機構跟投。 自2024年成立以來,軟通智積極參與全國一體化網建設,以技術驅動
    的頭像 發表于 06-18 15:37 ?569次閱讀

    蘋芯科技 N300 一體 NPU,開啟端側 AI 新征程

    隨著端側人工智能技術的爆發式增長,智能設備對本地與能效的需求日益提高。而傳統馮·諾依曼架構在數據處理效率上存在瓶頸,“內存墻”問題成為制約端側AI性能突破的關鍵掣肘。在這
    的頭像 發表于 05-06 17:01 ?1108次閱讀
    蘋芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b> NPU,開啟端側 <b class='flag-5'>AI</b> 新征程

    科技亮相2025中國移動云智大會

    2025年4月10-11日,中國移動云智大會在蘇州金雞湖國際會議中心成功舉辦。作為AI芯片領域的創新企業,科技受邀參加此次盛會,并在大
    的頭像 發表于 04-12 13:46 ?1026次閱讀
    <b class='flag-5'>億</b><b class='flag-5'>鑄</b>科技亮相2025中國移動云智<b class='flag-5'>算</b>大會