国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

請問一下DSP數學能否在AI領域戰勝GPU呢?

Astroys ? 來源:Astroys ? 2023-10-26 10:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI芯片初創公司Lemurian Labs發明了一種專為AI加速設計的新型對數數字格式,并正在構建一種芯片,利用它為數據中心AI工作負載服務。

Lemurian的CEO Jay Dawani說:“2018年,我正在為機器人訓練模型,部分是卷積,部分是Transformer,部分是強化學習。在1萬個Nvidia V100 GPU上訓練這個模型需要6個月時間……模型呈指數級增長,但很少有人有足夠的算力來嘗試訓練,很多想法就這樣被放棄了。我試圖為那些有偉大想法但卻苦于沒有算力的普通的ML工程師構建模型?!?

對Lemurian首款芯片的模擬顯示,根據H100最新的MLPerf推理基準測試結果,Lemurian的新數字系統與專門設計的芯片相結合,其性能將優于Nvidia的H100。在離線模式下,Lemurian芯片在MLPerf版本的GPT-J中每個芯片每秒可處理17.54次推理(Nvidia H100在離線模式下每秒可處理13.07次推理)。Dawani說,Lemurian的模擬結果可能在真實芯片性能的10%以內,但他的團隊打算今后從軟件中榨取更多性能。他說,軟件優化加上稀疏性可以將性能再提高3-5倍。

對數數字系統??

Lemurian的秘訣在于該公司提出的新數字格式,稱之為PAL(parallel adaptive logarithms)。

Dawani說:“作為一個行業,我們開始急于采用8位整數量化,因為從硬件的角度來看,這是我們所擁有的最有效的東西。但從來沒有軟件工程師說過我想要8位整數!”

對于今天的LLM推理而言,INT8的精度已被證明是不夠的,業界已轉向FP8。但Dawani解釋說,AI工作負載的性質意味著數字經常處于亞正常范圍(接近零的區域),FP8可以表示的數字較少,因此精度較低。FP8在亞正常范圍內的覆蓋率存在差距,這也是許多訓練方案需要BF16和FP32等更高精度數據類型的原因。

5f6a7d50-73a0-11ee-939d-92fbcf53809c.jpg

比較各種數字格式的覆蓋范圍。與CFP8(configurable floating point 8)、INT8(integer 8)和現有LNS8(logarithmic number system 8)相比,Lemurian的8位對數數據類型PAL8在亞正常范圍的覆蓋率更高。

Dawani的聯合創始人Vassil Dimitrov提出了一個想法,即通過使用多基數和多指數來擴展現有的LNS(logarithmic number system),該系統已在DSP中使用了幾十年。

Dawani說:“我們交錯表示多個指數,以重現浮點的精度和范圍。這樣就能提供更好的覆蓋范圍……它自然而然地形成了一個錐形輪廓,在重要的地方,即在亞正常范圍內,具有非常高的精度帶?!? 這個精度帶可以進行偏置,以覆蓋所需的區域,這與浮點運算的原理類似,但Dawani說,它允許對偏置進行比浮點運算更精細的控制。

Lemurian開發了從PAL2到PAL64的PAL格式,其中14位格式與BF16相當。與FP8相比,PAL8的精度提高了約一個比特,大小約為INT8的1.2倍。Dawani希望其它公司也能采用這些格式。

他說:“我希望更多的人使用它,因為我認為是時候擺脫浮點運算了。PAL可以應用于目前浮點運算的任何應用,從DSP到HPC以及兩者之間,而不僅僅是AI,盡管這是我們目前的重點。我們更有可能與其它為這些應用構建芯片的公司合作,幫助他們采用我們的格式。”

對數加法器??

由于對數加法器簡化了乘法運算,因此在大部分為乘法運算的DSP工作負載中,對數加法器已使用了很長時間。LNS表示的兩個數的乘法就是這兩個對數的加法。然而,將兩個LNS數字相加卻比較困難。DSP傳統上使用LUT (large lookup table) 來實現加法運算,雖然效率相對較低,但如果所需的大部分運算都是乘法運算,這種方法已經足夠好了。

對于AI工作負載來說,矩陣乘法需要乘法和加法。Dawani說,Lemurian的秘訣之一就是“在硬件上解決了對數加法”。

他說:“我們完全摒棄了LUT,創建了一個純對數加法器。我們有一個比浮點精確得多的精確加法器。我們仍在進行更多優化,看看能否使它更便宜、更快速。它的PPA(power, performance, area)已經比FP8高出兩倍多?!? Lemurian已經為這款加法器申請了多項專利。

他說:“DSP界以研究工作負載并從數值上理解它在尋找什么著稱,然后加以利用并將其轉化為芯片。這與我們正在做的事沒有什么不同。我們并沒有構建一個只做一件事的ASIC,而是研究了整個神經網絡空間的數值,并構建了一個具有適度靈活性的特定領域架構?!?

5f9296e6-73a0-11ee-939d-92fbcf53809c.jpg

Lemurian數據流架構的高級視圖。該芯片是圍繞該公司的對數數字系統設計的。

軟件堆棧??

以高效的方式實現PAL格式需要硬件和軟件。

Dawani說:“我們花了很多心思去思考如何讓硬件更容易編程,因為除非你能首先提高工程師的生產力,否則任何架構都不會成功。我寧愿有一個糟糕的硬件架構和一個優秀的軟件堆棧,而不是相反?!?/p>

他說,Lemurian在開始考慮硬件架構之前,就已經構建了大約40%的編譯器。如今,Lemurian的軟件堆棧已經開始運行,Dawani希望保持它的完全開放性,這樣用戶就可以編寫自己的內核和融合程序。

軟件堆棧包括Lemurian的混合精度對數量化器Paladynn,它可以將浮點和整數工作負載映射到PAL格式,同時保持精度。

他說:“我們采用了神經架構搜索中的許多想法,并將其應用于量化,因為我們想讓這部分變得簡單。”

Dawani說,雖然卷積神經網絡的量化相對容易,但transformer卻并非如此。激活函數中存在異常值,需要更高的精度,因此transformer總體上可能需要更復雜的混合精度方法。不過,Dawani說,他正在關注多項研究工作,這些工作表明,到Lemurian的芯片上市時,transformer可能就不再流行了。

未來的AI工作負載可能會遵循Google的Gemini等公司設定的路徑,即運行非確定的步數。他說,這打破了大多數硬件和軟件堆棧的假設。

他說:“如果你事先不知道你的模型需要運行多少步,你該如何安排它,你需要在多少計算上安排它?你需要的是更動態的東西,這影響了我們的很多想法。”

該芯片將是一款300W的數據中心加速器,配備128GB HBM3,可提供3.5POPS的密集算力(稀疏性將稍后推出)??傮w而言,Dawani的目標是打造一款性能優于H100的芯片,并使其價格與Nvidia上一代A100相當。目標應用包括內部AI服務器(任何行業)和一些二級或專業云公司(非超大規模公司)。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • dsp
    dsp
    +關注

    關注

    561

    文章

    8244

    瀏覽量

    366649
  • HPC
    HPC
    +關注

    關注

    0

    文章

    346

    瀏覽量

    24976
  • GPU芯片
    +關注

    關注

    1

    文章

    307

    瀏覽量

    6517
  • AI芯片
    +關注

    關注

    17

    文章

    2128

    瀏覽量

    36779

原文標題:DSP數學能否在AI領域戰勝GPU?

文章出處:【微信號:Astroys,微信公眾號:Astroys】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    想請教一下,在哪兒可以找到教材,使用Mixly 來作進步修改AI 小智聊天機寸的程式ESP32 開發板

    網上買了用ESP32S3 開發板自己接線的小智AI 聊天機械人,想請教一下,在哪兒可以找到教材,使用Mixly 來作進步修改AI 小智
    發表于 01-28 15:01

    請問一下,繪制F030系列MCU的時候,仿真接口是否必須要引出RST

    請問一下,繪制F030系列MCU的時候,仿真接口是否必須要引出RST?
    發表于 01-13 07:06

    能否詳細介紹一下MOSFET電機控制中的作用是什么?

    能否詳細介紹一下MOSFET電機控制中的作用?
    發表于 12-22 13:11

    重磅合作!Quintauris 聯手 SiFive,加速 RISC-V 嵌入式與 AI 領域落地

    據科技區角報道半導體解決方案提供商 Quintauris 最近宣布和 RISC-V 處理器 IP 領域的頭部廠商 SiFive 達成戰略合作,目標直接瞄準加速 RISC-V 嵌入式、AI 系統等
    發表于 12-18 12:01

    請問一下,CW32L083VCT6的DeepSleep模式,功耗多少?

    請問一下,CW32L083VCT6的DeepSleep模式,功耗多少?
    發表于 12-03 06:14

    如何看懂GPU架構?分鐘帶你了解GPU參數指標

    GPU架構參數如CUDA核心數、顯存帶寬、TensorTFLOPS、互聯方式等,并非“冰冷的數字”,而是直接關系設備能否滿足需求、如何發揮最大價值、是否避免資源浪費等問題的核心要素。本篇文章將全面
    的頭像 發表于 10-09 09:28 ?1135次閱讀
    如何看懂<b class='flag-5'>GPU</b>架構?<b class='flag-5'>一</b>分鐘帶你了解<b class='flag-5'>GPU</b>參數指標

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予了人的智能,科學家們希望沒有人類的引導,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅動科學被認為是科學發現的第五個范
    發表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    的我我們講解了這幾種芯片的應用場景,設計流程、結構等。 CPU: 還為我們講解了種算法:哈希表算法 GPU: 介紹了英偉達H100GPU芯片。使用了一下關鍵技術: ①張量
    發表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    保持停滯的情況,依照目前計算機的能耗效率,至少還需要30年的努力才接近其水準,見圖1所示。 圖1 大腦與計算機的能量效率對比 圖2 類腦芯片的前瞻性研究領域AI濕件 為此,些想
    發表于 09-06 19:12

    AI 芯片浪潮,職場晉升新契機?

    職場、渴望專業領域更進步的人來說,AI 芯片與職稱評審之間,實則有著千絲萬縷的聯系,為職業晉升開辟了新的路徑。 AI 芯片
    發表于 08-19 08:58

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引,我已經安裝了cuda和cudnn,全局的py里添加了torch,能夠調用gpu,當
    發表于 07-25 08:18

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?直接發個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    發表于 07-09 18:30

    請問CYPM1011-24LQXI能否直接在keil MDK中開發?

    抱歉打擾一下,請問這款芯片CYPM1011-24LQXI能否直接在keil MDK中開發
    發表于 05-30 06:20

    DSP智能家電領域的應用,涵蓋音效處理、語音識別、智能化控制

    結構,配備專門的硬件乘法器,廣泛運用流水線操作,并提供特殊的?DSP?指令,可快速實現各類數字信號處理算法。 ? DSP??AI?中的應用及優勢? 盡管?
    的頭像 發表于 04-14 00:42 ?2770次閱讀

    高性能GPU服務器推薦

    面對市場上種類繁多的GPU服務器,如何選擇款適合自身需求的設備?接下來,AI部落小編為您推薦。
    的頭像 發表于 03-20 10:14 ?1073次閱讀