国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習中矩陣乘法計算速度再次突破

算法與數據結構 ? 來源:量子位 ? 作者:量子位 ? 2021-06-24 17:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

n階矩陣乘法最優解的時間復雜度再次被突破,達到了

f6d190d4-d48d-11eb-9e57-12bb97331649.jpg

按定義直接算的話,時間復雜度是O(n3)。

光這么說可能不太直觀,從圖上可以看出,n足夠大時優化后的算法就開始表現出明顯優勢。

矩陣乘法在深度學習中有著廣泛的應用,像卷積神經網絡(CNN)中最耗時間的卷積計算,就經常被映射成矩陣乘法。

雖然在具體實現上還有很多障礙,但矩陣相乘底層算法的優化,至少在理論上為深度學習節省時間提供了可能性。

而科學家們努力的目標,是使n階矩陣乘法的時間復雜度盡可能接近理論上的最快速度O(n2)。

本次研究共同作者是一對師徒。

Josh Alman目前是哈佛大學的博士后研究員,主要研究方向是算法設計和復雜度理論。

Virginia Vassilevska Williams是他在MIT讀博士期間的導師,研究方向是組合數學和圖論在計算領域的應用。

Strassen:用加法替代乘法

矩陣乘法的時間復雜度直到1969年才第一次被Volker Strassen降至O(n3)以下。

看過《算法導論》的同學應該很熟悉Strassen算法。

以2階矩陣相乘為例,總共需要進行23=8次乘法,而2?的高階矩陣相乘可以用分塊法不斷迭代細分解成若干個2階子矩陣相乘。

Strassen巧妙的通過構造7個中間變量,用增加14次加法為代價省去了一次乘法。

對于

f75b808c-d48d-11eb-9e57-12bb97331649.png

定義

f7d831a4-d48d-11eb-9e57-12bb97331649.png

則有

f7e2a40e-d48d-11eb-9e57-12bb97331649.png

像這樣,在M?-M?的計算中只有7次乘法操作。
由于矩陣乘法計算中乘法的復雜度是O(n3),而加法的復雜度只有O(n2),n越大時此方法的收益就越大。

且分塊后每個子矩陣相乘都可以省去一次乘法操作,最終把時間復雜度降低到

f7edd1d0-d48d-11eb-9e57-12bb97331649.jpg

這么繞的算法到底怎么想出來的?可惜Strassen在論文中并沒有說明這一點。

Strassen算法在實際應用時受到很大限制,如運行時會創建大量的臨時變量,在n不夠大時反倒更耗費時間。

還有只適用于稠密矩陣,針對稀疏矩陣有更快的專門算法。

但最重要的是,Strassen的辦法讓學界意識到,原來矩陣乘法問題還有優化空間啊!

激光法:用張量替代矩陣

20世紀70年代末期,科學家們找到了解決問題的新思路,將矩陣計算轉換為張量計算。

1981年,Schonhage將此方法優化到

f88eb62c-d48d-11eb-9e57-12bb97331649.jpg

后,Strassen把這個方法命名為“激光法(Laser Method)”,因為和正交偏振激光有相似之處。

在后來的幾十年中,矩陣乘法的每次優化都來自激光法的優化,即如何更有效的把矩陣問題轉換成張量問題。

Alman和Williams的優化算法只比14年LeGall的

f8aa33a2-d48d-11eb-9e57-12bb97331649.jpg

減少了

f8baf98a-d48d-11eb-9e57-12bb97331649.jpg

從歷次優化的幅度來看,似乎已逼近激光法的極限。

能算得更快了嗎?

激光法很少在實際中應用,因為它只在n足夠大,大到現代計算機硬件幾乎無法處理的時候才能提供優勢。

這樣的算法被稱作“銀河算法(Galatic Algorithm)”。

在業界使用最多的還是通過分塊法和并行處理控制矩陣的規模。當n不大時,再通過循環展開,內存布局優化等辦法針對直覺算法的優化。

還有一點,現實中由于浮點數精度的限制,Strassen法和激光法在計算大規模矩陣時都會產生不小的誤差。

矩陣乘法的加速,看來還沒那么容易。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107754
  • 深度學習
    +關注

    關注

    73

    文章

    5598

    瀏覽量

    124396

原文標題:矩陣乘法計算速度再次突破極限,我煉丹能更快了嗎?| 哈佛、MIT

文章出處:【微信號:TheAlgorithm,微信公眾號:算法與數據結構】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何在NVIDIA CUDA Tile編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發者學習 NVIDIA CUDA Tile 編程,掌握構建高性能 GPU 內核的方法,并以矩陣乘法作為核心示例。
    的頭像 發表于 01-22 16:43 ?4817次閱讀
    如何在NVIDIA CUDA Tile<b class='flag-5'>中</b>編寫高性能<b class='flag-5'>矩陣</b><b class='flag-5'>乘法</b>

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-03 13:50

    蜂鳥乘法器設計分享

    ,蜂鳥E203乘法實現使用基4(Radix-4)的Booth編碼,共產生16個部分積,最終采用循環移位方式計算最終結果,以犧牲性能的方式換取了面積損耗。
    發表于 10-22 08:21

    NTT設計介紹

    運算,可有效提高乘法算法的計算速度和精度。 NTT可使用Gentleman-Sande蝶形變換實現,以正常順序輸入,以位反轉順序輸出。N點的NTT運算由 級組成,每一級執行 次蝶形變換。因此,一個N點
    發表于 10-22 06:05

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    矩陣乘法的算法 ①矩陣乘法的各種算法 ②優化矩陣乘法過程的新方法 ③加速
    發表于 09-12 17:30

    深度學習+多維感知!AI技術突破智能戒指邊界

    ? 電子發燒友網綜合報道,AI正以前所未有的速度滲透到消費電子領域,催生出形態更小巧、功能更智能的可穿戴設備。近期,多款融合了前沿AI技術的智能戒指相繼發布,標志著這一微型化智能終端已突破傳統飾品
    的頭像 發表于 09-07 03:23 ?8699次閱讀

    深度學習對工業物聯網有哪些幫助

    、實施路徑三個維度展開分析: 一、深度學習如何突破工業物聯網的技術瓶頸? 1. 非結構化數據處理:解鎖“沉睡數據”價值 傳統困境 :工業物聯網70%以上的數據為非結構化數據(如設備振
    的頭像 發表于 08-20 14:56 ?1023次閱讀

    自動駕駛Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛<b class='flag-5'>中</b>Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    求助,關于STM32H743使用DSP進行矩陣求逆計算出現的問題求解

    我正在STM32H743上實現一個算法,需要進行一個20*20的矩陣求逆,但是計算結果與matlab對比差距非常大,完全不正確,原矩陣A的部分數值類似如下: 在matlab求逆的部
    發表于 08-08 07:24

    AI芯片:加速人工智能計算的專用硬件引擎

    人工智能(AI)的快速發展離不開高性能計算硬件的支持,而傳統CPU由于架構限制,難以高效處理AI任務的大規模并行計算需求。因此,專為AI優化的芯片應運而生,成為推動深度
    的頭像 發表于 07-09 15:59 ?1559次閱讀

    大模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數據的情況下,通過深度學習模型進行預測或分類的過程。然而,大模型的推理過程對顯存和計算資源的需求較高,這給實際應用帶來了以下挑戰: 顯存不足:大模型在推理過程
    發表于 07-03 19:43

    ai服務器是什么?與普通服務器有什么區別

    AI服務器并非簡單的硬件堆砌,而是專門為人工智能任務設計的高性能計算系統。其核心目標是高效處理海量數據并行計算(如矩陣乘法、模型推理),并針對AI工作負載(如
    的頭像 發表于 06-24 16:39 ?4198次閱讀

    邊緣計算如何顛覆人工智能變革

    2025年以來,DeepSeek發布的大模型熱度居高不下,再次點燃了全球對人工智能的無限熱情。深度學習模型以指數級速度膨脹,性能不斷突破極限
    的頭像 發表于 05-30 09:29 ?1033次閱讀

    在CM32M433R MCU上調用riscv_sqrt_f32()函數的計算速度比直接調用sqrtf()要慢,為什么?

    在CM32M433R MCU上調用riscv_sqrt_f32()函數的計算速度比直接調用sqrtf()要慢, 計算一次riscv_sqrt_f32大概54 cycles;sqrtf()大概29 cycles,FPU宏已打開,求助是什么問題。
    發表于 03-07 14:18