伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

存儲芯片閃崩!谷歌發(fā)布新算法,AI內(nèi)存占用只需原來1/6?

Hobby觀察 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:梁浩斌 ? 2026-03-27 13:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/梁浩斌)又一“Deepseek時刻”來了?谷歌在3月24日發(fā)布了一項名為TurboQuant的先進向量量化壓縮算法,旨在解決大語言模型和向量搜索引擎中的內(nèi)存瓶頸問題,令KV Cache內(nèi)存占用降低至原來的1/6且?guī)缀鯚o精度損失。

隨后在當?shù)貢r間3月25日,美光科技開盤最高跌幅超6%,收盤跌3.4%,四天累計跌幅超過13%;閃迪當天收跌3.5%;3月26日三星電子跌近5%,SK海力士跌超6%。

而這一輪存儲股價下跌,谷歌近期推出的TurboQuant可能就是主因。

TurboQuant如何降低AI對內(nèi)存的需求?

根據(jù)Google Research在官網(wǎng)發(fā)布的技術(shù)資料,TurboQuant是通過解決高維向量處理中的內(nèi)存瓶頸,在不損失精度的前提下,提升大語言模型和向量搜索引擎的效率,讓大型AI系統(tǒng)運行得更快、更省錢。

在計算力領域中,“量化”通常是指數(shù)據(jù)從高精度轉(zhuǎn)換為低精度的過程,其核心目的在于通過犧牲極微小的數(shù)值精度,換取顯著的存儲空間節(jié)省與計算效率提升。低精度意味著對內(nèi)存占用空間更小,以節(jié)省GPU以及AI芯片上DRAM(主要是HBM)用量。

舉個例子,比如一張照片中可能有數(shù)百萬種顏色,如果要完整記錄下來,每一種顏色都需要用不同的數(shù)字來記錄下來,那么這就會產(chǎn)生大量數(shù)據(jù),非常占內(nèi)存。那么經(jīng)過量化后,可以指定這張照片只能使用16種顏色,此前的數(shù)百萬種顏色各自取這16種顏色中最接近的一種來進行存儲,盡管丟失了顏色精度,但圖片依然保留了大致的畫面信息,同時圖片體積也大幅縮小。

而在大語言模型中,在對話過程中,模型推理產(chǎn)生的對話記憶則存儲在KV Cache中。雖然 KV Cache 極大地加快了生成速度,但它帶來了嚴重的內(nèi)存挑戰(zhàn),KV Cache的大小隨著對話長度線性增長,對話越長,占用的顯存就越多。

這也是很多模型有所謂的“上下文限制”的原因,限制的背后是顯存不夠用了。因此一般也會用到量化的方式對KV Cache進行壓縮,比如從FP16(16位浮點數(shù))的精度壓縮到INT4(4位整數(shù))。

那么TurboQuant,實際上就是針對這里的KV Cache進行了極致壓縮。傳統(tǒng)的量化技術(shù)雖然能減少數(shù)據(jù)大小,但往往需要為每個小數(shù)據(jù)塊計算并存儲額外的“量化常數(shù)”(如縮放因子),這會產(chǎn)生額外的內(nèi)存開銷,抵消了量化帶來的好處。就好比你創(chuàng)造了一種暗號,那么為了讀懂這個暗號,還需要一個對照表來進行解密,同時就需要額外的存儲空間去收納這個對照表。

TurboQuant解決的其中一個問題就是“對照表”帶來的額外內(nèi)存開銷。TurboQuant利用PolarQuant技術(shù),改變了傳統(tǒng)的笛卡爾坐標(X, Y, Z)視角,將向量轉(zhuǎn)換為極坐標(半徑和角度)。由于角度分布在數(shù)學上是可預測且集中的,更適合數(shù)據(jù)壓縮,模型不再需要存儲昂貴的數(shù)據(jù)歸一化參數(shù),從而消除了內(nèi)存開銷。

另外一項核心的技術(shù)是QJL(Quantized Johnson-Lindenstrauss),這是一種基于Johnson-Lindenstrauss 變換的壓縮方式。將向量壓縮到僅用符號位(+1 或 -1)的1-bit表示,同時保留向量間的距離關系。通過一個專門的估計器來準確計算注意力分數(shù),并用極少的 1-bit殘差壓縮消除隱藏誤差,實現(xiàn)零內(nèi)存開銷的壓縮。

最終,評估結(jié)果顯示,通過TurboQuant可以將LLM的 KV cache 壓縮到3-bit,內(nèi)存占用至少減少6倍,而模型準確性零損失。

在4-bit模式下,在英偉達H100 GPU上,注意力logit 計算速度可比32-bit未量化版本快8倍,整體推理速度也比原始模型更快。

在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等長文本基準測試中,表現(xiàn)接近無損。在相同的內(nèi)存占用下,向量搜索的召回率(recall)也優(yōu)于傳統(tǒng)方法如 PQ、KIVI 等。

值得一提的是,Google Research表示,它可以直接應用到現(xiàn)有的開源模型中,不需要重新訓練或微調(diào)。這項技術(shù)也非常適用于邊緣AI設備,包括智能手機等DRAM有限的設備中高效運行LLM;同時能夠大幅提升LLM的長上下文能力,讓LLM擁有更長久的記憶。

總體來說,TurboQuant有望推動LLM在更多智能硬件上的部署和應用,助力AI硬件的創(chuàng)新。

又一個“deepseek時刻”?

對于內(nèi)存開銷需求的大幅降低,很容易讓人將TurboQuant與2025年初Deepseek R1的發(fā)布聯(lián)想起來。因為Deepseek R1的目標同樣是在更少的硬件資源下保證LLM的高性能,通過引入MLA架構(gòu)和優(yōu)化訓練策略等創(chuàng)新降低了算力硬件上的需求;TurboQuant則同樣是通過極致的壓縮算法來減少緩存,降低了對內(nèi)存的需求。

但另一方面,從deepseek R1推出一年后的今天來看,實際上這種提高硬件利用效率的技術(shù),并不意味著算力硬件就不再重要。反而這些技術(shù)是更多推動了應用層面的落地,硬件利用率高意味著LLM的訓練和推理成本降低,能夠吸引更多應用端的開發(fā)和商業(yè)落地。

實際上,存儲需求確實仍在不斷高漲,產(chǎn)能擴張也在持續(xù)加速。韓國金融監(jiān)督院近日披露,三星和SK海力士兩大存儲巨頭在中國投資總額超過1.5萬億韓元,同比大幅增長。

2025年,三星電子在西安工廠投資4654億韓元用于擴產(chǎn),這一數(shù)字相比2024年大幅增長67.5%。西安工廠是三星電子在海外的唯一NAND Flash生產(chǎn)基地,產(chǎn)量約占三星總產(chǎn)量的40%左右。

據(jù)了解,自2020年開始到2023年,三星電子都沒有對西安工廠進行任何大規(guī)模投資,但從2024年恢復了投資計劃,開始升級產(chǎn)線擴大產(chǎn)能。三星電子目前計劃將其西安NAND芯片廠的制造工藝從128層(第六代)升級為236層(第八代)。

有韓國官員稱,為了防止國家核心技術(shù)的泄露,海外工廠與韓國工廠在技術(shù)發(fā)展上會保持大約兩代產(chǎn)品的差距。“由于三星計劃在今年在韓國生產(chǎn)第4代(10代)NAND產(chǎn)品,因此中國工廠向第8代技術(shù)升級的進程很可能會加快。”

而SK海力士2025年在無錫DRAM工廠和大連NAND Flash工廠共投入了超過1萬億韓元,其中無錫的DRAM工廠上的投資達到了5810億韓元,比2024年的2873億韓元增加了102%;而在大連的NAND閃存工廠上的投資則為4406億韓元,同比增長了52%。這是自2022年SK海力士收購英特爾在大連的NAND閃存工廠以來,該公司首次在中國工廠上進行規(guī)模達萬億韓元的投資。

類似地,SK海力士也將其位于無錫的工廠中DRAM的生產(chǎn)工藝從10納米級的第三代(1z)工藝升級到了第四代(1a)工藝,未來可以大規(guī)模生產(chǎn)DDR5內(nèi)存芯片。

因此,從存儲廠商的擴產(chǎn)動作來看,存儲需求并不會因為LLM算法和架構(gòu)的迭代而有所降低,反之,算法和架構(gòu)層面的創(chuàng)新,將幫助LLM的使用成本降低,從而加速在更多領域中的應用落地。

小結(jié):

過去存儲和算力是端側(cè)AI硬件落地的最大門檻之一,在先進制程進入2nm時代后,內(nèi)存成為了端側(cè)AI的顯著障礙,因此能降低內(nèi)存需求的TurboQuant對于端側(cè)AI硬件的意義更為重大。歷史表明,算法效率提升往往能夠降低應用門檻,刺激需求增長而非抑制硬件需求,未來存儲產(chǎn)業(yè)在AI效率革命與應用爆發(fā)的雙輪驅(qū)動下,也將繼續(xù)狂飆。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6255

    瀏覽量

    111893
  • AI
    AI
    +關注

    關注

    91

    文章

    40651

    瀏覽量

    302309
  • 存儲芯片
    +關注

    關注

    11

    文章

    1047

    瀏覽量

    44855
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    成都匯陽投資關于AI 算力引爆需求,存儲芯片漲價周期來襲

    AI 算力黑洞來襲 ,存儲需求呈爆炸式增長 AI算力基礎設施的爆發(fā)成為存儲芯片需求的核心驅(qū)動力,單臺 AI服務器 DRAM 用量是普通服務器
    的頭像 發(fā)表于 03-27 17:12 ?265次閱讀

    Arduino Nano實測SDNAND模塊,焊接即用擴展存儲#存儲 #存儲芯片 #Arduino

    存儲芯片
    雷龍Lucca
    發(fā)布于 :2026年03月20日 17:48:10

    什么是DRAM存儲芯片

    在現(xiàn)代存儲芯片領域中,主要有兩大類型占據(jù)市場主導:DRAM(動態(tài)隨機存取存儲器)和NAND閃存。二者合計占據(jù)了全球存儲芯片市場的95%以上份額,其他存儲類型則多用于特定或輔助場景。
    的頭像 發(fā)表于 01-13 16:52 ?1651次閱讀

    剖析存儲芯片及技術(shù)在AI領域的應用

    。在此背景下,深入理解驅(qū)動 AI 革命的存儲技術(shù)變得至關重要。本文將系統(tǒng)梳理與 AI 緊密相關的核心存儲芯片及技術(shù),剖析它們?nèi)绾卧诓煌瑘鼍跋轮纹鹬悄苡嬎愕暮A繑?shù)據(jù)需求。
    的頭像 發(fā)表于 12-29 15:24 ?2914次閱讀
    剖析<b class='flag-5'>存儲芯片</b>及技術(shù)在<b class='flag-5'>AI</b>領域的應用

    近期熱瘋了都在收內(nèi)存芯片,囤存儲芯片風險點有這些?

    存儲芯片
    芯廣場
    發(fā)布于 :2025年11月28日 11:27:22

    存儲芯片(煥發(fā)生機)

    ,都屬于集成電路里的核心成員。要是按“斷電后數(shù)據(jù)能不能留在器件里”來分,存儲芯片能分成易失性和非易失性兩種。易失性存儲芯片就像電腦的內(nèi)存(像SRAM、DRAM這類
    的頭像 發(fā)表于 11-17 16:35 ?3730次閱讀
    <b class='flag-5'>存儲芯片</b>(煥發(fā)生機)

    雷軍都喊貴!存儲芯片漲價風暴,手機電腦集體漲價#芯片#存儲芯片#AI

    存儲芯片
    jf_15747056
    發(fā)布于 :2025年10月28日 19:07:52

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、現(xiàn)階段更智能、更接近AGI的6算法與模型 1、MoE模型 MoE模型作為Transfomer模型的后繼者,代表著AI技術(shù)的一項重大創(chuàng)新和發(fā)展。 優(yōu)勢: 在于能處理龐大的參數(shù)規(guī)模,顯
    發(fā)表于 09-18 15:31

    半導體存儲芯片核心解析

    CPU、內(nèi)存和加速器,可能改變內(nèi)存池化、共享的架構(gòu)。 國產(chǎn)化:中國在存儲芯片領域(尤其是DRAM和NAND)投入巨大,長江存儲(NAND)和長鑫
    發(fā)表于 06-24 09:09

    請問STM32N6 cubeAI部署時用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 06-09 06:19

    劃片機在存儲芯片制造中的應用

    劃片機(DicingSaw)在半導體制造中主要用于將晶圓切割成單個芯片(Die),這一過程在內(nèi)存儲存卡(如NAND閃存芯片、SSD、SD卡等)的生產(chǎn)中至關重要。以下是劃片機在存儲芯片
    的頭像 發(fā)表于 06-03 18:11 ?1463次閱讀
    劃片機在<b class='flag-5'>存儲芯片</b>制造中的應用

    請問STM32N6 cubeAI部署時用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 06-03 12:13

    請問STM32N6 cubeAI部署時用的內(nèi)存是在內(nèi)部還是外部?

    STM32N6用cube AI部署模型的時候,用n6-allmems-O3之后analyse得到了RAM和FLASH的內(nèi)存占用,這里展示的
    發(fā)表于 04-28 08:25

    DeepSeek與存儲芯片AI眼鏡注入新動能

    在人工智能技術(shù)飛速發(fā)展的2025年,AI眼鏡正從科幻概念走向現(xiàn)實生活。而這一進程中,國產(chǎn)大模型DeepSeek與存儲芯片技術(shù)的協(xié)同創(chuàng)新,正在為智能眼鏡的智能化、輕量化與實用化注入新動能。本文將從技術(shù)突破、產(chǎn)業(yè)鏈聯(lián)動與未來趨勢三個維度,解析這三者的深度關聯(lián)。
    的頭像 發(fā)表于 04-14 09:44 ?1623次閱讀