99久久久成人国产精品,高清一区二区三区日本,国产三级一区二区三区在线

電子發(fā)燒友網(wǎng)報道（文/梁浩斌）又一“Deepseek時刻”來了？谷歌在3月24日發(fā)布了一項名為TurboQuant的先進向量量化壓縮算法，旨在解決大語言模型和向量搜索引擎中的內(nèi)存瓶頸問題，令KV Cache內(nèi)存占用降低至原來的1/6且?guī)缀鯚o精度損失。

隨后在當?shù)貢r間3月25日，美光科技開盤最高跌幅超6%，收盤跌3.4%，四天累計跌幅超過13%；閃迪當天收跌3.5%；3月26日三星電子跌近5%，SK海力士跌超6%。

而這一輪存儲股價下跌，谷歌近期推出的TurboQuant可能就是主因。

TurboQuant如何降低AI對內(nèi)存的需求？

根據(jù)Google Research在官網(wǎng)發(fā)布的技術(shù)資料，TurboQuant是通過解決高維向量處理中的內(nèi)存瓶頸，在不損失精度的前提下，提升大語言模型和向量搜索引擎的效率，讓大型AI系統(tǒng)運行得更快、更省錢。

在計算力領域中，“量化”通常是指數(shù)據(jù)從高精度轉(zhuǎn)換為低精度的過程，其核心目的在于通過犧牲極微小的數(shù)值精度，換取顯著的存儲空間節(jié)省與計算效率提升。低精度意味著對內(nèi)存占用空間更小，以節(jié)省GPU以及AI芯片上DRAM（主要是HBM）用量。

舉個例子，比如一張照片中可能有數(shù)百萬種顏色，如果要完整記錄下來，每一種顏色都需要用不同的數(shù)字來記錄下來，那么這就會產(chǎn)生大量數(shù)據(jù)，非常占內(nèi)存。那么經(jīng)過量化后，可以指定這張照片只能使用16種顏色，此前的數(shù)百萬種顏色各自取這16種顏色中最接近的一種來進行存儲，盡管丟失了顏色精度，但圖片依然保留了大致的畫面信息，同時圖片體積也大幅縮小。

而在大語言模型中，在對話過程中，模型推理產(chǎn)生的對話記憶則存儲在KV Cache中。雖然 KV Cache 極大地加快了生成速度，但它帶來了嚴重的內(nèi)存挑戰(zhàn)，KV Cache的大小隨著對話長度線性增長，對話越長，占用的顯存就越多。

這也是很多模型有所謂的“上下文限制”的原因，限制的背后是顯存不夠用了。因此一般也會用到量化的方式對KV Cache進行壓縮，比如從FP16（16位浮點數(shù)）的精度壓縮到INT4（4位整數(shù)）。

那么TurboQuant，實際上就是針對這里的KV Cache進行了極致壓縮。傳統(tǒng)的量化技術(shù)雖然能減少數(shù)據(jù)大小，但往往需要為每個小數(shù)據(jù)塊計算并存儲額外的“量化常數(shù)”（如縮放因子），這會產(chǎn)生額外的內(nèi)存開銷，抵消了量化帶來的好處。就好比你創(chuàng)造了一種暗號，那么為了讀懂這個暗號，還需要一個對照表來進行解密，同時就需要額外的存儲空間去收納這個對照表。

TurboQuant解決的其中一個問題就是“對照表”帶來的額外內(nèi)存開銷。TurboQuant利用PolarQuant技術(shù)，改變了傳統(tǒng)的笛卡爾坐標（X, Y, Z）視角，將向量轉(zhuǎn)換為極坐標（半徑和角度）。由于角度分布在數(shù)學上是可預測且集中的，更適合數(shù)據(jù)壓縮，模型不再需要存儲昂貴的數(shù)據(jù)歸一化參數(shù)，從而消除了內(nèi)存開銷。

另外一項核心的技術(shù)是QJL（Quantized Johnson-Lindenstrauss），這是一種基于Johnson-Lindenstrauss 變換的壓縮方式。將向量壓縮到僅用符號位（+1 或 -1）的1-bit表示，同時保留向量間的距離關系。通過一個專門的估計器來準確計算注意力分數(shù)，并用極少的 1-bit殘差壓縮消除隱藏誤差，實現(xiàn)零內(nèi)存開銷的壓縮。

最終，評估結(jié)果顯示，通過TurboQuant可以將LLM的 KV cache 壓縮到3-bit，內(nèi)存占用至少減少6倍，而模型準確性零損失。

在4-bit模式下，在英偉達H100 GPU上，注意力logit 計算速度可比32-bit未量化版本快8倍，整體推理速度也比原始模型更快。

在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等長文本基準測試中，表現(xiàn)接近無損。在相同的內(nèi)存占用下，向量搜索的召回率（recall）也優(yōu)于傳統(tǒng)方法如 PQ、KIVI 等。

值得一提的是，Google Research表示，它可以直接應用到現(xiàn)有的開源模型中，不需要重新訓練或微調(diào)。這項技術(shù)也非常適用于邊緣AI設備，包括智能手機等DRAM有限的設備中高效運行LLM；同時能夠大幅提升LLM的長上下文能力，讓LLM擁有更長久的記憶。

總體來說，TurboQuant有望推動LLM在更多智能硬件上的部署和應用，助力AI硬件的創(chuàng)新。

又一個“deepseek時刻”？

對于內(nèi)存開銷需求的大幅降低，很容易讓人將TurboQuant與2025年初Deepseek R1的發(fā)布聯(lián)想起來。因為Deepseek R1的目標同樣是在更少的硬件資源下保證LLM的高性能，通過引入MLA架構(gòu)和優(yōu)化訓練策略等創(chuàng)新降低了算力硬件上的需求；TurboQuant則同樣是通過極致的壓縮算法來減少緩存，降低了對內(nèi)存的需求。

但另一方面，從deepseek R1推出一年后的今天來看，實際上這種提高硬件利用效率的技術(shù)，并不意味著算力硬件就不再重要。反而這些技術(shù)是更多推動了應用層面的落地，硬件利用率高意味著LLM的訓練和推理成本降低，能夠吸引更多應用端的開發(fā)和商業(yè)落地。

實際上，存儲需求確實仍在不斷高漲，產(chǎn)能擴張也在持續(xù)加速。韓國金融監(jiān)督院近日披露，三星和SK海力士兩大存儲巨頭在中國投資總額超過1.5萬億韓元，同比大幅增長。

2025年，三星電子在西安工廠投資4654億韓元用于擴產(chǎn)，這一數(shù)字相比2024年大幅增長67.5%。西安工廠是三星電子在海外的唯一NAND Flash生產(chǎn)基地，產(chǎn)量約占三星總產(chǎn)量的40%左右。

據(jù)了解，自2020年開始到2023年，三星電子都沒有對西安工廠進行任何大規(guī)模投資，但從2024年恢復了投資計劃，開始升級產(chǎn)線擴大產(chǎn)能。三星電子目前計劃將其西安NAND芯片廠的制造工藝從128層（第六代）升級為236層（第八代）。

有韓國官員稱，為了防止國家核心技術(shù)的泄露，海外工廠與韓國工廠在技術(shù)發(fā)展上會保持大約兩代產(chǎn)品的差距。“由于三星計劃在今年在韓國生產(chǎn)第4代（10代）NAND產(chǎn)品，因此中國工廠向第8代技術(shù)升級的進程很可能會加快。”

而SK海力士2025年在無錫DRAM工廠和大連NAND Flash工廠共投入了超過1萬億韓元，其中無錫的DRAM工廠上的投資達到了5810億韓元，比2024年的2873億韓元增加了102%；而在大連的NAND閃存工廠上的投資則為4406億韓元，同比增長了52%。這是自2022年SK海力士收購英特爾在大連的NAND閃存工廠以來，該公司首次在中國工廠上進行規(guī)模達萬億韓元的投資。

類似地，SK海力士也將其位于無錫的工廠中DRAM的生產(chǎn)工藝從10納米級的第三代（1z）工藝升級到了第四代（1a）工藝，未來可以大規(guī)模生產(chǎn)DDR5內(nèi)存芯片。

因此，從存儲廠商的擴產(chǎn)動作來看，存儲需求并不會因為LLM算法和架構(gòu)的迭代而有所降低，反之，算法和架構(gòu)層面的創(chuàng)新，將幫助LLM的使用成本降低，從而加速在更多領域中的應用落地。

小結(jié)：

過去存儲和算力是端側(cè)AI硬件落地的最大門檻之一，在先進制程進入2nm時代后，內(nèi)存成為了端側(cè)AI的顯著障礙，因此能降低內(nèi)存需求的TurboQuant對于端側(cè)AI硬件的意義更為重大。歷史表明，算法效率提升往往能夠降低應用門檻，刺激需求增長而非抑制硬件需求，未來存儲產(chǎn)業(yè)在AI效率革命與應用爆發(fā)的雙輪驅(qū)動下，也將繼續(xù)狂飆。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6255

瀏覽量
111893
AI

AI

+關注

關注
91

文章
40651

瀏覽量
302309
存儲芯片

存儲芯片

+關注

關注
11

文章
1047

瀏覽量
44855

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

存儲芯片閃崩！谷歌發(fā)布新算法，AI內(nèi)存占用只需原來1/6？

評論