壓縮并不是一個(gè)新概念,但隨著存儲(chǔ)需求的增長(zhǎng),它正成為數(shù)據(jù)中心中更重要的工具。目標(biāo)當(dāng)然是使用比原始數(shù)據(jù)更少的位對(duì)信息進(jìn)行編碼,從而減小數(shù)據(jù)的大小。計(jì)算效率優(yōu)勢(shì)還體現(xiàn)在需要移動(dòng)的數(shù)據(jù)更少。
有兩種不同類(lèi)型的壓縮:
1. 有損,最適合 mp3、jpeg - 通常用于音頻或視頻流應(yīng)用
2. 無(wú)損,例如在 zip 文件中使用 - 其中所有數(shù)據(jù)必須可供應(yīng)用程序使用
對(duì)于這兩種類(lèi)型,都有多種壓縮技術(shù)可用。一些最常見(jiàn)的包括:
? 匹配查找:在這種技術(shù)中,算法在數(shù)據(jù)集中查找冗余,如重復(fù)的字節(jié)串,并存儲(chǔ)冗余數(shù)據(jù)的單個(gè)副本。通過(guò)將數(shù)據(jù)字符串的其他匹配項(xiàng)替換為對(duì)要讀取的存儲(chǔ)副本位置的引用來(lái)減少數(shù)據(jù)量。
?熵編碼:該技術(shù)在看似任意的數(shù)據(jù)序列中查找模式,并分配一個(gè)符號(hào)或編碼一個(gè)值來(lái)表示隨機(jī)數(shù)據(jù)集中的重復(fù)模式。通過(guò)將重復(fù)模式替換為單個(gè)值來(lái)減小數(shù)據(jù)的大小。
? 模型壓縮:這種先進(jìn)的技術(shù)針對(duì)需要巨大計(jì)算能力和昂貴的高速 GPU 才能運(yùn)行的機(jī)器學(xué)習(xí)模型和 AI 應(yīng)用程序。為了在小型嵌入式系統(tǒng)上傳輸和處理復(fù)雜的神經(jīng)網(wǎng)絡(luò)算法,通過(guò)刪除冗余的神經(jīng)網(wǎng)絡(luò)連接或?qū)⑸窠?jīng)網(wǎng)絡(luò)權(quán)重和偏差捆綁到集群中來(lái)壓縮機(jī)器學(xué)習(xí)模型,從而減少要存儲(chǔ)的數(shù)據(jù)的總大小。
重復(fù)數(shù)據(jù)刪除或重復(fù)數(shù)據(jù)刪除(與匹配查找壓縮技術(shù)一樣)會(huì)刪除重復(fù)的數(shù)據(jù)副本,以便僅存儲(chǔ)一個(gè)副本。它通常用于存儲(chǔ)設(shè)備的上下文或數(shù)據(jù)中心的系統(tǒng)級(jí)別,您可以在其中找到存儲(chǔ)的共享文件的單個(gè)副本,并且每次由其他用戶(hù)使用該文件時(shí),對(duì)該副本的引用數(shù)量都會(huì)遞增。dedup 的優(yōu)點(diǎn)是它可以對(duì)大型數(shù)據(jù)集(例如整個(gè)存儲(chǔ)集群)使用相同的匹配查找壓縮算法,并減少存儲(chǔ)需求。

許多存儲(chǔ)系統(tǒng)同時(shí)支持壓縮和重復(fù)數(shù)據(jù)刪除,以最大化存儲(chǔ)容量。除了節(jié)省存儲(chǔ)容量外,壓縮還可以提高系統(tǒng)性能。最基本的原則是通過(guò)寫(xiě)入更少的數(shù)據(jù),數(shù)據(jù)總線利用率增加,從而提高寫(xiě)入帶寬和性能。
壓縮率是未壓縮數(shù)據(jù)的大小除以壓縮數(shù)據(jù)的大小。未壓縮數(shù)據(jù)的壓縮率為 1。壓縮比越高,數(shù)據(jù)的壓縮程度就越高。這在使用昂貴閃存的SSD應(yīng)用中非常重要,因?yàn)閷?xiě)入數(shù)據(jù)所涉及的架構(gòu)必須擦除閃存單元才能重新編程,以及可用的程序和擦除周期數(shù)有限的介質(zhì)的性質(zhì)。在 Flash 操作中,擦除只能在塊級(jí)別進(jìn)行,而編程是在頁(yè)面級(jí)別完成的,導(dǎo)致擦除和重寫(xiě)的閃存部分比任何新數(shù)據(jù)所需的要大。閃存中不需要更新但正在擦除以允許傳入頁(yè)面寫(xiě)入操作的部分必須存儲(chǔ)在其他位置,并且必須更新對(duì)此數(shù)據(jù)的所有引用以供將來(lái)訪問(wèn)。SSD 上對(duì)閃存存儲(chǔ)的所有寫(xiě)入的這種乘數(shù)效應(yīng)增加了實(shí)際閃存寫(xiě)入操作與來(lái)自主機(jī)的傳入數(shù)據(jù)寫(xiě)入請(qǐng)求的比率。此比率最小值為 1,寫(xiě)入放大比率越高,啟動(dòng)的程序和擦除周期就越多,從而耗盡 SSD 的整體耐用性。通過(guò)壓縮數(shù)據(jù)的原始大小,可以將較小大小的數(shù)據(jù)集存儲(chǔ)在閃存中,寫(xiě)入放大因子小于1,從而減少編程和擦除周期,并延長(zhǎng)SSD的使用壽命。
基準(zhǔn)壓縮率和性能的最常見(jiàn)的壓縮測(cè)試機(jī)構(gòu)或語(yǔ)料庫(kù)是卡爾加里語(yǔ)料庫(kù),坎特伯雷語(yǔ)料庫(kù)和西里西亞語(yǔ)料庫(kù)。西里西亞是最新的,它利用涵蓋當(dāng)今用例的更新數(shù)據(jù)集。附表說(shuō)明了PCIe Gen-4 Flashtec NVMe3016企業(yè)級(jí)NVMe SSD控制器在測(cè)試下的性能。
壓縮比是通過(guò)專(zhuān)用壓縮引擎實(shí)現(xiàn)的,該引擎符合無(wú)損算法的 Deflate 壓縮數(shù)據(jù)格式規(guī)范 (RFC-1951),具有簡(jiǎn)化的內(nèi)部格式 (zlib)。
? 數(shù)據(jù)格式基于塊,如果未對(duì)齊,則進(jìn)行填充
? 壓縮和未壓縮的數(shù)據(jù)塊大小可配置為 32B-8KB,使用 SGL 時(shí)最高配置為 64KB
結(jié)合 SHA-256 哈希引擎、高 CPU 處理能力以及 NVMe3106 控制器的高級(jí)靈活可編程架構(gòu),用戶(hù)可以自定義其 SSD 固件,以使用各種硬件旋鈕實(shí)現(xiàn)最有效的壓縮方案,以滿足其應(yīng)用需求。
作為企業(yè)級(jí)NVMe SSD控制器市場(chǎng)的行業(yè)領(lǐng)先支持解決方案,F(xiàn)lashtec NVMe3016 NVMe SSD控制器支持創(chuàng)新的存儲(chǔ)解決方案,基于高度靈活和可編程的控制器平臺(tái),提供高性能,低成本和電源效率。硬件壓縮只是使 Flashtec? 產(chǎn)品成為未來(lái)數(shù)據(jù)中心企業(yè)級(jí) NVMe SSD 的正確解決方案的眾多功能之一。
審核編輯:郭婷
-
控制器
+關(guān)注
關(guān)注
114文章
17787瀏覽量
193088 -
SSD
+關(guān)注
關(guān)注
21文章
3109瀏覽量
122221 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5647瀏覽量
75009
發(fā)布評(píng)論請(qǐng)先 登錄
如何提高數(shù)據(jù)中心電能使用效率?
走向綠色數(shù)據(jù)中心的7種手段
基于FPGA的高性能無(wú)損數(shù)據(jù)壓縮IP
云數(shù)據(jù)中心市場(chǎng)的十大趨勢(shì)
數(shù)據(jù)中心是什么
如何去提高數(shù)據(jù)中心的運(yùn)營(yíng)效率呢
【ELT.ZIP】OpenHarmony啃論文俱樂(lè)部——多層存儲(chǔ)分級(jí)數(shù)據(jù)壓縮
【學(xué)習(xí)打卡】【ELT.ZIP】OpenHarmony啃論文俱樂(lè)部——多層存儲(chǔ)分級(jí)數(shù)據(jù)壓縮
數(shù)據(jù)壓縮技術(shù)
數(shù)據(jù)壓縮的重要性
如何才能提高數(shù)據(jù)中心服務(wù)器的效率
這些措施將提高數(shù)據(jù)中心的效率和性能
有趣!史記:數(shù)據(jù)壓縮算法列傳
高性能無(wú)損數(shù)據(jù)壓縮FPGA IP,LZO無(wú)損數(shù)據(jù)壓縮IP
專(zhuān)用數(shù)據(jù)壓縮引擎,提高數(shù)據(jù)中心效率
評(píng)論