国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云計(jì)算數(shù)據(jù)壓縮方案

共熵服務(wù)中心 ? 來源:未知 ? 2022-12-14 19:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1d499454-7ba0-11ed-8abf-dac502259ad0.png

文章轉(zhuǎn)發(fā)自51CTO【ELT.ZIP】OpenHarmony啃論文俱樂部——《云計(jì)算數(shù)據(jù)壓縮方案》

1.技術(shù)DNA

1de4ed00-7ba0-11ed-8abf-dac502259ad0.png

2. 智慧場景

1e18e880-7ba0-11ed-8abf-dac502259ad0.jpg

3.前言概覽

近年來,相機(jī)、衛(wèi)星、地震監(jiān)測等傳感設(shè)備產(chǎn)生了大量的流數(shù)據(jù)。云計(jì)算技術(shù)使這些流數(shù)據(jù)的存儲、訪問和管理變得更加容易,也降低了成本。其中,云存儲系統(tǒng)成為在各種云服務(wù)器上存儲數(shù)據(jù)塊的一種有前途的技術(shù),其主要機(jī)制之一是數(shù)據(jù)復(fù)制。數(shù)據(jù)復(fù)制的目標(biāo)是解決云存儲的可用性、可靠性、安全性、帶寬和數(shù)據(jù)訪問的響應(yīng)時(shí)間,從而使數(shù)據(jù)密集型項(xiàng)目能夠?qū)崿F(xiàn)更優(yōu)越的性能。然而,既然復(fù)制,就免不了會產(chǎn)生過多的重復(fù)副本造成資源浪費(fèi)。因此,便產(chǎn)生了一種通過移除重復(fù)副本來減小云存儲系統(tǒng)中數(shù)據(jù)占用的大小,實(shí)現(xiàn)數(shù)據(jù)壓縮、避免資源浪費(fèi)的重復(fù)數(shù)據(jù)刪除技術(shù)。

以一種典型的傳統(tǒng)分類方式來看,可以將此重復(fù)數(shù)據(jù)刪除技術(shù)分為delta-based和hash-based兩類。本著相同的目標(biāo),前者基于相似性的消除,后者基于加密函數(shù)而發(fā)揮作用。

而在另一種分類方式中,可以將此重復(fù)數(shù)據(jù)刪除技術(shù)分為基于服務(wù)器和基于客戶端兩類。前者中,消除冗余數(shù)據(jù)的操作是在服務(wù)器接收到數(shù)據(jù)后完成的,而后者則在發(fā)送數(shù)據(jù)之前就先在客戶端檢查數(shù)據(jù)的重復(fù)性。

后文將對以上內(nèi)容一一解析,不過開始之前,我們還是先了解一些云計(jì)算的周邊內(nèi)容。

4.云計(jì)算

4.1 云計(jì)算產(chǎn)生背景

云存儲數(shù)字?jǐn)?shù)據(jù)量的不斷增加 ,需要更多的存儲空間,高效的技術(shù) ,處理這些數(shù)據(jù)。

那么何為云計(jì)算?是如上圖一般把網(wǎng)線接到云彩上進(jìn)行計(jì)算嗎?當(dāng)然不是,這是一種形象的比喻,云計(jì)算提供了一種新的互聯(lián)網(wǎng)技術(shù)方式,利用互聯(lián)網(wǎng)和中央遠(yuǎn)程服務(wù)器管理資源和應(yīng)用程序。許多最終用戶以最低的成本使用這一創(chuàng)新,并且無需安裝就可以訪問應(yīng)用程序。

4.2 公有云和私有云

云計(jì)算可以是公共云或是私有云。公共云平臺(例如AWS和Microsoft Azure)將資源集中在分布在全球各地的數(shù)據(jù)中心,用戶可以通過公共互聯(lián)網(wǎng)訪問它們。這些資源通過計(jì)量服務(wù)提供給客戶,云計(jì)算供應(yīng)商負(fù)責(zé)不同程度的后端維護(hù)。

私有云被托管在企業(yè)數(shù)據(jù)中心或托管數(shù)據(jù)中心設(shè)施中。雖然其功能不如大規(guī)模的公共云。但它們確實(shí)有一定的彈性,企業(yè)的開發(fā)人員和管理人員仍然可以使用自助服務(wù)門戶訪問資源。從理論上來說,私有云提供了更好的控制和安全性,但這需要企業(yè)的IT團(tuán)隊(duì)的努力。

云計(jì)算部署模型包括私有云、公共云、兩者的混合,以及多個(gè)云平臺的組合。也可以將公共云和私有云鏈接以創(chuàng)建混合云,或者可以將兩個(gè)或多個(gè)公共云連接以創(chuàng)建多云架構(gòu)。

4.3 云計(jì)算主要優(yōu)點(diǎn)

  • 可容錯(cuò)

  • 處理速度快

  • 存儲容量大

  • 帶寬寬

  • 允許使用 Internet 訪問遠(yuǎn)程信息和文件

  • 大規(guī)模數(shù)據(jù)分析和數(shù)據(jù)挖掘

  • 物聯(lián)網(wǎng)等物物互聯(lián)的場景運(yùn)用

4.4云計(jì)算存在問題

云服務(wù)中最重要、最典型的是信息存儲服務(wù)。數(shù)據(jù)的安全性、個(gè)人數(shù)據(jù)的隱私性保護(hù)、數(shù)據(jù)訪問的權(quán)限管理、數(shù)據(jù)的容災(zāi)備份、數(shù)據(jù)拜訪的實(shí)時(shí)性會受網(wǎng)絡(luò)穩(wěn)定性影響。以及如何降低冗余數(shù)據(jù)、減少存儲成本。

4.5常見的云存儲供應(yīng)商

1ebb8b62-7ba0-11ed-8abf-dac502259ad0.jpg

亞馬遜、微軟、谷歌和阿里巴巴四大云服務(wù)廠商,占據(jù)了全球七成以上市場份額。緊隨四大市場領(lǐng)導(dǎo)者后面的有IBM、Salesforce、騰訊、Oracle和一大批市場份額較小的公司。而亞馬遜在全球公有云服務(wù)市場中的領(lǐng)導(dǎo)地位主要是由于其市場份額第一緣故。

4.6云計(jì)算與大數(shù)據(jù)

云計(jì)算和大數(shù)據(jù)是近六七年來大熱的兩個(gè)概念,很多時(shí)候,二者都是被綁定在一起談?wù)摰摹?/span>

大數(shù)據(jù)就是通過搜集海量的數(shù)據(jù)對其進(jìn)行分析和處理,發(fā)現(xiàn)隱藏在這些數(shù)據(jù)背后的潛在聯(lián)系,洞察內(nèi)在過程,進(jìn)而使這些數(shù)據(jù)轉(zhuǎn)化或推導(dǎo)出具有更多價(jià)值的信息,最終為用戶的決策提供幫助。放到日常工作生活中的典型表現(xiàn)就是“喜歡看什么,就會推什么”:當(dāng)我們刷一些娛樂類或者新聞類的app時(shí),看到感興趣的內(nèi)容就免不了會駐足多停留一段時(shí)間,可能還會直接去搜相關(guān)的話題,這時(shí)大數(shù)據(jù)就已經(jīng)完成了標(biāo)記、為你的ID打上了相應(yīng)的標(biāo)簽。基于內(nèi)容相關(guān)性的頻次或后臺的定位信息等,標(biāo)簽也會不盡相同。盡管覺得自己凈如白紙,但在平臺的全閉環(huán)下,大數(shù)據(jù)總是能精確地捕捉并震撼到我們。

4.7云計(jì)算的技術(shù)

云計(jì)算本質(zhì)上是分布式計(jì)算的一種,通過對任務(wù)的分發(fā),實(shí)現(xiàn)多端并行計(jì)算,最終再進(jìn)行計(jì)算結(jié)果的合并。它提供了計(jì)算資源的虛擬化池,存儲、應(yīng)用、內(nèi)存、處理能力和服務(wù)都是在用戶需要時(shí)可以用來請求這些資源的實(shí)例。其中,云服務(wù)通常分為平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)和基礎(chǔ)設(shè)施即服務(wù)(IaaS)三種模式,三者的主要區(qū)別就是提供服務(wù)的方式不同,需要用戶根據(jù)實(shí)際需要進(jìn)行選擇匹配。此外,基于云計(jì)算的思路,還衍生出了霧計(jì)算、邊緣計(jì)算、移動邊緣計(jì)算(MEC)和移動云計(jì)算(MCC)。

5.云存儲

云存儲是一種有用的移動邊緣計(jì)算(M E C)設(shè)備,其特點(diǎn)是存儲空間有限。這些數(shù)據(jù)或日志數(shù)據(jù)可以在需要時(shí)被存儲和訪問到云存儲服務(wù)中。為了提高M(jìn) E C設(shè)備上的云存儲服務(wù)體驗(yàn),可以將多個(gè)云存儲服務(wù)合并成一個(gè)統(tǒng)一的云存儲在云存儲中,在處理大量數(shù)據(jù)時(shí),無法避免重復(fù)。盡管云存儲空間巨大,這種復(fù)制極大地浪費(fèi)了網(wǎng)絡(luò)資源,消耗了大量電能,并使數(shù)據(jù)管理變得復(fù)雜。重復(fù)數(shù)據(jù)刪除可以節(jié)省大量空間和成本,備份應(yīng)用可以減少高達(dá) 90-95%的存儲需求,標(biāo)準(zhǔn)文件系統(tǒng)可以減少高達(dá) 68%的存儲需求。數(shù)據(jù)重復(fù)刪除和數(shù)據(jù)壓縮是在云中優(yōu)化存儲的可用技術(shù)中使用的最突出的技術(shù)。

5.1 重復(fù)數(shù)據(jù)刪除技術(shù)

隨機(jī)復(fù)制作為一種流行的復(fù)制方案,已廣泛用于云存儲系統(tǒng),如Hadoop分布式文件系統(tǒng)(HDFS)、RAMCloud、Google文件系統(tǒng)(GFS)和微軟Azure等,使用隨機(jī)復(fù)制從不同機(jī)房隨機(jī)選擇的三臺服務(wù)器中復(fù)制數(shù)據(jù),從而防止單個(gè)集群中的數(shù)據(jù)丟失。然而,三方隨機(jī)復(fù)制不能很好地應(yīng)對機(jī)器故障,若三個(gè)節(jié)點(diǎn)的隨機(jī)組合同時(shí)出現(xiàn)錯(cuò)誤,就會造成數(shù)據(jù)丟失。

為了解決以上問題,便提出了Copyset復(fù)制和分層復(fù)制兩種方案。但又出現(xiàn)了新的問題:它們都沒有試圖降低由于復(fù)制而造成的存儲成本和帶寬成本。盡管后續(xù)又提出了更多相關(guān)的復(fù)制方案,但仍然存在著同樣的問題。

于是,有學(xué)者設(shè)計(jì)了一種叫做流行感知的多故障彈性和經(jīng)濟(jì)有效的復(fù)制方案(PMCR)的方案。它比之前的復(fù)制方案都有優(yōu)勢,且同時(shí)具有以下特點(diǎn):

  • 可以處理相關(guān)或不相關(guān)的機(jī)器故障

  • 壓縮那些很少使用的冷門數(shù)據(jù)的副本

  • 降低了存儲和帶寬成本

  • 不會顯著影響數(shù)據(jù)持久性、數(shù)據(jù)可用性和數(shù)據(jù)請求的延遲

5.1.1 SC、DC壓縮

由于PMCR方案的操作是一整套流程,我們在此只關(guān)注其中壓縮數(shù)據(jù)降低冗余度的部分。

SC全稱Similarity Compression,是依據(jù)數(shù)據(jù)相似性壓縮的一種方法;DC全稱Delta Compression,意即增量壓縮。PMCR使用SC壓縮讀密集型數(shù)據(jù),使用DC壓縮寫密集型數(shù)據(jù)。SC刪除文件或文件中相似的塊,文件請求用戶在接收到壓縮文件后,可再恢復(fù)已刪除的數(shù)據(jù)塊;DC存儲文件的副本和與此文件相似的其他文件的不同部分,以上將會被傳輸給文件請求用戶。而當(dāng)文件更新時(shí),只需將更新后的部分同步到副本節(jié)點(diǎn)即可。

5.1.1.1相似性壓縮(SC)

進(jìn)行SC時(shí),相似的塊被分組在一起,一定數(shù)量相似的小塊形成一個(gè)大塊。然后,刪除重復(fù)的塊或接近重復(fù)的塊到一個(gè)塊。在PMCR中,當(dāng)壓縮讀密集型數(shù)據(jù)時(shí),對于每一組相似的塊,只需存儲第一個(gè)塊即可,剩下的冗余塊可刪除;對于不同數(shù)據(jù)對象之間的冗余塊,也可消除,方式大體分為文件內(nèi)壓縮和文件間壓縮:

1ee8474c-7ba0-11ed-8abf-dac502259ad0.png

1f0d7f76-7ba0-11ed-8abf-dac502259ad0.png

5.1.1.2增量壓縮(DC)

1f29b650-7ba0-11ed-8abf-dac502259ad0.png

如圖,B塊和B’塊都是相似的塊,它們之間的差異用橙色標(biāo)記出,此時(shí),便可用DC存儲橙色區(qū)域。當(dāng)塊B或塊B’被更新時(shí),只需將更新的部分而非整個(gè)塊發(fā)送到復(fù)制服務(wù)器即可,然后,副本服務(wù)器再更新相應(yīng)的部分。要將數(shù)據(jù)發(fā)送給用戶,只需傳輸存儲的不同部分和B塊的完整部分。

5.1.2DSHA算法

現(xiàn)有系統(tǒng)使用(任何類型的)加密散列算法(如 MD5 或 Secure 散列算法),生成散列值,重復(fù)數(shù)據(jù)刪除這些算法產(chǎn)生固定長度的 128 位或 160 位分別作為輸出以識別復(fù)制的存在。同時(shí)用一個(gè)額外的內(nèi)存空間存儲哈希值。

本文提出了一種高效的分布式存儲哈希算法(Distributed Storage Hash Algorithm, DSHA),以減少用于識別和丟棄冗余數(shù)據(jù)的哈希值所占用的內(nèi)存空間。

結(jié)論:實(shí)驗(yàn)分析表明,該策略降低了哈希值的內(nèi)存利用率,提高了數(shù)據(jù)讀寫性能。

5.2SDM技術(shù)

SDM是一種針對移動設(shè)備的智能重復(fù)數(shù)據(jù)刪除系統(tǒng),提高了云存儲作為移動設(shè)備上的存儲解決方案的可行性。SDM旨在利用多核技術(shù) 在現(xiàn)代移動處理器上的架構(gòu)。為了減少重復(fù)數(shù)據(jù)刪除過程的時(shí)間,針對每種文件類型的最佳重復(fù)數(shù)據(jù)刪除方法,而不依賴于針對每種文件類型的任何配置。由于其設(shè)計(jì),學(xué)習(xí)系統(tǒng)不存在散列不兼容性。

5.2.1移動設(shè)備和云存儲服務(wù)的固有限制

  • 移動設(shè)備的性能限制 移動設(shè)備的處理功率和電源受到限制。

  • 有限的存儲容量 由于其外形因素,也很難在移動設(shè)備中安裝高容量的存儲空間。云存儲供應(yīng)商提供的免費(fèi)存儲容量 往往很小,升級需支付額外費(fèi)用。

  • 網(wǎng)絡(luò)帶寬 網(wǎng)絡(luò)帶寬對于訪問云存儲至關(guān)重要。遺憾的是,網(wǎng)絡(luò)帶寬通常被限制在免費(fèi)存儲上,云存儲服務(wù)的帶寬是在活動用戶的數(shù)量之間劃分的,會導(dǎo)致更長的訪問時(shí)間,在大多數(shù)在某些情況下,這將導(dǎo)致云存儲服務(wù)的性能低于客戶的網(wǎng)絡(luò)性能。

  • 價(jià)格昂貴的無線網(wǎng)絡(luò)收費(fèi)

  • 有限網(wǎng)絡(luò)覆蓋范圍 網(wǎng)絡(luò)覆蓋對移動用戶來說可能是一個(gè)問題。當(dāng)用戶超出網(wǎng)絡(luò)覆蓋范圍時(shí),所有的網(wǎng)絡(luò)活動都將是已停止,這意味著沒有云存儲服務(wù)。

5.2.2系統(tǒng)架構(gòu)

我們建議使用智能重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行移動云存儲(SDM)。SDM在文件級和塊級使用多級重復(fù)數(shù)據(jù)刪除方法,這些方法由學(xué)習(xí)系統(tǒng)集成(學(xué)習(xí)系統(tǒng)選擇最佳的重復(fù)數(shù)據(jù)消除 方法來實(shí)現(xiàn)最佳的數(shù)據(jù)減少和能量消耗。此外,我們還使用哈希表和一個(gè)bloom過濾器來進(jìn)行本地搜索并添加并行化來提高應(yīng)用程序的性能。整個(gè)系統(tǒng)如圖所示。整個(gè)過程是可逆的,因?yàn)橹貜?fù)數(shù)據(jù)刪除是一個(gè)無損壓縮的操作。

1f4715e2-7ba0-11ed-8abf-dac502259ad0.png

文件級重復(fù)數(shù)據(jù)刪除 在文件級別上,重復(fù)數(shù)據(jù)刪除可以通過比較整個(gè)文件來進(jìn)行操作。由于它只將一個(gè)哈希值與另一個(gè)文件哈希值進(jìn)行比較,因此該進(jìn)程比其他方法更快。但是,當(dāng)文件的一部分發(fā)生更改時(shí),整個(gè)哈希值也會發(fā)生更改。這就降低了文件級重復(fù)數(shù)據(jù)刪除的性能。

塊級重復(fù)數(shù)據(jù)刪除 當(dāng)在塊級別執(zhí)行重復(fù)數(shù)據(jù)刪除時(shí),處理的文件被分割為多個(gè)塊。每個(gè)塊的處理與文件級重復(fù)數(shù)據(jù)刪除中的文件相同。塊的大小可以是固定大小的或可變大小的。

1f6f422e-7ba0-11ed-8abf-dac502259ad0.png

塊級變化不會影響其他塊的哈希值,但是,在一個(gè)塊部分字節(jié)變化上就會改變多個(gè)塊的哈希值。可變大小的塊或內(nèi)容定義的分塊通過使用固定的分塊偏移量來分割一個(gè)文件來解決這個(gè)問題。固定的分塊偏移量可以通過使用Rabin滾動散列找到。Rabin滾動散列使用多項(xiàng)式和一個(gè)滑動窗口來進(jìn)行散列。為了找到分塊偏移量,我們滑動和散列窗口,直到哈希匹配一個(gè)預(yù)定義的值。

5.2.3應(yīng)用場景

客戶端API 該方案提供了客戶端與存儲服務(wù)器之間良好的接口。通過選擇合適的存儲節(jié)點(diǎn), 可以降低 CPU 負(fù)載。

System.out.println();
jLabel3.setText(digits+outputString1);
Class.forname("com.mysql.jdbc.Driver");
con = DriverManager.getConnection("jdbc//localhost:3306/javamysql", "root", "root");
String HashValue = digits + outputString1;
String status = null;
int result, tab = 0;

5.2.4性能測試數(shù)據(jù)

安卓的一個(gè)原型實(shí)現(xiàn)上的實(shí)現(xiàn):

  • 僅限文件級重復(fù)數(shù)據(jù)刪除的系統(tǒng)(FDS)

  • 僅限塊級重復(fù)數(shù)據(jù)刪除的系統(tǒng)(BDS)

  • 針對移動設(shè)備或SDM的智能重復(fù)數(shù)據(jù)刪除

  • 預(yù)配置的重復(fù)數(shù)據(jù)刪除系統(tǒng)(PCDS)
文件類型 分配重復(fù)數(shù)據(jù)刪除方法

mp3

文件級
jpg 文件級
pdf 塊級
obb 塊級

未知的

塊級
RADS的工作原理是使用重復(fù)數(shù)據(jù)消除比率來確定每種文件類型應(yīng)該使用哪種重復(fù)數(shù)據(jù)消除方法。如果沒有達(dá)到該文件類型 的目標(biāo)重復(fù)數(shù)據(jù)刪除比率,則系統(tǒng)將選擇另一種重復(fù)數(shù)據(jù)刪除方法。對于每種文件類型,重復(fù)數(shù)據(jù)刪除比率通過將重復(fù)數(shù)據(jù)刪除文件大小除以文件大小來計(jì)算。
  • 旋轉(zhuǎn)重復(fù)數(shù)據(jù)刪除系統(tǒng)(RADS)

文件類型 已分配的重復(fù)數(shù)據(jù)刪除方法 目標(biāo)重復(fù)數(shù)據(jù)消除率(%)

mp3

5文件級 5
jpg 文件級 5
pdf 塊級 5
obb 塊級 25

未知的

塊級 10

5.2.5測試結(jié)果

演示不同的重復(fù)數(shù)據(jù)刪除系統(tǒng)在處理未知文件類型時(shí)的性能:

1f97af2a-7ba0-11ed-8abf-dac502259ad0.png

總的來說,SDM比其他系統(tǒng)表現(xiàn)得更好,特別是在未知的文件類型上,因?yàn)槲覀兊南到y(tǒng)不需要對不同的文件類型進(jìn)行任 何特定的配置。對于大多數(shù)情況下文件和塊級之間的重復(fù)數(shù)據(jù)刪除吞吐量,以及接近塊級重復(fù)數(shù)據(jù)刪除精度的重復(fù)數(shù)據(jù)刪 除精度,與其他系統(tǒng)相比,我們的系統(tǒng)可以使云存儲作為移動設(shè)備的存儲解決方案更加可行。

6.Ares數(shù)據(jù)壓縮框架

6.1介紹

現(xiàn)代應(yīng)用中的數(shù)據(jù)爆炸現(xiàn)象給存儲系統(tǒng)帶來了巨大的壓力,因此開發(fā)者使用數(shù)據(jù)壓縮技術(shù)來解決這個(gè)問題。但是,在考慮輸入數(shù)據(jù)類型和格式時(shí),每個(gè)壓縮庫都表現(xiàn)出不同的優(yōu)勢和劣勢。所以有相關(guān)學(xué)者提出了Ares,一個(gè)智能、自適應(yīng)和靈活的模塊化壓縮框架,可以根據(jù)工作負(fù)載的類型為給定的輸入數(shù)據(jù)動態(tài)選擇壓縮庫,并為用戶提供適當(dāng)?shù)幕A(chǔ)設(shè)施來微調(diào)所選的庫。Ares是一個(gè)模塊化框架,它統(tǒng)一了多個(gè)壓縮庫,同時(shí)允許用戶添加更多壓縮庫。同時(shí),Ares也是一個(gè)統(tǒng)一的壓縮引擎,它抽象了每個(gè)工作負(fù)載使用不同壓縮庫的復(fù)雜性。

在科學(xué)和云計(jì)算領(lǐng)域的實(shí)際運(yùn)用中,Ares的執(zhí)行速度相比其他解決方案快了 2-6 倍,而且附加數(shù)據(jù)分析的成本較低。與完全沒有壓縮的基線相比,速度快了 10 倍。

6.2面臨的問題

我們知道,無損壓縮算法分為兩類:通用算法和專用算法。像Bzip、Zlib、7z這些就是屬于通用壓縮庫,事實(shí)上,它們的性能的確很好,但不足是不會利用數(shù)據(jù)表示之間的細(xì)微差別。所以又有了一些更專門的算法,比如Snappy、SPDP、LZO等,這一類算法通過最小化數(shù)據(jù)占用空間來提高應(yīng)用程序的整體性能,因而有著廣泛的前景。

盡管有以上這些特定領(lǐng)域的壓縮庫的良好發(fā)展,但是仍然面臨幾個(gè)比較現(xiàn)實(shí)的問題:

  • 數(shù)據(jù)依賴:由于每個(gè)庫對某種數(shù)據(jù)類型的專一化,致使對于其他情況來說,它通常不夠一般化。即使選擇了庫,大多數(shù)應(yīng)用程序由于使用很多不同類型的數(shù)據(jù),因此僅使用一個(gè)庫也不會產(chǎn)生最佳性能。

  • 庫的選擇:不同的庫有著不同的優(yōu)點(diǎn)和缺點(diǎn),通常為一個(gè)用例選擇合適的庫是困難的。即使在同一個(gè)應(yīng)用程序中,其不同部分也會有著不同的壓縮需求。比如檔案的存儲需要高的壓縮比,而進(jìn)程間的數(shù)據(jù)共享需要高的壓/解壓縮速度。

  • API和可用性:每個(gè)壓縮庫都有自己的一組參數(shù)和API,通常很難過渡到或采用新的庫,沒有哪種壓縮算法可為所有類型的數(shù)據(jù)、文件格式或應(yīng)用程序需求提供最佳性能。我們希望可以有一個(gè)智能的框架,能夠無縫統(tǒng)一多個(gè)庫,并根據(jù)特定場景動態(tài)選擇“最佳”壓縮算法。

6.3基準(zhǔn)測試

既然要統(tǒng)一不同算法,那首先就要確切地掌握它們的實(shí)際表現(xiàn)。因此,學(xué)者對廣泛選擇的壓縮庫通過全面的基準(zhǔn)測試進(jìn)行了性能評估:

1fc7dfe2-7ba0-11ed-8abf-dac502259ad0.png

1ffbb2c2-7ba0-11ed-8abf-dac502259ad0.png

202b40c8-7ba0-11ed-8abf-dac502259ad0.png

從數(shù)據(jù)類型、數(shù)據(jù)格式和工作負(fù)載優(yōu)先級三個(gè)維度進(jìn)行了測試,篇幅有限,細(xì)節(jié)分析部分這里不再具體展開。簡單總結(jié)為:通過觀察各個(gè)庫之間的性能變化,可以發(fā)現(xiàn)每個(gè)工作負(fù)載都可以從智能的動態(tài)壓縮框架中受益。

6.4Ares的體系架構(gòu)

2068e450-7ba0-11ed-8abf-dac502259ad0.png

Ares架構(gòu)的核心是即插即用,框架是一個(gè)中間件庫,它封裝了多個(gè)壓縮庫,從用戶側(cè)抽象出它們的復(fù)雜性。應(yīng)用程序可以使用Ares作為工具(CLI)或作為一個(gè)庫(API)。在這兩種情況下,Ares內(nèi)部的數(shù)據(jù)流是相同的。首先,Ares分析輸入數(shù)據(jù),以識別所涉及的數(shù)據(jù)類型和格式。其輸入可以是一個(gè)文件、一個(gè)目錄或一個(gè)以前壓縮過的文件(file.ares)。然后,將分析結(jié)果傳遞給主引擎,由主引擎決定哪個(gè)壓縮庫最適合給定的情況。根據(jù)決策,Ares利用一個(gè)庫池,其中包括預(yù)編譯的壓縮庫(目前的原型中已存在11個(gè)),再執(zhí)行壓/解壓縮操作。最后,Ares用其元數(shù)據(jù)修飾壓縮數(shù)據(jù),并輸出.ares文件到磁盤。

6.5要點(diǎn)評估

6.5.1開銷和資源利用率

20a17536-7ba0-11ed-8abf-dac502259ad0.png

如上圖,我們可以觀察到,每個(gè)被測試的庫都展現(xiàn)了不同的開銷。例如,lz4、quicklz和snappy在CT、I/O和DT上都實(shí)現(xiàn)了類似的時(shí)間,但系統(tǒng)利用率不同(如snappy是CPU密集型、內(nèi)存占用低)。相比之下,bsc提供了最高8.6x的CR,但也是最慢的庫,它的CPU和內(nèi)存占用率高達(dá)90%以上。bzip2的內(nèi)存占用較低,但在CR為6.2x時(shí)仍保持較高的CPU占用率。另一方面,Ares通過分析輸入數(shù)據(jù)來平衡CT、DT和CR,而這個(gè)額外的開銷只占總時(shí)間的10%。Ares用了74秒進(jìn)行數(shù)據(jù)類型和格式的檢測,即便有這些額外的開銷,Ares執(zhí)行所有操作的速度仍然比所有庫的速度快,并取得了最佳的總體時(shí)間。

具體來說,Ares比bsc快6.5倍,比bzip2快4.6倍,比lz4、quicklz快5-40%,而且在達(dá)到58%的CPU和64%的內(nèi)存占用率情況下仍然非常快。

6.5.2壓/解壓智能度

20ca02ee-7ba0-11ed-8abf-dac502259ad0.png

20f3c34a-7ba0-11ed-8abf-dac502259ad0.png

從結(jié)果可以看出,使用CR為1.75倍的lz4可以更快地壓縮二進(jìn)制數(shù)據(jù)。對于較復(fù)雜的壓縮,bsc實(shí)現(xiàn)了大于5倍的CR,但CT和DT明顯減慢。

6.5.3壓/解壓適應(yīng)度

21369f1c-7ba0-11ed-8abf-dac502259ad0.png

6.5.4壓/解壓靈活度

Ares的優(yōu)勢在于它能夠根據(jù)輸入的數(shù)據(jù)類型和格式進(jìn)行壓縮。此外,Ares提供了在給定工作負(fù)載的情況下對某些壓縮特性進(jìn)行優(yōu)先級排序的基礎(chǔ)設(shè)施。Ares的目標(biāo)是通過C/C++和Java綁定支持科學(xué)和云工作負(fù)載。此外,Ares抽象了它的引擎中包含的每個(gè)壓縮庫的細(xì)節(jié),這使得它更易于使用,并且在需要時(shí)可以靈活地?cái)U(kuò)展到更多的壓縮庫。下面用了四個(gè)不同的科學(xué)應(yīng)用(VPIC和HACC)和云工作負(fù)載(單詞計(jì)數(shù)和整數(shù)排序)測試了Ares的性能,研究了三種類型的工作負(fù)載:

216711ec-7ba0-11ed-8abf-dac502259ad0.png

6.6總結(jié)

與傳統(tǒng)的壓縮庫相比,Ares可以提高性能。具體來說,在科學(xué)和云計(jì)算領(lǐng)域的實(shí)際應(yīng)用中,Ares的執(zhí)行速度比同類解決方案快了2-6倍,并為用戶提供了一個(gè)靈活的基礎(chǔ)設(shè)施,可根據(jù)手頭的任務(wù)確定壓縮特點(diǎn)。

<本文完>

參考文獻(xiàn)

[1] Shakarami A, Ghobaei-Arani M, Shahidinejad A, et al. Data replication schemes in cloud computing: a survey[J]. Cluster Computing, 2021, 24(3): 2545-2579.

https://www.researchgate.net/publication/350921010_Data_replication_schemes_in_cloud_computing_a_survey

[2] Widodo R N S, Lim H, Atiquzzaman M. SDM: Smart deduplication for mobile cloud storage[J]. Future Generation Computer Systems, 2017, 70: 64-73.

https://www.researchgate.net/publication/304906996_SDM_Smart_deduplication_for_mobile_cloud_storage

[3] Rani, I.S., Venkateswarlu, B.: A systematic review of different data compression technique of cloud big sensing data. In: International conference on computer networks and inventive communication technologies (pp. 222–228). Springer, Cham (2019)

https://link.springer.com/content/pdf/bfm:978-3-030-37051-0/1.pdf

[4] Hema, S., Kangaiammal, A. (2019) Distributed storage hash algorithm (DSHA) for file-based deduplication in cloud computing. In: International conference on computer networks and inventive communication technologies (pp. 572–581). Springer, Cham (2019)

https://dl.acm.org/doi/abs/10.1016/j.jksuci.2021.04.005

[5] Liu J, Shen H, Narman H S. Popularity-aware multi-failure resilient and cost-effective replication for high data durability in cloud storage[J]. IEEE Transactions on Parallel and Distributed Systems, 2018, 30(10): 2355-2369.

https://ieeexplore.ieee.org/document/8478382/

[6] Devarajan H, Kougkas A, Sun X H. An intelligent, adaptive, and flexible data compression framework[C]//2019 19th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). IEEE, 2019: 82-91.

https://ieeexplore.ieee.org/document/8752926

[7]Top 10 benefits of cloud computing - Information Age

https://www.information-age.com/top-10-benefits-cloud-computing-7248/

ELT.ZIP是誰?

ELT<=>Elite(精英),.ZIP為壓縮格式,ELT.ZIP即壓縮精英。

成員:

上海工程技術(shù)大學(xué)大二在校生閆旭

合肥師范學(xué)院大二在校生楚一凡

清華大學(xué)大二在校生趙宏博

成都信息工程大學(xué)大一在校生高云帆

黑龍江大學(xué)大一在校生高鴻萱

山東大學(xué)大三在校生張智騰

2199ebf8-7ba0-11ed-8abf-dac502259ad0.png

ELT.ZIP是來自6個(gè)地方的同學(xué),在OpenHarmony成長計(jì)劃啃論文俱樂部里,與來自華為、軟通動力、潤和軟件、拓維信息、深開鴻等公司的高手一起,學(xué)習(xí)、研究、切磋操作系統(tǒng)技術(shù)...

寫在最后

OpenHarmony 成長計(jì)劃—“啃論文俱樂部”(以下簡稱“啃論文俱樂部”)是在 2022年 1 月 11 日的一次日常活動中誕生的。截至 3 月 31 日,啃論文俱樂部已有 87 名師生和企業(yè)導(dǎo)師參與,目前共有十二個(gè)技術(shù)方向并行探索,每個(gè)方向都有專業(yè)的技術(shù)老師帶領(lǐng)同學(xué)們通過啃綜述論文制定技術(shù)地圖,按“降龍十八掌”的學(xué)習(xí)方法編排技術(shù)開發(fā)內(nèi)容,并通過專業(yè)推廣培養(yǎng)高校開發(fā)者成為軟件技術(shù)學(xué)術(shù)級人才。

啃論文俱樂部的宗旨是希望同學(xué)們在開源活動中得到軟件技術(shù)能力提升、得到技術(shù)寫作能力提升、得到講解技術(shù)能力提升。大學(xué)一年級新生〇門檻參與,已有俱樂部來自多所高校的大一同學(xué)寫出高居榜首的技術(shù)文章。

如今,搜索“啃論文”,人們不禁想到、而且看到的都是我們——OpenHarmony 成長計(jì)劃—“啃論文俱樂部”的產(chǎn)出。

22cc1122-7ba0-11ed-8abf-dac502259ad0.jpg

22deba3e-7ba0-11ed-8abf-dac502259ad0.jpg

23112992-7ba0-11ed-8abf-dac502259ad0.jpg

OpenHarmony開源與開發(fā)者成長計(jì)劃—“啃論文俱樂部”學(xué)習(xí)資料合集

1)入門資料:啃論文可以有怎樣的體驗(yàn)

https://docs.qq.com/slide/DY0RXWElBTVlHaXhi?u=4e311e072cbf4f93968e09c44294987d

2)操作辦法:怎么從啃論文到開源提交以及深度技術(shù)文章輸出https://docs.qq.com/slide/DY05kbGtsYVFmcUhU

3)企業(yè)/學(xué)校/老師/學(xué)生為什么要參與 & 啃論文俱樂部的運(yùn)營辦法https://docs.qq.com/slide/DY2JkS2ZEb2FWckhq

4)往期啃論文俱樂部同學(xué)分享會精彩回顧:

同學(xué)分享會No1.成長計(jì)劃啃論文分享會紀(jì)要(2022/02/18)https://docs.qq.com/doc/DY2RZZmVNU2hTQlFY

同學(xué)分享會No.2 成長計(jì)劃啃論文分享會紀(jì)要(2022/03/11)https://docs.qq.com/doc/DUkJ5c2NRd2FRZkhF

同學(xué)們分享會No.3 成長計(jì)劃啃論文分享會紀(jì)要(2022/03/25)

https://docs.qq.com/doc/DUm5pUEF3ck1VcG92?u=4e311e072cbf4f93968e09c44294987d

現(xiàn)在,你是不是也熱血沸騰,摩拳擦掌地準(zhǔn)備加入這個(gè)俱樂部呢?當(dāng)然歡迎啦!啃論文俱樂部向任何對開源技術(shù)感興趣的大學(xué)生開發(fā)者敞開大門。

23470aa8-7ba0-11ed-8abf-dac502259ad0.png

掃碼添加 OpenHarmony 高校小助手,加入“啃論文俱樂部”微信群

后續(xù),我們會在服務(wù)中心公眾號陸續(xù)分享一些 OpenHarmony 開源與開發(fā)者成長計(jì)劃—“啃論文俱樂部”學(xué)習(xí)心得體會和總結(jié)資料。記得呼朋引伴來看哦。


原文標(biāo)題:云計(jì)算數(shù)據(jù)壓縮方案

文章出處:【微信公眾號:開源技術(shù)服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 開源技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    389

    瀏覽量

    8745
  • OpenHarmony
    +關(guān)注

    關(guān)注

    33

    文章

    3952

    瀏覽量

    21096

原文標(biāo)題:云計(jì)算數(shù)據(jù)壓縮方案

文章出處:【微信號:開源技術(shù)服務(wù)中心,微信公眾號:共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)壓縮功能的穩(wěn)定性如何?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮功能穩(wěn)定性優(yōu)異,尤其在高端裝置中采用硬件加速時(shí)幾乎無感知影響,中端裝置在默認(rèn)配置下穩(wěn)定性良好,經(jīng)濟(jì)型裝置需合理配置以確保穩(wěn)定。
    的頭像 發(fā)表于 02-25 17:22 ?1123次閱讀

    什么是企業(yè)服務(wù)器-計(jì)算

    企業(yè)服務(wù)器是指為企業(yè)提供的基于計(jì)算技術(shù)的服務(wù)器解決方案。華納是一家
    的頭像 發(fā)表于 12-29 17:57 ?782次閱讀

    電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)壓縮對裝置性能有哪些影響?

    降至工業(yè)級可接受范圍, 不會影響核心監(jiān)測功能(如采樣精度、故障響應(yīng)) 。以下是分維度的專業(yè)解析: 一、核心性能影響維度(分裝置定位 + 壓縮類型) 1. CPU 占用:硬件加速是關(guān)鍵,無損壓縮影響極小 數(shù)據(jù)壓縮 / 解壓本質(zhì)是
    的頭像 發(fā)表于 12-17 10:28 ?332次閱讀
    電能質(zhì)量在線監(jiān)測裝置<b class='flag-5'>數(shù)據(jù)壓縮</b>對裝置性能有哪些影響?

    如何配置電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能?

    現(xiàn)代電能質(zhì)量在線監(jiān)測裝置普遍支持數(shù)據(jù)壓縮存儲,可顯著節(jié)省存儲空間 (2-20 倍) 和傳輸流量。配置步驟如下: 一、配置前準(zhǔn)備 1. 確認(rèn)裝置支持情況 高端裝置 (電網(wǎng)側(cè)):標(biāo)配硬件壓縮模塊
    的頭像 發(fā)表于 12-17 10:26 ?483次閱讀
    如何配置電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能?

    電能質(zhì)量在線監(jiān)測裝置支持哪些數(shù)據(jù)壓縮算法?

    電能質(zhì)量在線監(jiān)測裝置支持 無損壓縮 和 有損壓縮 兩大類算法,適配不同數(shù)據(jù)類型(實(shí)時(shí)數(shù)據(jù)、歷史數(shù)據(jù)、波形
    的頭像 發(fā)表于 12-12 14:08 ?436次閱讀
    電能質(zhì)量在線監(jiān)測裝置支持哪些<b class='flag-5'>數(shù)據(jù)壓縮</b>算法?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度的影響有多大?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度的影響,可通過 量化對比 + 場景拆解 明確: 絕大多數(shù)場景下傳輸速度提升 50%~80%(低帶寬場景甚至超 90%),僅軟件壓縮的小文件傳輸或
    的頭像 發(fā)表于 12-11 16:45 ?1275次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能對<b class='flag-5'>數(shù)據(jù)</b>傳輸速度的影響有多大?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度有影響嗎?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能對數(shù)據(jù)傳輸速度的影響是 “雙刃劍” : 核心正面影響: 壓縮數(shù)據(jù)量減小,大幅降低傳輸帶寬需求,縮短傳輸時(shí)間 (尤其適用于大文件如暫態(tài)錄波、歷史
    的頭像 發(fā)表于 12-11 16:43 ?1240次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能對<b class='flag-5'>數(shù)據(jù)</b>傳輸速度有影響嗎?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能支持的數(shù)據(jù)格式可以修改嗎?

    電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)壓縮存儲功能支持的數(shù)據(jù)格式 部分可修改 ,具體取決于格式類型(數(shù)據(jù)文件格式 / 壓縮算法格式)與廠家設(shè)計(jì),核心結(jié)論如下: 一、
    的頭像 發(fā)表于 12-11 16:39 ?1088次閱讀
    電能質(zhì)量在線監(jiān)測裝置的<b class='flag-5'>數(shù)據(jù)壓縮</b>存儲功能支持的<b class='flag-5'>數(shù)據(jù)</b>格式可以修改嗎?

    應(yīng)用于暫態(tài)波形存儲的數(shù)據(jù)壓縮算法需要考慮哪些因素?

    應(yīng)用于暫態(tài)波形存儲的數(shù)據(jù)壓縮算法,需圍繞 暫態(tài)波形特性 (突變性、關(guān)鍵特征依賴性)、 工業(yè)場景需求 (實(shí)時(shí)性、硬件限制)及 數(shù)據(jù)應(yīng)用價(jià)值 (故障溯源、合規(guī)性)綜合考量,核心需關(guān)注以下六大維度: 一
    的頭像 發(fā)表于 11-05 15:02 ?315次閱讀

    低內(nèi)存場景下的高效壓縮利器:FastLZ壓縮庫應(yīng)用實(shí)踐指南

    在資源受限環(huán)境中,數(shù)據(jù)壓縮既要追求速度又要節(jié)省內(nèi)存。本文聚焦FastLZ壓縮庫,深入探討其在低內(nèi)存場景下的應(yīng)用實(shí)踐,通過解析其核心算法與優(yōu)化策略,帶您掌握如何利用該庫實(shí)現(xiàn)快速壓縮,滿足嵌入式系統(tǒng)、物
    的頭像 發(fā)表于 07-22 15:13 ?373次閱讀
    低內(nèi)存場景下的高效<b class='flag-5'>壓縮</b>利器:FastLZ<b class='flag-5'>壓縮</b>庫應(yīng)用實(shí)踐指南

    恒訊科技分析:Ubuntu服務(wù)器數(shù)據(jù)共享高效方案

    在當(dāng)今計(jì)算時(shí)代,企業(yè)對于數(shù)據(jù)共享的需求日益增長,尤其是在使用Ubuntu服務(wù)器的場景下,如何實(shí)現(xiàn)高效、安全的數(shù)據(jù)共享成為關(guān)鍵問題。本文將
    的頭像 發(fā)表于 07-09 21:40 ?1480次閱讀

    磁懸浮冷站引領(lǐng)綠色革命,維諦技術(shù)(Vertiv)助力中國電信江西計(jì)算數(shù)據(jù)中心制冷系統(tǒng)實(shí)現(xiàn)PUE1.2

    ,如何讓數(shù)據(jù)中心既當(dāng)“最強(qiáng)大腦”又做“節(jié)能標(biāo)兵”?在中國電信江西計(jì)算數(shù)據(jù)中心,維諦技術(shù)(Vertiv)搭建的業(yè)界首個(gè)集成自然冷和余熱回收的磁懸浮集成冷站,正在上
    的頭像 發(fā)表于 05-22 14:18 ?921次閱讀
    磁懸浮冷站引領(lǐng)綠色革命,維諦技術(shù)(Vertiv)助力中國電信江西<b class='flag-5'>云</b><b class='flag-5'>計(jì)算數(shù)據(jù)</b>中心制冷系統(tǒng)實(shí)現(xiàn)PUE1.2

    接地電阻柜與計(jì)算、大數(shù)據(jù)關(guān)系緊密

    為配合實(shí)現(xiàn)大數(shù)據(jù),必須籌建更多的計(jì)算數(shù)據(jù)中心,用到很多的發(fā)電機(jī)組,如何更好的保護(hù)這些發(fā)電機(jī)組,是急需解決的一大難題。國際上廣泛采用中性點(diǎn)經(jīng)電阻接地,即在中性點(diǎn)和接地相中間安裝接地電阻柜
    的頭像 發(fā)表于 05-07 06:30 ?570次閱讀
    接地電阻柜與<b class='flag-5'>云</b><b class='flag-5'>計(jì)算</b>、大<b class='flag-5'>數(shù)據(jù)</b>關(guān)系緊密

    量子計(jì)算在海綿壓縮測試數(shù)據(jù)優(yōu)化中的創(chuàng)新探索

    在海綿材料性能測試領(lǐng)域,隨著數(shù)據(jù)維度與計(jì)算復(fù)雜度的指數(shù)級增長,傳統(tǒng)經(jīng)典計(jì)算機(jī)逐漸面臨算力瓶頸。量子計(jì)算憑借量子比特的并行計(jì)算特性,為測試
    的頭像 發(fā)表于 04-22 13:05 ?875次閱讀
    量子<b class='flag-5'>計(jì)算</b>在海綿<b class='flag-5'>壓縮</b>測試<b class='flag-5'>數(shù)據(jù)</b>優(yōu)化中的創(chuàng)新探索

    手機(jī)解決方案

    手機(jī)解決方案通過虛擬化技術(shù)與計(jì)算資源的深度整合,構(gòu)建了高效、靈活且安全的移動應(yīng)用生態(tài)體系。以下是當(dāng)前行業(yè)技術(shù)特點(diǎn)、應(yīng)用場景及發(fā)展趨勢的綜合性分析: 一、技術(shù)架構(gòu)與核心能力 虛擬化技
    的頭像 發(fā)表于 04-10 08:37 ?1026次閱讀
    <b class='flag-5'>云</b>手機(jī)解決<b class='flag-5'>方案</b>