国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于HBase的工業(yè)大數(shù)據(jù)存儲實戰(zhàn)

格創(chuàng)東智 ? 2018-12-27 22:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


本文作者:格創(chuàng)東智大數(shù)據(jù)工程師王子超(轉(zhuǎn)載請注明作者及來源)




隨著工業(yè)4.0時代的到來,工業(yè)互聯(lián)網(wǎng)和企業(yè)的智能化、信息化都將不斷推進,傳統(tǒng)的工業(yè)實時數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫已經(jīng)難以完全勝任工業(yè)大數(shù)據(jù)的存儲,HBase為代表的NoSQL數(shù)據(jù)庫正在蓬勃發(fā)展,其完全分布式特征、高性能、多副本和靈活的動態(tài)擴展等特點,使得HBase在工業(yè)大數(shù)據(jù)的存儲上擁有強大的優(yōu)勢,打破了流程工業(yè)生產(chǎn)中的"數(shù)據(jù)壁壘"效應的瓶頸,可以促進工業(yè)生產(chǎn)水平和生產(chǎn)管理水平的提高。本期格物匯,就來給大家介紹HBase數(shù)據(jù)庫及格創(chuàng)東智相關(guān)實戰(zhàn)案例。


了解HBase

HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。HBASE的目標是存儲并處理大型的數(shù)據(jù),更具體來說是僅需使用普通的硬件配置,就能夠處理由成千上萬的行和列所組成的大型數(shù)據(jù)。

HBASE是GoogleBigtable的開源實現(xiàn),但是也有很多不同之處。比如:Google Bigtable使用GFS作為其文件存儲系統(tǒng),HBASE利用HadoopHDFS作為其文件存儲系統(tǒng);Google運行MAPREDUCE來處理Bigtable中的海量數(shù)據(jù),HBASE同樣利用Hadoop MapReduce來處理HBASE中的海量數(shù)據(jù);Google Bigtable利用Chubby作為協(xié)同服務,HBASE利用Zookeeper作為協(xié)同服務。

與傳統(tǒng)數(shù)據(jù)庫的相比,HBASE具備多重優(yōu)勢

1)線性擴展,隨著數(shù)據(jù)量增多可以通過節(jié)點擴展進行支撐;

2)數(shù)據(jù)存儲在hdfs上,備份機制健全;

3)通過zookeeper協(xié)調(diào)查找數(shù)據(jù),訪問速度快。

HBase實戰(zhàn)案例

為了更好的介紹 HBase 在人工智能場景下的使用,下面我們以某半導體顯示企業(yè)為案例,給大家分析格創(chuàng)東智大數(shù)據(jù)團隊如何利用 HBase 設(shè)計出一個快速查找面板特征的系統(tǒng)。


目前,該公司的業(yè)務場景里面有很多面板相關(guān)的特征數(shù)據(jù),每張面板數(shù)據(jù)大概 3.2k。這些面板數(shù)據(jù)又被分成很多組,每個面板特征屬于某個組。組和面板的數(shù)據(jù)分布如下:

——43%左右的組含有1張面板數(shù)據(jù);

——47%左右的組含有 2 ~9張面板數(shù)據(jù);

——其余的組面板數(shù)范圍為 10 ~ 10000張。


現(xiàn)在的業(yè)務需求主要有以下兩類:

——根據(jù)組的 id 查找該組下面的所有面板數(shù)據(jù);

——根據(jù)組 id +面板id 查找某個面板的具體數(shù)據(jù)。

原有方案:MySQL+OSS

之前業(yè)務數(shù)據(jù)量比較小的情況使用的存儲主要為 MySQL 以及 OSS(對象存儲)。相關(guān)表主要有面板組表group和面板表face。表的格式如下:


group表:

group_idsize
12


glass表:

glass_idgroup_idfeature
"TB7B3695BA05"1"CASBA"


其中 feature(特征)大小為3.2k,是二進制數(shù)據(jù) base64 后存入的,這個就是真實的面板特征數(shù)據(jù)。現(xiàn)在面板組 id 和面板id 對應關(guān)系存儲在MySQL 中,對應上面的 group 表;面板 id 和面板相關(guān)的特征數(shù)據(jù)存儲在 OSS 里面,對應上面的 face 表。

因為每個面板組包含的玻璃特征數(shù)相差很大(1 ~ 10000),所以基于上面的表設(shè)計,我們需要將面板組以及每張面板特征id存儲在每一行,那么屬于同一個面板組的數(shù)據(jù)在MySQL 里面上實際上存儲了很多行。比如某個組id對應的特征數(shù)為10000,那么需要在MySQL 里面存儲 10000 行。

我們?nèi)绻枰鶕?jù)面板組 id 查找該組下面的所有面板,那么需要從 MySQL 中讀取很多行的數(shù)據(jù),從中獲取到組和面板對應的關(guān)系,然后到 OSS 里面根據(jù)面板id獲取所有相關(guān)的特征數(shù)據(jù)。


這樣的查詢導致鏈路非常長。從上面的設(shè)計可看出,如果查詢的組包含的面板張數(shù)比較多的情況下,那么我們需要從 MySQL 里面掃描很多行,然后再從 OSS 里面拿到這些特征數(shù)據(jù),整個查詢時間在10秒左右,遠遠不能滿足現(xiàn)有業(yè)務快速發(fā)展的需求。


HBase解決方案:

MySQL + OSS的設(shè)計方案有兩個問題:第一,原本屬于同一條數(shù)據(jù)的內(nèi)容由于數(shù)據(jù)本身大小的原因無法存儲到一行里面,導致后續(xù)查下需要訪問兩個存儲系統(tǒng);第二,由于MySQL不支持動態(tài)列的特性,所以屬于同一個面板組的數(shù)據(jù)被拆成多行存儲。


針對這兩個問題,格創(chuàng)東智的大數(shù)據(jù)團隊進行了分析,認為這是HBase 的典型場景,原因如下:

——HBase 擁有動態(tài)列的特性,支持萬億行,百萬列;

——HBase 支持多版本,所有的修改都會記錄在 HBase 中;

——HBase 2.0 引入了MOB(Medium-Sized Object)特性,支持小文件存儲。


HBase 的 MOB 特性針對文件大小在 1k~10MB 范圍的,比如圖片,短視頻,文檔等,具有低延遲,讀寫強一致,檢索能力強,水平易擴展等關(guān)鍵能力。


格創(chuàng)東智的大數(shù)據(jù)團隊使用這三個功能重新設(shè)計上面 MySQL + OSS 方案。結(jié)合應用場景的兩大查詢需求,將面板組 id 作為 HBase 的 Rowkey,在創(chuàng)建表的時候打開 MOB 功能,如下:

create'glass',{NAME=>'c',IS_MOB=>true,MOB_THRESHOLD=>2048}

上面我們創(chuàng)建了名為 glass 的表,IS_MOB屬性說明列簇 c 將啟用 MOB 特性,MOB_THRESHOLD是 MOB 文件大小的閾值,單位是字節(jié),這里的設(shè)置說明文件大于 2k 的列都當做小文件存儲。大家可能注意到上面原始方案中采用了 OSS 對象存儲,那我們?yōu)槭裁床恢苯邮褂?OSS 存儲面板特征數(shù)據(jù)呢,如果有這個疑問,可以看看下面表的性能測試:


對比屬性對象存儲云 HBase
建模能力KVKV、表格、稀疏表、SQL、
全文索引、時空、時序、圖查詢
查詢能力前綴查找前綴查找、過濾器、索引
性能優(yōu)優(yōu),特別對小對象有更低的延遲;在復雜
查詢場景下,比對象存儲有10倍以上的性能提升
成本按流量,請求次數(shù)計費,托管式,在高并發(fā),高吞吐場景有更低的成本
適合訪問頻率低的場景
擴展性優(yōu)優(yōu)
適用對象范圍通用<10MB


StringCF_DEFAULT="c";根據(jù)上面的對比,使用 HBase MOB特性來存儲小于10MB的對象相比直接使用對象存儲有一些優(yōu)勢。
我們現(xiàn)在來看看具體的表設(shè)計,使用面板id作為列名。我們只使用了HBase 的一張表就替換了之前方面的三張表!雖然我們啟用了 MOB,但是具體插入的方法和正常使用一樣,代碼片段如下:

Putput=newPut(groupId.getBytes());
put.addColumn(
CF_DEFAULT.getBytes(),glassId1.getBytes(),feature1.getBytes());
put.addColumn(
CF_DEFAULT.getBytes(),glassId2.getBytes(),feature2.getBytes());
……
put.addColumn(
CF_DEFAULT.getBytes(),glassIdn.getBytes(),featuren.getBytes());
table.put(put);

用戶如果需要根據(jù)面板組id獲取所有面板數(shù)據(jù),可以使用下面方法:

Getget=newGet(groupId.getBytes());
Resultre=table.
get(get);

這樣我們可以拿到某個組id對應的所有面板數(shù)據(jù)。如果需要根據(jù)組id+面板id查找某個面板的具體數(shù)據(jù),看可以使用下面方法:

Getget=newGet(groupId.getBytes());
get.addColumn(CF_DEFAULT.getBytes(),glassId1.getBytes())
Resultre=table.
get(get);

經(jīng)過上面的改造,在2臺 HBaseWorker 節(jié)點內(nèi)存為32GB,核數(shù)為8,每個節(jié)點掛載四塊大小為 250GB 的 SSD 磁盤,并寫入100W 行,每行有1W列,讀取一行的時間在100ms-500毫秒左右。在每行有1000個face的情況下,讀取一行的時間基本在20-50毫秒左右,相比之前的10秒提升200~500倍。

從下面這張對比表,我們可以清楚的看到HBase方案的巨大優(yōu)勢。

對比屬性對象存儲MySQL+對象存儲HBase MOB
讀寫強一致YNY
查詢能力
查詢響應時間
運維成本
水平擴展YYY


現(xiàn)在,我們已經(jīng)將面板特征數(shù)據(jù)存儲在Cloudera HBase 之中,這個只是數(shù)據(jù)應用的第一步,如何將隱藏在這些數(shù)據(jù)背后的價值發(fā)揮出來?這就得借助于數(shù)據(jù)分析,在這個場景就需要采用機器學習的方法進行操作。我們可以借助大數(shù)據(jù)分析工具Spark 對存儲于 HBase 之中的數(shù)據(jù)進行分析,而且 Spark 本身支持機器學習的。最后,用戶就可以通過訪問 HBase 里面已經(jīng)挖掘好的特征數(shù)據(jù)進行其他的應用了。



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中科曙光亮相2025數(shù)據(jù)存儲產(chǎn)業(yè)大

    11月19日,2025數(shù)據(jù)存儲產(chǎn)業(yè)大會在廣州召開,大會由中國電子工業(yè)標準化技術(shù)協(xié)會主辦,中電標協(xié)數(shù)據(jù)存儲
    的頭像 發(fā)表于 11-21 17:32 ?1078次閱讀

    北京工業(yè)大學開源鴻蒙技術(shù)俱樂部正式揭牌成立

    2025年10月29日上午,由OpenAtom OpenHarmony(以下簡稱“開源鴻蒙”)項目群技術(shù)指導委員會和北京工業(yè)大學計算機學院共同舉辦的“北京工業(yè)大學開源鴻蒙技術(shù)俱樂部成立大會暨智能物聯(lián)
    的頭像 發(fā)表于 11-04 09:23 ?1082次閱讀
    北京<b class='flag-5'>工業(yè)大</b>學開源鴻蒙技術(shù)俱樂部正式揭牌成立

    組態(tài)大數(shù)據(jù)平臺是什么?有什么功能?

    組態(tài)大數(shù)據(jù)平臺是融合 組態(tài)技術(shù) 與 大數(shù)據(jù)處理能力 的綜合性平臺,通過圖形化、可配置的方式實現(xiàn)數(shù)據(jù)采集、存儲、分析、可視化及遠程控制,適用于工業(yè)
    的頭像 發(fā)表于 10-30 11:29 ?223次閱讀
    組態(tài)<b class='flag-5'>大數(shù)據(jù)</b>平臺是什么?有什么功能?

    工業(yè)數(shù)據(jù)云平臺有哪些好用的?

    )。 華為云:華為云工業(yè)互聯(lián)平臺專注于工業(yè)數(shù)字化轉(zhuǎn)型,提供工業(yè)物聯(lián)網(wǎng)、邊緣計算和工業(yè)大數(shù)據(jù)分析等服務。其應用場景廣泛,涵蓋制造業(yè)、能源、交通等領(lǐng)域。華為云憑借強大的生態(tài)系統(tǒng)和持續(xù)的技術(shù)
    的頭像 發(fā)表于 10-20 17:25 ?586次閱讀
    <b class='flag-5'>工業(yè)</b><b class='flag-5'>數(shù)據(jù)</b>云平臺有哪些好用的?

    工業(yè)大舵機和普通舵機的區(qū)別?

    工業(yè)大舵機和普通舵機在設(shè)計定位、性能參數(shù)、應用場景等多方面存在顯著差異,以下是具體對比: 核心性能參數(shù) 精度控制 工業(yè)大舵機 :配備高精度位置傳感器(如磁阻式絕對值編碼器),精度可達 0.1 度以下
    的頭像 發(fā)表于 09-25 10:41 ?912次閱讀

    深圳站報名火熱進行中!睿擎工業(yè)平臺線下實戰(zhàn) Workshop,親手實戰(zhàn)4小時解鎖工業(yè)級開發(fā)!|活動預告

    想一站式實戰(zhàn)QT圖形開發(fā)、EtherCAT通信、RPMSG多核交互?睿擎工業(yè)平臺深度實戰(zhàn)Workshop深圳站報名火熱進行中!這是一場專為工業(yè)開發(fā)者打造的沉浸式
    的頭像 發(fā)表于 09-14 10:04 ?1284次閱讀
    深圳站報名火熱進行中!睿擎<b class='flag-5'>工業(yè)</b>平臺線下<b class='flag-5'>實戰(zhàn)</b> Workshop,親手<b class='flag-5'>實戰(zhàn)</b>4小時解鎖<b class='flag-5'>工業(yè)</b>級開發(fā)!|活動預告

    御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設(shè)備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng)

    御控工業(yè)物聯(lián)網(wǎng)推出排水設(shè)備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng),通過物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術(shù)構(gòu)建“感知-傳輸-分析-決策”閉環(huán)管理體系,助力排水行業(yè)數(shù)字化轉(zhuǎn)型。
    的頭像 發(fā)表于 09-12 10:04 ?662次閱讀

    最后召集!明日睿擎工業(yè)平臺Workshop上海站開啟!現(xiàn)場體驗工業(yè)設(shè)備實戰(zhàn)開發(fā),最終席位即將關(guān)閉!

    明天(9月4日)下午1點,睿擎工業(yè)平臺深度實戰(zhàn)Workshop上海站將準時開啟!所有技術(shù)設(shè)備已調(diào)試完畢,開發(fā)套件、全套資料均已就位,僅剩最后少量席位,報名通道將于今日24:00正式關(guān)閉。并非所有
    的頭像 發(fā)表于 09-03 14:47 ?878次閱讀
    最后召集!明日睿擎<b class='flag-5'>工業(yè)</b>平臺Workshop上海站開啟!現(xiàn)場體驗<b class='flag-5'>工業(yè)</b>設(shè)備<b class='flag-5'>實戰(zhàn)</b>開發(fā),最終席位即將關(guān)閉!

    工業(yè)大模型利用全流程數(shù)據(jù)采集推動顯示行業(yè)生產(chǎn)制造升級

    ? 顯示產(chǎn)業(yè)作為電子信息產(chǎn)業(yè)的核心支柱,其技術(shù)迭代速度快、生產(chǎn)工藝復雜、質(zhì)量要求嚴苛,對制造升級的需求尤為迫切。工業(yè)大模型的出現(xiàn),為顯示生產(chǎn)制造升級提供了全新的技術(shù)路徑。依托顯示生產(chǎn)全流程數(shù)據(jù)的深度
    的頭像 發(fā)表于 07-28 10:37 ?599次閱讀

    歐菲光榮獲第七屆“深圳工業(yè)大獎” 深圳工業(yè)界最高榮譽

    近日,第七屆“深圳工業(yè)大獎”名單公示,經(jīng)深圳工業(yè)大獎獨立評審團成員認真審議、記名投票,分別評選產(chǎn)生第七屆“深圳工業(yè)大獎”企業(yè)10家、工業(yè)家10位、項目10個。其中,歐菲光集團股份有限公
    的頭像 發(fā)表于 07-15 18:07 ?1549次閱讀

    工業(yè)大數(shù)據(jù)管理平臺是什么?有什么功能?

    PLC跨網(wǎng)段通信網(wǎng)關(guān)是一種用于解決工業(yè)自動化領(lǐng)域中不同網(wǎng)絡(luò)段內(nèi)PLC(可編程邏輯控制器)設(shè)備通信問題的關(guān)鍵設(shè)備,其核心作用是實現(xiàn)不同網(wǎng)絡(luò)協(xié)議、IP網(wǎng)段之間的數(shù)據(jù)交互與信息傳輸,下面從多個方面詳細介紹
    的頭像 發(fā)表于 06-13 15:43 ?419次閱讀

    京東工業(yè)大模型Joy industrial重磅發(fā)布

    京東工業(yè)多年深耕工業(yè)數(shù)智供應鏈領(lǐng)域形成的經(jīng)驗積累和數(shù)據(jù)沉淀,通過“工業(yè)大模型+供應鏈場景應用”雙引擎,構(gòu)建從底層算力、算法、數(shù)據(jù)到應用的全棧
    的頭像 發(fā)表于 05-28 17:12 ?972次閱讀

    分布式存儲數(shù)據(jù)恢復—虛擬機上hbase和hive數(shù)據(jù)數(shù)據(jù)恢復案例

    分布式存儲數(shù)據(jù)恢復環(huán)境: 16臺某品牌R730xd服務器節(jié)點,每臺服務器節(jié)點上有數(shù)臺虛擬機。 虛擬機上部署Hbase和Hive數(shù)據(jù)庫。 分布式
    的頭像 發(fā)表于 04-17 11:05 ?716次閱讀

    工業(yè)存儲新變革:MK eMMC?引領(lǐng)數(shù)據(jù)存儲新時代

    在當今科技飛速發(fā)展的工業(yè)領(lǐng)域,數(shù)據(jù)存儲猶如工業(yè)設(shè)備的 “智慧大腦”,承載著生產(chǎn)流程的關(guān)鍵信息。隨著工業(yè) 4.0 的推進,不同市場應用分類對
    的頭像 發(fā)表于 04-02 14:14 ?1060次閱讀
    <b class='flag-5'>工業(yè)</b><b class='flag-5'>存儲</b>新變革:MK eMMC?引領(lǐng)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>存儲</b>新時代

    存儲服務器怎么搭建?RAKsmart實戰(zhàn)指南

    搭建存儲服務器需兼顧硬件性能、數(shù)據(jù)冗余與安全訪問。以RAKsmart服務器為例,整體流程可分為五步:需求評估→硬件選型→RAID配置→系統(tǒng)部署→網(wǎng)絡(luò)設(shè)置。以下是小編對RAKsmart存儲服務器怎么搭建的
    的頭像 發(fā)表于 04-01 10:09 ?1185次閱讀