對于企業(yè)而言,坐擁龐大的數(shù)據(jù)資源,想要實現(xiàn)大數(shù)據(jù)分析,首要的就是要搭建起自身的大數(shù)據(jù)系統(tǒng)平臺,而每個公司都有自己特定的業(yè)務(wù)場景,因此在大數(shù)據(jù)平臺上的需求是不一樣的。今天我們僅從通用的角度,來聊聊大數(shù)據(jù)分析需要什么技術(shù)架構(gòu)?
我們熟悉的以BAT為首的互聯(lián)網(wǎng)大廠,都擁有自身的大數(shù)據(jù)系統(tǒng)平臺,但是各自面臨的業(yè)務(wù)場景是不同的,比如說騰訊,主要是社交業(yè)務(wù)場景;百度,主要是搜索業(yè)務(wù)場景;而阿里,主要是電商業(yè)務(wù)場景。
這樣不同的業(yè)務(wù)場景下,需要根據(jù)實際的業(yè)務(wù)需求,選擇適合自己的技術(shù)框架,來搭建自己的大數(shù)據(jù)架構(gòu)體系。但是從技術(shù)架構(gòu)體系的共性來說,是可以從通用的技術(shù)模塊去理解,來幫助我們更好地學(xué)習(xí)和掌握大數(shù)據(jù)技術(shù)架構(gòu)的。
數(shù)據(jù)收集模塊:主要負(fù)責(zé)收集各種數(shù)據(jù)源的數(shù)據(jù),包括日志文件、網(wǎng)絡(luò)請求、數(shù)據(jù)庫、消息隊列等,并將這些數(shù)據(jù)轉(zhuǎn)換為文件或者消息向后傳遞。
數(shù)據(jù)轉(zhuǎn)存模塊:主要負(fù)責(zé)將數(shù)據(jù)定時傳遞到分布式存儲或者實時傳遞給下游的數(shù)據(jù)處理程序。
ETL模塊:主要負(fù)責(zé)數(shù)據(jù)的清洗、格式和內(nèi)容的處理和轉(zhuǎn)換、數(shù)據(jù)分級分揀、加載至數(shù)據(jù)倉庫等。
數(shù)據(jù)倉庫模塊:這是整個架構(gòu)的核心,數(shù)據(jù)倉庫是數(shù)據(jù)有組織的集中存儲的地方,負(fù)責(zé)數(shù)據(jù)的存取和管理。
元數(shù)據(jù)管理模塊:主要負(fù)責(zé)記錄和約束數(shù)據(jù)倉庫中數(shù)據(jù)的含義和格式,控制著數(shù)據(jù)的生命周期和數(shù)據(jù)質(zhì)量。
分析引擎模塊:數(shù)據(jù)分析師交互最多的模塊,主要負(fù)責(zé)執(zhí)行各種分析語句或代碼,完成各種分析任務(wù)。
作業(yè)管理與調(diào)度模塊:負(fù)責(zé)分析作業(yè)的管理和定時調(diào)度,包括作業(yè)的增刪改查、查看修改歷史、設(shè)置調(diào)度定時和執(zhí)行引擎等。
資源分配與調(diào)度模塊:主要負(fù)責(zé)在多作業(yè)同時運行的場景下,有效協(xié)調(diào)和分配集群的資源,使資源利用率最大化。
責(zé)任編輯人:CC
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
9088瀏覽量
143988 -
大數(shù)據(jù)分析
+關(guān)注
關(guān)注
1文章
150瀏覽量
18043
發(fā)布評論請先 登錄
利用數(shù)據(jù)API構(gòu)建實時數(shù)據(jù)分析與可視化報表系統(tǒng)
API數(shù)據(jù)分析:淘寶流量來源分析,渠道優(yōu)化!
經(jīng)營數(shù)據(jù)分析可以通過哪些方式
電能質(zhì)量分析軟件可以提供哪些數(shù)據(jù)分析功能?
電磁兼容與電磁干擾在電磁兼容性大數(shù)據(jù)分析中的智能管理系統(tǒng)
如何有效利用高光譜成像技術(shù)提升數(shù)據(jù)分析效率
普迪飛 Exensio?數(shù)據(jù)分析平臺 | 鑄就良率提升與量產(chǎn)加速之路
普迪飛 Exensio?數(shù)據(jù)分析平臺 | Test Operations解鎖半導(dǎo)體測試新紀(jì)元
如何通過數(shù)據(jù)分析識別設(shè)備故障模式?
構(gòu)建自定義電商數(shù)據(jù)分析API
AI數(shù)據(jù)分析儀設(shè)計原理圖:RapidIO信號接入 平板AI數(shù)據(jù)分析儀
如何使用協(xié)議分析儀進行數(shù)據(jù)分析與可視化
環(huán)網(wǎng)柜局放大數(shù)據(jù)分析方案:電力運維的“智慧大腦”
大數(shù)據(jù)分析技術(shù)架構(gòu)的通用模塊
評論