国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)湖是什么,它的快速搭建方法介紹

獨(dú)愛(ài)72H ? 來(lái)源:ITPUB ? 作者:ITPUB ? 2020-04-03 20:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來(lái)源:ITPUB)

數(shù)據(jù)湖概念最早是在2011年提出,到現(xiàn)在也就9年左右的時(shí)間,算是一個(gè)較新的概念。雖然各方理解上有些差異,也存在一些爭(zhēng)議,但概念不重要,關(guān)鍵是否能真正幫助企業(yè)解決在業(yè)務(wù)快速發(fā)展過(guò)程中不斷遭遇的新問(wèn)題。對(duì)于希望從數(shù)據(jù)資產(chǎn)中獲取更多經(jīng)濟(jì)價(jià)值的企業(yè)而言,數(shù)據(jù)湖可能是一個(gè)可行的選擇。但對(duì)不少國(guó)內(nèi)企業(yè)來(lái)說(shuō),數(shù)據(jù)湖顯然還是一個(gè)未知的領(lǐng)域。

數(shù)據(jù)顯示,全球數(shù)據(jù)湖市場(chǎng)在2019年的規(guī)模為37.4億美元,預(yù)計(jì)到2025年將達(dá)到176億美元,預(yù)計(jì)2020 - 2025年期間的復(fù)合年增長(zhǎng)率為29.9%。在國(guó)外,尤其是北美,數(shù)據(jù)湖應(yīng)用已經(jīng)比較成熟,但在國(guó)內(nèi),還屬于初期階段。因此,第一次搭建數(shù)據(jù)湖,從哪里開(kāi)始?如何成功搭建數(shù)據(jù)湖?對(duì)一些企業(yè)而言可能很難獲知,無(wú)論從時(shí)間還是投入上來(lái)說(shuō),試錯(cuò)的成本都很高,那么,企業(yè)應(yīng)該怎么做才能最大程度的降低風(fēng)險(xiǎn)并確保獲得回報(bào)?而這將是本文要探討的。

什么是數(shù)據(jù)湖,簡(jiǎn)單的說(shuō),數(shù)據(jù)湖更像是數(shù)據(jù)倉(cāng)庫(kù)的進(jìn)化,比傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)涉及面更廣。但這并不是說(shuō)數(shù)據(jù)湖能直接代替數(shù)據(jù)倉(cāng)庫(kù),兩者可以互補(bǔ),大量案例顯示,數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)湖的一類(lèi)“數(shù)據(jù)應(yīng)用”存在,協(xié)同工作。

眾所周知,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)都是由數(shù)據(jù)庫(kù)發(fā)展而來(lái),因此,無(wú)論是傳統(tǒng)的還是新型數(shù)據(jù)倉(cāng)庫(kù)(分布式、云原生數(shù)倉(cāng)),主要應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)湖是多結(jié)構(gòu)數(shù)據(jù)的存儲(chǔ)庫(kù),無(wú)論是結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),都能以其原始格式存儲(chǔ),不需要進(jìn)行初始轉(zhuǎn)換過(guò)程,因此,更加靈活,并且存儲(chǔ)與計(jì)算是分離的,數(shù)據(jù)存儲(chǔ)在便宜的對(duì)象存儲(chǔ)中,如Hadoop或Amazon S3,能更好的優(yōu)化成本,而各種工具和服務(wù)(如Apache Presto、Elasticsearch和Amazon Athena)可以用來(lái)查詢這些數(shù)據(jù)。

數(shù)據(jù)湖的產(chǎn)生,源于大數(shù)據(jù)時(shí)代企業(yè)面臨的一系列挑戰(zhàn),例如:數(shù)據(jù)孤島,分析各種數(shù)據(jù)集的難度,數(shù)據(jù)管理,數(shù)據(jù)安全等。而云計(jì)算人工智能則是推動(dòng)數(shù)據(jù)湖發(fā)展的重要因素,云計(jì)算提供了快速查詢、海量存儲(chǔ)的能力,而機(jī)器學(xué)習(xí)需要原始數(shù)據(jù)做分析,而用到的數(shù)據(jù),也不止于結(jié)構(gòu)化數(shù)據(jù),用戶的評(píng)論、圖像這些非結(jié)構(gòu)化數(shù)據(jù),也都可以應(yīng)用到機(jī)器學(xué)習(xí)中。目前,數(shù)據(jù)湖最為人所知的應(yīng)用,當(dāng)屬亞馬遜Galaxy(內(nèi)部代號(hào)),如今已經(jīng)成為了亞馬遜核心競(jìng)爭(zhēng)力之一。

Galaxy數(shù)據(jù)湖建于2019年,構(gòu)建的原因是亞馬遜運(yùn)營(yíng)團(tuán)隊(duì)需要做大量的數(shù)據(jù)分析,但基于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)無(wú)法滿足擴(kuò)展的需要,并且維護(hù)的復(fù)雜度和成本都很高。基于自身強(qiáng)大的技術(shù)能力,亞馬遜Galaxy實(shí)施了基于Amazon S3的數(shù)據(jù)湖方案,使用Amazon Redshift,Redshift Spectrum,和Amazon EMR運(yùn)行分析的操作。下圖展示了Galaxy使用的一些AWS服務(wù):Galaxy的部署,讓數(shù)據(jù)存儲(chǔ)量從50PB提升至100PB,在減少成本的同時(shí)加快了從數(shù)據(jù)中挖掘有用信息的速度。

數(shù)據(jù)湖是什么,它的快速搭建方法介紹

目前,每天在Galaxy上執(zhí)行的分析任務(wù)高達(dá)60萬(wàn)個(gè),涉及各個(gè)方面,如為用戶推薦、運(yùn)營(yíng)信息、庫(kù)存信息、購(gòu)買(mǎi)信息、物價(jià)信息等。再來(lái)看一個(gè)國(guó)內(nèi)的應(yīng)用,出海電商新秀Club Factory。Club Factory 是2016年由嘉云數(shù)據(jù)在杭州成立, 定位于創(chuàng)新型出口電商、輕自營(yíng)跨境電商平臺(tái)。或許國(guó)內(nèi)很多人都沒(méi)聽(tīng)說(shuō)過(guò)這家公司,但這家公司很厲害,手握的全球用戶已經(jīng)超過(guò)1億,其APP在超過(guò)10個(gè)國(guó)家APP購(gòu)物榜單排名前5,14個(gè)國(guó)家排名前10。

在數(shù)據(jù)湖的構(gòu)建上,Club Factory采用了基于AWS數(shù)據(jù)湖的解決方案,通過(guò)使用數(shù)據(jù)湖來(lái)實(shí)現(xiàn)基于用戶在平臺(tái)上的所有行為做實(shí)時(shí)自動(dòng)推薦,BI報(bào)表(內(nèi)部運(yùn)營(yíng)、分析),供應(yīng)鏈管理創(chuàng)新。據(jù)公開(kāi)資料顯示,其數(shù)據(jù)湖平臺(tái)日均處理15億條行為數(shù)據(jù)分析,支撐80多位數(shù)據(jù)工程師的分析和算法需求,支撐180個(gè)活躍的數(shù)據(jù)分析調(diào)度任務(wù),每日同步4000多個(gè)業(yè)務(wù)數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù),支撐的數(shù)據(jù)總量達(dá)到約600TB。

如何快速搭建數(shù)據(jù)湖?搭建數(shù)據(jù)湖無(wú)非2種選擇,一種是基于開(kāi)源解決方案,一種是基于商業(yè)解決方案。開(kāi)源解決方案的優(yōu)勢(shì)是沒(méi)有授權(quán)成本,但有個(gè)前提,即你所在的企業(yè)得有一個(gè)能夠駕馭開(kāi)源技術(shù)的團(tuán)隊(duì),有能力自己解決問(wèn)題。因?yàn)椋_(kāi)源解決方案通常都比較零散,不成系統(tǒng)。對(duì)于初次搭建數(shù)據(jù)湖的企業(yè)而言,復(fù)雜性很高,成功搭建難度大。基于商業(yè)的解決方案則相反,對(duì)于較小或剛開(kāi)始使用數(shù)據(jù)湖的公司來(lái)說(shuō),基于公有云的數(shù)據(jù)湖解決方案實(shí)現(xiàn)數(shù)據(jù)湖的快速構(gòu)建是可行的選擇。

不僅搭建和管理維護(hù)的復(fù)雜性降低,并且成本可監(jiān)控。其次,基于云的數(shù)據(jù)湖解決方案技術(shù)成熟度更高。能得到更為成熟的技術(shù)環(huán)境支持,包括工具的多樣性。最后,可擴(kuò)展性和安全也是重要原因之一。目前,數(shù)據(jù)湖已經(jīng)在公有云上得到了完美的實(shí)現(xiàn)和應(yīng)用,例如:可以基于Amazon S3、AWS Glue等多個(gè)基本云服務(wù)快速構(gòu)建出一套數(shù)據(jù)湖服務(wù) 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS中國(guó)(寧夏)區(qū)域正式上線。

AWS Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄。它的價(jià)值在于,能讓準(zhǔn)備數(shù)據(jù)更容易加載數(shù)據(jù)到數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,用于數(shù)據(jù)分析。Amazon Athena則是一種交互式查詢服務(wù),使用標(biāo)準(zhǔn)的SQL,可以直接對(duì)Amazon S3上的數(shù)據(jù)做交互查詢。而這兩種服務(wù)都是無(wú)服務(wù)器服務(wù),意味著不需要管理基礎(chǔ)設(shè)施,只需要為運(yùn)行的查詢付費(fèi)。

官方已經(jīng)給出了如何使用 AWS Glue 和 Amazon S3 構(gòu)建數(shù)據(jù)湖基礎(chǔ)和如何使用Amazon Athena 分析數(shù)據(jù)的具體教程,本文就不再贅述。當(dāng)然,如果你覺(jué)得這種方式還有些復(fù)雜,那么接下來(lái)的一項(xiàng)服務(wù),可以重點(diǎn)關(guān)注。去年,AWS發(fā)布了一項(xiàng)名為AWS Lake Formation的新服務(wù),進(jìn)一步降低了數(shù)據(jù)湖搭建的門(mén)檻,該服務(wù)簡(jiǎn)化了數(shù)據(jù)湖的創(chuàng)建過(guò)程,并在幾天(而不是幾個(gè)月)內(nèi)構(gòu)建一個(gè)安全的數(shù)據(jù)湖。

不過(guò),該服務(wù)目前還未在中國(guó)正式推出。當(dāng)然,你也可以視自身情況自行選擇其他供應(yīng)商,本文推薦基于AWS數(shù)據(jù)湖解決方案來(lái)實(shí)現(xiàn)快速搭建數(shù)據(jù)湖,是因?yàn)椋侥壳盀橹梗珹WS數(shù)據(jù)湖/數(shù)據(jù)分析解決方案是最完整,提供服務(wù)最豐富的,也是成功案例最多的。
(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7335

    瀏覽量

    94769
  • 云計(jì)算
    +關(guān)注

    關(guān)注

    39

    文章

    8021

    瀏覽量

    144407
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    利用PEBB電力電子積木快速搭建SST固態(tài)變壓器的工程指南

    ,采用 PEBB(電力電子積木,Power Electronic Building Block) 的理念來(lái)快速搭建 SST(固態(tài)變壓器,Solid State Transformer) ,是一條極其專(zhuān)業(yè)且高可行性的工程落地路徑。
    的頭像 發(fā)表于 02-24 16:24 ?545次閱讀
    利用PEBB電力電子積木<b class='flag-5'>快速</b><b class='flag-5'>搭建</b>SST固態(tài)變壓器的工程指南

    生態(tài)水量動(dòng)態(tài)監(jiān)測(cè)與管理系統(tǒng)

    生態(tài)水量是維持水生態(tài)系統(tǒng)健康的關(guān)鍵要素,關(guān)系到生物多樣性、水質(zhì)凈化與景觀維護(hù)。傳統(tǒng)河湖水量管理多依賴人工觀測(cè)與經(jīng)驗(yàn)調(diào)度,難以實(shí)現(xiàn)動(dòng)態(tài)精準(zhǔn)調(diào)控,容易造成生態(tài)用水不足或浪費(fèi)。同時(shí),在進(jìn)行數(shù)據(jù)匯總
    的頭像 發(fā)表于 02-05 13:36 ?128次閱讀
    河<b class='flag-5'>湖</b>生態(tài)水量動(dòng)態(tài)監(jiān)測(cè)與管理系統(tǒng)

    兩個(gè)MCU之間快速傳輸數(shù)據(jù)方法

    ,但目前容量最大的也只128位,因?yàn)槭恰跋冗M(jìn)先出”結(jié)構(gòu),所以不管傳遞數(shù)據(jù)多少,接收方必須移完整個(gè)寄存器,靈活性差而且大容量的移位寄存器也是少見(jiàn)難買(mǎi)的。一種被稱(chēng)為“鐵電存儲(chǔ)器”芯片的出現(xiàn),給我們帶來(lái)了解決方法
    發(fā)表于 01-19 07:07

    RK3588采集Cameralink圖像快速搭建系統(tǒng)辦法

    : CL-U3,便攜式應(yīng)用。 瑞芯微的RK3588開(kāi)發(fā)板很多,種類(lèi)各式各樣。如何快速搭建一套自己的基于RK3588的嵌入式Cameralink圖像采集處理方案呢。下面推薦一下。 快速原型機(jī)的
    發(fā)表于 12-19 10:07

    射頻線纜快速性能判斷實(shí)用指南

    本文介紹射頻線纜快速測(cè)試方法,涵蓋外觀檢查、直流參數(shù)測(cè)試及絕緣測(cè)試,幫助現(xiàn)場(chǎng)快速判斷性能是否達(dá)標(biāo)
    的頭像 發(fā)表于 12-13 11:52 ?1044次閱讀

    【瑞薩RA6E2地奇星開(kāi)發(fā)板試用】介紹、環(huán)境搭建、工程測(cè)試

    電平循環(huán)交替反轉(zhuǎn)。 保存文件,構(gòu)建工程,使用 J-Link 調(diào)試和上傳固件。 效果 板載 LED 閃爍 動(dòng)態(tài)演示見(jiàn)底部視頻。 總結(jié) 本文介紹了 RA6E2 地奇星開(kāi)發(fā)板的基本信息,包括產(chǎn)品特點(diǎn)、參數(shù)資源、開(kāi)發(fā)環(huán)境搭建以及工程測(cè)試等,為相關(guān)產(chǎn)品的開(kāi)發(fā)設(shè)計(jì)和
    發(fā)表于 12-07 15:27

    GPIOB模擬spi的方法及l(fā)cd屏幕的接入

    越高,數(shù)據(jù)傳輸速率越快。由于spi接口較為簡(jiǎn)單,同時(shí)《RISC-V架構(gòu)與嵌入式開(kāi)發(fā)快速入門(mén)》書(shū)中也詳細(xì)介紹過(guò),在此原理部分介紹從略。 二、spi接口及l(fā)cd主要代碼實(shí)現(xiàn) lcd所需
    發(fā)表于 10-30 07:59

    部署Denodo與數(shù)據(jù)倉(cāng)架構(gòu)聯(lián)用,用戶可獲得345%投資回報(bào)率(ROI),實(shí)現(xiàn)3–4倍數(shù)據(jù)洞察提速

    AI Hackathon 2025,助力企業(yè)通過(guò)可信數(shù)據(jù)和先進(jìn) AI 技術(shù)加速創(chuàng)新。此次新聞稿覆蓋兩大重點(diǎn):數(shù)據(jù)倉(cāng)價(jià)值釋放的最新研究,以及全球開(kāi)發(fā)者參與的 AI 創(chuàng)新賽事。 研究發(fā)現(xiàn):邏輯
    的頭像 發(fā)表于 10-23 17:27 ?678次閱讀

    【匠芯創(chuàng)D133CBS KunLun Pi開(kāi)發(fā)板試用體驗(yàn)】介紹、環(huán)境搭建

    【匠芯創(chuàng)D133CBS KunLun Pi開(kāi)發(fā)板試用體驗(yàn)】介紹、環(huán)境搭建、工程測(cè)試 本文介紹了匠芯創(chuàng) D133CBS KunLun Pi 開(kāi)發(fā)板的相關(guān)信息,包括開(kāi)發(fā)板和主控參數(shù)特點(diǎn)、系統(tǒng)框圖、資源
    發(fā)表于 09-17 10:35

    水利水文監(jiān)測(cè)與河長(zhǎng)制管理平臺(tái)解決方案

    一、方案背景 在水生態(tài)環(huán)境保護(hù)與水資源可持續(xù)管理的宏觀框架下,河長(zhǎng)制作為一項(xiàng)重要的制度創(chuàng)新,對(duì)于促進(jìn)河健康、維護(hù)生態(tài)平衡、推動(dòng)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展具有不可替代的作用。 然而,傳統(tǒng)河管理模式依賴
    的頭像 發(fā)表于 08-25 14:27 ?697次閱讀
    水利水文監(jiān)測(cè)與河<b class='flag-5'>湖</b>長(zhǎng)制管理平臺(tái)解決方案

    生態(tài)流量監(jiān)測(cè)平臺(tái)解決方案?

    依賴人工測(cè)流、定點(diǎn)觀測(cè),存在數(shù)據(jù)采集頻次低、覆蓋范圍有限、生態(tài)流量達(dá)標(biāo)評(píng)估滯后等問(wèn)題,不僅難以實(shí)時(shí)掌握河生態(tài)基流變化,還可能因相關(guān)措施不及時(shí)而導(dǎo)致河道斷流、水質(zhì)惡化、生物多樣性減少等生態(tài)問(wèn)題,制約流域生態(tài)
    的頭像 發(fā)表于 08-22 17:08 ?622次閱讀
    河<b class='flag-5'>湖</b>生態(tài)流量監(jiān)測(cè)平臺(tái)解決方案?

    微軟推出全新Microsoft Sentinel數(shù)據(jù)國(guó)際版

    近期,MicrosoftSentinel數(shù)據(jù)(國(guó)際版)正式開(kāi)放公開(kāi)預(yù)覽,重塑安全運(yùn)營(yíng)架構(gòu)。通過(guò)統(tǒng)一所有安全數(shù)據(jù),以遠(yuǎn)低于傳統(tǒng)方案的成本,解決了海量
    的頭像 發(fā)表于 08-04 15:36 ?977次閱讀

    搭建算力中心,從了解的GPU 特性開(kāi)始

    ABSTRACT摘要本文介紹如何搭建算力,并介紹A100、H100、H200和B200這些GPU的特性。JAEALOT2025年4月23日隨著人工智能、大數(shù)據(jù)和高性能計(jì)算(HPC)的
    的頭像 發(fā)表于 04-24 11:08 ?3368次閱讀
    <b class='flag-5'>搭建</b>算力中心,從了解的GPU 特性開(kāi)始

    瑞薩RA8 MCU開(kāi)發(fā)教程:基于e2 studio在RA8上跑RTOS實(shí)現(xiàn)的方法

    今天教大家快速搭建FreeRTOS工程的方法。現(xiàn)在, 軟件工具越來(lái)越“ 先進(jìn) ” 了,我們 搭建工程 只需要?jiǎng)觿?dòng)鼠標(biāo)就能 搭建一個(gè)完整的工程
    的頭像 發(fā)表于 04-02 18:16 ?2293次閱讀
    瑞薩RA8 MCU開(kāi)發(fā)教程:基于e2 studio在RA8上跑RTOS實(shí)現(xiàn)的<b class='flag-5'>方法</b>

    基于激光誘導(dǎo)擊穿光譜的銅物料快速檢測(cè)方法

    現(xiàn)場(chǎng)冶金物料均采用送樣定點(diǎn)檢測(cè)的方法,檢測(cè)數(shù)據(jù)時(shí)效性差、成本高。采用激光誘導(dǎo)擊穿光譜(LIBS)技術(shù)對(duì)冰銅、尾料和銅精礦中關(guān)鍵元素的成分進(jìn)行快速檢測(cè)。激光誘導(dǎo)擊穿光譜技術(shù)對(duì)銅物料成分的快速
    的頭像 發(fā)表于 04-01 17:57 ?966次閱讀
    基于激光誘導(dǎo)擊穿光譜的銅物料<b class='flag-5'>快速</b>檢測(cè)<b class='flag-5'>方法</b>