国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對于大數據的處理,主要有幾個工具引擎

姚小熊27 ? 來源:今日頭條 ? 作者:今日頭條 ? 2020-11-05 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

提到大數據,我們就離不開數據的收集整理,其中ETL是我們經常使用的用于構建數據倉庫, 構建大數據的方法。

大數據處理階段

此階段的目標是使用單個模式來清理,規范化,處理和保存數據。最終結果是具有定義良好的架構的可信數據集。例如Spark之類的處理框架用于在機器集群中并行處理數據。在這里我們需要進行數據的驗證,隔離掉不合法的數據,我們需要對不良數據進行篩選過濾。對于不規范的數據,我們需要有整理和清潔功能,我們要能夠將一些低效的格式入json進行轉換。同時我們可能還需要一些標準化的操作,比如對一些數值進行小數點位的精度轉化。

大數據處理的最終目的就是創建一個可信數據集,然后下游系統可以依賴此數據源進行業務分析和數據計算。

對于大數據的處理,主要有下面的幾個工具引擎。

Apache Hive

它是將SQL請求轉換為MapReduce任務鏈的引擎。它主要實現的功能是對傳入的SQL進行排序然后優化排序結果,最終得到高效率的請求結果。2018年它將MapReduce替換為Tez作為搜索引擎。它具有機器學習功能,并且在和其他流行的大數據框架進行集成。

Apache Spark

這是最著名的批處理框架。它是Hadoop生態系統的一部分,是一個托管集群,可提供強大的并性,有著精準的監控和出色的UI。它還支持流處理(結構化流)。基本上,Spark在內存中運行MapReduce作業,其性能是常規MapReduce性能的100倍。它與Hive集成以支持SQL,并可用于創建Hive表,視圖或查詢數據。它具有很多集成,支持多種格式,并且擁有龐大的社區。所有云提供商都支持它。它可以在YARN上運行作為Hadoop集群的一部分,還可以在Kubernetes和其他平臺中使用。它具有許多的第三方庫可以使用。

Apache Flink

第一個統一批處理和流傳輸的引擎,它可以用作像Kafka這樣的微服務的主干。它可以作為Hadoop集群的一部分在YARN上運行,它還針對其他平臺(如Kubernetes或Mesos)進行了優化。它非常快,并且提供實時流傳輸,使其成為針對低延遲流處理(尤其是有狀態流)的一個比Spark更好的選擇。它還具有用于SQL,機器學習等的庫。它比Spark更快,是數據流的更好選擇。

Apache Storm

是一個免費和開源的分布式實時計算系統,它專注于流傳輸,是Hadoop生態系統的托管解決方案部分。它具有可擴展性,容錯性,可確保您的數據將得到處理,并且易于設置和操作。

Apache Samza

一個出色的有狀態流處理引擎。Samza允許您構建有狀態的應用程序,它可以從多個來源實時處理數據。它不僅可以在YARN集群上運行,也可以作為獨立庫單獨運行。

Apache Beam

它本身不是引擎,而是將所有其他引擎結合在一起的統一編程模型的規范。它提供了可以與不同語言一起使用的編程模型,因此開發人員在處理大數據管道時不必學習新的語言。然后,它為可以在云或本地運行的處理步驟插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它們之間輕松切換并在任何平臺上運行它們:云,YARN,Mesos,Kubernetes。如果您要開始一個新項目,那么建議您從Beam開始,因為Beam是面向未來的。

Presto

Presto是一個開放源代碼的分布式SQL查詢引擎,適合于對各種大小,各種數據源進行交互式分析查詢。

Presto是專為交互式分析而設計和編寫的,當它的規模擴展到一定的規模的時候,它也可以實現商業數據倉庫的處理速度。

Presto允許查詢數據存在多個地方,包括Hive,Cassandra,關系數據庫甚至專有數據存儲。一個Presto查詢可以合并來自多個來源的數據,從而可以在整個組織中進行分析。

Presto適用于期望響應時間從亞秒到數分鐘不等的分析師。Presto打破了使用昂貴的商業解決方案進行快速分析或使用需要大量硬件的慢速“免費”解決方案之間的錯誤選擇。

總結

處理引擎是當前在大數據詞中使用的很著名的工具。作為大數據工程師,您將經常使用這些引擎。了解這些引擎的分布式特性并知道如何優化它們,保護它們并監視它們至關重要。

請記住,還有一些OLAP引擎提供了一種查詢大量數據的單一解決方案,而無需編寫復雜的轉換,而是通過以一種特定的格式加載數據來提高查詢的性能。

對于一個新項目,建議您研究Apache Beam,因為它在所有其他引擎的基礎上提供了一個抽象,使您無需更改代碼即可更改處理引擎。

對于流處理,特別是有狀態流處理,請考慮Flink或Samza。對于批處理,請使用Spark。
責任編輯:YYX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    9062

    瀏覽量

    143740
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    請問單片機開發的程序設計語言主要有哪幾種?

    單片機開發的程序設計語言主要有哪幾種?
    發表于 01-14 08:29

    嵌入式系統應用熱門的原因主要有幾個方面

    RTOS(Real-time Operating System)開發平臺,這樣才能保證程序執行的實時性、可靠性,并減少開發時間,保障軟件質量。6. 嵌入式系統開發需要開發工具和環境。由于其本身不具備
    發表于 01-08 06:37

    海光3350便攜機主板:大數據處理利器

    隨著企業數字化轉型加速,大數據處理需求從固定機房向移動場景延伸。無論是金融機構外出調研、科研團隊野外數據采集,還是個人創作者處理海量素材,便攜設備的性能成為關鍵。海光便攜機主板憑借獨特的技術優勢,正成為
    的頭像 發表于 12-26 11:15 ?482次閱讀

    最受歡迎的大數據可視化工具

    ?在數聚股份看來,大數據可視化是進行各種大數據分析的最重要組成部分之一。 一旦原始數據流被以圖像形式表示時,以此做決策就變得容易多了。 為了滿足并超越客戶的期望,大數據可視化
    的頭像 發表于 12-24 17:05 ?254次閱讀
    最受歡迎的<b class='flag-5'>大數據</b>可視化<b class='flag-5'>工具</b>

    大數據平臺運營的基礎是什么

    在數聚股份看來,越來越多的企業開始搭建自己的大數據平臺體系,并傾注大量資源用于平臺的迭代和運營。那么大數據平臺作為越來越被關注的企業新興價值點,它應該以何種方式看待,并且以什么樣的方式去建設和運營
    的頭像 發表于 12-23 16:07 ?228次閱讀

    硬件加密引擎在保障數據安全方面有哪些優勢呢?

    硬件加密引擎作為芯源半導體安全芯片的核心組件,在保障數據安全方面憑借硬件級的設計與優化,相比軟件加密方案具有多維度優勢,具體如下: 1. 加密運算效率更高,實時性更強 硬件級并行處理:硬件加密
    發表于 11-17 06:47

    提高RISC-V在Drystone測試中得分的方法

    Drystone 是一種常用的計算機性能基準測試,主要用來測量整數(非浮點)計算性能。 影響 RISC-V 在 Drystone 測試中得分的因素主要有以下幾個處理器核心設計:
    發表于 10-21 13:58

    水晶頭主要有哪幾種型號

    水晶頭主要有RJ-45、RJ-11和RJ-12三種型號,具體說明如下: RJ-45水晶頭: 結構:有8個凹槽和8個觸點(8p8c),體積相對較大。 應用:廣泛用于以太網、快速以太網、千兆以太網等網絡
    的頭像 發表于 08-05 09:41 ?4481次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    診斷方案,為網絡運維帶來顯著的實用價值:1.快速提升故障處理效率l 實時監控與智能預警: AI引擎持續分析海量流量、設備狀態及日志數據,實時識別異常模式(如流量突增、延遲抖動、微小丟包),實現故障發生
    發表于 07-16 15:29

    測量相位差的方法主要有哪些?

    測量相位差可以用示波器測量,也可以把相位差轉換為時間間隔,先測量出時間間隔,再換算為相位差,可以把相位差轉換為電壓,先測量出電壓,再換算為相位差,還可以與標準移相器進行比較的比較法(零示法)等方法。 一 怎么用示波器來測量相位差? 應用示波器測量兩個同頻正弦電壓之間的相位差的方法很多,本節介紹具有實用意義的直接比較法。將u1、u2分別接到雙蹤示波器的Y1通道和Y2通道,適當調節掃描旋鈕和Y增益旋鈕,使熒光屏顯示出如圖
    的頭像 發表于 06-18 09:03 ?2115次閱讀
    測量相位差的方法<b class='flag-5'>主要有</b>哪些?

    RISC-V向量處理器:現代計算的革命性引擎

    在數字化高速發展的當下,人工智能、大數據處理、物聯網等前沿技術日新月異,現代計算需求面臨著嚴峻挑戰。海量數據的爆發式增長,讓傳統計算架構在處理大規模數據時顯得力不從心,效率低下、能耗過
    的頭像 發表于 06-04 10:03 ?1715次閱讀
    RISC-V向量<b class='flag-5'>處理</b>器:現代計算的革命性<b class='flag-5'>引擎</b>

    運算放大器的噪聲主要有哪些

    在低噪聲前置放大器的設計領域,精準控制噪聲是保障信號質量的核心任務。而運算放大器作為前置放大器的關鍵組件,其產生的噪聲直接影響系統性能。運算放大器的噪聲主要來源于熱噪聲、閃爍噪聲、射擊噪聲和爆玉米
    的頭像 發表于 05-05 10:11 ?1102次閱讀

    如何基于Kahn處理網絡定義AI引擎圖形編程模型

    本白皮書探討了如何基于 Kahn 處理網絡( KPN )定義 AI 引擎圖形編程模型。KPN 模型有助于實現數據流并行化,進而提高系統的整體性能。
    的頭像 發表于 04-17 11:31 ?863次閱讀
    如何基于Kahn<b class='flag-5'>處理</b>網絡定義AI<b class='flag-5'>引擎</b>圖形編程模型

    配備3D圖形加速引擎的通用微處理器RZ/G2LC數據手冊

    RZ/G2LC 微處理器配備 Cortex?-A55 (1.2 GHz) CPU、16 位 DDR3L/DDR4 接口以及帶 Arm Mali-G31的 3D 圖形加速引擎。 此外,這款微處理器還
    的頭像 發表于 03-12 17:29 ?870次閱讀
    配備3D圖形加速<b class='flag-5'>引擎</b>的通用微<b class='flag-5'>處理</b>器RZ/G2LC<b class='flag-5'>數據</b>手冊

    RAM容量不足導致的數據溢出如何預防和處理

    在 STM32F411 中,RAM 容量是有限的,特別是在進行復雜的數據處理和存儲時,可能會遇到數據溢出問題。數據溢出是指程序運行時,數據超出了 RAM 的分配區域,導致程序崩潰或
    發表于 03-07 16:09