国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MapReduce和Spark概要介紹

RG15206629988 ? 來源:行業學習與研究 ? 2023-03-20 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、MapReduce

(1)MapReduce概要介紹

MapReduce是一種編程模型,可用于大規模數據集(數據量大于1TB的數據集)的并行運算(根據百度百科:并行運算是一種一次可執行多個指令的算法,可提高計算速度)。MapReduce可使程序的并行運算更加簡單。

Map(映射)是于各個節點對本地數據的預處理操作。 Reduce(歸約)是將Map預處理操作后的數據匯總。Reduce可使編程人員不必關心如何實現分布式并行程序,基于Reduce,編程人員可只關注業務數據處理。

(2)處理模型

MapReduce框架負責處理并行計算中的復雜問題,包括:分布式存儲、作業調度、負載均衡、容錯處理、網絡通信等。

MapReduce的處理流程如圖一所示。

首先,數據在數據節點被劃分為數據塊(個人理解:數據塊即圖一中的split),MapReduce確定待處理的數據塊數量并確定每個記錄(個人理解:此處記錄可被理解關系數據庫的一行數據)在數據塊中的位置;

然后,劃分后的數據塊作為Map的輸入;

再然后,Map的輸出數據需要經過sort(個人理解:分類)、copy(個人理解:復制)、merge(個人理解:合并)操作成為Reduce的輸入,Reduce的輸入數據間沒有交集,系統中處于Reduce運行的節點的數量等于merge操作后的數據數量;

最后,輸出Reduce運行后的數據。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

圖一,圖片來源:學堂在線《大數據導論》

二、Spark

(1)Spark概要介紹

Spark是針對大規模數據處理的快速通用引擎,其功能是類似MapReduce的計算引擎。

(2)Spark的特點

1)計算速度快。Spark計算速度是Hadoop計算速度的一百倍。

2)可用性高。Spark可使用JavaPython、R、SQL等編程語言。

3)通用性。Spark由一系列解決處理復雜問題的組件構成,可處理多種類型有關數據庫的復雜問題。

4)可運行于多種環境中,運行環境包括Hadoop等。

圖片來源:學堂在線《大數據導論》

(3)Spark的體系架構

1)Cluster Manager:Cluster Manager是主節點,控制整個集群,監控 Worker Node。

2)Worker Node:Worker Node是從節點,負責控制計算節點,啟動Executor 或者Driver

3)Driver:運行Application(個人理解:此處Application指某一應用)的main()函數

4)Executor:為Application運行Worker Node上的一個進程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

圖片來源:學堂在線《大數據導論》

(4)RDD

RDD(Resilient Distributed Dataset)被稱為彈性分布式數據集,利用SparkContext實例(根據網絡資料理解:每個SparkContext實例是Spark的一個應用)創建的對象均為RDD。RDD是不可變、可分區、其內部元素可并行計算的集合,數據可在RDD中運行RDD的自有函數。

RDD的函數被稱為RDD算子,RDD算子分為Transformation和Action兩種類型。Transformation具有類似于MapReduce的功能,Action的功能包括:觸發RDD計算、統計RDD元素個數等。

RDD的特點包括:自動容錯、位置感知性調度、可伸縮性(個人理解:數據量的多少對RDD的運行影響較小)、可在已有RDD的基礎上創建新的RDD、延遲執行(延遲執行即Transformation只有在Action被觸發后才執行)。

另外,RDD允許用戶在執行多個查詢時可將工作集緩存在內存中,后續的查詢可重用工作集,可提升查詢速度。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    789

    瀏覽量

    46412
  • 編程語言
    +關注

    關注

    10

    文章

    1960

    瀏覽量

    39091
  • RDD
    RDD
    +關注

    關注

    0

    文章

    7

    瀏覽量

    8163
  • SPARK
    +關注

    關注

    1

    文章

    108

    瀏覽量

    21121
  • MapReduce
    +關注

    關注

    0

    文章

    45

    瀏覽量

    6788

原文標題:大數據相關介紹(22)——MapReduce和Spark

文章出處:【微信號:行業學習與研究,微信公眾號:行業學習與研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何在DGX Spark上運行NVIDIA Omniverse

    首先感謝 Vigor 同學第一時間的分享,以下是具體如何在 DGX Spark 上運行 Omniverse 的方法。
    的頭像 發表于 12-17 10:13 ?143次閱讀
    如何在DGX <b class='flag-5'>Spark</b>上運行NVIDIA Omniverse

    NVIDIA DGX Spark系統恢復過程與步驟

    在使用 NVIDIA DGX Spark 的過程中,可能會出現配置故障,而導致開發中斷的問題,本篇教程將帶大家了解如何一步步完成系統恢復。
    的頭像 發表于 11-28 09:46 ?4111次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>系統恢復過程與步驟

    NVIDIA DGX Spark助力構建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 項目,并于 3 月 18 日更名為 NVIDIA DGX Spark,進一步公布了產品細節。DGX Spark
    的頭像 發表于 11-21 09:25 ?722次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>助力構建自己的AI模型

    在NVIDIA DGX Spark平臺上對NVIDIA ConnectX-7 200G網卡配置教程

    在 NVIDIA DGX Spark 平臺上對 NVIDIA ConnectX-7 200G 網卡進行配置時,會遇到“4 個邏輯端口”現象。理解背后的真相是后續所有配置的基礎。本文將從此現象入手,逐步解析其原理,并提供從基礎配置到深度性能驗證的完整流程。
    的頭像 發表于 11-21 09:19 ?4621次閱讀
    在NVIDIA DGX <b class='flag-5'>Spark</b>平臺上對NVIDIA ConnectX-7 200G網卡配置教程

    NVIDIA DGX Spark快速入門指南

    NVIDIA DGX Spark 已正式向 AI 開發者交付,對于剛入手的全新 DGX Spark,該如何進行初始化設置?本篇文章將引導您完成 DGX Spark 首次設置。在初始設置的過程中,您
    的頭像 發表于 11-17 14:11 ?4751次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入門指南

    安泰新能源發布新一代智能跟蹤支架AT-Spark,為大型光伏電站提供一體化解決方案

    廈門2025年11月13日 /美通社/ -- 安泰新能源在其"Spark ON"全球發布會上,正式推出新一代智能太陽能跟蹤支架 AT-Spark 。該支架專為大型光伏電站設計,旨在滿足市場對更高
    的頭像 發表于 11-13 21:08 ?146次閱讀

    NVIDIA黃仁勛向SpaceX馬斯克交付DGX Spark

    革新于星艦基地開始。NVIDIA 創始人兼首席執行官黃仁勛親手將全球迄今為止最小的 AI 超級計算機 NVIDIA DGX Spark 交付給埃隆·馬斯克,拉開了該產品上市的序幕。
    的頭像 發表于 10-21 11:12 ?679次閱讀

    NVIDIA DGX Spark新一代AI超級計算機正式交付

    NVIDIA 創始人兼首席執行官黃仁勛在 SpaceX 向埃隆·馬斯克交付 DGX Spark
    的頭像 發表于 10-21 10:41 ?698次閱讀

    NVIDIA DGX Spark桌面AI計算機開啟預訂

    DGX Spark 現已開啟預訂!麗臺科技作為 NVIDIA 授權分銷商,提供從產品到服務的一站式解決方案,助力輕松部署桌面 AI 計算機。
    的頭像 發表于 09-23 17:20 ?981次閱讀
    NVIDIA DGX <b class='flag-5'>Spark</b>桌面AI計算機開啟預訂

    使用NVIDIA GPU加速Apache Spark中Parquet數據掃描

    的方式組織數據,這使得 Parquet 在查詢時僅讀取所需的列,而無需掃描整行數據,即可實現高性能的查詢和分析。高效的數據布局使 Parquet 在現代分析生態系統中成為了受歡迎的選擇,尤其是在 Apache Spark 工作負載中。
    的頭像 發表于 07-23 10:52 ?766次閱讀
    使用NVIDIA GPU加速Apache <b class='flag-5'>Spark</b>中Parquet數據掃描

    NVIDIA加速的Apache Spark助力企業節省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作負載,從而節省數百萬美元。
    的頭像 發表于 03-25 15:09 ?938次閱讀
    NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企業節省大量成本

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    的 DGX? 個人 AI 超級計算機。 ? DGX Spark(前身為 Project DIGITS)支持 AI 開發者、研究人員、數據科學家和學生,在臺式電腦上對大模型進行原型設計、微調和推理。用
    發表于 03-19 09:59 ?519次閱讀
       NVIDIA 宣布推出 DGX <b class='flag-5'>Spark</b> 個人 AI 計算機

    SHA105概要數據手冊

    電子發燒友網站提供《SHA105概要數據手冊.pdf》資料免費下載
    發表于 01-21 14:33 ?0次下載
    SHA105<b class='flag-5'>概要</b>數據手冊

    SHA106概要數據手冊

    電子發燒友網站提供《SHA106概要數據手冊.pdf》資料免費下載
    發表于 01-21 14:31 ?0次下載
    SHA106<b class='flag-5'>概要</b>數據手冊

    ECC206概要數據手冊

    電子發燒友網站提供《ECC206概要數據手冊.pdf》資料免費下載
    發表于 01-21 14:05 ?0次下載
    ECC206<b class='flag-5'>概要</b>數據手冊