国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

工業大數據處理領域的“網紅”——Apache Spark

格創東智 ? 2018-12-17 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

生活離不開水,同樣離不開數據,我們被數據包圍,在數據中生活。當數據越來越多時,就成了大數據。


在“中國制造2025”的技術路線圖中,工業大數據是作為重要突破點來規劃的,而在未來的十年,以數據為核心構建的智能化體系會成為支撐智能制造和工業互聯網的核心動力。而想要理解大數據,就需要理解大數據相關的查詢、處理、機器學習、圖計算和統計分析等Apache Spark作為新一代輕量級大數據快速處理平臺,集成了大數據相關的各種能力,是理解大數據的首選

簡單來講,Spark就是一個快速、通用的大規模數據處理引擎,各種不同的應用,如實時流處理、機器學習、交互式查詢等,都可以通過Spark 建立在不同的存儲和運行系統上。今天的格物匯,就帶大家來認識一下如日中天、高速發展的大數據處理明星——Spark。

1Spark發展歷程


  • 2009年,Spark誕生于伯克利大學AMPLab,最開初屬于伯克利大學的研究性項目,最開始Spark只是一個實驗性的項目,代碼量非常少,僅有3900行代碼左右,屬于輕量級的框架。

  • 2010年,伯克利大學正式開源了Spark項目

  • 2013年6月,Spark成為了Apache基金會下的項目,進入高速發展期,第三方開發者貢獻了大量的代碼,活躍度非常高。

  • 2014年2月,Spark以飛快的速度稱為了Apache的頂級項目

  • 2014年5月底Spark1.0.0發布。

  • 2016年6月Spark2.0.0發布

  • 2018年11月 Spark2.4.0 發布


Spark作為Hadoop生態中重要的一員,其發展速度堪稱恐怖,從誕生到成為Apache頂級項目不到五年時間,不過在如今數據量飛速增長的環境與背景下,Spark作為高效的計算框架能收到如此大的關注也是有所依據的。

2Spark的特點


速度快

Spark通過使用先進的DAG調度器、查詢優化器和物理執行引擎,可以高性能地進行批量及流式處理。使用邏輯回歸算法進行迭代計算,Spark比Hadoop速度快100多倍。


簡單易用

Spark目前支持多種編程語言,比如Java、Scala、Python、R。熟悉其中任一門語言的都可以直接上手編寫Spark程序,非常方便。還支持超過80種高級算法,使用戶可以快速構建不同應用。并且Spark還支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來驗證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗證等。這對于原型開發非常重要。


通用性高

Spark 目前主要由四大組件,如下:

  • Spark SQL:SQL on Hadoop,能夠提供交互式查詢和報表查詢,通過JDBC等接口調用;

  • Spark Streaming::流式計算引擎;

  • Spark MLlib:機器學習庫;

  • Spark GraphX:圖計算引擎。

擁有這四大組件,成功解決了大數據領域中,離線批處理、交互式查詢、實時流計算、機器學習與圖計算等最重要的任務和問題,這些不同類型的處理都可以在同一應用中無縫使用。Spark統一的解決方案非常具有吸引力,畢竟任何公司都想用統一的平臺處理問題,減少開發和維護的人力成本和部署平臺的物理成本。當然還有,作為統一的解決方案,Spark并沒有以犧牲性能為代價。相反,在性能方面Spark具有巨大優勢。


可融合性

Spark可以運行在standalone、YARN、Mesos、Kubernetes及EC2多種調度平臺上。其中Standalone模式不依賴第三方的資源管理器和調度器,這樣降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用Spark。

Spark可以處理所有Hadoop支持的數據,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對于已部署Hadoop集群的用戶特別重要,因為不需要做任何數據遷移就可以使用Spark強大的處理能力。



3Spark相比MapReduce優勢

Spark與MapReduce 同為計算框架,但作為后起之秀,Spark借鑒了MapReduce,并在其基礎上進行了改進,使得算法性能明顯優于MapReduce,下面大致總結一下兩者差異:

1)Spark把運算的中間數據存放在內存,迭代計算效率更高;MapReduce的中間結果需要落地到磁盤,磁盤io操作多,影響性能。

2)Spark容錯性高,它通過Lineage機制實現RDD算子的高效容錯,某一部分丟失或者出錯,可以通過整個數據集的計算流程的血緣關系來實現重建;MapReduce的話容錯可能只能重新計算了,成本較高。

3)Spark更加通用,Spark提供了transformation和action這兩大類的多個功能算子,操作更為方便;MapReduce只提供了map和reduce兩種操作。

4)Spark框架和生態更為復雜,首先有RDD、血緣lineage、執行時的有向無環圖DAG、stage劃分等等,很多時候spark作業都需要根據不同業務場景的需要進行調優已達到性能要求;MapReduce框架及其生態相對較為簡單,對性能的要求也相對較弱,但是運行較為穩定,適合長期后臺運行。

4Spark與工業互聯平臺


工業互聯網帶來了工業數據的快速發展,對于日益增加的海量數據,傳統單機因本身的軟硬件限制無法應對海量數據的處理、分析以及深度挖掘,但作為分布式計算框架的Spark卻能輕松應付這些場景。在工業互聯網平臺上,Spark 既能快速實現工業現場海量流數據的處理轉換,又能輕松應對工業大數據平臺中海量數據的快速批處理分析,自身集成的機器學習框架能夠對海量工業數據進行深度挖掘分析,從而幫助管理者進行決策分析。


基于Spark框架自身的優良設計理念以及社區的蓬勃發展狀態,相信未來Spark會在工業互聯網平臺扮演越來越重要的角色。

本文作者:黃歡,格創東智大數據工程師 (轉載請注明來源及作者)



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    9062

    瀏覽量

    143743
  • 智能制造
    +關注

    關注

    48

    文章

    6235

    瀏覽量

    79924
  • 工業互聯網
    +關注

    關注

    28

    文章

    4394

    瀏覽量

    96264
  • SPARK
    +關注

    關注

    1

    文章

    108

    瀏覽量

    21237
  • 工業大數據
    +關注

    關注

    0

    文章

    72

    瀏覽量

    8185
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    DPU數據處理器的核心功能和應用領域

    DPU,全稱數據處理器(Data Processing Unit),是一種專門用于處理數據中心中數據流動與基礎設施任務的專用處理器。它既不像
    的頭像 發表于 02-02 13:52 ?542次閱讀
    DPU<b class='flag-5'>數據處理</b>器的核心功能和應用<b class='flag-5'>領域</b>

    海光3350便攜機主板:大數據處理利器

    隨著企業數字化轉型加速,大數據處理需求從固定機房向移動場景延伸。無論是金融機構外出調研、科研團隊野外數據采集,還是個人創作者處理海量素材,便攜設備的性能成為關鍵。海光便攜機主板憑借獨特的技術優勢,正成為
    的頭像 發表于 12-26 11:15 ?485次閱讀

    SmartBug2.0 用戶指南:硬件連接、功能使用與數據處理全解析

    SmartBug2.0 用戶指南:硬件連接、功能使用與數據處理全解析 在電子設備的開發與應用中,傳感器模塊的功能和使用方式至關重要。SmartBug2.0 作為一款功能強大的模塊,為我們在多領域
    的頭像 發表于 12-26 09:15 ?422次閱讀

    MCU數據采集模塊的數據處理和分析能力如何?

    MCU數據采集模塊的數據處理和分析能力如何?在現代化結構物安全監測領域,MCU數據采集模塊扮演著至關重要的角色。它不僅僅是數據的“搬運工”,
    的頭像 發表于 12-02 16:03 ?432次閱讀
    MCU<b class='flag-5'>數據</b>采集模塊的<b class='flag-5'>數據處理</b>和分析能力如何?

    組態大數據平臺是什么?有什么功能?

    組態大數據平臺是融合 組態技術 與 大數據處理能力 的綜合性平臺,通過圖形化、可配置的方式實現數據采集、存儲、分析、可視化及遠程控制,適用于工業自動化、能源管理、樓宇監控等
    的頭像 發表于 10-30 11:29 ?223次閱讀
    組態<b class='flag-5'>大數據</b>平臺是什么?有什么功能?

    如何利用 AI 算法優化碳化硅襯底 TTV 厚度測量數據處理

    摘要 本文聚焦碳化硅襯底 TTV 厚度測量數據處理環節,針對傳統方法的局限性,探討 AI 算法在數據降噪、誤差校正、特征提取等方面的應用,為提升數據處理效率與測量準確性提供新的技術思路。 引言 在
    的頭像 發表于 08-25 14:06 ?648次閱讀
    如何利用 AI 算法優化碳化硅襯底 TTV 厚度測量<b class='flag-5'>數據處理</b>

    電商API的實時數據處理

    ? 在現代電商平臺中,API(應用程序接口)扮演著核心角色,它連接用戶、商家和后臺系統,實現數據的高效交換。隨著電商業務規模的擴大,實時數據處理變得至關重要——它要求系統在毫秒級內響應API請求
    的頭像 發表于 07-23 15:39 ?574次閱讀
    電商API的實時<b class='flag-5'>數據處理</b>

    使用NVIDIA GPU加速Apache Spark中Parquet數據掃描

    隨著各行各業的企業數據規模不斷增長,Apache Parquet 已經成為了一種主流數據存儲格式。Apache Parquet 是一種列式存儲格式,專為高效的大規模
    的頭像 發表于 07-23 10:52 ?1037次閱讀
    使用NVIDIA GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet<b class='flag-5'>數據</b>掃描

    歐菲光榮獲第七屆“深圳工業大獎” 深圳工業界最高榮譽

    工業大獎”企業,彰顯了公司在光學光電領域的技術研發、生產制造、市場拓展等方面的綜合實力。 “深圳工業大獎”是伴隨“中國工業大獎”應運而生的深圳工業
    的頭像 發表于 07-15 18:07 ?1549次閱讀

    抖音電商 API 接口和傳統電商接口,直播數據處理誰更快?

    ? 在直播電商蓬勃發展的今天,數據處理速度成為平臺競爭力的關鍵。抖音電商作為新興力量,其API接口針對直播場景進行了優化,而傳統電商接口則基于通用模型設計。本文將逐步分析兩者的數據處理速度差異,幫助
    的頭像 發表于 07-09 15:39 ?678次閱讀
    抖音電商 API 接口和傳統電商接口,直播<b class='flag-5'>數據處理</b>誰更快?

    工業大數據管理平臺是什么?有什么功能?

    PLC跨網段通信網關是一種用于解決工業自動化領域中不同網絡段內PLC(可編程邏輯控制器)設備通信問題的關鍵設備,其核心作用是實現不同網絡協議、IP網段之間的數據交互與信息傳輸,下面從多個方面詳細介紹
    的頭像 發表于 06-13 15:43 ?420次閱讀

    京東工業大模型Joy industrial重磅發布

    京東工業多年深耕工業數智供應鏈領域形成的經驗積累和數據沉淀,通過“工業大模型+供應鏈場景應用”雙引擎,構建從底層算力、算法、
    的頭像 發表于 05-28 17:12 ?972次閱讀

    NVIDIA加速的Apache Spark助力企業節省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作負載,從而節省數百萬美元。
    的頭像 發表于 03-25 15:09 ?1157次閱讀
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企業節省大量成本

    樹莓派5 + Hailo AI加速器:工業級數值數據處理實戰,打通SQLite與機器學習全鏈路

    本文討論了在工業自動化背景下,開發者利用樹莓派5和HailoAI加速器進行工業級數值數據處理實戰,打通SQLite與機器學習全鏈路時遇到的問題及解決方案。關鍵要點包括:1.開發者需求:構建能從
    的頭像 發表于 03-25 09:22 ?1223次閱讀
    樹莓派5 + Hailo AI加速器:<b class='flag-5'>工業</b>級數值<b class='flag-5'>數據處理</b>實戰,打通SQLite與機器學習全鏈路

    RAM容量不足導致的數據溢出如何預防和處理

    在 STM32F411 中,RAM 容量是有限的,特別是在進行復雜的數據處理和存儲時,可能會遇到數據溢出問題。數據溢出是指程序運行時,數據超出了 RAM 的分配區域,導致程序崩潰或
    發表于 03-07 16:09