国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

hadoop環(huán)境的基本概念和部署方法

汽車玩家 ? 來源:今日頭條 ? 作者:不一樣的程序猿 ? 2020-03-15 17:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1概述

1.1目的

初步了解hadoop,初步掌握hadoop環(huán)境的部署方法。

1.2基本概念

hadoop的核心主要包含:HDFS和MapReduce

HDFS是分布式文件系統(tǒng),用于分布式存儲海量數(shù)據(jù)。

MapReduce是分布式數(shù)據(jù)處理模型,本質(zhì)是并行處理

2基本概念

2.1HDFS

2.1.1HDFS是什么?

HADOOP DISTRIBUTED FILE SYSTEM,簡稱HDFS,是一個分布式文件系統(tǒng)。它是谷歌的GFS提出之后出現(xiàn)的另外一種文件系統(tǒng)。它有一定高度的容錯性,而且提供了高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS 提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案。

在最初,HADOOP是作為Apache Nutch搜索引擎項目的基礎(chǔ)架構(gòu)而開發(fā)的,后來由于它獨有的特性,讓它成為HADOOP CORE項目的一部分。

2.1.2HDFS的設(shè)計思路?

是什么提供它高吞吐量的數(shù)據(jù)訪問和適合大規(guī)模數(shù)據(jù)集的應(yīng)用的特性呢,這就要說一下它的設(shè)計思路。

首先HDFS的設(shè)計之初就是針對超大文件的存儲的,小文件不會提高訪問和存儲速度,反而會降低;其次它采用了最高效的訪問模式,也就是經(jīng)常所說的流式數(shù)據(jù)訪問,特點就是一次寫入多次讀取;再有就是它運行在普通的硬件之上的,即使硬件故障,也就通過容錯來保證數(shù)據(jù)的高可用。

2.1.3HDFS的一些概念

Block:大文件的存儲會被分割為多個block進(jìn)行存儲。默認(rèn)為64MB,每一個blok會在多個datanode上存儲多份副本,默認(rèn)為3份。[這些設(shè)置都能夠通過配置文件進(jìn)行更改]

Namenode:主要負(fù)責(zé)存儲一些metadata信息,主要包括文件目錄、block和文件對應(yīng)關(guān)系,以及block和datanote的對應(yīng)關(guān)系

Datanode:負(fù)責(zé)存儲數(shù)據(jù),上面我們所說的高度的容錯性大部分在datanode上實現(xiàn)的[還有一部分容錯性是體現(xiàn)在namenode和secondname,還有jobtracker的容錯等]。

2.1.4HDFS的基礎(chǔ)架構(gòu)圖

hadoop環(huán)境的基本概念和部署方法

HDFS的基礎(chǔ)架構(gòu)圖

2.1.5解析HDFS帶來的好處

高吞吐量訪問:HDFS的每個block分布在不同的rack上,在用戶訪問時,HDFS會計算使用最近和訪問量最小的服務(wù)器給用戶提供。由于block在不同的rack上都有備份,所以不再是單數(shù)據(jù)訪問,所以速度和效率是非常快的。另外HDFS可以并行從服務(wù)器集群中讀寫,增加了文件讀寫的訪問帶寬。

高容錯性:上面簡單的介紹了一下高度容錯。系統(tǒng)故障是不可避免的,如何做到故障之后的數(shù)據(jù)恢復(fù)和容錯處理是至關(guān)重要的。HDFS通過多方面保證數(shù)據(jù)的可靠性,多分復(fù)制并且分布到物理位置的不同服務(wù)器上,數(shù)據(jù)校驗功能、后臺的連續(xù)自檢數(shù)據(jù)一致性功能,都為高容錯提供了可能。

容量擴(kuò)充:因為HDFS的block信息存放到namenode上,文件的block分布到datanode上,當(dāng)擴(kuò)充的時候,僅僅添加datanode數(shù)量,系統(tǒng)可以在不停止服務(wù)的情況下做擴(kuò)充,不需要人工干預(yù)。

2.2MapReduce

從它名字上來看就大致可以看出個緣由,兩個動詞Map和Reduce。

Map(展開)就是將一個任務(wù)分解成為多個任務(wù),Reduce就是將分解后多任務(wù)處理的結(jié)果匯總起來,得出最后的分析結(jié)果。

2.2.1MapReduce原理

在Hadoop中,每個MapReduce任務(wù)都被初始化為一個Job,每個Job又可以分為兩種階段:map階段和reduce階段。這兩個階段分別用兩個函數(shù)表示,即map函數(shù)和reduce函數(shù)。map函數(shù)接收一個形式的輸入,然后同樣產(chǎn)生一個形式的中間輸出,Hadoop函數(shù)接收一個如形式的輸入,然后對這個value集合進(jìn)行處理,每個reduce產(chǎn)生0或1個輸出,reduce的輸出也是形式的。

2.2.2Map的過程

MapRunnable從input split中讀取一個個的record,然后依次調(diào)用Mapper的map函數(shù),將結(jié)果輸出。map的輸出并不是直接寫入硬盤,而是將其寫入緩存memory buffer。當(dāng)buffer中數(shù)據(jù)的到達(dá)一定的大小,一個背景線程將數(shù)據(jù)開始寫入硬盤。在寫入硬盤之前,內(nèi)存中的數(shù)據(jù)通過partitioner分成多個partition。在同一個partition中,背景線程會將數(shù)據(jù)按照key在內(nèi)存中排序。每次從內(nèi)存向硬盤flush數(shù)據(jù),都生成一個新的spill文件。

當(dāng)此task結(jié)束之前,所有的spill文件被合并為一個整的被partition的而且排好序的文件。reducer可以通過http協(xié)議請求map的輸出文件,tracker.http.threads可以設(shè)置http服務(wù)線程數(shù)。

2.2.3Reduce的過程

當(dāng)map task結(jié)束后,其通知TaskTracker,TaskTracker通知JobTracker。對于一個job,JobTracker知道TaskTracer和map輸出的對應(yīng)關(guān)系。reducer中一個線程周期性的向JobTracker請求map輸出的位置,直到其取得了所有的map輸出。reduce task需要其對應(yīng)的partition的所有的map輸出。reduce task中的copy過程即當(dāng)每個map task結(jié)束的時候就開始拷貝輸出,因為不同的map task完成時間不同。reduce task中有多個copy線程,可以并行拷貝map輸出。當(dāng)很多map輸出拷貝到reduce task后,一個背景線程將其合并為一個大的排好序的文件。當(dāng)所有的map輸出都拷貝到reduce task后,進(jìn)入sort過程,將所有的map輸出合并為大的排好序的文件。最后進(jìn)入reduce過程,調(diào)用reducer的reduce函數(shù),處理排好序的輸出的每個key,最后的結(jié)果寫入HDFS。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    16940
  • HDFS
    +關(guān)注

    關(guān)注

    1

    文章

    32

    瀏覽量

    10115
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    TVS二極管的基本概念和主要作用

    芝識課堂的全新內(nèi)容又和大家見面啦!從本期開始,我們將用四節(jié)課為大家系統(tǒng)介紹一位在電路設(shè)計中默默奉獻(xiàn)的“無名英雄”——TVS二極管。我們會從它的基本概念、工作原理,聊到如何為電路挑選合適的型號、布局
    的頭像 發(fā)表于 11-28 09:27 ?1.7w次閱讀
    TVS二極管的<b class='flag-5'>基本概念</b>和主要作用

    創(chuàng)龍 瑞芯微 RK3588 國產(chǎn)2.4GHz八核 工業(yè)開發(fā)板—Docker容器部署方法說明

    ,鏡像下載與容器運行(含單個 / 多個容器操作),還提及磁盤占用資源查看方法,適配 Debian 11 等環(huán)境,為評估板 Docker 應(yīng)用部署提供完整指導(dǎo)。
    的頭像 發(fā)表于 10-22 17:21 ?725次閱讀
    創(chuàng)龍 瑞芯微 RK3588 國產(chǎn)2.4GHz八核 工業(yè)開發(fā)板—Docker容器<b class='flag-5'>部署</b><b class='flag-5'>方法</b>說明

    如何快速在云服務(wù)器上部署Web環(huán)境

    如何快速在云服務(wù)器上部署Web環(huán)境
    的頭像 發(fā)表于 10-14 14:16 ?661次閱讀

    共模電壓測量:原理、方法與應(yīng)用探析

    出發(fā),深入探討其測量原理、常用方法以及在不同領(lǐng)域的應(yīng)用。 一、共模電壓的基本概念 共模電壓(Common-Mode Voltage)是指在差分信號對的兩根導(dǎo)線上,相對于公共參考點(通常為地)同時存在的相同幅度、相同相位的電壓。在理想的差分
    的頭像 發(fā)表于 10-14 09:13 ?1268次閱讀
    共模電壓測量:原理、<b class='flag-5'>方法</b>與應(yīng)用探析

    USB/HID及其基本概念

    USB幀概念 如上圖所示,在USB1.1規(guī)范當(dāng)中,把USB總線時間按幀劃分,每一幀占用時間是1ms; 每一幀內(nèi)的最開始處是SOF token,在SOF內(nèi)包含有11位的幀號; 每一幀的SOF幀號相比前
    的頭像 發(fā)表于 08-20 10:32 ?3613次閱讀
    USB/HID及其<b class='flag-5'>基本概念</b>

    AICube生成部署文件失敗的原因?怎么解決?

    我按照網(wǎng)上的方法安裝了dotnet,和AICube,并且我是安裝在非中文路徑,但是嘗試了一天了,都不能成功的生成部署文件,我使用軟件自帶的樣例,但是就是不能生成部署文件 期待結(jié)果和實際結(jié)果
    發(fā)表于 08-05 06:26

    ARM入門學(xué)習(xí)方法分享

    。 以下是一些入門學(xué)習(xí)方法的分享: 一、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一種精簡指令集計算機(jī)(RISC
    發(fā)表于 07-23 10:21

    電壓波動與閃變的基本概念

    如果您是電力系統(tǒng)工程師、電氣設(shè)備維護(hù)人員或者相關(guān)專業(yè)的學(xué)生,應(yīng)該注意到了有關(guān)電能質(zhì)量的國家標(biāo)準(zhǔn)GB/T 12326-2008是有關(guān)電壓波動和閃變的,那這兩個參數(shù)的考核意義是什么?國家標(biāo)準(zhǔn)規(guī)定這兩個參數(shù)如何計算、測量和考核?這篇文章帶您全面了解電壓波動和閃變的基本概念、重要性以及國家標(biāo)準(zhǔn)的規(guī)定。
    的頭像 發(fā)表于 07-22 14:10 ?2992次閱讀
    電壓波動與閃變的<b class='flag-5'>基本概念</b>

    【米爾RK3576開發(fā)板免費體驗】1、開發(fā)環(huán)境、鏡像燒錄、QT開發(fā)環(huán)境搭建以及應(yīng)用部署

    $HOME/.bashrc中添加系統(tǒng)變量MYD3576_ENV表示工具鏈環(huán)境配置腳本 export MYD3576_BUILDROOT=<SDK安裝路徑>/buildroot
    發(fā)表于 07-14 11:26

    群延遲的基本概念和仿真實例分析

    在高速數(shù)字通信和射頻系統(tǒng)中,信號從發(fā)送端到接收端的傳輸過程中會遇到各種失真和畸變。群延遲(Group Delay)作為描述系統(tǒng)相位線性度的重要參數(shù),直接影響著信號保真度和系統(tǒng)性能。本文將深入淺出地介紹群延遲的基本概念、應(yīng)用場景,并通過仿真示例展示其在實際工程中的重要性。
    的頭像 發(fā)表于 07-08 15:14 ?2324次閱讀
    群延遲的<b class='flag-5'>基本概念</b>和仿真實例分析

    淺談無線通信的基本概念

    從工作頻段到信道的劃分,再到多址方式、雙工方式、調(diào)制方式、分集技術(shù)和MIMO,這些概念共同作用,使得無線通信能夠高效、可靠地進(jìn)行。隨著技術(shù)的不斷發(fā)展,這些基礎(chǔ)技術(shù)也在不斷演進(jìn),尤其是在5G系統(tǒng)中,新的多址方式、雙工技術(shù)和更復(fù)雜的MIMO系統(tǒng)都為未來的通信提供了更多的可能性。
    的頭像 發(fā)表于 07-04 11:34 ?1477次閱讀

    第十三章 通訊的基本概念

    本章介紹通訊基本概念,包括串行/并行、全雙工/半雙工/單工、同步/異步通訊,還提及通訊速率中比特率與波特率的概念
    的頭像 發(fā)表于 05-22 17:29 ?2064次閱讀
    第十三章 通訊的<b class='flag-5'>基本概念</b>

    基于RV1126開發(fā)板的板卡Docker環(huán)境部署方法

    隨時隨地進(jìn)行部署。Dockerfile、Image(鏡像)和Container(容器)為Docker中的三個重要概念。通過Image我們可以創(chuàng)建許多個Container,通過Dockerfile這個
    的頭像 發(fā)表于 04-16 10:04 ?651次閱讀
    基于RV1126開發(fā)板的板卡Docker<b class='flag-5'>環(huán)境</b><b class='flag-5'>部署</b><b class='flag-5'>方法</b>

    電力生產(chǎn)人員技能培訓(xùn)之電路基礎(chǔ)部分

    電路的基本概念和基本定律 電路的分析方法 正弦交流電路
    發(fā)表于 04-03 14:29

    DeepSeek企業(yè)級部署RakSmart裸機(jī)云環(huán)境準(zhǔn)備指南

    RakSmart裸機(jī)云環(huán)境部署DeepSeek的企業(yè)級環(huán)境準(zhǔn)備指南,內(nèi)容涵蓋關(guān)鍵步驟和注意事項,主機(jī)推薦小編為您整理發(fā)布DeepSeek企業(yè)級RakSmart裸機(jī)云部署指南。
    的頭像 發(fā)表于 03-24 10:07 ?948次閱讀