国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據領域75個核心術語詳解(上)

電子工程師 ? 來源: DataConomy ? 作者:Ramesh Dontha ? 2021-04-28 14:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Ramesh Dontha 曾在 DataConomy 上連發兩篇文章,扼要而全面地介紹了關于大數據的 75 個核心術語,這不僅是大數據初學者很好的入門資料,對于高階從業人員也可以起到查漏補缺的作用。本文為上篇(25 個術語)。

如果你剛接觸大數據,你可能會覺得這個領域很難以理解,無從下手。不過,你可以從下面這份包含了 25 個大數據術語的清單入手,那么我們開始吧。

算法(Algorithm):

算法可以理解成一種數學公式或用于進行數據分析的統計學過程。那么,“算法”又是何以與大數據扯上關系的呢?要知道,盡管算法這個詞是一個統稱,但是在這個流行大數據分析的時代,算法也經常被提及且變得越發流行。

分析(Analytics):

讓我們試想一個很可能發生的情況,你的信用卡公司給你發了封記錄著你全年卡內資金轉賬情況的郵件,如果這個時候你拿著這張單子,開始認真研究你在食品、衣物、娛樂等方面消費情況的百分比會怎樣?你正在進行分析工作,你在從你原始的數據(這些數據可以幫助你為來年自己的消費情況作出決定)中挖掘有用的信息。

那么,如果你以類似的方法在推特和臉書上對整個城市人們發的帖子進行處理會如何呢?在這種情況下,我們就可以稱之為大數據分析。所謂大數據分析,就是對大量數據進行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現在我們來對它們分別進行梳理。

描述性分析法(Descriptive Analytics):

如果你只說出自己去年信用卡消費情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項開支,那么這種分析方法被稱為描述性分析法。當然,你也可以找出更多細節。

預測性分析法(Predictive Analytics):

如果你對過去 5 年信用卡消費的歷史進行了分析,發現每年的消費情況基本上呈現一個連續變化的趨勢,那么在這種情況下你就可以高概率預測出:來年的消費狀態應該和以往是類似的。這不是說我們在預測未來,而是應該理解為,我們在“用概率預測”可能發生什么事情。在大數據的預測分析中,數據科學家可能會使用先進的技術,如機器學習,和先進的統計學處理方法(這部分后面我們會談到)來預測天氣情況、經濟變化等等。

規范性分析(Prescriptive Analytics):

這里我們還是用信用卡轉賬的例子來理解。假如你想找出自己的哪類消費(如食品、娛樂、衣物等等)可以對整體消費產生巨大影響,那么基于預測性分析(Predictive Analytics)的規范性分析法通過引入“動態指標(action)”(如減少食品或衣物或娛樂)以及對由此產生的結果進行分析來規定一個可以降低你整體開銷的最佳消費項。你可以將它延伸到大數據領域,并想象一個負責人是如何通過觀察他面前多種動態指標的影響,進而作出所謂由“數據驅動”的決策的。

批處理(Batch processing):

盡管批量數據處理從大型機(mainframe)時代就已經存在了,但是在處理大量數據的大數據時代面前,批處理獲得了更重要的意義。批量數據處理是一種處理大量數據(如在一段時間內收集到的一堆交易數據)的有效方法。分布式計算(Hadoop),后面會討論,就是一種專門處理批量數據的方法。

Cassandra:

是一個很流行的開源數據管理系統,由 Apache Software Foundation 開發并運營。Apache 掌握了很多大數據處理技術,Cassandra 就是他們專門設計用于在分布式服務器之間處理大量數據的系統。

云計算(Cloud computing):

雖然云計算這個詞現在已經家喻戶曉,這里大可不必贅述,但是為了全篇內容完整性的考慮,筆者還是在這里加入了云計算詞條。本質上講,軟件或數據在遠程服務器上進行處理,并且這些資源可以在網絡上任何地方被訪問,那么它就可被稱為云計算。

集群計算(Cluster computing):

這是一個來描述使用多個服務器豐富資源的一個集群(cluster)的計算的形象化術語。更技術層面的理解是,在集群處理的語境下,我們可能會討論節點(node)、集群管理層(cluster management layer)、負載平衡(load balancing)和并行處理(parallel processing)等等。

暗數據(Dark data):

這是一個生造詞,在筆者看來,它是用來嚇唬人,讓高級管理聽上去晦澀難懂的。基本而言,所謂暗數據指的是,那些公司積累和處理的實際上完全用不到的所有數據,從這個意義上來說我們稱它們為“暗”的數據,它們有可能根本不會被分析。這些數據可以是社交網絡中的信息,電話中心的記錄,會議記錄等等。很多估計認為所有公司的數據中有 60% 到 90% 不等可能是暗數據,但實際上沒人知道。

數據湖(Data lake):

當筆者第一次聽到這個詞時,真的以為這是個愚人節笑話。但是它真的是一個術語。所以一個數據湖(data lake)即一個以大量原始格式保存了公司級別的數據知識庫。這里我們介紹一下數據倉庫(Data warehouse)。數據倉庫是一個與這里提到的數據湖類似的概念,但不同的是,它保存的是經過清理和并且其它資源整合后的結構化數據。數據倉庫經常被用于通用數據(但不一定如此)。一般認為,一個數據湖可以讓人更方便地接觸到那些你真正需要的數據,此外,你也可以更方便地處理、有效地使用它們。

數據挖掘(Data mining):

數據挖掘關乎如下過程,從一大群數據中以復雜的模式識別技巧找出有意義的模式,并且得到相關洞見。它與前文所述的“分析”息息相關,在數據挖掘中,你將會先對數據進行挖掘,然后對這些得到的結果進行分析。為了得到有意義的模式(pattern),數據挖掘人員會使用到統計學(一種經典的舊方法)、機器學習算法和人工智能

數據科學家:

數據科學家是時下非常性感的一門行業。它指那些可以通過提取原始數據(這就是我們前面所謂的數據湖)進而理解、處理并得出洞見的這樣一批人。部分數據科學家必備的技能可以說只有超人才有:分析能力、統計學、計算機科學、創造力、講故事能力以及理解商業背景的能力。難怪這幫人工資很高。

分布式文件系統(Distributed File System):

大數據數量太大,不能存儲在一個單獨的系統中,分布式文件系統是一個能夠把大量數據存儲在多個存儲設備上的文件系統,它能夠減少存儲大量數據的成本和復雜度。

ETL:

ETL 代表提取、轉換和加載。它指的是這一個過程:“提取”原始數據,通過清洗/豐富的手段,把數據“轉換”為“適合使用”的形式,并且將其“加載”到合適的庫中供系統使用。即使 ETL 源自數據倉庫,但是這個過程在獲取數據的時候也在被使用,例如,在大數據系統中從外部源獲得數據。

Hadoop:

當人們思考大數據的時候,他們會立即想到 Hadoop。Hadoop 是一個開源軟件架構(logo 是一頭可愛的大象),它由 Hadoop 分布式文件系統(HDFS)構成,它允許使用分布式硬件對大數據進行存儲、抽象和分析。如果你真的想讓某人對這個東西印象深刻,你可以跟他說 YARN(Yet Another Resource Scheduler),顧名思義,就是另一個資源調度器。我確實被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會,還負責 Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒有被這些名字驚艷到嗎?

內存計算(In-memory computing):

通常認為,任何不涉及到 I/O 訪問的計算都會更快一些。內存計算就是這樣的技術,它把所有的工作數據集都移動到集群的集體內存中,避免了在計算過程中向磁盤寫入中間結果。Apache Spark 就是一個內存計算的系統,它相對 Mapreduce 這類 I/O 綁定的系統具有很大的優勢。

物聯網IoT):

最新的流行語就是物聯網(IoT)。IoT 是嵌入式對象中(如傳感器、可穿戴設備、車、冰箱等等)的計算設備通過英特網的互聯,它們能夠收發數據。物聯網生成了海量的數據,帶來了很多大數據分析的機遇。

機器學習(Machine Learning):

機器學習是基于喂入的數據去設計能夠學習、調整和提升的系統的一種方法。使用設定的預測和統計算法,它們持續地逼近“正確的”行為和想法,隨著更多的數據被輸入到系統,它們能夠進一步提升。

MapReduce:

MapReduce 可能有點難以理解,我試著解釋一下吧。MapReduceMapReduce 是一個編程模型,最好的理解就是要注意到 Map 和 Reduce 是兩個不同的過程。在 MapReduce 中,程序模型首先將大數據集分割成一些小塊(這些小塊拿技術術語來講叫做“元組”,但是我描述的時候會盡量避免晦澀的技術術語)。

然后這些小塊會被分發給不同位置上的不同計算機(也就是說之前描述過的集群),這在 Map 過程是必須的。然后模型會收集每個計算結果,并且將它們“reduce”成一個部分。MapReduce 的數據處理模型和 Hadoop 分布式文件系統是分不開的。

非關系型數據庫(NoSQL):

這個詞聽起來幾乎就是“SQL,結構化查詢語言”的反義詞,SQL 是傳統的關系型數據管理系統(RDBMS)必需的,但是 NOSQL 實際上指的是“不止 SQL”。NoSQL 實際上指的是那些被設計來處理沒有結構(或者沒有“schema”,綱要)的大量數據的數據庫管理系統。NoSQL 適合大數據系統,因為大規模的非結構化數據庫需要 NoSQL 的這種靈活性和分布式優先的特點。

R 語言:

這還有人能給一個編程語言起一個更加糟糕的名字嗎?R 語言就是這樣的語言。不過,R 語言是一個在統計工作中工作得很好的語言。如果你不知道 R 語言,別說你是數據科學家。因為 R 語言是數據科學中最流行的編程語言之一。

Spark(Apache Spark):

Apache Spark 是一個快速的內存數據處理引擎,它能夠有效地執行那些需要迭代訪問數據庫的流處理、機器學習以及 SQL 負載。Spark 通常會比我們前面討論過的 MapReduce 快好多。

流處理(Stream processing):

流處理被設計來用于持續地進行流數據的處理。與流分析技術(指的是能夠持續地計算數值和統計分析的能力)結合起來,流處理方法特別能夠針對大規模數據的實時處理。

結構化 vs 非結構化數據(Structured v Unstructured Data):

這是大數據中的對比之一。結構化數據基本上是那些能夠被放在關系型數據庫中的任何數據,以這種方式組織的數據可以與其他數據通過表格來關聯。非結構化數據是指任何不能夠被放在關系型數據庫中的數據,例如郵件信息、社交媒體上的狀態,以及人類語音等等。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 云計算
    +關注

    關注

    39

    文章

    8021

    瀏覽量

    144379
  • 物聯網
    +關注

    關注

    2945

    文章

    47819

    瀏覽量

    414844
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136931
  • 內存計算
    +關注

    關注

    1

    文章

    15

    瀏覽量

    12295
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    京東商品詳情API接口詳解:獲取商品標題、價格、庫存等核心數據

    京東商品詳情 API 是獲取商品 標題、價格、庫存、SKU、主圖、參數 等核心數據的官方合規入口,分 京東開放平臺(JOS)與京東聯盟 兩大體系,適合賣家做商品監控、比價、選品、店鋪數據同步。下面從
    的頭像 發表于 03-02 14:28 ?176次閱讀

    時間基準的核心力量:低相噪銣原子振蕩時鐘的多領域應用解析

    的應用邊界 除了上述核心領域,SYN010C 型低相噪銣原子振蕩器還在眾多新興領域展現出廣闊的應用前景,以精準計時賦能創新發展。 在物聯網領域,海量傳感器節點的協同工作需要精準的時間同步,才能實現
    發表于 01-16 10:20

    SN75LVDS86:高性能數據通道擴展芯片的深度解析

    SN75LVDS86:高性能數據通道擴展芯片的深度解析 在電子設計領域數據的高效傳輸與處理一直是工程師們關注的重點。今天我們要深入探討的是德州儀器(TI)推出的SN
    的頭像 發表于 01-04 14:45 ?229次閱讀

    大數據解決方案如何實施

    大數據解決方案實施的難點在于以下幾點: ?1.很少有優質可用的數據 ?在數聚股份看來,這幾年數據交易機構如雨后春筍,“數據變現”成為很多擁有數據
    的頭像 發表于 12-25 18:22 ?1041次閱讀

    大數據平臺運營的基礎是什么

    在數聚股份看來,越來越多的企業開始搭建自己的大數據平臺體系,并傾注大量資源用于平臺的迭代和運營。那么大數據平臺作為越來越被關注的企業新興價值點,它應該以何種方式看待,并且以什么樣的方式去建設和運營
    的頭像 發表于 12-23 16:07 ?228次閱讀

    AI時代大數據背后的網絡力量-上海兆越100G核心工業交換機

    AI大數據與云計算的全球普及,讓海量數據實時傳輸處理成為各行業數字化轉型的核心挑戰,工業通信網絡面臨巨大數據壓力。工業交換機作為數據傳輸的
    的頭像 發表于 11-18 17:33 ?2668次閱讀
    AI時代<b class='flag-5'>大數據</b>背后的網絡力量-上海兆越100G<b class='flag-5'>核心</b>工業交換機

    組態大數據平臺是什么?有什么功能?

    組態大數據平臺是融合 組態技術 與 大數據處理能力 的綜合性平臺,通過圖形化、可配置的方式實現數據采集、存儲、分析、可視化及遠程控制,適用于工業自動化、能源管理、樓宇監控等領域。其
    的頭像 發表于 10-30 11:29 ?223次閱讀
    組態<b class='flag-5'>大數據</b>平臺是什么?有什么功能?

    音頻時鐘系列02:相噪與精度對音質的影響

    頻設備的音質表現。一、核心術語定義與本質1.相噪(PhaseNoise):衡量時鐘信號的“穩定性”相噪的本質是時鐘信號相位的隨機波動,表現為“理想的純正弦波時鐘”
    的頭像 發表于 10-27 14:14 ?948次閱讀
    音頻時鐘系列02:相噪與精度對音質的影響

    嵌入式需要掌握哪些核心技能?

    接口是80%崗位的必備技能,工業協議需求集中于特定行業。 在AI、大數據席卷的當下,嵌入式技術依然穩居制造業、物聯網、汽車電子等領域核心地位。 數據顯示,2024年嵌入式崗位招聘
    發表于 10-21 16:25

    技術干貨 | DAC靜態參數計算全解析:從偏移誤差到總未調整誤差

    一期我們詳解了DAC的核心術語,本期繼續深入探討DAC靜態參數計算!從偏移誤差、增益誤差到INL/DNL,再到未調整總誤差(TUE),一文掌握D/A轉換器的關鍵性能指標!
    的頭像 發表于 06-20 11:49 ?2037次閱讀
    技術干貨 | DAC靜態參數計算全解析:從偏移誤差到總未調整誤差

    技術干貨 | 從偏移誤差到電源抑制比,DAC核心術語全解析

    偏移誤差、增益誤差、INL/DNL、轉換時間……這些關鍵指標如何定義?如何影響DAC性能?本文DAC核心術語全解析帶您一文掌握關鍵參數!
    的頭像 發表于 06-19 10:38 ?627次閱讀
    技術干貨 | 從偏移誤差到電源抑制比,DAC<b class='flag-5'>核心術語</b>全解析

    從偏移誤差到電源抑制比,DAC核心術語全解析

    本文介紹了DAC術語,包括偏移誤差、滿刻度誤差、增益誤差、積分非線性誤差、差分非線性誤差、未調整總誤差等,并對轉換延遲、轉換時間、差分非線性誤差、端點和最佳擬合線增益誤差、單調性、乘法型DAC、電源抑制比等進行了詳細說明。
    的頭像 發表于 06-17 11:31 ?715次閱讀
    從偏移誤差到電源抑制比,DAC<b class='flag-5'>核心術語</b>全解析

    技術干貨 | 功能安全術語的暗黑森林

    在汽車產業高度發展的當下,功能安全已從抽象概念轉化為系統性防控要求。ISO26262定義的核心術語正是突破概念模糊性的首道門檻——既是工程師協同的技術語言,也是實現安全出行的底層方法論。今天我們就來
    的頭像 發表于 06-10 16:38 ?2092次閱讀
    技術干貨 | 功能安全<b class='flag-5'>術語</b>的暗黑森林

    明遠智睿SSD2351核心板在語音對講與HMI領域的創新應用

    在現代智能設備中,語音對講和HMI(人機界面)作為重要的交互方式,直接影響著用戶體驗。明遠智睿SSD2351核心板憑借其獨特的硬件特性和豐富接口,在這兩領域實現了諸多創新應用。 在語音對講方面
    發表于 04-16 10:46

    明遠智睿SSD2351核心板在物聯網領域的應用實踐

    物聯網作為當今科技發展的熱門領域,將無數設備連接在一起,實現數據的采集、傳輸與共享,構建起一智能化的世界。在這龐大的物聯網體系中,核心板扮演著至關重要的角色,明遠智睿SSD2351
    發表于 04-11 11:50