国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數(shù)據(jù)涉及的技術理論和資源工具

汽車玩家 ? 來源:今日頭條 ? 作者:北方數(shù)據(jù)中心 ? 2020-03-22 17:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大數(shù)據(jù)涉及的技術領域

1 研究業(yè)務的技術特性要求

大數(shù)據(jù)相關技術和資源眾多,先從市場研究的業(yè)務特點來分析其對技術性的一些要求:

1. 數(shù)據(jù)規(guī)模而言,因為客戶主要偏傳統(tǒng)企業(yè)客戶(非互聯(lián)網(wǎng)類),受其業(yè)務限制,可分析的大數(shù)據(jù)規(guī)模不會超過百億/TB級,不像互聯(lián)網(wǎng)企業(yè)達到千億/PB級。

2. 數(shù)據(jù)格式還是以結構化數(shù)據(jù)為主,部分非結構化文本(如互聯(lián)網(wǎng)/社交方面為主)。

3. 處理模式上,因為分析過程是多次迭代和不斷深入,不需要實時出結論,所以離線非實時、批量化/AdHoc結合的OLAP分析是主要模式。這個和很多互聯(lián)網(wǎng)企業(yè)的實時大數(shù)據(jù)業(yè)務要求不同。

4. 分析的屬性維度多樣,經(jīng)常變化,關注整體特性。所以對數(shù)據(jù)管理中的多字段檢索和匯總統(tǒng)計的能力要求較高。

基于以上的技術要求,我們來討論研究業(yè)務適合的技術理論與資源。

2主要技術理論

在整個大數(shù)據(jù)相關技術體系中,研究公司大數(shù)據(jù)業(yè)務涉及的技術領域主要如下:

分布式計算(Distributed computing)

在大數(shù)據(jù)領域,大部分數(shù)據(jù)存儲和高速計算都離不開分布式計算。日常生活中,我們一臺電腦可完成所有計算和數(shù)據(jù)存儲,當覺得不夠用時,通常是更換更快的CPU和更大硬盤來解決。但當計算速度和存儲要求越來越高時(如大數(shù)據(jù)環(huán)境下對TB甚至PB級數(shù)據(jù)管理計算),這種通過提升單臺服務器性能的集中模式會導致服務器(如使用該運營商話單計費、銀行交易系統(tǒng)的小型機)成本極為昂貴,且最終可能仍然無法滿足要求。另外一種思路,則是將大的計算需求分攤到多臺計算機一起來完成(如同一個大卡車的載貨被分到很多臺小卡車來運輸一樣)。相應的分布式計算(包括存儲)就是通過多臺(成千上萬甚至百萬)廉價、低性能服務器來實現(xiàn)超高的計算存儲能力。在分布式計算系統(tǒng)中,任何計算和存儲請求,被自動分為多個小的任務,分攤到各服務器上并行完成。同時,數(shù)據(jù)分布在多個服務器節(jié)點并有備份,這樣即使部分服務器損壞并不影響系統(tǒng)運行。

相比集中模式,分布式計算成本和門檻更低,易擴展并具高可靠性。成為近10年來IT體系架構最重要的技術,支撐起了整個互聯(lián)網(wǎng)的數(shù)據(jù)和業(yè)務,也是云計算和大數(shù)據(jù)的支撐技術之一。

機器學習(Machine Learning)

如果說分布式計算是IT體系架構的明星,那機器學習就是智能數(shù)據(jù)分析的利器了。作為人工智能的核心研究領域之一,機器學習是為了讓計算機通過經(jīng)驗(先驗知識數(shù)據(jù))來模仿人類的學習能力,從而獲得計算機系統(tǒng)能力的提升。上世紀末,隨著統(tǒng)計學習理論出現(xiàn)和發(fā)展,機器學習從IT技術逐步擴展為一種交叉學科,在很多非IT領域也得到廣泛應用。雖然相關算法在理論上需要較多的知識背景,但不要覺得它是多么高大上,比如研究行業(yè)常用到的決策樹、分類(有監(jiān)督學習)和聚類(無監(jiān)督學習),實際都是機器學習的算法子集(其他常用的還有Bayes網(wǎng)絡、支持向量機和神經(jīng)元網(wǎng)絡等)?;谟柧?建模-分類-優(yōu)化的迭代生成模式,使得機器學習在實際的分析性能和模型適用性方面,具有較大的優(yōu)勢。近兩年來,基于多層神經(jīng)網(wǎng)絡深度學習(Deep Learning)理論在一些領域(自然語言、音視頻識別)具有突出的表現(xiàn),有望進一步推動機器學習的深入分析能力。

大數(shù)據(jù)領域,機器學習由于其在數(shù)據(jù)分析方面的先天優(yōu)勢能力,當仁不讓的成為相關數(shù)據(jù)分析的核心技術。該方面的技術水平成為當前衡量大數(shù)據(jù)分析能力的重要標志。

自然語言處理(Natural Language Process)

大數(shù)據(jù)的多種數(shù)據(jù)中,非結構化數(shù)據(jù)日趨龐雜和重要,其代表就是自然語言形式的語義內容(搜索、新聞、社交媒體、電商評論等),而對其內容的分析(如文本挖掘)離不開自然語言處理技術。相關學術學科叫計算語言學,作為計算機與語言的交叉學科,它以統(tǒng)計性、量化的方式來研究語言的規(guī)律。自然語言處理涉及分詞、詞法、句法、語法、語義分析等多個層面,相當復雜。而當前商業(yè)性應用,中文的主要集中在分詞、詞頻統(tǒng)計、關鍵特征抽取等淺層分析、情感傾向與主題模型(如LDA/PLSA等)和機器翻譯等方面。傳統(tǒng)研究業(yè)務中,也可用于開放題/討論文本的自動分析編碼。實際上,NLP的應用領域應該可以更大。舉一個有趣的例子,曹雪芹的《紅樓夢》最后40章常被認為是高鶚續(xù)作,但相關觀點的紅學家/語言學家并不能有效證明。借助計算語言學,可對前80章和后40章的內容進行分析(包括用詞習慣、句法、文法等等),可得到兩部分文章在行文風格的多種量化指標,通過其差異就能判斷是否為不同的作者。計算語言學的理論基礎感覺近年來進展不大,但深度學習近來的表現(xiàn)有望幫助其在應用性能方面有所提升。

數(shù)據(jù)挖掘(Data Mining)

數(shù)據(jù)挖掘在非大數(shù)據(jù)時代(海量數(shù)據(jù))就已經(jīng)廣泛使用(如CRM的用戶分析、產品關聯(lián)分析)。嚴格的說,其并不算是一種技術,而是一種分析模式:綜合利用機器學習、數(shù)據(jù)庫技術和自然語言處理等多種技術方法,從數(shù)據(jù)中獲得相關的結果。在大數(shù)據(jù)時代,雖然數(shù)據(jù)的挖掘往往意味著數(shù)據(jù)金礦,但筆者認為,挖掘技術必須與業(yè)務分析思路緊密結合,才會發(fā)揮出較大的價值。

其他關鍵技術

在大數(shù)據(jù)時代,互聯(lián)網(wǎng)社交媒體數(shù)據(jù)(尤其是用戶間的關系數(shù)據(jù))體現(xiàn)出了前所未有的價值。對上億用戶錯綜復雜的關系網(wǎng)絡的快速分析,正是圖計算理論擅長之處。圖計算作為新興的技術理論,主要聚焦節(jié)點之間關系的深度研究,其不僅在社交用戶分析上價值很大,在惡意欺詐檢測、生命科學等領域都有巨大應用前景。

而隨著音視頻數(shù)據(jù)的日益普及和傳播,針對此類大數(shù)據(jù)的處理(比如語音識別/圖像、視頻識別分析)技術,也在大數(shù)據(jù)業(yè)務中逐步開始使用。這些其實都是模式識別(Pattern Recognition)技術的應用,核心問題是特征(維度較高)的抽取和相似/匹配性比較。

3主要技術資源與工具

在前面了解的技術理論之上,我們進一步介紹大數(shù)據(jù)業(yè)務中可使用的技術資源和工具。相關說明按業(yè)務流程順序展開,以主流、免費的開源資源為主

(1)分布式計算框架

分布式計算框架用于完成分布式計算所需的底層任務管理和調度等核心工作,是大數(shù)據(jù)計算體系結構的基石。

(2)數(shù)據(jù)管理

數(shù)據(jù)管理主要包括存儲和快速檢索。大數(shù)據(jù)環(huán)境中,研究業(yè)務相關的數(shù)據(jù)更多以數(shù)據(jù)庫而不是文件方式存儲,所以這里主要介紹幾類數(shù)據(jù)庫的選擇

(3)處理與計算

市場研究行業(yè)大數(shù)據(jù)業(yè)務中,分析相關的數(shù)據(jù)計算技術是最重要的技術內容,主要集中在以下幾個領域:

并行機器學習(Mahout /Spark MLLib)機器學習本已是數(shù)據(jù)計算利器,而基于分布式的并行機器學習框架則將其能力又大大增強。Mahout中實現(xiàn)了大量的機器學習算法(包括推薦算法)的并行版本(甚至有并行SVD這種高大上),是當前大數(shù)據(jù)機器學習的主要工具包。MLib基于Spark框架,在性能上有優(yōu)勢,也開始受到廣泛的關注。

自然語言處理在中文自然語言處理領域,當前可用的免費開放資源并不多(分詞資源較多),一些開放資源主要來自學術院校(清華、中科院、復旦和哈工大等,相關內容不便列出,請自行查找),但在效果上面向工業(yè)應用尚有不足。當前常見方式是借助專業(yè)技術企業(yè)/院校合作獲得深入分析能力。

圖計算(GraphLab/Spark GraphX)如果有圖計算相關的需求可考慮采用這些開源資源。前者是當前最主流的圖計算框架,實現(xiàn)了圖數(shù)據(jù)的存儲和基礎計算邏輯。后者GraphX是Spark體系下的圖計算新貴。 R語言R語言作為統(tǒng)計性功能強大的計算語言,在傳統(tǒng)研究行業(yè)具有較大應用前景。同時其在可視化和開源支持方面也有一定優(yōu)勢。如今R對Hadoop的支持也比較完善。對于熟悉R語言的研究公司,可從R語言更快切入大數(shù)據(jù)的計算領域。

(4)研究分析

在分析階段,考慮研究員將成為重要的角色,此時資源聚焦在研究員可以使用的各種工具上。以下是相關的一些內容:

Hive/Impala/Spark Sql分布式的大數(shù)據(jù)(數(shù)據(jù)倉庫)的分析工具,支持以傳統(tǒng)關系數(shù)據(jù)庫Sql語句進行大數(shù)據(jù)內容的檢索,大大降低了研究分析人員的大數(shù)據(jù)分析門檻,是適合數(shù)據(jù)分析/研究人員的最佳工具。Hive最早由Facebook開源,應用最廣,但性能最差。Impala在性能與穩(wěn)定性的平衡較好,但限制較多。Spark Sql作為最新的工具,性能最強,但穩(wěn)定性尚待完善。

TableAU 企業(yè)級大數(shù)據(jù)分析工具,多應用于世界500強企業(yè)內部業(yè)務分析,不過其是商業(yè)付費軟件。其優(yōu)點是大數(shù)據(jù)下的可視化和方便性,研究人員使用比較容易。就實際應用體會上,感覺更適合企業(yè)級內部數(shù)據(jù)、億級以下的結構化大數(shù)據(jù)的場景。分析維度主要是統(tǒng)計性維度,可分析深度相對不足。

SPSS Modeler IBM的商用數(shù)據(jù)挖掘工具,對大數(shù)據(jù)支持能力不如TableAU(與其計算復雜度相關),其特點是提供專業(yè)的數(shù)據(jù)挖掘算法,研究中適合做深度/非統(tǒng)計性研究。

Gephi可視化分析如果要做一些傳播關系的圖形化分析,那不妨考慮Gephi。其支持多種可視化分析圖生成。不過在較大數(shù)據(jù)量(比如2萬節(jié)點以上)時性能下降較快,所以最好對數(shù)據(jù)預先做相關平滑和剪枝。

可視化開發(fā)框架數(shù)據(jù)可視化是大數(shù)據(jù)的一個特色,但這里放到研究分析來說明,是因為可視化技術的價值是幫助更有效的分析,不是花哨的展示。當前國內百度EChart(2.0以上版本)的易用性和功能相對不錯(就是感覺樣式配色不夠專業(yè)),國外基于D3框架的應用更能體現(xiàn)可視化的價值(效果強大,但開發(fā)比較麻煩)。桌面辦公軟件中,微軟GeoFlow支持Excel的Bing地圖可視化。其他還有很多各有特色的可視化框架,不再一一介紹了。

經(jīng)過以上內容,想必研究同行們對大數(shù)據(jù)相關技術已經(jīng)有了基本的認識。如果要想在大數(shù)據(jù)業(yè)務服務中發(fā)揮自身價值,研究人員除了轉變方法論思路外,還要注意提升自身的技術能力。 傳統(tǒng)研究業(yè)務中,研究員太依賴DP和其他IT人員進行數(shù)據(jù)計算處理,自身沒有任何技術能力。大數(shù)據(jù)業(yè)態(tài)下,技術性分析與傳統(tǒng)研究將緊密結合,技術手段的使用程度深入影響數(shù)據(jù)洞察的深度。研究員如果熟悉相關技術手段(至少分析工具的使用),將會極大擴展自身的分析能力。既熟悉大數(shù)據(jù)處理技術,又懂得研究業(yè)務思路的復合人才—數(shù)據(jù)科學家,將是未來數(shù)據(jù)分析業(yè)務的王者。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    電纜故障預警與精確定位裝置所涉及技術

    電纜故障預警與精確定位裝置主要還是通過多技術融合來實現(xiàn)故障預警與精確定位,所涉及技術包括傳感器技術、信號處理技術、行波定位
    的頭像 發(fā)表于 02-27 17:26 ?1020次閱讀
    電纜故障預警與精確定位裝置所<b class='flag-5'>涉及</b>的<b class='flag-5'>技術</b>

    [工具討論] 如果有一款國產圖形化配置工具STM32Cube,支持所有內核和廠商MCU,你會用嗎?

    涉及多家廠商芯片時,要在多個工具間切換 如果有一款這樣的工具 我們想和大家討論一個假設性問題: 如果有一款國產的圖形化配置工具,具備以下特性,你會考慮使用嗎? 核心特性對比 對比維度
    發(fā)表于 01-26 10:30

    大數(shù)據(jù)解決方案如何實施

    大數(shù)據(jù)解決方案實施的難點在于以下幾點: ?1.很少有優(yōu)質可用的數(shù)據(jù) ?在數(shù)聚股份看來,這幾年數(shù)據(jù)交易機構如雨后春筍,“數(shù)據(jù)變現(xiàn)”成為很多擁有數(shù)據(jù)
    的頭像 發(fā)表于 12-25 18:22 ?1046次閱讀

    最受歡迎的大數(shù)據(jù)可視化工具

    ?在數(shù)聚股份看來,大數(shù)據(jù)可視化是進行各種大數(shù)據(jù)分析的最重要組成部分之一。 一旦原始數(shù)據(jù)流被以圖像形式表示時,以此做決策就變得容易多了。 為了滿足并超越客戶的期望,大數(shù)據(jù)可視化
    的頭像 發(fā)表于 12-24 17:05 ?257次閱讀
    最受歡迎的<b class='flag-5'>大數(shù)據(jù)</b>可視化<b class='flag-5'>工具</b>

    大數(shù)據(jù)平臺運營的基礎是什么

    在數(shù)聚股份看來,越來越多的企業(yè)開始搭建自己的大數(shù)據(jù)平臺體系,并傾注大量資源用于平臺的迭代和運營。那么大數(shù)據(jù)平臺作為越來越被關注的企業(yè)新興價值點,它應該以何種方式看待,并且以什么樣的方式去建設和運營
    的頭像 發(fā)表于 12-23 16:07 ?232次閱讀

    后勤資源大模型智能調度系統(tǒng):功能特點與平臺架構解析

    ? ? 后勤資源大模型智能調度系統(tǒng)解析 ? ?后勤資源大模型智能調度系統(tǒng)融合大數(shù)據(jù)、人工智能與機器學習技術,針對物資、設備、人員、運輸工具
    的頭像 發(fā)表于 12-15 16:35 ?308次閱讀

    組態(tài)大數(shù)據(jù)平臺是什么?有什么功能?

    組態(tài)大數(shù)據(jù)平臺是融合 組態(tài)技術大數(shù)據(jù)處理能力 的綜合性平臺,通過圖形化、可配置的方式實現(xiàn)數(shù)據(jù)采集、存儲、分析、可視化及遠程控制,適用于工業(yè)自動化、能源管理、樓宇監(jiān)控等領域。其核心
    的頭像 發(fā)表于 10-30 11:29 ?226次閱讀
    組態(tài)<b class='flag-5'>大數(shù)據(jù)</b>平臺是什么?有什么功能?

    貿澤深入解析數(shù)據(jù)中心技術,提供豐富資源

    中心的新資訊。受計算和云技術興起的影響,現(xiàn)代數(shù)據(jù)中心從企業(yè)大樓的服務器堆棧發(fā)展到專用設施。隨著生成式AI對資源的獨特需求以及聊天機器人等AI工具的引入,這一演變速度顯著加快。現(xiàn)在,工程
    的頭像 發(fā)表于 10-20 15:27 ?545次閱讀
    貿澤深入解析<b class='flag-5'>數(shù)據(jù)</b>中心<b class='flag-5'>技術</b>,提供豐富<b class='flag-5'>資源</b>

    云天勵飛與前海大數(shù)據(jù)公司、勤達睿達成戰(zhàn)略合作

    近日,深圳市前海大數(shù)據(jù)資源管理中心有限公司、深圳云天勵飛技術股份有限公司、勤達睿香港有限公司(Kyndryl)正式簽署戰(zhàn)略合作協(xié)議,圍繞智算基礎設施與“人工智能+”服務展開深度合作。
    的頭像 發(fā)表于 10-11 14:02 ?562次閱讀

    電磁兼容與電磁干擾在電磁兼容性大數(shù)據(jù)分析中的智能管理系統(tǒng)

    北京華盛恒輝電磁兼容 (EMC) 大數(shù)據(jù)智能管理系統(tǒng)精簡解析 在 EMC 大數(shù)據(jù)分析中,電磁兼容與電磁干擾(EMI)智能管理系統(tǒng)是保障設備穩(wěn)定、提升系統(tǒng)可靠性的核心工具。系統(tǒng)整合 EMC/EMI
    的頭像 發(fā)表于 09-17 14:58 ?618次閱讀

    御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng)

    御控工業(yè)物聯(lián)網(wǎng)推出排水設備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng),通過物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術構建“感知-傳輸-分析-決策”閉環(huán)管理體系,助力排水行業(yè)數(shù)字化轉型。
    的頭像 發(fā)表于 09-12 10:04 ?665次閱讀

    中軟國際亮相2025中國國際大數(shù)據(jù)產業(yè)博覽會

    數(shù)據(jù)要素與人工智能技術融合創(chuàng)新的最新成果,推動數(shù)據(jù)資源的高效匯聚和開發(fā)利用,為產業(yè)轉型升級和經(jīng)濟高質量發(fā)展注入強勁動力。
    的頭像 發(fā)表于 08-30 11:41 ?1509次閱讀

    更改最大數(shù)據(jù)包大小時無法識別USB設備如何解決?

    將生產者 EP 端點描述符中的最大數(shù)據(jù)包大小從 1024 字節(jié)更改為 512 字節(jié)時,無法識別 USB 設備。 請告知如何解決這個問題。
    發(fā)表于 05-20 08:13

    英泰斯特與東湖大數(shù)據(jù)、動力再生簽署戰(zhàn)略合作協(xié)議

    近日,武漢英泰斯特電子技術有限公司(以下簡稱:英泰斯特)分別與武漢東湖大數(shù)據(jù)科技股份有限公司(以下簡稱:東湖大數(shù)據(jù))、武漢動力電池再生技術有限公司(以下簡稱:動力再生)正式簽署戰(zhàn)略合作
    的頭像 發(fā)表于 05-08 09:25 ?916次閱讀

    射頻電路設計——理論與應用

    本資料從低頻電路理論到射頻、微波電路理論的演化過程出發(fā),討論以低頻電路理論為基礎結合高頻電壓、電流的波動特征來分析和設計射頻、微波系統(tǒng)的方法——微波等效電路法,使不具備電磁場理論和微波
    發(fā)表于 04-03 11:41