国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

十年之后,回頭看什么是大數(shù)據(jù)

電子工程師 ? 來源:YXQ ? 2019-04-22 16:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

BigData 概念在上世紀(jì)90年代被提出,隨Google的3篇經(jīng)典論文(GFS,BigTable,MapReduce)奠基,已經(jīng)發(fā)展了超過10年。這10年中,誕生了包括Google大數(shù)據(jù)體系,微軟Cosmos體系,開源Hadoop體系等優(yōu)秀的系統(tǒng),這其中也包括阿里云的飛天系統(tǒng)。這些系統(tǒng)一步一步推動業(yè)界進(jìn)入“數(shù)字化“和之后的“AI化”的時代。

同時,與其他老牌系統(tǒng)相比(如,Linux操作系統(tǒng)體系,數(shù)據(jù)庫系統(tǒng),中間件,很多有超過30年的歷史),大數(shù)據(jù)系統(tǒng)又非常年輕,隨云計(jì)算普惠,正大規(guī)模被應(yīng)用。海量的需求和迭代推動系統(tǒng)快速發(fā)展,有蓬勃的生機(jī)。(技術(shù)體系的發(fā)展,可以通過如下Hype-Cycle概述,作者認(rèn)為,大數(shù)據(jù)系統(tǒng)的發(fā)展進(jìn)入技術(shù)復(fù)興期/Slope of Enlightenment,并開始大規(guī)模應(yīng)用Plateau of Productivity。)

上圖來自Gartner

如果說,0到1上線標(biāo)志一個系統(tǒng)的誕生,在集團(tuán)內(nèi)大規(guī)模部署標(biāo)志一個系統(tǒng)的成長,在云上對外大規(guī)模服務(wù)標(biāo)志一個系統(tǒng)的成熟。MaxCompute這10年已經(jīng)走向成熟,經(jīng)過多次升級換代,功能、性能、服務(wù)、穩(wěn)定性已經(jīng)有一個體系化的基礎(chǔ),成為阿里巴巴集團(tuán)數(shù)據(jù)中臺的計(jì)算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務(wù)。

“十年磨一劍”。MaxCompute去年做了哪些工作,這些工作背后的原因是什么?大數(shù)據(jù)市場進(jìn)入普惠+紅海的新階段,如何與生態(tài)發(fā)展共贏?人工智能進(jìn)入井噴階段,如何支持與借力?本文從過去一年的總結(jié),核心技術(shù)概覽,以及每條技術(shù)線路未來展望等幾個方面做一個概述。

1.MaxCompute(ODPS)概述

1.1 背景信息:十年之后,回頭看什么是大數(shù)據(jù)

"Big data represents the information assets characterized by such a high volume, velocity and variety to require specific technology and analytical methods for its transformation into value".

用5個“V”來描述大數(shù)據(jù)的特點(diǎn):

Volume-數(shù)據(jù)量:數(shù)據(jù)量非線性增長,包括采集、存儲和計(jì)算的量都非常大,且增速很快。

Variety-數(shù)據(jù)類型:包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),特別是最近隨音視圖興起,非結(jié)構(gòu)化數(shù)據(jù)增速更快。

Velocity-數(shù)據(jù)存儲和計(jì)算的增長速度:數(shù)據(jù)增長速度快,處理速度快,時效性要求高。

Veracity-信噪比:數(shù)據(jù)量越大,噪聲越多,需要深入挖掘數(shù)據(jù)來得到結(jié)果。

Value-價值:數(shù)據(jù)作為一種資產(chǎn),有1+1>2的特點(diǎn)。

總結(jié)下來,大數(shù)據(jù)具備如下的五個趨勢:

數(shù)據(jù)爆炸導(dǎo)致數(shù)據(jù)和計(jì)算量增速很高,很多時候超過業(yè)務(wù)增速。帶來成本壓力!

數(shù)據(jù)量變大,但單位數(shù)據(jù)的價值在下降,深度挖掘勢在必行,但反過來要求計(jì)算力的進(jìn)一步提升。

非結(jié)構(gòu)化數(shù)據(jù)處理,成為趨勢。

時效性,是能完成任務(wù)之后,用戶的新期待。

超大規(guī)模的數(shù)據(jù)和計(jì)算,對人工管理是一個挑戰(zhàn)。

上述趨勢,也會得出了作為大數(shù)據(jù)平臺,我們要發(fā)力的方向:計(jì)算力,智能化,生態(tài)系統(tǒng)。

1.2 MaxCompute 定位

阿里云大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原名ODPS)是阿里云提供的一種安全可靠、高效能、低成本、從GB到EB級別按需彈性伸縮的在線大數(shù)據(jù)計(jì)算服務(wù)。

MaxCompute向用戶提供了豐富的大數(shù)據(jù)開發(fā)工具、完善的數(shù)據(jù)導(dǎo)入導(dǎo)出方案以及多種經(jīng)典的分布式計(jì)算模型。能夠最快速的解決用戶海量數(shù)據(jù)計(jì)算問題,有效降低企業(yè)大數(shù)據(jù)計(jì)算平臺的總體擁有成本,提高大數(shù)據(jù)應(yīng)用開發(fā)效率,并保障數(shù)據(jù)在云計(jì)算環(huán)境的安全。被廣泛的應(yīng)用于互聯(lián)網(wǎng)海量數(shù)據(jù)分析類場景。

MaxCompute是大數(shù)據(jù)云數(shù)倉的數(shù)據(jù)匯集點(diǎn),存儲和管理EB級數(shù)據(jù),支持彈性伸縮的高性能大數(shù)據(jù)計(jì)算服務(wù):它不只是個單一的引擎,而是一個平臺。

“不是單一的引擎”體現(xiàn)在,MaxCompute原生支持SQL、MR、DAG編程語義和Graph、PAI機(jī)器學(xué)習(xí)計(jì)算,同時也通過聯(lián)合計(jì)算平臺支持任意第三方引擎,如Spark、Flink等。

“一個平臺”體現(xiàn)在,MaxCompute提供統(tǒng)一高效的數(shù)據(jù)存儲,可靠的元數(shù)據(jù)服務(wù),跨地域多集群管理,和數(shù)據(jù)/計(jì)算調(diào)度能力。 MaxCompute以其可靠性、高性能、擴(kuò)展性、安全性和富生態(tài)被廣泛的用于互聯(lián)網(wǎng)海量數(shù)據(jù)分析場景,如海量數(shù)據(jù)分析與處理、大數(shù)據(jù)倉庫、產(chǎn)品維度報表、機(jī)器學(xué)習(xí)訓(xùn)練、等場景。

1.3 競品對比與分析

大數(shù)據(jù)發(fā)展到今天,數(shù)據(jù)倉庫市場潛力仍然巨大,更多客戶開始選擇云數(shù)據(jù)倉庫,CDW仍處于高速增長期。當(dāng)前互聯(lián)網(wǎng)公司和傳統(tǒng)數(shù)倉廠家都有進(jìn)入領(lǐng)導(dǎo)者地位,競爭激烈,阿里巴巴CDW在全球權(quán)威咨詢與服務(wù)機(jī)構(gòu)Forrester發(fā)布的《The Forrester WaveTM: Cloud Data Warehouse, Q4 2018》報告中位列中國第一,全球第七。

在CDW的領(lǐng)導(dǎo)者中,AWS Redshift 高度商業(yè)化、商業(yè)客戶部署規(guī)模領(lǐng)先整個市場,GoogleBigQuery以高性能、高度彈性伸縮獲得領(lǐng)先,Oracle 云數(shù)倉服務(wù)以自動化數(shù)倉技術(shù)獲得領(lǐng)先。 MaxCompute當(dāng)前的定位是市場競爭者,目標(biāo)是成為客戶大數(shù)據(jù)的“航母”級計(jì)算引擎,解決客戶在物聯(lián)網(wǎng)、日志分析、人工智能等場景下日益增長的數(shù)據(jù)規(guī)模與計(jì)算性能下降、成本上升、復(fù)雜度上升、數(shù)據(jù)安全風(fēng)險加大之間的矛盾。在此目標(biāo)定位下,對MaxCompute在智能數(shù)倉、高可靠性、高自動化、數(shù)據(jù)安全等方面的能力提出了更高的要求。

2. 2018年MaxCompute技術(shù)發(fā)展概述

過去的一個財(cái)年,MaxCompute 在技術(shù)發(fā)展上堅(jiān)持在核心引擎、開放平臺、技術(shù)新領(lǐng)域等方向的深耕,在業(yè)務(wù)上繼續(xù)匠心打造產(chǎn)品,擴(kuò)大業(yè)界影響力。

效率提升

2018年9月云棲大會發(fā)布,MaxCompute 在標(biāo)準(zhǔn)測試集 TPC-BB 100TB整體指標(biāo)較2017年提升一倍以上。

得益于整體效率的提升,在集團(tuán)內(nèi)部 MaxCompute 以20%的硬件增長支撐了超過70%的業(yè)務(wù)增長。

系統(tǒng)開放性和與生態(tài)融合

聯(lián)合計(jì)算平臺 Cupid 逐步成熟,性能 與EMR Spark Benchmark 持平,支持K8S接口,支持完整的框架安全體系。Spark On MaxCompute已開始支持云上業(yè)務(wù)

Python分布式項(xiàng)目MARS正式發(fā)布,開源兩周內(nèi)收獲1200+ Star,填補(bǔ)了國內(nèi)在Python生態(tài)上支持大規(guī)模分布式科學(xué)計(jì)算的空白,是競品Dask性能的3倍。

探索新領(lǐng)域

MaxCompute 持續(xù)在前沿技術(shù)領(lǐng)域投入,保持技術(shù)先進(jìn)性。在下一代引擎方向(如Adaptive Operators、,Operator Fusion、ClusteredTable等),智能數(shù)倉 Auto Datawarehouse 方向上的調(diào)研都取得了不錯的進(jìn)展。在漸進(jìn)計(jì)算 (Progressive Execution)、Advanced Fail Checking and Recovery 、基于 ML的分布式計(jì)算平臺優(yōu)化、超大數(shù)據(jù)量Query子圖匹配等多個方向上的調(diào)研也在進(jìn)行中。

深度參與和推動全球大數(shù)據(jù)領(lǐng)域標(biāo)準(zhǔn)化建設(shè)

2018年11月,MaxCompute與DataWorks/AnalyticDB一起代表阿里云入選 Forrester Wave? Q4 2018云數(shù)據(jù)倉庫研究報告,在產(chǎn)品能力綜合得分上力壓微軟,排名全球第七,中國第一。

2019年3月,MaxCompute 正式代表Alibaba加入了TPC委員會推動融入和建立標(biāo)準(zhǔn)。

MaxCompute持續(xù)在開源社區(qū)投入。成為全球兩大熱門計(jì)算存儲標(biāo)準(zhǔn)化開源體系ORC社區(qū)的PMC,MaxCompute成為近兩年貢獻(xiàn)代碼量最多的貢獻(xiàn)者,引導(dǎo)存儲標(biāo)準(zhǔn)化;在全球最熱門優(yōu)化器項(xiàng)目Calcite,擁有一個專委席位,成為國內(nèi)前兩家具備該領(lǐng)域影響力的公司,推動數(shù)十個貢獻(xiàn)。

3.核心技術(shù)棧

大數(shù)據(jù)市場進(jìn)入普惠+紅海的新階段,如何借力井噴階段中的人工智能,如何與生態(tài)發(fā)展共贏?

基于橫向架構(gòu)上的核心引擎和系統(tǒng)平臺,MaxCompute在計(jì)算力、生態(tài)化、智能化3個縱向上著力發(fā)展差異化的競爭力。

3.1 計(jì)算力

首先我們從計(jì)算力這個角度出發(fā),介紹一下 MaxCompute 的技術(shù)架構(gòu)。

a.核心引擎

支撐 MaxCompute 的計(jì)算力的核心模塊之一是其 SQL 引擎:在 MaxCompute 的作業(yè)中,有90%以上的作業(yè)是 SQL 作業(yè),SQL 引擎的能力是 MaxCompute 的核心競爭力之一。在MaxCompute 產(chǎn)品框架中,SQL 引擎將用戶的SQL語句轉(zhuǎn)換成對應(yīng)的分布式執(zhí)行計(jì)劃來執(zhí)行。SQL 引擎由3個主要模塊構(gòu)成:

編譯器 Compiler: 對 SQL 標(biāo)準(zhǔn)有友好支持,支持100% TPC-DS語法;并具備強(qiáng)大都錯誤恢復(fù)能力,支持 MaxCompute Studio 等先進(jìn)應(yīng)用。

運(yùn)行時 Runtime: 基于LLVM優(yōu)化代碼生產(chǎn),支持列式處理與豐富的關(guān)系算符;基于 CPP 的運(yùn)行時具有更高效率。

優(yōu)化器 Optimizer: 支持HBO和基于 Calcite 的 CBO, 通過多種優(yōu)化手段不斷提升 MaxCompute 性能。

(上圖中部分功能只在阿里集團(tuán)內(nèi)部發(fā)布,云上版本會陸續(xù)發(fā)布上線)

MaxCompute SQL 引擎當(dāng)前的發(fā)展,以提升用戶體驗(yàn)為核心目標(biāo),在 SQL 語言能力、引擎優(yōu)化等多個方向上兼顧發(fā)力,建立技術(shù)優(yōu)勢,在SQL 語言能力方面,新一代大數(shù)據(jù)語言NewSQL做到了 Declarative 語言和 Imperative 語言的融合,進(jìn)一步提升語言兼容性,目前已100% 支持 TPC-DS 語法。過去一年中,MaxCompute 新增對 GroupingSets,If-Else分支語句,動態(tài)類型函數(shù),等方面的支持。

b.存儲

MaxCompute 不僅僅是一個計(jì)算平臺,也承擔(dān)著大數(shù)據(jù)的存儲。阿里巴巴集團(tuán)99%的大數(shù)據(jù)存儲都基于MaxCompute,提高數(shù)據(jù)存儲效率、穩(wěn)定性、可用性,也是MaxCompute一直努力的目標(biāo)。

MaxCompute 存儲層處于 MaxCompute Tasks和底層盤古分布式文件系統(tǒng)之間,提供一個統(tǒng)一的邏輯數(shù)據(jù)模型給各種各樣的計(jì)算任務(wù)。MaxCompute的存儲格式演化,從最早的行存格式CFile1,到第一個列存儲格式CFile2,到第三代存儲格式。

支持更復(fù)雜的編碼方式,異步預(yù)讀等功能,進(jìn)一步提升效能。在存儲和計(jì)算2個方面都帶來了效能的提升。存儲成本方面,在阿里巴巴集團(tuán)內(nèi)通過新一代的列存格式節(jié)省約8%存儲空間,直接降低約1億成本;在計(jì)算效率上,過去的一個財(cái)年中發(fā)布的每個版本之間都實(shí)現(xiàn)了20%的提升。目前在集團(tuán)內(nèi)大規(guī)模落地的過程中。

在歸檔以及壓縮方面,MaxCompute 支持ZSTD壓縮格式,以及壓縮策略,用戶可以在Normal,High和Extreme三種Stategy里面選擇。更高的壓縮級別,帶來更高效的存儲,但也意味著更高的讀寫CPU代價。

2018年,MaxCompute 陸續(xù)推出了 Hash Clustering 和 Range Clustering 支持富結(jié)構(gòu)化數(shù)據(jù),并持續(xù)的進(jìn)行了深度的優(yōu)化,例如增加了 Shuffle Remove,Clustering Pruning 等優(yōu)化。從線上試用數(shù)據(jù),以及大量的 ATA 用戶實(shí)踐案例也可以看出,Clustering 的收益也獲得了用戶的認(rèn)可。

c.系統(tǒng)框架

資源與任務(wù)管理

MaxCompute 框架為ODPS上面各種類型的計(jì)算引擎提供穩(wěn)定便捷的作業(yè)接入管理接口,管理著ODPS各種類型Task的生命周期。過去一年對短作業(yè)查詢的持續(xù)優(yōu)化,縮短e2e時間,加強(qiáng)對異常作業(yè)(OOM)的自動檢測與隔離處理,全面打開服務(wù)級別流控,限制作業(yè)異常提交流量,為服務(wù)整體穩(wěn)定性保駕護(hù)航。

MaxCompute 存儲著海量的數(shù)據(jù),也產(chǎn)生了豐富的數(shù)據(jù)元數(shù)據(jù)。在離線元倉統(tǒng)計(jì)T+1的情況下,用戶至少需要一天后才能做事后的數(shù)據(jù)風(fēng)險審計(jì),現(xiàn)實(shí)場景下用戶希望更早風(fēng)險控制,將數(shù)據(jù)訪問事件和項(xiàng)目空間授權(quán)事件通過CUPID平臺實(shí)時推送到用戶DataHub訂閱,用戶可以通過消費(fèi)DataHub實(shí)時獲取項(xiàng)目空間表、volume數(shù)據(jù)被誰訪問等。

元數(shù)據(jù)管理

元數(shù)據(jù)服務(wù)支撐了MaxCompute各個計(jì)算引擎及框架的運(yùn)行。每天運(yùn)行在MaxCompute的作業(yè),都依賴元數(shù)據(jù)服務(wù)完成DDL,DML以及授權(quán)及鑒權(quán)的操作。元數(shù)據(jù)服務(wù)保障了作業(yè)的穩(wěn)定性和吞吐率,保障了數(shù)據(jù)的完整性和數(shù)據(jù)訪問的安全性。元數(shù)據(jù)服務(wù)包含了三個核心模塊:

Catalog完成DDL,DML及DCL(權(quán)限管理)的業(yè)務(wù)邏輯,Catalog保障MaxCompute作業(yè)的ACID特性。

MetaServer完成元數(shù)據(jù)的高可用存儲和查詢能力。

AuthServer是高性能和高QPS的鑒權(quán)服務(wù),完成對MaxCompute的所有請求的鑒權(quán),保障數(shù)據(jù)訪問安全。

元數(shù)據(jù)服務(wù)經(jīng)過了模塊化和服務(wù)化后,對核心事務(wù)管理引擎做了多次技術(shù)升級,通過數(shù)據(jù)目錄多版本,元數(shù)據(jù)存儲重構(gòu)等改造升級,保障了數(shù)據(jù)操作的原子性和強(qiáng)一致,并提高了作業(yè)提交的隔離能力,并保障了線上作業(yè)的穩(wěn)定性。

在數(shù)據(jù)安全越來越重要的今天,元數(shù)據(jù)服務(wù)和阿里巴巴集團(tuán)安全部合作,權(quán)限系統(tǒng)升級到了2.0。核心改進(jìn)包括:

MAC(強(qiáng)制安全控制)及安全策略管理:讓項(xiàng)目空間管理員能更加靈活地控制用戶對列級別敏感數(shù)據(jù)的訪問,強(qiáng)制訪問控制機(jī)制(MAC)獨(dú)立于自主訪問控制機(jī)制(DAC)。

數(shù)據(jù)分類分級:新增數(shù)據(jù)的標(biāo)簽能力,支持對數(shù)據(jù)做隱私類數(shù)據(jù)打標(biāo)。

精細(xì)權(quán)限管理:將ACL的管控能力拓展到了Package內(nèi)的表和資源,實(shí)現(xiàn)字段級的權(quán)限的精細(xì)化管理。

系統(tǒng)安全

系統(tǒng)安全方面, MaxCompute通過綜合運(yùn)用計(jì)算虛擬化和網(wǎng)絡(luò)虛擬化技術(shù), 為云上多租戶各自的用戶自定義代碼邏輯提供了安全而且完善的計(jì)算和網(wǎng)絡(luò)隔離環(huán)境。SQL UDF(python udf 和 java udf), CUPID聯(lián)合計(jì)算平臺(Sparks/Mars等), PAI tensorflow等計(jì)算形態(tài)都基于這套統(tǒng)一的基礎(chǔ)隔離系統(tǒng)構(gòu)建上層計(jì)算引擎。

MaxCompute 還通過提供原生的存儲加密能力, 抵御非授權(quán)訪問存儲設(shè)備的數(shù)據(jù)泄露風(fēng)險. MaxCompute內(nèi)置的存儲加密能力, 可以基于KMS云服務(wù)支持用戶自定義秘鑰(BYOK)以及AES256加密算法,并計(jì)劃提供符合國密合規(guī)要求的SM系列加密算法支持。

結(jié)合MaxCompute元倉(MetaData)提供的安全審計(jì)能力和元數(shù)據(jù)管理(MetaService)提供的安全授權(quán)鑒權(quán)能力,以及數(shù)據(jù)安全生態(tài)中安全衛(wèi)士和數(shù)據(jù)保護(hù)傘等安全產(chǎn)品,就構(gòu)成了 MaxCompute安全棧完整大圖。

3.2 生態(tài)化

作為一個大規(guī)模數(shù)據(jù)計(jì)算平臺,MaxCompute 擁有來自各類場景的EB級數(shù)據(jù),需要快速滿足各類業(yè)務(wù)發(fā)展的需要。在真實(shí)的用戶場景中,很少有用戶只用到一套系統(tǒng):用戶會有多份數(shù)據(jù),或者使用多種引擎。聯(lián)合計(jì)算融合不同的數(shù)據(jù),豐富 MaxCompute 的數(shù)據(jù)處理生態(tài),打破數(shù)據(jù)孤島,打通阿里云核心計(jì)算平臺與阿里云各個重要存儲服務(wù)之間的數(shù)據(jù)鏈路。聯(lián)合計(jì)算也融合不同的引擎,提供多種計(jì)算模式,支持開源生態(tài)。開源能帶來豐富和靈活的技術(shù)以賦能業(yè)務(wù),通過兼容開源API對接開源生態(tài)。另一方面,在開源過程中我們需要解決最小化引入開源技術(shù)成本及打通數(shù)據(jù)、適配開源接口等問題。

a. Cupid 聯(lián)合計(jì)算平臺

聯(lián)合計(jì)算平臺 Cupid 使一個平臺能夠支持 Spark、Flink,Tensorflow、Numpy,ElasticSearch 等多種異構(gòu)引擎, 在一份數(shù)據(jù)上做計(jì)算。在數(shù)據(jù)統(tǒng)一、資源統(tǒng)一的基礎(chǔ)上,提供標(biāo)準(zhǔn)化的接口,將不同的引擎融合在一起做聯(lián)合計(jì)算。

Cupid 的工作原理是通過將 MaxCompute 所依賴的 Fuxi 、Pangu 等飛天組間接口適配成開源領(lǐng)域常見的 Yarn、HDFS 接口,使得開源引擎可以順利執(zhí)行。現(xiàn)在,Cupid 新增支持了 Kubernetes 接口,使得聯(lián)合計(jì)算平臺更加開放。

案例:Spark On MaxCompute

Spark 是聯(lián)合計(jì)算平臺第一個支持的開源引擎。基于 Cupid 的 Spark on MaxCompute 實(shí)現(xiàn)了與 MaxCompute 數(shù)據(jù)/元數(shù)據(jù)的完美集成;遵循 MaxCompute 多租戶權(quán)限及安全體系;與Dataworks、PAI平臺集成;支持 Spark Streaming,Mllib, GraphX, Spark SQL, 交互式等完整 Spark生態(tài);支持動態(tài)資源伸縮等。

b. 多源異構(gòu)數(shù)據(jù)的互聯(lián)互通

隨著大數(shù)據(jù)業(yè)務(wù)的不斷擴(kuò)展,新的數(shù)據(jù)使用場景在不斷產(chǎn)生,用戶也期望把所有數(shù)據(jù)放到一起計(jì)算,從而能取得 1+1 > 2 這樣更好的結(jié)果。MaxCompute 提出了聯(lián)合計(jì)算,將計(jì)算下推,聯(lián)動其他系統(tǒng):將一個作業(yè)在多套系統(tǒng)聯(lián)動,利用起各個系統(tǒng)可行的優(yōu)化,做最優(yōu)的決策,實(shí)現(xiàn)數(shù)據(jù)之間的聯(lián)動和打通。

(上圖為MaxCompute集團(tuán)內(nèi)和專有云能力,公共云已實(shí)現(xiàn)與OSS、OTS的數(shù)據(jù)互通)

MaxCompute 通過異構(gòu)數(shù)據(jù)支持來提供與各種數(shù)據(jù)的聯(lián)通,這里的“各種數(shù)據(jù)”是兩個維度上的: 1. 多樣的數(shù)據(jù)存儲介質(zhì)(外部數(shù)據(jù)源),插件式的框架可以對接多種數(shù)據(jù)存儲介質(zhì)。當(dāng)前支持的外部數(shù)據(jù)源有:OSS, TableStore(OTS), TDDL,Volume。 2. 多樣的數(shù)據(jù)存儲格式:開源的數(shù)據(jù)格式支持,如 ORC、Parquet 等;半結(jié)構(gòu)化數(shù)據(jù),如包括 CSV、Json等隱含一定 schema 的文本文件;完全無結(jié)構(gòu)數(shù)據(jù),如對OSS上的文本,音頻、圖像及其他開源格式的數(shù)據(jù)進(jìn)行計(jì)算。

基于MaxCompute 異構(gòu)數(shù)據(jù)支持,用戶通過一條簡單的 DDL 語句即可在 MaxCompute 上創(chuàng)建一張EXTERNAL TABLE(外表),建立 MaxCompute 表與外部數(shù)據(jù)源的關(guān)聯(lián),提供各種數(shù)據(jù)的接入和輸出能力。創(chuàng)建好的外表在大部分場景中可以像普通的 MaxCompute 表一樣使用,充分利用 MaxCompute 的強(qiáng)大計(jì)算力和數(shù)據(jù)集成、作業(yè)調(diào)度等功能。MaxCompute 外表支持不同數(shù)據(jù)源之間的Join,支持?jǐn)?shù)據(jù)融合分析,從而幫助您獲得通過查詢獨(dú)立的數(shù)據(jù)孤島無法獲得的獨(dú)特見解。從而MaxCompute 可以把數(shù)據(jù)查詢從數(shù)據(jù)倉庫擴(kuò)展到EB級的數(shù)據(jù)湖(如OSS),快速分析任何規(guī)模的數(shù)據(jù),沒有MaxCompute存儲成本,無需加載或 ETL。

異構(gòu)數(shù)據(jù)支持是MaxCompute 2.0升級中的一項(xiàng)重大更新,意在豐富MaxCompute的數(shù)據(jù)處理生態(tài),打破數(shù)據(jù)孤島,打通阿里云核心計(jì)算平臺與阿里云各個重要存儲服務(wù)之間的數(shù)據(jù)鏈路。

c. Python 生態(tài)和 MARS科學(xué)計(jì)算引擎

MaxCompute 的開源生態(tài)體系中,對 Python 的支持主要包括 PyODPS、Python UDF、和 MARS。

PyODPS一方面是MaxCompute 的 Python SDK,同時也提供 DataFrame 框架,提供類似 pandas 的語法,能利用 MaxCompute 強(qiáng)大的處理能力來處理超大規(guī)模數(shù)據(jù)。

基于MaxCompute豐富的用戶自定義函數(shù)(UDF)支持,用戶可以在 ODPS SQL 中編寫 Python UDF 來擴(kuò)展 ODPS SQL。 MARS 則是為了賦能 MaxCompute 科學(xué)計(jì)算,全新開發(fā)的基于矩陣的統(tǒng)一計(jì)算框架。使用 Mars 進(jìn)行科學(xué)計(jì)算,不僅能大幅度減少分布式科學(xué)計(jì)算代碼編寫難度,在性能上也有大幅提升。

3.3 智能化

隨著大數(shù)據(jù)的發(fā)展,我們在幾年前就開始面對數(shù)據(jù)/作業(yè) 爆發(fā)式增長的趨勢。面對百萬計(jì)的作業(yè)和表,如何做管理呢?

MaxCompute通過對歷史作業(yè)特征的學(xué)習(xí)、基于對數(shù)據(jù)和作業(yè)的深刻理解,讓MaxCompute上的業(yè)務(wù)一定程度實(shí)現(xiàn)自適應(yīng)調(diào)整,讓算法和系統(tǒng)幫助用戶自動、透明、高效地進(jìn)行數(shù)倉管理和重構(gòu)優(yōu)化工作,實(shí)現(xiàn)更好地理解數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)智能排布和作業(yè)全球調(diào)度,做到大數(shù)據(jù)處理領(lǐng)域的“自動駕駛”,也就是我們所說的Auto Data Warehousing。

Auto Data Warehousing 在線上真實(shí)的業(yè)務(wù)中,到底能做什么呢?我們以Hash Clustering的自動推薦來小試牛刀。Hash Clustering 經(jīng)過一年多的發(fā)展,功能不斷完善,但對用戶來說,最難的問題仍然在于,給哪些表建立怎樣的Clustering策略是最佳的方案?

MaxCompute 基于 Auto Data Warehousing,來實(shí)現(xiàn)為用戶推薦如何使用 Hash Clustering,回答如何選擇Table、如何設(shè)置Clutering key和分桶數(shù)等問題,讓用戶在海量數(shù)據(jù)、海量作業(yè)、快速變化的業(yè)務(wù)場景下,充分利用平臺功能。

4. 商業(yè)化歷程

從2009年云梯到ODPS,再到MaxCompute,MaxCompute(ODPS) 這個大數(shù)據(jù)平臺已經(jīng)發(fā)展了十年。回顧 MaxCompute 的發(fā)展,首先從云梯到完成登月,成為了一個統(tǒng)一的大數(shù)據(jù)平臺。

2014年,MaxCompute 開始商業(yè)化的歷程,走出集團(tuán)、向公共云和專有云輸出,直面中國、乃至全球的用戶。面對挑戰(zhàn),MaxCompute 堅(jiān)持產(chǎn)品核心能力的增強(qiáng),以及差異化能力的打造, 贏得了客戶的選擇。

回顧上云歷程,公共云的第一個節(jié)點(diǎn)華東2上海在2014(13年)年7月開服,經(jīng)過4年多發(fā)展,MaxCompute 已在全球部署18個Region,為云上過萬家用戶提供大數(shù)據(jù)計(jì)算服務(wù),,客戶已覆蓋了新零售、傳媒、社交、互聯(lián)網(wǎng)金融、健康、教育等多個行業(yè)。專有云的起點(diǎn)則從2014年8月第一套POC環(huán)境部署開始,發(fā)展至今專有云總機(jī)器規(guī)模已超過10000臺;輸出項(xiàng)目150+套,客戶涵蓋城市大腦,大安全,稅務(wù),等多個重點(diǎn)行業(yè)。

今天,MaxCompute 在全球有超過十萬的服務(wù)器,通過統(tǒng)一的作業(yè)調(diào)度系統(tǒng)和統(tǒng)一的元數(shù)據(jù)管理,這十萬多臺服務(wù)器就像一臺計(jì)算機(jī),為全球用戶提供提供包括批計(jì)算、流計(jì)算、內(nèi)存計(jì)算、機(jī)器學(xué)習(xí)、迭代等一系列計(jì)算能力。這一整套計(jì)算平臺成為了阿里巴巴經(jīng)濟(jì)體,以及阿里云背后計(jì)算力的強(qiáng)有力支撐。MaxCompute 作為一個完整的大數(shù)據(jù)平臺,將不斷以技術(shù)驅(qū)動平臺和產(chǎn)品化發(fā)展,讓企業(yè)和社會能夠擁有充沛的計(jì)算能力,持續(xù)快速進(jìn)化,驅(qū)動數(shù)字中國。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9062

    瀏覽量

    143740
  • 阿里
    +關(guān)注

    關(guān)注

    6

    文章

    465

    瀏覽量

    34194

原文標(biāo)題:阿里靠什么支撐EB級計(jì)算力

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    維智科技亮相WIF2025創(chuàng)新先行者論壇暨商業(yè)航天新十年盛典

    1月23日,陶闖博士在“WIF2025創(chuàng)新先行者論壇暨商業(yè)航天新十年盛典”活動上,發(fā)表《當(dāng)AI走向太空》年度演講。
    的頭像 發(fā)表于 01-27 10:53 ?591次閱讀

    機(jī)房項(xiàng)目中的時間系統(tǒng):從忽視到謹(jǐn)慎的十年體會

    機(jī)房項(xiàng)目中的時間系統(tǒng):從忽視到謹(jǐn)慎的十年體會 做系統(tǒng)集成、機(jī)房項(xiàng)目這些,我對“時間同步”這個基礎(chǔ)環(huán)節(jié)的看法,變化其實(shí)挺大的。 剛?cè)胄心菚海瑫r間同步在方案里幾乎沒什么存在感。常見做法也很簡單:設(shè)備
    的頭像 發(fā)表于 01-20 13:13 ?144次閱讀

    云天勵飛出席GAIR 2025 AI算力新十年專場

    12月13日,GAIR 2025「AI 算力新十年」專場在深圳舉行。作為國內(nèi)前沿技術(shù)與產(chǎn)業(yè)變革的重要風(fēng)向標(biāo),GAIR大會歷經(jīng)七屆積淀,見證并推動了中國 AI 產(chǎn)業(yè)從算法突破、硬件迭代,到商業(yè)落地
    的頭像 發(fā)表于 12-22 09:38 ?414次閱讀

    東風(fēng)嵐圖與寧德時代正式簽署十年長期深化合作協(xié)議

    12月17日,東風(fēng)嵐圖與寧德時代正式簽署十年長期深化合作協(xié)議,雙方將在新技術(shù)合作、產(chǎn)品供應(yīng)、品牌共建、全球市場協(xié)同等領(lǐng)域展開全方位深度協(xié)同,確保東風(fēng)嵐圖未來動力電池的穩(wěn)定供應(yīng)與技術(shù)領(lǐng)先性,持續(xù)提升其在電池技術(shù)與供應(yīng)鏈安全領(lǐng)域的綜合競爭力。
    的頭像 發(fā)表于 12-19 09:52 ?529次閱讀

    縮短啟動時間的定制支持成為采用關(guān)鍵——持續(xù)選用Silex希來科無線模塊逾十年

    縮短啟動時間的定制支持成為采用關(guān)鍵——持續(xù)選用Silex希來科無線模塊逾十年
    的頭像 發(fā)表于 12-14 15:11 ?1198次閱讀
    縮短啟動時間的定制支持成為采用關(guān)鍵——持續(xù)選用Silex希來科無線模塊逾<b class='flag-5'>十年</b>

    華為五大創(chuàng)新開啟非洲移動產(chǎn)業(yè)黃金十年

    在2025非洲通信展(AfricaCom 2025)期間,華為無線網(wǎng)絡(luò)產(chǎn)品線營銷副總裁陳實(shí)發(fā)表“創(chuàng)新開啟非洲移動產(chǎn)業(yè)黃金十年”主題演講,表示非洲是充滿活力的數(shù)字熱土,華為將聚焦“新流量、新體驗(yàn)
    的頭像 發(fā)表于 11-14 16:23 ?1437次閱讀

    Wi-Fi FEM研發(fā),開啟第二個十年

    轉(zhuǎn)載自《鐘林談芯》 人生如逆旅,我亦是行人。十年之旅,?一起同行,?步步開花,Wi-Fi FEM研發(fā),我們開啟第二個十年。 2015,在 銳迪科 (RDA)一起走進(jìn)Wi-Fi FEM賽道,未來的路
    的頭像 發(fā)表于 11-12 15:37 ?440次閱讀
    Wi-Fi FEM研發(fā),開啟第二個<b class='flag-5'>十年</b>

    十年·NDI在中國|影像志:見證視頻IP化的成長與未來

    十年前,NDI改變了世界;十年后,千視與NDI攜手,共同定義未來!《十年·NDI在中國紀(jì)錄片》從一個瘋狂的愿景開始NDI的誕生,源于一個看似瘋狂卻極具遠(yuǎn)見的構(gòu)想。它的創(chuàng)造者堅(jiān)信:隨著視頻技術(shù)
    的頭像 發(fā)表于 10-22 10:43 ?899次閱讀
    <b class='flag-5'>十年</b>·NDI在中國|影像志:見證視頻IP化的成長與未來

    NDI 十年:誕生 · 愿景 · 發(fā)展 · 未來— 獨(dú)家專訪 NDI 創(chuàng)始人 Andrew Cross博士

    十年前,幾乎沒有人相信視頻制作能脫離昂貴的基帶設(shè)備,完全依賴電腦與網(wǎng)絡(luò);而今天,NDI已成為全球公認(rèn)的IP視頻制作標(biāo)準(zhǔn)。2025,既是NDI的十周年,也是Kiloview與NDI攜手走過的第
    的頭像 發(fā)表于 10-10 11:03 ?611次閱讀
    NDI <b class='flag-5'>十年</b>:誕生 · 愿景 · 發(fā)展 · 未來— 獨(dú)家專訪 NDI 創(chuàng)始人 Andrew Cross博士

    手機(jī)長焦進(jìn)化史:攀過十年,終抵云巔

    跨越十年的技術(shù)攻堅(jiān),凝聚成華為Pura 80 系列的“集大成者”
    的頭像 發(fā)表于 08-15 03:29 ?1213次閱讀
    手機(jī)長焦進(jìn)化史:攀過<b class='flag-5'>十年</b>,終抵云巔

    十年積淀,DPVR AI眼鏡將正式亮相

    表示想要購買AI眼鏡。一個新的智能設(shè)備時代,正在打開。在這個節(jié)點(diǎn),深耕XR領(lǐng)域十年的DPVR(大朋VR),將帶來它的首款A(yù)I智能眼鏡——DPVRAIGlasses
    的頭像 發(fā)表于 08-14 11:47 ?1073次閱讀
    <b class='flag-5'>十年</b>積淀,DPVR AI眼鏡將正式亮相

    BOE(京東方)“照亮成長路”公益項(xiàng)目新十年啟幕 科技無界照亮美好未來

    的“世界高城”理塘,寓意該項(xiàng)目歷經(jīng)十年耕耘達(dá)到了全新的高度,也標(biāo)志著BOE(京東方)下一個十年公益征程的嶄新起點(diǎn)將由此啟幕。活動現(xiàn)場,BOE(京東方)宣布,今年將繼續(xù)向四川理塘縣、陜西富平縣、青海玉樹州雜多縣等地區(qū)捐建30間智慧教室。同時,在理塘活動現(xiàn)場,BOE(京東方)
    的頭像 發(fā)表于 06-10 09:01 ?609次閱讀

    十年磨一劍,百頻通萬物:國產(chǎn)無線通信突圍之路

    2025十年破壁,百頻織網(wǎng)BRIEFINTRODUCTION成都澤耀科技有限公司·導(dǎo)語·當(dāng)你家智能水表自動抄讀、工廠設(shè)備跨越百米鋼墻傳輸數(shù)據(jù)、牧場牛羊位置實(shí)時回傳時——背后可能藏著一枚硬幣大小的通信
    的頭像 發(fā)表于 06-09 15:21 ?1156次閱讀
    <b class='flag-5'>十年</b>磨一劍,百頻通萬物:國產(chǎn)無線通信突圍之路

    十年磨一劍,我的新書上市了!

    大家好,我是皮哥Peter,十年磨一劍,我的新書《打通Linux操作系統(tǒng)和芯片開發(fā)》上市了!今天,新書開啟了5折優(yōu)惠,滿滿的干貨,高顏值,雙色印刷,手感厚實(shí),新書原價139元,限時半價,只要69.5
    的頭像 發(fā)表于 04-01 07:33 ?700次閱讀
    <b class='flag-5'>十年</b>磨一劍,我的新書上市了!

    聚浪十年 共儲未來!2025元腦存儲分銷合作伙伴大會成功舉辦

    信息與存儲分銷伙伴攜手同行的十年歷程,共拓人工智能時代下存儲業(yè)務(wù)的戰(zhàn)略發(fā)展新路徑。 當(dāng)前,隨著人工智能技術(shù)的飛速發(fā)展,數(shù)據(jù)已成為新時代的"石油",驅(qū)動著各行各業(yè)的數(shù)字化轉(zhuǎn)型。大模型應(yīng)用的加速落地,智算新基建的深入推進(jìn),使得存儲作為數(shù)據(jù)
    的頭像 發(fā)表于 03-24 20:17 ?565次閱讀
    聚浪<b class='flag-5'>十年</b> 共儲未來!2025元腦存儲分銷合作伙伴大會成功舉辦