国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

eBay利用Hadoop建立了一個大規模的集群系統—Athena

倩倩 ? 來源:IT168 ? 2020-03-20 11:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在eBay上存儲著上億種商品的信息,而且每天有數百萬種的新商品增加,因此需要用云系統來存儲和處理PB級別的數據,而Hadoop則是個很好的選擇。

Hadoop是建立在商業硬件上的容錯、可擴展、分布式的云計算框架,eBay利用Hadoop建立了一個大規模的集群系統—Athena,它被分為五層(如下圖所示),下面從最底層向上開始介紹:

1)Hadoop核心層,包括Hadoop運行時環境、一些通用設施和HDFS,其中文件系統為讀寫大塊數據而做了一些優化,如將塊的大小由128MB改為256MB。

2)MapReduce層,為開發和執行任務提供API和控件。

3)數據獲取層,現在數據獲取層的主要框架是HBase、Pig和Hive:

·HBase是根據Google BigTable開發的按列存儲的多維空間數據庫,通過維護數據的劃分和范圍提供有序的數據,其數據儲存在HDFS上。

·Pig(Latin)是提供加載、篩選、轉換、提取、聚集、連接、分組等操作的面向過程的語言,開發者使用Pig建立數據管道和數據工廠。

·Hive是用于建立數據倉庫的使用SQL語法的聲明性語言。對于開發者、產品經理和分析師來說,SQL接口使得Hive成為很好的選擇。

4)工具和加載庫層,UC4是eBay從多個數據源自動加載數據的企業級調度程序。加載庫有:統計庫(R)、機器學習庫(Mahout)、數學相關庫(Hama)和eBay自己開發的用于解析網絡日志的庫(Mobius)。

5)監視和警告層,Ganglia是分布式集群的監視系統,Nagios則用來警告一些關鍵事件如服務器不可達、硬盤已滿等。

eBay的企業服務器運行著64位的RedHat Linux

·NameNode負責管理HDFS的主服務器;

·JobTracker負責任務的協調;

·HBaseMaster負責存儲HBase存儲的根信息,并且方便與數據塊或存取區域進行協調;

·ZooKeeper是保證HBase一致性的分布式鎖協調器。

用于存儲和計算的節點是1U大小的運行Cent OS的機器,每臺機器擁有2個四核處理器和2TB大小的存儲空間,每38~42個節點單元為一個rack,這組建成了高密度網格。有關網絡方面,頂層rack交換機到節點的帶寬為1Gbps,rack交換機到核心交換機的帶寬為40Gpbs。

這個集群是eBay內多個團隊共同使用的,包括產品和一次性任務。這里使用Hadoop公平調度器(Fair Scheduler)來管理分配、定義團隊的任務池、分配權限、限制每個用戶和組的并行任務、設置優先權期限和延遲調度。

▲數據流

數據流的具體處理過程如上圖所示,系統每天需要處理8TB至10TB的新數據,而Hadoop主要用于:

·基于機器學習的排序,使用Hadoop計算需要考慮多個因素(如價格、列表格式、賣家記錄、相關性)的排序函數,并需要添加新因素來驗證假設的擴展功能,以增強eBay物品搜索的相關性。

·對物品描述數據的挖掘,在完全無人監管的方式下使用數據挖掘和機器學習技術將物品描述清單轉化為與物品相關的鍵/值對,以擴大分類的覆蓋范圍。

·eBay的研究人員在系統構建和使用過程中遇到的挑戰及一些初步計劃有以下幾個方面:

·可擴展性,當前主系統的NameNode擁有擴展的功能,隨著集群的文件系統不斷增長,需要存儲大量的元數據,所以內存占有量也在不斷增長。若是1PB的存儲量則需要將近1GB的內存量,可能的解決方案是使用等級結構的命名空間劃分,或者使用HBase和ZooKeeper聯合對元數據進行管理。

·有效性,NameNode的有效性對產品的工作負載很重要,開源社區提出了一些備用選擇,如使用檢查點和備份節點、從Secondary NameNode中轉移到Avatar節點、日志元數據復制技術等。eBay研究人員根據這些方法建立了自己的產品集群。

·數據挖掘,在存儲非結構化數據的系統上建立支持數據管理、數據挖掘和模式管理的系統。新的計劃提議將Hive的元數據和Owl添加到新系統中,并稱為Howl。eBay研究人員努力將這個系統聯系到分析平臺上去,這樣用戶可以很容易地在不同的數據系統中挖掘數據。

·數據移動,eBay研究人員考慮發布數據轉移工具,這個工具可以支持在不同的子系統如數據倉庫和HDFS之間進行數據的復制。

·策略,通過配額實現較好的歸檔、備份等策略(Hadoop現有版本的配額需要改進)。eBay的研究人員基于工作負載和集群的特點對不同的集群確定配額。

·標準,eBay研究人員開發健壯的工具來為數據來源、消耗情況、預算情況、使用情況等進行度量。

同時eBay正在改變收集、轉換、使用數據的方式,以提供更好的商業智能服務。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94761
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136939
  • Hadoop
    +關注

    關注

    1

    文章

    90

    瀏覽量

    16936
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    中科曙光3套scaleX萬卡超集群落地國家超算互聯網鄭州核心節點

    2月5日,由中科曙光提供的3套萬卡超集群系統在國家超算互聯網鄭州核心節點同時上線試運行,成為全國首個實現3萬卡部署、且實際投入運營的最大國產AI算力池,全面覆蓋萬億參數模型訓練、高通量推理、AI for Science等大規模AI計算場景。
    的頭像 發表于 02-09 10:32 ?467次閱讀

    中科曙光scaleX萬卡超集群重塑超大規模算力基礎設施

    在“人工智能+”行動深入推進的當下,算力基礎設施已成為國家戰略競爭力的核心,而超大規模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得穩-用得好”的進階邏輯,重塑超大規模算力基礎
    的頭像 發表于 01-30 15:43 ?715次閱讀

    燧原科技榮獲2025年超大規模智算集群創新應用實踐成果

    近日,中國信息通信研究院(以下簡稱“中國信通院”)成功召開2025AI云產業發展大會。中國通信標準化協會理事長聞庫、中國信通院副院長王志勤出席會議并致辭。中國工程院院士鄭緯民作主旨報告。會議期間,發布了超大規模智算集群創新應用實踐成果,燧原科技國產萬卡推理
    的頭像 發表于 12-29 09:59 ?369次閱讀
    燧原科技榮獲2025年超<b class='flag-5'>大規模</b>智算<b class='flag-5'>集群</b>創新應用實踐成果

    部分能力超越2027年NVL576,中科曙光發布scaleX萬卡超集群

    2025年12月18日,在昆山舉行的光合組織2025人工智能創新大會(HAIC2025)上,中科曙光發布并展出了全球領先的大規模智能計算系統——scaleX萬卡超集群,這也是國產萬卡級AI集群
    發表于 12-18 18:30 ?1096次閱讀
    部分能力超越2027年NVL576,中科曙光發布scaleX萬卡超<b class='flag-5'>集群</b>

    中科曙光AI超集群系統和scaleX640超節點等產品全面適配DeepSeek V3.2

    層實現“跨層協同”,曙光AI超集群系統、scaleX640超節點等產品0day完成對DeepSeek新版本的深度適配與調優,支持各行各業客戶進行全量落地部署。
    的頭像 發表于 12-05 14:32 ?718次閱讀

    如何獲取易貝EBAY商品詳情 API 返回值說明?

    易貝(eBay)是在線拍賣和購物網站,提供了API(應用程序接口)供開發者獲取商品詳情等信息。使用
    的頭像 發表于 11-19 11:57 ?372次閱讀

    曙光AI超集群系統全面支持DeepSeek-V3.2-Exp

    9月29日,DeepSeek-V3.2-Exp正式發布并開源,引入創新的稀疏Attention架構。基于中國首個AI計算開放架構,芯片層、軟件層、模型層實現“跨層協同”,使得曙光AI超集群系統完成對DeepSeek新版本的深度適配與調優,支持各行各業客戶進行全量落地部署。
    的頭像 發表于 09-30 16:18 ?1718次閱讀

    標準集群和虛擬集群的區別是什么?

    遵循行業標準就可以互聯互通。 虛擬集群則是在DMR常規數字模式基礎上,通過私有協議和軟件控制實現的“準集群”功能。它不是官方標準,而是對標準功能的增強,如海能達XPT、北峰SVT、
    的頭像 發表于 09-19 16:52 ?780次閱讀
    標準<b class='flag-5'>集群</b>和虛擬<b class='flag-5'>集群</b>的區別是什么?

    中科曙光發布國內首個開放架構AI超集群系統

    9月5日,在2025重慶世界智能產業博覽會上,中科曙光發布了國內首個基于AI計算開放架構設計的產品——曙光AI超集群系統。該系統以GPU為核心,實現了“算、存、網、電、冷、管、軟”體化緊耦合
    的頭像 發表于 09-06 09:11 ?1445次閱讀

    使用Ansible實現大規模集群自動化部署

    當你面對1000+服務器需要部署時,你還在臺臺手工操作嗎?本文將揭秘如何用Ansible實現大規模集群的自動化部署,讓運維效率提升10倍!
    的頭像 發表于 08-27 14:41 ?814次閱讀

    大規模部署(如分布式光伏集群)時,裝置的通信網絡易出現哪些瓶頸(如擁堵、延遲

    LZ-DZ200A側面 在大規模分布式光伏集群等場景中,裝置通信網絡的瓶頸主要源于節點規模激增、數據量暴增、環境復雜等特點,具體可從以下維度分析: 、節點
    的頭像 發表于 08-22 09:50 ?863次閱讀
    <b class='flag-5'>大規模</b>部署(如分布式光伏<b class='flag-5'>集群</b>)時,裝置的通信網絡易出現哪些瓶頸(如擁堵、延遲

    北京東六環“煥新” 帶來城市空間新體驗→“集遠通信隧道無線通信系統

    FM調頻廣播應急系統、350M公安消防集群系統、400M調度對講系統、800M政務集群系統
    的頭像 發表于 05-12 14:31 ?1423次閱讀
    北京東六環“煥新” 帶來城市空間新體驗→“集遠通信隧道無線通信<b class='flag-5'>系統</b>”

    谷歌新代 TPU 芯片 Ironwood:助力大規模思考與推理的 AI 模型新引擎?

    Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項。 ? 在核心亮點層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設計的 TPU 芯片,能夠有力支持大規模思考
    的頭像 發表于 04-12 00:57 ?3717次閱讀

    5G 大規模物聯網系統級封裝 skyworksinc

    電子發燒友網為你提供()5G 大規模物聯網系統級封裝相關產品參數、數據手冊,更有5G 大規模物聯網系統級封裝的引腳圖、接線圖、封裝手冊、中文資料、英文資料,5G
    發表于 04-11 15:21
    5G <b class='flag-5'>大規模</b>物聯網<b class='flag-5'>系統</b>級封裝 skyworksinc

    大規模硬件仿真系統的編譯挑戰

    大規模集成電路設計的重要工具。然而,隨著設計規模的擴大和復雜度的增加,硬件仿真系統的編譯過程面臨著諸多挑戰。本文旨在探討基于FPGA的硬件仿真系統在編譯過程中所遇到的關
    的頭像 發表于 03-31 16:11 ?1440次閱讀
    <b class='flag-5'>大規模</b>硬件仿真<b class='flag-5'>系統</b>的編譯挑戰