国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

8種主流數據遷移工具技術選型

jf_ro2CN3Fa ? 來源:蘇三說技術 ? 2023-04-20 17:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

最近有些小伙伴問我,ETL數據遷移工具該用哪些。

ETL(是Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程),對于企業應用來說,我們經常會遇到各種數據的處理、轉換、遷移的場景。

今天特地給大家匯總了一些目前市面上比較常用的ETL數據遷移工具,希望對你會有所幫助。

1.Kettle

Kettle是一款國外開源的ETL工具,純Java編寫,綠色無需安裝,數據抽取高效穩定 (數據遷移工具)。

Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數據的基礎轉換,job 則完成整個工作流的控制。

Kettle 中文名稱叫水壺,該項目的主程序員 MATT 希望把各種數據放到一個壺里,然后以一種指定的格式流出。

17508ce0-d3ef-11ed-bfe3-dac502259ad0.png

Kettle 這個 ETL 工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述你想做什么,而不是你想怎么做。

1774c2b8-d3ef-11ed-bfe3-dac502259ad0.png

Kettle 家族目前包括 4 個產品:Spoon、Pan、CHEF、Kitchen。

SPOON:允許你通過圖形界面來設計 ETL 轉換過程(Transformation)。

PAN:允許你批量運行由 Spoon 設計的 ETL 轉換 (例如使用一個時間調度器)。Pan 是一個后臺執行的程序,沒有圖形界面。

CHEF:允許你創建任務(Job)。任務通過允許每個轉換,任務,腳本等等,更有利于自動化更新數據倉庫的復雜工作。任務通過允許每個轉換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。

KITCHEN:允許你批量使用由 Chef 設計的任務 (例如使用一個時間調度器)。KITCHEN 也是一個后臺運行的程序。

2.Datax

DataX是阿里云 DataWorks數據集成的開源版本,在阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺。

DataX 是一個異構數據源離線同步工具,致力于實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。

17960cb6-d3ef-11ed-bfe3-dac502259ad0.png

設計理念:為了解決異構數據源同步問題,DataX將復雜的網狀的同步鏈路變成了星型數據鏈路,DataX作為中間傳輸載體負責連接各種數據源。當需要接入一個新的數據源的時候,只需要將此數據源對接到DataX,便能跟已有的數據源做到無縫數據同步。

當前使用現狀:DataX在阿里巴巴集團內被廣泛使用,承擔了所有大數據的離線同步業務,并已持續穩定運行了6年之久。目前每天完成同步8w多道作業,每日傳輸數據量超過300TB。

DataX本身作為離線數據同步框架,采用Framework + plugin架構構建。將數據源讀取和寫入抽象成為Reader/Writer插件,納入到整個同步框架中。

17af668e-d3ef-11ed-bfe3-dac502259ad0.png

DataX 3.0 開源版本支持單機多線程模式完成同步作業運行,本小節按一個DataX作業生命周期的時序圖,從整體架構設計非常簡要說明DataX各個模塊相互關系。

17bfd262-d3ef-11ed-bfe3-dac502259ad0.png

DataX 3.0六大核心優勢:

可靠的數據質量監控

豐富的數據轉換功能

精準的速度控制

強勁的同步性能

健壯的容錯機制

極簡的使用體驗

3.DataPipeline

DataPipeline采用基于日志的增量數據獲取技術( Log-based Change Data Capture ),支持異構數據之間豐富、自動化、準確的語義映射構建,同時滿足實時與批量的數據處理。

可實現 Oracle、IBM DB2、MySQL、MS SQL Server、PostgreSQL、GoldenDB、TDSQL、OceanBase 等數據庫準確的增量數據獲取。

平臺具備“數據全、傳輸快、強協同、更敏捷、極穩定、易維護”六大特性。

在支持傳統關系型數據庫的基礎上,對大數據平臺、國產數據庫、云原生數據庫、API 及對象存儲也提供廣泛的支持,并在不斷擴展。

DataPipeline 數據融合產品致力于為用戶提供企業級數據融合解決方案,為用戶提供統一平臺同時管理異構數據節點實時同步與批量數據處理任務,在未來還將提供對實時流計算的支持。

采用分布式集群化部署方式,可水平垂直線性擴展的,保證數據流轉穩定高效,讓客戶專注數據價值釋放。

17dda512-d3ef-11ed-bfe3-dac502259ad0.png

產品特點:

全面的數據節點支持:支持關系型數據庫、NoSQL數據庫、國產數據庫、數據倉庫、大數據平臺、云存儲、API等多種數據節點類型,可自定義數據節點。

高性能實時處理:針對不同數據節點類型提供TB級吞吐量、秒級低延遲的增量數據處理能力,加速企業各類場景的數據流轉。

分層管理降本增效:采用“數據節點注冊、數據鏈路配置、數據任務構建、系統資源分配”的分層管理模式,企業級平臺的建設周期從三到六個月減少為一周。

無代碼敏捷管理:提供限制配置與策略配置兩大類十余種高級配置,包括靈活的數據對象映射關系,數據融合任務的研發交付時間從2周減少為5分鐘。

極穩定高可靠:采用分布式架構,所有組件均支持高可用,提供豐富容錯策略,應對上下游的結構變化、數據錯誤、網絡故障等突發情況,可以保證系統業務連續性要求。

全鏈路數據可觀測:配備容器、應用、線程、業務四級監控體系,全景駕駛艙守護任務穩定運行。自動化運維體系,靈活擴縮容,合理管理和分配系統資源。

4.Talend

Talend (踏藍) 是第一家針對的數據集成工具市場的 ETL (數據的提取 Extract、傳輸 Transform、載入 Load) 開源軟件供應商。

18019d28-d3ef-11ed-bfe3-dac502259ad0.png

Talend 以它的技術和商業雙重模式為 ETL 服務提供了一個全新的遠景。它打破了傳統的獨有封閉服務,提供了一個針對所有規模的公司的公開的,創新的,強大的靈活的軟件解決方案。

5.DataStage

DataStage,即IBM WebSphere DataStage,是一套專門對多種操作數據源的數據抽取、轉換和維護過程進行簡化和自動化,并將其輸入數據集市或數據倉庫目標數據庫的集成工具,可以從多個不同的業務系統中,從多個平臺的數據源中抽取數據,完成轉換和清洗,裝載到各種系統里面。

其中每步都可以在圖形化工具里完成,同樣可以靈活地被外部系統調度,提供專門的設計工具來設計轉換規則和清洗規則等,實現了增量抽取、任務調度等多種復雜而實用的功能。其中簡單的數據轉換可以通過在界面上拖拉操作和調用一些 DataStage 預定義轉換函數來實現,復雜轉換可以通過編寫腳本或結合其他語言的擴展來實現,并且 DataStage 提供調試環境,可以極大提高開發和調試抽取、轉換程序的效率。

Datastage 操作界面

181d0a86-d3ef-11ed-bfe3-dac502259ad0.png

對元數據的支持:Datastage 是自己管理 Metadata,不依賴任何數據庫。

數控制:Datastage 可以對每個 job 設定參數,并且可以 job 內部引用這個參數名。

數據質量:Datastage 有配套用的 ProfileStage 和 QualityStage 保證數據質量。

定制開發:提供抽取、轉換插件的定制,Datastage 內嵌一種類 BASIC 語言,可以寫一段批處理程序來增加靈活性。

修改維護:提供圖形化界面。這樣的好處是直觀、傻瓜式的;不好的地方就是改動還是比較費事(特別是批量化的修改)。

Datastage 包含四大部件:

Administrator:新建或者刪除項目,設置項目的公共屬性,比如權限。

Designer:連接到指定的項目上進行 Job 的設計;

Director:負責 Job 的運行,監控等。例如設置設計好的 Job 的調度時間。

Manager:進行 Job 的備份等 Job 的管理工作。

6.Sqoop

Sqoop 是 Cloudera 公司創造的一個數據同步工具,現在已經完全開源了。

目前已經是 hadoop 生態環境中數據遷移的首選 Sqoop 是一個用來將 Hadoop 和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(例如 :MySQL ,Oracle ,Postgres 等)中的數據導入到 Hadoop 的 HDFS 中,也可以將 HDFS 的數據導入到關系型數據庫中。

183b24ee-d3ef-11ed-bfe3-dac502259ad0.png

他將我們傳統的關系型數據庫 | 文件型數據庫 | 企業數據倉庫 同步到我們的 hadoop 生態集群中。

同時也可以將 hadoop 生態集群中的數據導回到傳統的關系型數據庫 | 文件型數據庫 | 企業數據倉庫中。

那么 Sqoop 如何抽取數據呢?

1867472c-d3ef-11ed-bfe3-dac502259ad0.png

首先 Sqoop 去 rdbms 抽取元數據。

當拿到元數據之后將任務切成多個任務分給多個 map。

然后再由每個 map 將自己的任務完成之后輸出到文件。

7.FineDataLink

FineDataLink是國內做的比較好的ETL工具,FineDataLink是一站式的數據處理平臺,具備高效的數據同步功能,可以實現實時數據傳輸、數據調度、數據治理等各類復雜組合場景的能力,提供數據匯聚、研發、治理等功能。

FDL擁有低代碼優勢,通過簡單的拖拽交互就能實現ETL全流程。

1881bdbe-d3ef-11ed-bfe3-dac502259ad0.png

FineDataLink——中國領先的低代碼/高時效數據集成產品,能過為企業提供一站式的數據服務,通過快速連接、高時效融合多種數據,提供低代碼Data API敏捷發布平臺,幫助企業解決數據孤島難題,有效提升企業數據價值。

8.canal

canal [k?'n?l],譯意為水道/管道/溝渠,主要用途是基于 MySQL 數據庫增量日志解析,提供增量數據訂閱和消費。

18a6279e-d3ef-11ed-bfe3-dac502259ad0.png

早期阿里巴巴因為杭州和美國雙機房部署,存在跨機房同步的業務需求,實現方式主要是基于業務 trigger 獲取增量變更。從 2010 年開始,業務逐步嘗試數據庫日志解析獲取增量變更進行同步,由此衍生出了大量的數據庫增量訂閱和消費業務。

基于日志增量訂閱和消費的業務包括:

數據庫鏡像

數據庫實時備份

索引構建和實時維護(拆分異構索引、倒排索引等)

業務 cache 刷新

帶業務邏輯的增量數據處理

當前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x。

18bf22e4-d3ef-11ed-bfe3-dac502259ad0.png

MySQL master 將數據變更寫入二進制日志( binary log, 其中記錄叫做二進制日志事件binary log events,可以通過 show binlog events 進行查看)。

MySQL slave 將 master 的 binary log events 拷貝到它的中繼日志(relay log)。

MySQL slave 重放 relay log 中事件,將數據變更反映它自己的數據。

canal 工作原理

canal 模擬 MySQL slave 的交互協議,偽裝自己為 MySQL slave ,向 MySQL master 發送dump 協議

MySQL master 收到 dump 請求,開始推送 binary log 給 slave (即 canal )

canal 解析 binary log 對象(原始為 byte 流)







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ETL
    ETL
    +關注

    關注

    0

    文章

    25

    瀏覽量

    10118
  • JAVA語言
    +關注

    關注

    0

    文章

    138

    瀏覽量

    21531
  • HDFS
    +關注

    關注

    1

    文章

    32

    瀏覽量

    10115
  • 調度器
    +關注

    關注

    0

    文章

    99

    瀏覽量

    5683

原文標題:8 種主流數據遷移工具技術選型,yyds!

文章出處:【微信號:芋道源碼,微信公眾號:芋道源碼】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    對講機天線技術方案選型指南與應用方案解析

    對講機作為一重要的通信工具,在公共安全、應急救援、物流運輸、工業制造等領域擁有廣泛的應用。而對講機的性能表現不僅取決于主機本身,還與天線方案的選型息息相關。天線作為對講機發射與接收信號的關鍵元件
    的頭像 發表于 01-09 16:17 ?711次閱讀

    汽車網絡安全開發語言選型指南:C/C++/Rust/Java等主流語言對比+Perforce QAC/Klocwork工具支持

    汽車網絡安全如何選編程語言?C、C++、Rust、Java……誰更適合AUTOSAR、ISO/SAE 21434?一文了解8主流語言的優劣與適用場景,以及Perforce QAC/Klocwork對MISRA、CERT等規范的
    的頭像 發表于 12-26 11:13 ?426次閱讀
    汽車網絡安全開發語言<b class='flag-5'>選型</b>指南:C/C++/Rust/Java等<b class='flag-5'>主流</b>語言對比+Perforce QAC/Klocwork<b class='flag-5'>工具</b>支持

    藍牙信標、UWB等主流室內定位無線技術的參數對比、核心算法和選型指南詳解(二)

    本文系統解析室內定位無線技術,涵蓋藍牙、Wi-Fi、UWB、RFID、超聲波、可見光等主流技術的原理、參數對比與核心算法(RSSI、TDOA、AoA),并提供按精度、成本、場景匹配的選型
    的頭像 發表于 12-12 16:28 ?1718次閱讀
    藍牙信標、UWB等<b class='flag-5'>主流</b>室內定位無線<b class='flag-5'>技術</b>的參數對比、核心算法和<b class='flag-5'>選型</b>指南詳解(二)

    zfs數據恢復—ZFS存儲遷移數據讀不出數據怎么恢復數據

    管理員對一臺存儲設備內的文件進行遷移操作時,數據突然無法讀取,管理界面出現報錯。管理員查看數據時發現其中一個lun的數據丟失。
    的頭像 發表于 12-09 14:10 ?281次閱讀
    zfs<b class='flag-5'>數據</b>恢復—ZFS存儲<b class='flag-5'>遷移數據</b>讀不出<b class='flag-5'>數據</b>怎么恢復<b class='flag-5'>數據</b>?

    無質量損失的數據遷移:Nikon SLM Solutions信賴3Dfindit企業版

    數據遷移,并從另外兩個應用中獲益:戰略性零部件管理和ECAD集成。作為金屬增材制造集成解決方案的全球供應商,該公司被認為是選區激光熔化技術的先驅。其創新技術被廣泛應用于各行各業,包括
    發表于 11-25 10:06

    新型超快速單脈沖技術解決傳統遷移率測量挑戰

    溝道有效遷移率 (μeff) 通過載流子速度和驅動電流影響MOSFET性能。它是互補金屬氧化物半導體的關鍵參數之一 (CMOS) 技術。 隨著新型介電材料的出現,傳統的遷移率評估測量技術
    的頭像 發表于 11-17 13:58 ?3129次閱讀
    新型超快速單脈沖<b class='flag-5'>技術</b>解決傳統<b class='flag-5'>遷移</b>率測量挑戰

    8常用的CRC算法分享

    CRC 計算單元可按所選擇的算法和參數配置來生成數據流的 CRC 碼。有些應用中,可利用 CRC 技術來驗證數據的傳輸和存儲的完整性。 8
    發表于 11-13 07:25

    華大電子支持的主流開發工具有哪些

    華大電子支持的主流開發工具
    的頭像 發表于 09-28 10:43 ?528次閱讀
    華大電子支持的<b class='flag-5'>主流</b>開發<b class='flag-5'>工具</b>有哪些

    微電子所在芯粒集成電遷移EDA工具研究方向取得重要進展

    隨著高性能人工智能算法的快速發展,芯粒(Chiplet)集成系統憑借其滿足海量數據傳輸需求的能力,已成為極具前景的技術方案。該技術能夠提供高速互連和大帶寬,減少跨封裝互連,具備低成本、高性能等顯著
    的頭像 發表于 09-01 17:40 ?693次閱讀
    微電子所在芯粒集成電<b class='flag-5'>遷移</b>EDA<b class='flag-5'>工具</b>研究方向取得重要進展

    三款主流國產數據庫的技術特點

    隨著數字經濟的快速發展和數據安全要求的提升,國產數據庫正迎來前所未有的發展機遇。在信創浪潮推動下,達夢數據庫、TiDB、華為高斯數據庫等國產數據
    的頭像 發表于 07-14 11:08 ?1148次閱讀

    載流子遷移率提高技術詳解

    在高k金屬柵之外,另一等效擴充的方法是增加通過器件溝道的電子或空穴的遷移率。表2.5列舉了一些提高器件載流子遷移率的手段及其對 PMOS或者 NMOS的作用。
    的頭像 發表于 05-30 15:19 ?1432次閱讀
    載流子<b class='flag-5'>遷移</b>率提高<b class='flag-5'>技術</b>詳解

    博鼎彈簧發布數字目錄實現穩定高效且易于操作的技術數據管理

    CADENAS****技術顛覆產品數據提供方式:一全新的、行業領先的數字目錄 Mollificio Bordignon公司是一家以生產各種高質量彈簧而聞名的公司,為了進一步提高產品數據
    發表于 05-23 10:52

    靈動微電子MM32MCU的主流型芯片選型

    靈動微電子MM32系列32位MCU已經在江湖上久負盛名,以產品平臺化、系列化、兼容性好、性價比高、易于開發著稱。MM32MCU分為超值型、主流型、性能型、低功耗、汽車控制、電機與電源等六大系列。今天給大家綜合介紹MM32MCU的主流型芯片
    的頭像 發表于 05-06 13:32 ?2824次閱讀
    靈動微電子MM32MCU的<b class='flag-5'>主流</b>型芯片<b class='flag-5'>選型</b>

    中軟國際推出金融數據信創遷移與集成解決方案

    隨著國家對信息技術應用創新戰略的深入推進,金融行業作為國民經濟的重要支柱,成為國產化替代的關鍵領域。這一轉型過程面臨著國產化產品選型復雜、傳統系統與信創平臺兼容性不足、數據遷移風險高、
    的頭像 發表于 04-10 16:08 ?1021次閱讀

    LCR測試儀數據傳輸接口類型選型指南

    LCR測試儀作為電子元件參數測量的核心工具,其數據傳輸接口直接影響測試效率、系統集成能力和數據管理靈活性。隨著自動化測試和智能制造需求的提升,理解不同接口的技術特性、應用場景及
    的頭像 發表于 04-01 15:16 ?925次閱讀
    LCR測試儀<b class='flag-5'>數據</b>傳輸接口類型<b class='flag-5'>選型</b>指南