All Projects → mydataharbor → mydataharbor

mydataharbor / mydataharbor

Licence: GPL-3.0 license
🇨🇳 MyDataHarbor是一个致力于解决任意数据源到任意数据源的分布式、高扩展性、高性能、事务级的数据同步中间件。帮助用户可靠、快速、稳定的对海量数据进行准实时增量同步或者定时全量同步,主要定位是为实时交易系统服务,亦可用于大数据的数据同步(ETL领域)。

Programming Languages

java
68154 projects - #9 most used programming language

Projects that are alternatives of or similar to mydataharbor

Datavec
ETL Library for Machine Learning - data pipelines, data munging and wrangling
Stars: ✭ 272 (+871.43%)
Mutual labels:  pipeline, etl
Setl
A simple Spark-powered ETL framework that just works 🍺
Stars: ✭ 79 (+182.14%)
Mutual labels:  pipeline, etl
Go Streams
A lightweight stream processing library for Go
Stars: ✭ 615 (+2096.43%)
Mutual labels:  pipeline, etl
DataBridge.NET
Configurable data bridge for permanent ETL jobs
Stars: ✭ 16 (-42.86%)
Mutual labels:  etl, data-sync
Bulk Writer
Provides guidance for fast ETL jobs, an IDataReader implementation for SqlBulkCopy (or the MySql or Oracle equivalents) that wraps an IEnumerable, and libraries for mapping entites to table columns.
Stars: ✭ 210 (+650%)
Mutual labels:  pipeline, etl
etl
M-Lab ingestion pipeline
Stars: ✭ 15 (-46.43%)
Mutual labels:  pipeline, etl
Stetl
Stetl, Streaming ETL, is a lightweight geospatial processing and ETL framework written in Python.
Stars: ✭ 64 (+128.57%)
Mutual labels:  pipeline, etl
Phila Airflow
Stars: ✭ 16 (-42.86%)
Mutual labels:  pipeline, etl
Airbyte
Airbyte is an open-source EL(T) platform that helps you replicate your data in your warehouses, lakes and databases.
Stars: ✭ 4,919 (+17467.86%)
Mutual labels:  pipeline, etl
Metl
mito ETL tool
Stars: ✭ 153 (+446.43%)
Mutual labels:  pipeline, etl
lineage
Generate beautiful documentation for your data pipelines in markdown format
Stars: ✭ 16 (-42.86%)
Mutual labels:  pipeline, etl
naas
⚙️ Schedule notebooks, run them like APIs, expose securely your assets: Jupyter as a viable ⚡️ Production environment
Stars: ✭ 219 (+682.14%)
Mutual labels:  pipeline, etl
sparklanes
A lightweight data processing framework for Apache Spark
Stars: ✭ 17 (-39.29%)
Mutual labels:  pipeline, etl
basin
Basin is a visual programming editor for building Spark and PySpark pipelines. Easily build, debug, and deploy complex ETL pipelines from your browser
Stars: ✭ 25 (-10.71%)
Mutual labels:  pipeline, etl
maxwell-sink
consume maxwell generated message from kafka,export it to another mysql.
Stars: ✭ 16 (-42.86%)
Mutual labels:  etl, data-sync
Mara Pipelines
A lightweight opinionated ETL framework, halfway between plain scripts and Apache Airflow
Stars: ✭ 1,841 (+6475%)
Mutual labels:  pipeline, etl
neo4j-jdbc
JDBC driver for Neo4j
Stars: ✭ 110 (+292.86%)
Mutual labels:  etl, jdbc
dogETL
A lib to transform data from jdbc,csv,json to ecah other.
Stars: ✭ 15 (-46.43%)
Mutual labels:  etl, jdbc
howtheydevops
A curated collection of publicly available resources on how companies around the world practice DevOps
Stars: ✭ 318 (+1035.71%)
Mutual labels:  pipeline
sqlite-jna
Java wrapper and Jdbc driver for SQLite using JNA or Bridj or JNR or JNI or JavaCPP.
Stars: ✭ 20 (-28.57%)
Mutual labels:  jdbc


logo

GitHub-CI 查看发行的版本 maven仓库 下载数量 开源协议 插件列表

欢迎前端、插件开发人员前来贡献代码,感兴趣的请联系我:[email protected]

简介/定位

🇨🇳 🚢 MyDataHarbor是一个致力于解决任意数据源到任意数据源的分布式、高扩展性、高性能、事务级、准实时的数据同步中间件。

它可以帮助用户可靠、快速、稳定的对海量数据进行准实时增量同步或者定时全量同步,主要定位是为实时交易系统服务,亦可用于大数据的数据同步(ETL领域)。

背景

在微服务的大背景下,实时交易系统的数据的分散存储已经成为常态,然而有时候我们需要对这些数据进行实时或者定时全量的同步到另外一个地方。

比如,一个公司的C部门的系统,需要用到A、B部门产生的数据,这时候避免不了进行全量或者增量的数据同步。再比如,数据库中的数据我要实时同步到elasticsearch、redis等等中进行搜索。

数据同步的应用场景在日常的分布式系统开发中非常常见,而且非常重要,一旦数据同步出现问题,将会导致数据不一致,引起其他严重的异常。

目前小公司的做法是在业务程序系统里修改代码,往目标数据源中写入数据,上点规模的公司的做法是,各个部门开发一套自己的同步小程序,没有管理,更可能没有监控,来一个需求开发一个、非常浪费资源,稳定性也得不到保障,而大公司则是有一套数据迁移平台(如阿里的精卫)。

MyDataHarbor在这种场景需求下应用而生!

特性

🚩分布式设计

MyDataHarbor是一个在zookeeper上构建的分布式中间件,支持水平扩展,对节点进行分组,各分组下的机器形成一个子集群,任务在子集群隔离范围内进行负载均衡,防止单点故障。

🚩插件式设计

高度合理的抽象、插件化的设计使得MyDataHarbor拥有很高扩展性,任何数据迁移的需求都可以通过开发插件完成。

🚩事务支持

MyDataHarbor设计之初就考虑到数据丢失问题,引入事务的支持保障数据不丢失!

🚩插件自描述

安装插件后中间件会自动识别这个插件的能力,并且生成用户UI友好的任务创建界面,不需要用户直接编写复杂的json配置。

🚩自由组合

MyDataHarbor支持从不同的插件中复用各种组件,形一个新的pipeline管道,并且这些都是可以通过可视化的方式进行。

🚩任务监控

对接java的jmx,每个任务都有详细的监控,实时查看任务的运行状态。

🚩批量支持

为可以批量进行提交的写入源预留批量接口通道,有效提升数据迁移速度,摩托变汽车。

🚩ForkJoin

对于DataSource无法多线程并发拉取的情况下(如jdbc游标取数据),内部引入forkjoin并发处理模型开启多线程处理,并且灵活的事务控制,让速度飞快的同时保证数据迁移的稳定、不丢失,汽车变高铁。

设计

MyDataHarbor唯一依赖的中间件是zookeeper,共有两个组件:mydataharbor-console、mydataharbor-server 集群设计 节点任务设计

支持的插件

中间件/协议 数据源(DataSource) 写入源(Sink) 作者 备注
kafka 全部版本 全部版本 MyDataHarbor
redis 暂不考虑 全部版本 MyDataHarbor 支持连接单机,主从,哨兵,cluster模式的各种redis服务端
目前支持string数据格式的操作
有需要可以联系作者扩展:list、set、zset、hash
elasticsearch 计划中 5.6.x6.4.x6.0.x
6.8.x6.5.x6.6.x
6.7.x7.7.x7.13.x
MyDataHarbor
http 暂不考虑 MyDataHarbor
jdbc mysql全部版本
oracle全部版本
hive全部版本
PostgrcSQL计划中
mysql全部版本
oracle全部版本
PostgrcSQL计划中
MyDataHarbor 三种模式(全量/增量/先全量再增量)
此种方式无法同步删除的数据
MongoDB 计划中 计划中 虚位以待
binlog 计划中 × 虚位以待
rabbitMQ 计划中 计划中 虚位以待
RocketMQ 计划中 计划中 虚位以待

快速开始

MyDataHarbor的安装非常简单(启动前请先准备好zookeeper集群):

下载二进制包

下载地址:https://github.com/mydataharbor/mydataharbor/releases 下载列表:

  mydataharbor-console-xxx-bin.tar.gz
  mydataharbor-server-xxx-bin.tar.gz

xxx是发行的版本号

mydataharbor-console

解压

image-20210812143819918

配置

进入config目录,修改application.yml,主要修改如下配置

server:
  port: 8080 #console服务启动端口
zk: 127.0.0.1:2181 #zk地址

运行

Windows系统下运行 start.bat
Linux系统下运行 start.sh  关闭stop.sh

start.sh 脚本支持 jmx、debug、status参数 如:
start.sh jmx 启动远程jmx支持
start.sh debug 开启远程debug方式启动
start.sh status 查看当前程序状态

mydataharbor-server

解压

image-20210812144430744

配置

修改config目录下的system.yml

zk: ["127.0.0.1:2181"] #zk地址
port: 1299 #server服务启动端口
group: biz001 #该节点所属组
pluginRepository: http://127.0.0.1:8080 #插件仓库地址

运行

Windows系统下运行 start.bat
Linux系统下运行 start.sh  关闭stop.sh

start.sh 脚本支持 jmx、debug、status参数 如:
start.sh jmx 启动远程jmx支持
start.sh debug 开启远程debug方式启动
start.sh status 查看当前程序状态

验证

访问:mydataharbor-console  http://127.0.0.1:8080 是否可以看到刚刚启动的节点 image-20210812143819918

其它

demo运行实例:http://mydataharbor.com:8080/

插件市场:https://www.mydataharbor.com/user/info.html

文档(语雀):http://doc.mydataharbor.com

QQ群(加群时需要验证项目star数,请star一下然后记下star数告诉管理员

QQ群

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].