# database-sync

**Repository Path**: somenzz/database-sync

## Basic Information

- **Project Name**: database-sync
- **Description**: 数据库表同步工具、数据仓库工具、数据集市工具，数据抽取。传入一定的参数，即可在相同或不同的数据库间进行表的同步，包括表结构的同步及数据的同步。作业由调试工具进行调度，本项目旨在提供支持各种数据库间表同步的能力
- **Primary Language**: Java
- **License**: AGPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 46
- **Forks**: 25
- **Created**: 2020-04-12
- **Last Updated**: 2025-03-25

## Categories & Tags

**Categories**: dbmanager

**Tags**: None

## README

# [database-sync](https://gitee.com/somenzz/database-sync)

这是为数据开发人员使用的辅助工具，用于数据库之间的表同步，说同步并不严谨，因为不是实时更新的，更确切的说法是复制，可以方便的从一个数据库复制表到另一个数据库，以下遇到同步的词请理解为复制。

## 介绍

需求背景：

有很多业务系统，他们的数据库是相互独立的，需要把这些数据归集在一个数据库中（数据仓库），以便做数据统计和分析。希望能有这样的工具，输入数据库名，表名就可以将数据从源数据库拷贝到目标数据库中。具体需求如下：

- 能自动同步表结构，如：源表扩字段，目标表自动扩字段。
- 支持增量或全量同步数据，可以仅同步某个日期之后的数据。
- 支持指定字段同步，只同步关心的那些字段。
- 支持主流的关系型数据库: mysql、db2、postgresql、oracle、sqlserver
- 源表和目标表表名可以不同，字段名也可以不同（已存在目标表的情况下）

因为自己要用，我就自己写了一个，顺便熟悉下 java 开发（之前一直用 Python），本程序的最大用处就是构建集市或数仓所需要的基础层数据源，欢迎感兴趣的朋友一起加入。

## 程序的使用方法

### Docker 方式：

这里用到三个容器:
- app 也就是主程序本身，app 容器使用的程序文件就是 release 目录下的文件，已经做了绑定。
- mysql 测试用的数据库，已提前放好了 7000 条测试数据。
- postgres 测试用的数据库，没有数据。

先部署，执行 `docker-compose up -d` 就自动完成了部署：

```sh
$ git clone https://github.com/somenzz/database-sync.git
$ cd database-sync
$ docker-compose up -d
Creating database-sync_postgres_1 ... done
Creating database-sync_app_1      ... done
Creating database-sync_mysql_1    ... done
```
这样三个容器就启动了，使用 `docker ps -a |grep database-sync` 可以查看到三个正在运行的容器：

![](images/1.jpg)

现在直接使用 `docker exec -i database-sync_app_1 java -jar database-sync-1.3.jar` 来执行程序：

![](images/2.jpg)

mysql 容器已有测试数据，`release/config/config.json` 已经配置好了数据库的连接，因此可以直接试用，以下演示的是从 mysql 复制表和数据到 postgres：

#### 1. 全量复制，自动建表：

```sh
docker exec -i database-sync_app_1 java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public users --sync-ddl
```
![](images/3.jpg)


如果你不想每次都敲 `docker exec -i database-sync_app_1` ，可以进入容器内部执行：

```sh
(py38env) ➜  database-sync git:(master) ✗ docker exec -it database-sync_app_1 /bin/bash
root@063b1dc76fe1:/app# ls
config	database-sync-1.3.jar  lib  logs
root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public users -sd
```

#### 2. 增量复制：

```sh
root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public zz_users "create_at >= '2018-01-09'"
```
![](images/4.jpg)

#### 3. 指定字段：

```sh
root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public zz_users -ff="user_id,name,age" -tf="user_id,name,age" "create_at >= '2018-01-09'"
```
![](images/5.jpg)


### 普通方式

程序运行前确保已安装 java 1.8 或后续版本，已经安装 maven，然后 clone 源码，打包：

```sh
git clone https://gitee.com/somenzz/database-sync.git
cd database-sync
mvn package
```
此时你会看到 target 目录，将 target 下的 lib 目录 和 database-sync-1.3.jar 复制出来，放在同一目录下，然后再创建一个 config 目录，在 config 下新建一个 config.json 文件写入配置信息，然后将这个目录压缩，就可以传到服务器运行了，请注意先充分测试，jdk 要求 1.8+

```sh
[aaron@hdp002 /home/aaron/App/Java/database-sync]$ ls -ltr
total 48
drwxr-xr-x 2 aaron aaron  4096 Apr 23  2020 lib
-rwxrw-r-- 1 aaron aaron   157 Jun 23  2020 run.sh
drwxrwxr-x 2 aaron aaron  4096 Jul  3  2020 logs
-rw-rw-r-- 1 aaron aaron 24773 Mar 16  2021 database-sync-1.3.jar
drwxr-xr-x 7 aaron aaron  4096 Aug  3  2020 jdk1.8.0_231
drwxrwxr-x 2 aaron aaron  4096 Feb 19 17:07 config
```

你也可以直接下载我打包好的使用。

程序名称叫 database-sync，运行方式是这样的：

```sh
(py38env) ➜  target git:(master) ✗ java -jar database-sync-1.3.jar -h      
Usage: 
java -jar database-sync-1.0.jar [options] {fromDB} {fromSchema} {fromTable} {toDB} {toSchema} {toTable} [whereClause]
options:
        -v or --version                            :print version then exit
        -h or --help                               :print help info then exit
        -sd or --sync-ddl                          :auto synchronize table structure
        -ff=col1,col2 or --from-fields=col1,col2   :specify from fields
        -tf=col3,col4 or --to-fields=col3,col4     :specify to fields
        --no-feature or -nf                        :will not use database's feature
```


帮助说明：

[] 中括号里的内容表示选填，例如 [options] 表示 options 下的参数不是必须的。

1、其中 options 参数解释如下：

- `--sync-ddl` 或者 `-sd` : 加入该参数会自动同步表结构。
- `--from_fields=col1,col2` 或者 `-ff=col1,col2` : 指定原表的字段序列，注意 = 前后不能有空格。
- `--to_fields=col3,col4` 或者 `-tf=col3,col4` : 指定目标表的字段序列，注意 = 前后不能有空格。

2、whereClause 表示 where 条件，用于增量更新，程序再插入数据前先按照 where 条件进行清理数据，然后按照 where 条件从原表进行读取数据。 whereClause 最好使用双引号包起来，表示一个完整的参数。如："jyrq='2020-12-31'"


{} 大括号里的内容表示必填。

`fromDb` 是指配置在 config.json 的数据库信息的键，假如有以下配置文件：

```json
{
      "postgres":{
        "type":"postgres",
        "driver":"org.postgresql.Driver",
        "url":"jdbc:postgresql://localhost:5432/apidb",
        "user": "postgres",
        "password":"aaron",
        "encoding": "utf-8"
    },


    "aarondb":{
        "type":"mysql",
        "driver":"com.mysql.cj.jdbc.Driver",
        "url":"jdbc:mysql://localhost:3306/aarondb?useSSL=false&characterEncoding=utf8&serverTimezone=UTC",
        "user": "aaron",
        "password":"aaron"
    }
}
```

fromDb、toDb 可以是 aarondb 或者 postgres。

- `fromSchema` 读取数据的表的模式名，可以填写 "".
- `fromTable` 读取数据的表明，必须提供。
- `toSchema` 写入数据表的模式名，可以填写 ""，可以和 fromSchema 不同.
- `toTable` 写入数据表的表名，必须提供，当写入表不存在时，自动按读取表的表结构创建，可以和 fromTable 不同。


**全量、增量、指定字段的使用样例请参考 Docker 方式。** 

## 配置文件说明

配置文件位于 config/config.json，如下所示：

```json

{
    "sjwb":{
        "type":"db2",
        "driver":"com.ibm.db2.jcc.DB2Driver",
        "url":"jdbc:db2://192.168.1.*:50000/wbsj",
        "user": "****",
        "password":"****",
        "tbspace_ddl": "/*这里可以放置指定表空间的语句*/",
        "encoding":"utf-8"
    },

    "dw_test":{
        "type":"db2",
        "driver":"com.ibm.db2.jcc.DB2Driver",
        "url":"jdbc:db2://192.168.169.*:60990/dwdb",
        "user": "****",
        "password":"****",
        "encoding":"gbk"
    },

    "postgres":{
        "type":"postgres",
        "driver":"org.postgresql.Driver",
        "url":"jdbc:postgresql://10.99.**.**:5432/apidb",
        "user": "****",
        "password":"****",
        "tbspace_ddl": "WITH (compression=no, orientation=orc, version=0.12)\ntablespace hdfs\n",
        "encoding":"utf-8"
    },


    "aarondb":{
        "type":"mysql",
        "driver":"com.mysql.cj.jdbc.Driver",
        "url":"jdbc:mysql://localhost:3306/aarondb?useSSL=false&characterEncoding=utf8&serverTimezone=UTC",
        "user": "****",
        "password":"****",
        "encoding":"utf-8"
    },

    "buffer-rows": 100000
}

```

配置文件说明：

`type`  表示数据库类型，均为小写：

- mysql
- postgres
- db2
- oracle
- sqlserver

`tbspace_ddl` 表示自动建表时指定的表空间，该选项不是必需的，可以删除。

`buffer-rows` 表示读取多少行时一块写入目标数据库，根据服务器内存大小自己做调整，100000 行提交一次满足大多数情况了。

`encoding` 用于表结构同步时确定字段长度，比如说源库的字段是 gbk varchar(10)，目标库是 utf-8，那么就应该为 varchar(15)，这样字段有中文就不会出现截断或插入失败问题，程序这里 2 倍，也就是 varchar(20) ，这样字段长度不会出现小数位。


## 编写目的

提高数据库间表的复制效率，如果不需要对源表字段进行转换，就丢掉低效的 datastage 和 kettle 吧。