DataX的技术

DataX
•DataX是离线数据同步工具/平台,可以实现包括MySQL,oracle,SqlServer等多种异构数据源之间高效的数据同步
•也可以实现多种数据库迁移到表格存储
•不影响业务的情况下,数据库迁移,同步到表格存储

DataX的技术

文章插图
 
–数据源读取数据的reader插件
–目标写入数据的是writer插件
–是json格式
•type:数据类型
•value:内容,print默认是flase<为true是打印控制台< span="">
DataX的技术

文章插图
 
•name是不好更改的
DataX的技术

文章插图
 
启动命令
DataX的技术

文章插图
 
【DataX的技术】运行成功命令
DataX的技术

文章插图
 
Mysql导入到hdfs中
mysql数据库中的help_keyword表到hdfs的/datax目录下(此目录必须提前创建好)
•help_keyword是mysql内置的一张字典表
mysqlreader参数解析:
DataX的技术

文章插图
 
•【】参数为可选
hdfswriter参数解析:
DataX的技术

文章插图
 
•Append;写入不做任何处理,dataX hdfswriter直接使用filename写入,并保证文件名不冲突
•nonConfict:如果目录下有fileName前缀文件,直接报错
q启动命令:
Python /opt/sxt/datax/bin/datax.py -r mysqlreader -w hdfswriter
–mysqlreader:要是oracle,就是oraclelreader




    推荐阅读