数据同步

最近更新时间: 2019-11-12 10:21:54

数据同步工具不仅能够满足传统数据集成服务在复杂网络环境下进行多种异构数据源的导入导出需求,同时在数据导入导出的过程中的进行数据清洗、去重、规范化等提高数据质量。防止脏数据、垃圾数据的传播。 进入【项目空间】->【我的项目】,点击项目名称进入大数据开发套件 点击进入【数据开发】->【离线作业开发】。 选择【任务开发】,在左侧目录点击创建的作业流,新建一个作业流 双击作业流,进入作业流开发面板,拖拽数据同步插件,输入节点名称。 双击打开新建的同步任务,打开同步任务页面后整个同步任务分成三步。

  • 第一步选择数据源表: 选择数据源的过程中可以在【数据过滤】中添加过滤语句,进行数据的增量同步。具体支持变量请参考。调度系统中变量设置章节。
  • 第二步选择数据目标表
  • 第三步设置数据源表和数据目标表的映射管理。 在映射过程中左边字段信息来自源表,右边字段信息来自目标表。 用户可以在源表字段上进行字段的行级信息转换:进行字段格式转换、对字段应用系统函数、常量设置等。也可以新增字段进行字段转换。 在目标表字段中可以设置默认值,如有上游有数据传输下来使用上游字段,如果上游数据为空,使用默认值设置。

源和目标之间的连线设置表示数据的流向关系。 在数据同步开发过程中可以进行参数设置如下。 其中#{}为系统参数,具体提供系统参数可参考【调度系统-功能特性-变量设置】章节。系统参数不需要用户进行赋值,只需要进行格式设置既可。 ${}为用户自定义变量,用户自定义变量需要用户在作业【参数设置】中进行参数赋值。