当前位置: 首页 > news >正文

Apache DolphinScheduler DataX 数据集成:新手入门全攻略

关键词:大数据、数据集成、数据调度

整体说明

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些使用Datax做数据集成的实际经验,分享如下。

一、前置条件

  • Datax安装: 见 《Datax安装步骤及优劣势分析》
  • 在同一台服务器: DolphinScheduler 需要执行 Python 来调用 Datax,无法跨服务器,所以 Datax 需要和 DolphinScheduler 在同一台服务器上

二、环境配置

  • DolphinScheduler 环境配置 Datax

按照如图顺序依次点击新增 Datax环境

在编辑页面填写 Python 执行路径 和 Datax执行路径,具体内容如下:

export PYTHON_LAUNCHER=/usr/bin/python
export DATAX_LAUNCHER=/home/datax/bin/datax.py

配置结果如下图片

三、数据集成配置

3.1、源中心

  • 来源数据库: 配置好来源数据库连接
  • 目的数据库: 配置好目的数据库连接

3.2、Datax任务配置

  • 创建工作流

  • 添加 Datax 组件

配置名称 和 环境信息图片

配置来源库及自定义SQL 和 目的库目的表图片

保存,之后,保存任务,上线任务

  • 运行测试任务,运行成功

  • 查看日志,数据集成成功

四、方案优势

  • 可视化配置页面: 在可视化页面配置自定义SQL.来选择源表字段,再也不用编辑 Datax 自带的 JSON 文件了
  • 服务器无侵入性: 当我们编辑 Datax 自带的 JSON 文件时,不可避免的需要服务器的相关权限,需要上传文件等,对服务器有侵入性,一般生产环境,没有这么高的权限
  • 开源方案,成本低: 无论是Datax 还是 DolphinScheduler 都是开源产品,不需要额外付钱
http://www.sczhlp.com/news/6668/

相关文章:

  • FPGA 逻辑资源的等效门数量
  • [ python ] 老板叫我一天清出项目中所有不用的接口, 我一个小时搞定了!!
  • 米尔RK3576核心板,让360环视技术开发更简单
  • Linux 提权的姿势有哪些
  • 飞书应用平台-Tita 新CRM销售一体化:打造高效销售与交付闭环
  • 20250806 做题记录
  • Docker 安装及使用
  • 20250805 做题记录
  • 安装Java JDK 提示安装失败
  • 管家级教程:在 Windows 上配置 WSL2、CUDA 及 VLLM,开源音频克隆项目
  • 内存分区:程序运行的核心秘密
  • 20250806
  • 实用指南:AI的第一次亲密接触——你的手机相册如何认出你的猫?
  • 智慧海关综合态势监测系统
  • 从服务器上下载文件 提示异常: No permission to write on the specified folder.
  • 找团队 写一个插件
  • P5443 [APIO2019] 桥梁
  • P4192 旅行规划
  • Jenkins接口自动化测试(构建)实用的平台搭建
  • 鲸AI上线!大家期待已久的4.5.5版本来了~
  • P6645 [CCO 2020] Interval Collection
  • P2801 教主的魔法
  • Android Camera性能分析 从CameraServer角度详解Camera启动性能
  • Houdini作品
  • P11295 [NOISG 2022 Qualification] Dragonfly
  • 论文速读记录 | 2025.08
  • java工具类-优雅等待所有任务完成再停机
  • P3302 [SDOI2013] 森林
  • Java线程
  • Maven下载安装配置教学