1. Transformation(转换)
实现数据流的程序,在datastage中和JOB类似。在转换中,所有的组件都是同时并发启动的,若有从A表同步数据到B表,然后更新A表标志位的操作,就不能在一个转换中A指向B然后再指向A实现,因为这三个组件同时启动,或许“更新A表”的操作会先执行。此时应该把更新A表标识位的操作独立为一个转换,通过JOB作业或者linkdo调度平台两次调度来实现,或者在转换中引入组件“Block this step until steps finish”实现(不建议)
2. JOB(作业)
实现控制流的程序,在datastage中和sequence类似。在作业中的所有组件是按照指示线的顺序来执行的。还有实现一些在转换中不存在的组件的补充功能,比如sftp、创建文件等功能
3. 调度平台linkdo
科技公司采用新的ETL平台与调度平台分离的架构,只要保证ETL程序已经通过科技公司的神兵部署平台发布到了相应的环境,即可在公司自开发的灵度调度平台(即:linkdo)调度程序以同步相应的业务数据了
了解:
1、 银行与科技的文件交互是通过ufep软件通讯,在kettle公共平台的1.44.18.17和10.33.96.211都有节点,开发和测试链路都是通的
2、 银行与GBD项目也有一个节点,是在hadoop平台服务器上,机器为10.33.24.20和10.33.24.16
3、 GBD项目的10.33.24.20有以无密的ssh方式获取天下通kettle平台10.33.95.25上的数据,目前的kettle工程为toccore
4、 天下通项目,SF区和天下通区,是通过windows中转服务器上的sftp功能通讯的,windows中转服务器的运营同事余海燕,IP为10.35.216.197和202.69.21.105
5、 集团投资kettle平台有与银行的文件交互数据,目前是kettle工程pagirdms从银行获取文件,通过10.33.96.211上的定时任务FileScp无密传输文件至10.33.95.22
6、 集团ETL公共平台10.33.96.77也有程序往集团投资平台10.33.95.22、23和kettle公共平台10.33.96.211上SCP传输文件
1. kettle客户端:
kettle客户端软件是一款绿色软件,直接下载介质pdi-ce-7.0.0.0-25.zip(http://10.20.18.140/kettle/),解压即可
备注:若不能正常下载,请用chrome浏览器打开下载,谢谢!
2. 设置独立的Java环境变量
【解压客户端后,若能正常启用spoon.bat程序即可以跳过此步骤】
使用版本7.0.0的客户端软件,使用JAVA环境为1.8.0版本,编辑spoon.bat
@echo off
setlocal
cd /D %~dp0
set PENTAHO_JAVA_HOME=D:\kettle\pdi-ce-7.0.0.0-25\jre1.8.0_60
set PENTAHO_JAVA=C:\Oracle\product\11.2.0\client_1\BIN;D:\kettle\pdi-ce-7.0.0.0-25\jre1.8.0_60\bin
REM **************************************************
REM ** Set console window properties **
REM **************************************************
3. 添加JDBC驱动
在kettle客户端相对目录data-integration\lib下添加oracle,PostgreSQL,MSSQL以及MySQL的JDBC驱动:
MySQL:mysql-connector-java-5.1.45-bin.jar
Oracle:ojdbc8.jar
Sqlserver:mssql-jdbc-6.2.2.jre8.jar
PostGres: postgresql-9.3-1102-jdbc4.jar(安装介质中已存在)
Mongodb: mongo-java-driver-3.4.2.jar
注意:添加此驱动文件之后,要重启kettle客户端才能正常使用。
共同学习,写下你的评论
评论加载中...
作者其他优质文章