Kettle学习(2)

2025-08-22

h) Input日志步骤:将当前步骤输入行的编号写入日志表。Input含义:从文件或

者数据库输入

i) Write日志步骤:将当前步骤写入行的编号写入日志表。Write含义:写入到

目标步骤

j) Output日志步骤:将当前步骤输出行的编号写入日志表。Output含义:输出

到文件或者数据库。

转换连接颜色

外观 Green Red Yellow Magenta Gray Black Blue Orange(Dot line) Red(Bold Dot line) 以上数据与实际有冲突,可选择性参考。

含义 分发行 复制行 给步骤提供信息,分发行 给步骤提供信息,复制行 不可用 命名目标步骤 侯选连接,使用鼠标中间按钮+拖拉 一直没有使用的,因为没有数据经过 运输在源步骤中出错的行 步骤(右键属性)

1、 改变开始复制数量:有时候多次运行相同的步骤是非常有用的。例如,执行一个数据库

查询三次或者三次以上,这是因为数据库连接通常有一个反应时间,改变步骤运行的次数,可以有效的减少反应时间,提高效率。

相当于

6 / 42

2、 复制、删除、分离步骤:步骤的复制、删除和分离 3、 步骤的分发、复制:复制数据意思是说从“A”过来的所有行都被复制到3 个目标步骤。

这就意味着最后一个步骤从“A”获取了所有行的三个副本。事实上,由于每个步骤用不同的线程来运行,到达最后一个步骤的行的顺序可能 和“A”的顺序不一样。 4、 定义错误处理:代替一个转换因为某一个步骤发生错误的时候被中断,你可以引起错误

的这些行,进入到一个不同的步骤。不是所有步骤都有此功能,Js脚本步骤有此功能 5、 显示输入/输出字段 6、 编辑步骤/编辑步骤描述

文本文件输入

1、 没有空行:不往下一步骤发送空行

2、 输出包括文件名:输出包含文件名字段 3、 输出包含行数:输出字段包含行号

4、 格式:可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。

混合模式则不验证。

5、 编码方式:默认编码方式。Unicode编码方式有Utf-8,utf-16 6、 记录数量限制:设置读取记录的行数,0表示所有的。 7、 解析日期时是否严格要求:启用时1月32将变为2月1号 8、 错误处理标签:当错误发生时,错误处理标签可以允许你指定这个步骤将重新做些什么。 9、 忽略错误 10、 跳过错误行:如果不跳过错误行,解析错误字段将是空的。 11、 错误计数字段:在输出流中增加一个字段,这个字段将包含错误发生的行数。 12、 错误字段字段名:输出流增加字段,该字段包含错误发生的字段名称。 13、 错误文本字段:输出流增加字段,该字段包含解析错误发生字段的描述。 14、 警告文件目录:当警告发生时,文件将被放进该目录,文件名为:文件名。<日期时

间>.<错误文件扩展> 15、 错误文件目录:当错误发生时,文件将被放进该目录,文件名为:文件名.<日期时

间>.<错误文件扩展> 16、 失败行数文件目录:当解析发生错误,行号将被放进该目录,文件名将是:文件名.<

日期时间>.<错误行扩展> 17、 过滤标签:可以用来指定文件文件中要过滤的行。 18、 过滤字符串:搜索字符串,将符合条件的行从输出中去掉。 19、 过滤器位置: 0:起始位置。不填(<0):表示搜索整个字符。

7 / 42

20、

停止在过滤器:如果想在文本文件遇到过滤字符时停止处理,就指定“Y”。

表输入

1、 从步骤插入数据:指定我们期待读取数据的步骤名称,这些信息能被插入到sql语句。 例如:sql:select * from t where date between ? and ? ?:的数据来自其他步骤

获取系统信息

8 / 42

1、系统日期(可变):系统时间,每次访问都13、本月的第一天00:00:00:这个月的开始 14、本月的最后一天23:59:59:这个月的结束 15、步骤拷贝:复制步骤 16、转换名称:转换的名称

17、转换的文件名:转换的文件名(仅针对XML) 18、最后修改转换的用户 19、转换的最后修改日期

20、转换ID:日志表中的批处理ID值 22、主机名:返回服务器的主机名 23、IP地址:返回服务器的IP地址

24、命令行参数1:命令行的第一个参数。 25、Kettle版本:返回Kettle的版本。

26:Kettle编译版本:返回Kettle核心库的编译版本 27:Kettle编译日起:Kettle核心库的编译日期 28:Current process identifier(PID):

在改变。

2、系统日期(固定):系统时间,有转换开始来决定。即转换开始时间

3、开始日期范围(转换):根据etl日志表的信息,确定日期范围的开始。

4、结束日期范围(转换):根据etl日志表的信息,确定日期范围的结束。

5、开始日期范围(作业):根据etl日志表的信息,确定日期范围的开始

6、结束日期范围(作业):根据etl日志表的信息,确定日期范围的结束。 7、昨天00:00:00:昨天的开始 8、昨天23:59:59:昨天的结束 9、今天00:00:00:今天的开始 10、今天23:59:59:今天的结束

11、上个月第一天的00:00:00:上个月的开始

12、上个月最后一天的23:59:59:上个月结束

生成记录

1、 限制:记录数的条数 2、 名称、值

9 / 42

Cube输入

从二进制Kettle Cube文件中读取数据行

Xbase输入

使用这一步可以读取大多数被称为Xbase family派生的DBF文件 1、 最常用的是FoxPro

Excel输入

1、 工作表名称

2、 起始行 :开始读取的行。 3、 起始列:开始读取的列。

4、 头部:检查工作表是否指定了一个头部行。 5、 非空记录:检查是否不需要空行输出。 6、 停在空记录:当遇空行时停止读取。

7、 文件名称字段:步骤输出指定一个包含文件名的字段。

8、 工作表名称字段:步骤输出指定一个包含工作表名称的字段。 9、 行号列:指定输出行号列字段名称。

XML输入

1、 Loop XPath: 选择/Rows/Row 2、 Namespace aware:

3、 Ignore comments:忽略注释

4、 Validate XML:验证XML ,一般不验证 5、 Ignore empty file:忽略空文件

6、 Include filename in output:输出步骤包含文件名字段 7、 Rownum in output:输出包含行号字段。

获取文件名

1、 Get:All files、Only folders、Only files

2、 输出字段包含:filename、short_filename、path、type(file/folder)、exists(Y/N)、ishidden、

isreadable、iswriteable、lastmodifiedtime、size、extension(扩展名)、uri、rooturi

获取文件行数

1、Rows Separator type:Carriage Return

10 / 42


Kettle学习(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2024版智能化电磁超声探伤仪项目(立项及贷款用)可行性研究报告

相关阅读
本类排行
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 7

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219