Kettle学习(2)

2025-08-22

h) Input日志步骤：将当前步骤输入行的编号写入日志表。Input含义：从文件或

者数据库输入

i) Write日志步骤：将当前步骤写入行的编号写入日志表。Write含义：写入到

目标步骤

j) Output日志步骤：将当前步骤输出行的编号写入日志表。Output含义：输出

到文件或者数据库。

转换连接颜色

外观 Green Red Yellow Magenta Gray Black Blue Orange(Dot line) Red(Bold Dot line) 以上数据与实际有冲突，可选择性参考。

含义分发行复制行给步骤提供信息，分发行给步骤提供信息，复制行不可用命名目标步骤侯选连接，使用鼠标中间按钮+拖拉一直没有使用的，因为没有数据经过运输在源步骤中出错的行步骤（右键属性）

1、改变开始复制数量：有时候多次运行相同的步骤是非常有用的。例如，执行一个数据库

查询三次或者三次以上，这是因为数据库连接通常有一个反应时间，改变步骤运行的次数，可以有效的减少反应时间，提高效率。

相当于

6 / 42

2、复制、删除、分离步骤：步骤的复制、删除和分离 3、步骤的分发、复制：复制数据意思是说从“A”过来的所有行都被复制到3 个目标步骤。

这就意味着最后一个步骤从“A”获取了所有行的三个副本。事实上，由于每个步骤用不同的线程来运行，到达最后一个步骤的行的顺序可能和“A”的顺序不一样。 4、定义错误处理：代替一个转换因为某一个步骤发生错误的时候被中断，你可以引起错误

的这些行，进入到一个不同的步骤。不是所有步骤都有此功能，Js脚本步骤有此功能 5、显示输入/输出字段 6、编辑步骤/编辑步骤描述

文本文件输入

1、没有空行：不往下一步骤发送空行

2、输出包括文件名：输出包含文件名字段 3、输出包含行数：输出字段包含行号

4、格式：可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。

混合模式则不验证。

5、编码方式：默认编码方式。Unicode编码方式有Utf-8，utf-16 6、记录数量限制：设置读取记录的行数，0表示所有的。 7、解析日期时是否严格要求：启用时1月32将变为2月1号 8、错误处理标签：当错误发生时，错误处理标签可以允许你指定这个步骤将重新做些什么。 9、忽略错误 10、跳过错误行：如果不跳过错误行，解析错误字段将是空的。 11、错误计数字段：在输出流中增加一个字段，这个字段将包含错误发生的行数。 12、错误字段字段名：输出流增加字段，该字段包含错误发生的字段名称。 13、错误文本字段：输出流增加字段，该字段包含解析错误发生字段的描述。 14、警告文件目录：当警告发生时，文件将被放进该目录，文件名为:文件名。<日期时

间>.<错误文件扩展> 15、错误文件目录：当错误发生时，文件将被放进该目录，文件名为：文件名.<日期时

间>.<错误文件扩展> 16、失败行数文件目录：当解析发生错误，行号将被放进该目录，文件名将是：文件名.<

日期时间>.<错误行扩展> 17、过滤标签：可以用来指定文件文件中要过滤的行。 18、过滤字符串：搜索字符串，将符合条件的行从输出中去掉。 19、过滤器位置： 0：起始位置。不填(<0)：表示搜索整个字符。

7 / 42

20、

停止在过滤器：如果想在文本文件遇到过滤字符时停止处理，就指定“Y”。

表输入

1、从步骤插入数据：指定我们期待读取数据的步骤名称，这些信息能被插入到sql语句。例如：sql：select * from t where date between ? and ? ?:的数据来自其他步骤

获取系统信息

8 / 42

1、系统日期(可变)：系统时间，每次访问都13、本月的第一天00:00:00：这个月的开始 14、本月的最后一天23:59:59：这个月的结束 15、步骤拷贝：复制步骤 16、转换名称：转换的名称

17、转换的文件名：转换的文件名(仅针对XML) 18、最后修改转换的用户 19、转换的最后修改日期

20、转换ID：日志表中的批处理ID值 22、主机名：返回服务器的主机名 23、IP地址：返回服务器的IP地址

24、命令行参数1：命令行的第一个参数。 25、Kettle版本：返回Kettle的版本。

26：Kettle编译版本：返回Kettle核心库的编译版本 27：Kettle编译日起：Kettle核心库的编译日期 28：Current process identifier(PID)：

在改变。

2、系统日期(固定)：系统时间，有转换开始来决定。即转换开始时间

3、开始日期范围(转换)：根据etl日志表的信息，确定日期范围的开始。

4、结束日期范围(转换)：根据etl日志表的信息，确定日期范围的结束。

5、开始日期范围(作业)：根据etl日志表的信息，确定日期范围的开始

6、结束日期范围(作业)：根据etl日志表的信息，确定日期范围的结束。 7、昨天00:00:00：昨天的开始 8、昨天23:59:59：昨天的结束 9、今天00:00:00：今天的开始 10、今天23:59:59：今天的结束

11、上个月第一天的00:00:00：上个月的开始

12、上个月最后一天的23:59:59：上个月结束

生成记录

1、限制：记录数的条数 2、名称、值

9 / 42

Cube输入

从二进制Kettle Cube文件中读取数据行

Xbase输入

使用这一步可以读取大多数被称为Xbase family派生的DBF文件 1、最常用的是FoxPro

Excel输入

1、工作表名称

2、起始行：开始读取的行。 3、起始列：开始读取的列。

4、头部：检查工作表是否指定了一个头部行。 5、非空记录：检查是否不需要空行输出。 6、停在空记录：当遇空行时停止读取。

7、文件名称字段：步骤输出指定一个包含文件名的字段。

8、工作表名称字段：步骤输出指定一个包含工作表名称的字段。 9、行号列：指定输出行号列字段名称。

XML输入

1、 Loop XPath：选择/Rows/Row 2、 Namespace aware:

3、 Ignore comments:忽略注释

4、 Validate XML：验证XML ，一般不验证 5、 Ignore empty file：忽略空文件

6、 Include filename in output：输出步骤包含文件名字段 7、 Rownum in output：输出包含行号字段。

获取文件名

1、 Get：All files、Only folders、Only files

2、输出字段包含：filename、short_filename、path、type(file/folder)、exists(Y/N)、ishidden、

isreadable、iswriteable、lastmodifiedtime、size、extension(扩展名)、uri、rooturi

获取文件行数

1、Rows Separator type：Carriage Return

10 / 42

共9页:

Kettle学习(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档