h) Input日志步骤:将当前步骤输入行的编号写入日志表。Input含义:从文件或
者数据库输入
i) Write日志步骤:将当前步骤写入行的编号写入日志表。Write含义:写入到
目标步骤
j) Output日志步骤:将当前步骤输出行的编号写入日志表。Output含义:输出
到文件或者数据库。
转换连接颜色
外观 Green Red Yellow Magenta Gray Black Blue Orange(Dot line) Red(Bold Dot line) 以上数据与实际有冲突,可选择性参考。
含义 分发行 复制行 给步骤提供信息,分发行 给步骤提供信息,复制行 不可用 命名目标步骤 侯选连接,使用鼠标中间按钮+拖拉 一直没有使用的,因为没有数据经过 运输在源步骤中出错的行 步骤(右键属性)
1、 改变开始复制数量:有时候多次运行相同的步骤是非常有用的。例如,执行一个数据库
查询三次或者三次以上,这是因为数据库连接通常有一个反应时间,改变步骤运行的次数,可以有效的减少反应时间,提高效率。
相当于
6 / 42
2、 复制、删除、分离步骤:步骤的复制、删除和分离 3、 步骤的分发、复制:复制数据意思是说从“A”过来的所有行都被复制到3 个目标步骤。
这就意味着最后一个步骤从“A”获取了所有行的三个副本。事实上,由于每个步骤用不同的线程来运行,到达最后一个步骤的行的顺序可能 和“A”的顺序不一样。 4、 定义错误处理:代替一个转换因为某一个步骤发生错误的时候被中断,你可以引起错误
的这些行,进入到一个不同的步骤。不是所有步骤都有此功能,Js脚本步骤有此功能 5、 显示输入/输出字段 6、 编辑步骤/编辑步骤描述
文本文件输入
1、 没有空行:不往下一步骤发送空行
2、 输出包括文件名:输出包含文件名字段 3、 输出包含行数:输出字段包含行号
4、 格式:可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。
混合模式则不验证。
5、 编码方式:默认编码方式。Unicode编码方式有Utf-8,utf-16 6、 记录数量限制:设置读取记录的行数,0表示所有的。 7、 解析日期时是否严格要求:启用时1月32将变为2月1号 8、 错误处理标签:当错误发生时,错误处理标签可以允许你指定这个步骤将重新做些什么。 9、 忽略错误 10、 跳过错误行:如果不跳过错误行,解析错误字段将是空的。 11、 错误计数字段:在输出流中增加一个字段,这个字段将包含错误发生的行数。 12、 错误字段字段名:输出流增加字段,该字段包含错误发生的字段名称。 13、 错误文本字段:输出流增加字段,该字段包含解析错误发生字段的描述。 14、 警告文件目录:当警告发生时,文件将被放进该目录,文件名为:文件名。<日期时
间>.<错误文件扩展> 15、 错误文件目录:当错误发生时,文件将被放进该目录,文件名为:文件名.<日期时
间>.<错误文件扩展> 16、 失败行数文件目录:当解析发生错误,行号将被放进该目录,文件名将是:文件名.<
日期时间>.<错误行扩展> 17、 过滤标签:可以用来指定文件文件中要过滤的行。 18、 过滤字符串:搜索字符串,将符合条件的行从输出中去掉。 19、 过滤器位置: 0:起始位置。不填(<0):表示搜索整个字符。
7 / 42
20、
停止在过滤器:如果想在文本文件遇到过滤字符时停止处理,就指定“Y”。
表输入
1、 从步骤插入数据:指定我们期待读取数据的步骤名称,这些信息能被插入到sql语句。 例如:sql:select * from t where date between ? and ? ?:的数据来自其他步骤
获取系统信息
8 / 42
1、系统日期(可变):系统时间,每次访问都13、本月的第一天00:00:00:这个月的开始 14、本月的最后一天23:59:59:这个月的结束 15、步骤拷贝:复制步骤 16、转换名称:转换的名称
17、转换的文件名:转换的文件名(仅针对XML) 18、最后修改转换的用户 19、转换的最后修改日期
20、转换ID:日志表中的批处理ID值 22、主机名:返回服务器的主机名 23、IP地址:返回服务器的IP地址
24、命令行参数1:命令行的第一个参数。 25、Kettle版本:返回Kettle的版本。
26:Kettle编译版本:返回Kettle核心库的编译版本 27:Kettle编译日起:Kettle核心库的编译日期 28:Current process identifier(PID):
在改变。
2、系统日期(固定):系统时间,有转换开始来决定。即转换开始时间
3、开始日期范围(转换):根据etl日志表的信息,确定日期范围的开始。
4、结束日期范围(转换):根据etl日志表的信息,确定日期范围的结束。
5、开始日期范围(作业):根据etl日志表的信息,确定日期范围的开始
6、结束日期范围(作业):根据etl日志表的信息,确定日期范围的结束。 7、昨天00:00:00:昨天的开始 8、昨天23:59:59:昨天的结束 9、今天00:00:00:今天的开始 10、今天23:59:59:今天的结束
11、上个月第一天的00:00:00:上个月的开始
12、上个月最后一天的23:59:59:上个月结束
生成记录
1、 限制:记录数的条数 2、 名称、值
9 / 42
Cube输入
从二进制Kettle Cube文件中读取数据行
Xbase输入
使用这一步可以读取大多数被称为Xbase family派生的DBF文件 1、 最常用的是FoxPro
Excel输入
1、 工作表名称
2、 起始行 :开始读取的行。 3、 起始列:开始读取的列。
4、 头部:检查工作表是否指定了一个头部行。 5、 非空记录:检查是否不需要空行输出。 6、 停在空记录:当遇空行时停止读取。
7、 文件名称字段:步骤输出指定一个包含文件名的字段。
8、 工作表名称字段:步骤输出指定一个包含工作表名称的字段。 9、 行号列:指定输出行号列字段名称。
XML输入
1、 Loop XPath: 选择/Rows/Row 2、 Namespace aware:
3、 Ignore comments:忽略注释
4、 Validate XML:验证XML ,一般不验证 5、 Ignore empty file:忽略空文件
6、 Include filename in output:输出步骤包含文件名字段 7、 Rownum in output:输出包含行号字段。
获取文件名
1、 Get:All files、Only folders、Only files
2、 输出字段包含:filename、short_filename、path、type(file/folder)、exists(Y/N)、ishidden、
isreadable、iswriteable、lastmodifiedtime、size、extension(扩展名)、uri、rooturi
获取文件行数
1、Rows Separator type:Carriage Return
10 / 42