很不幸的是,流查询步骤仅仅能从一个流中查询信息,如果你需要做转换如下:
行转列(Row Normaliser)
这个步骤转动表,标准化数据格式。
16 / 42
例如你想更新一个实际的物理表,这种形式的数据是更容易掌握的。 1、 关键字段:不转的字段
2、 构成分组的字段:标准化的字段名称(例如Product A,Product C)
3、 目标字段:你可以制定一个或者多个新值将要转入的字段(例如sales)
拆分字段
拆分的字段类型必须是String。 1、 分隔符:分割字段的符号。 2、 字段:拆分形成的字段列表。
去除重复记录
该步骤从流中移除重复的记录。
1、 增加计数器到输出:如果你想知道多少重复行被去掉,就选择此选项。
分组(Statistics)
在进行分组的时候,只能使用分组字段和聚合函数。
17 / 42
注意:分组之前,必须先按照分组字段排好序,否则将会出现错误。 1、 分组字段:指定要分组的字段。 2、 聚合:指定需要聚合的字段。
3、 包含所有的行:如果选择这个,输出终究包含所有的行,不仅仅是聚合。 4、 临时文件目录:临时文件存储的目录。
5、 临时文件前缀:指定临时文件文件名的前缀。
6、 添加行号,每一个分组重启:如果你想给每一个组添加行号,选此项。
设置为空值(Null if)
如果某个字符串的值等于指定的值,设置那个值为空。
计算器
可以进行数值,日期等格式数据的简单计算。计算器的重要优势是,计算速度比js快几倍。 常用计算
功能 A+(-、*、/) B A*A… 100*A/B SQRT(A*A+B*B) ROUND(A[,B]) Date A + B days Year of date A Month of date A Day of year of date Day of month of date A 加减乘除 A2,、开方 A和B的百分比 求斜边长 四舍五入 日期 Date A + B days 年 月 日(一年中的第几天) 日(一月中的第几天) A和B A 描述 数学 A和B A A和B A和B A或A和B 需要字段 增加XML(Add XML)
这个步骤允许你将在XML中的行字段内容编码,XML以字符串字段的形式添加到行中。 1、 编码:使用的编码,在XML文件头中指定。 2、 输出值:包含XML的新字段名称。
3、 根XML元素:生成的XML根元素的名称。
增加常量
这个步骤很简单,主要是添加常量到流中。它的使用也很容易:用字符串形式指定名称,类型和值。利用选择的数据类型指定转换格式。
18 / 42
行转列(Row Denormaliser)
这个步骤允许你通过查询键值对来反向规格化数据。也可以立即转换数据类型。
行扁平化
这个步骤允许你扁平化预备的数据。 示例:
19 / 42
上面的示例,步骤设置如下:
值映射
这个步骤简单的映射字符串,从一个值映射到另一个值。
被冻结的步骤(Blocking Step)
这是一个非常简单的步骤。它冻结所有的输出,直到从上一步骤来的最后一行数据到达, 最后一行数据将发送到下一步。你可以使用这个步骤触发常用插件、存储过程和Java Script 等等。
20 / 42