Datastage开发经验汇总 润信科技
meta data integration
DataStage提供了最大化的元数据整合,并且在大多数流行的数据建模、数据整合和商业智能工具和标准中共享。细节上的共享使用户可以充分利用贯穿整个企业的“端到端”元数据整合。
Cross-tool impact analysis
在DataStage企业版中可以执行深层次分析快速访问变化对一个数据仓库的影响,返回到操作数据存储,返回到分段数据库,所有的路径都返回到可以被指定的原始的数据源和数据建模工具(如ALLFusion ERWin数据建模工具)。这些呈现的功能对于数据结构改变而不破坏严格的downstream报表是非常必要的。
Data lineage
使用元数据管理图形展示,DataStage企业版给最终用户一个完全的数据历史,这样就可以判断是如何影响数据分析的。简单说,data lineage回答的是“数据从那里来”。
Query Builder
这个工具使简单导航变得更简单和过滤掉以在线文档格式或内嵌在impact analysis模板中的查询。这个查询工具消除对写SQL才能产生出结果的需要。
Meta Data Sharing and reuse
DataStage企业版使用了“publish and subscribe”机制从一系列的数据源发布标准
第11页
Datastage开发经验汇总 润信科技 的元数据。用户可以一次性或recurring basis预定元数据发布。当元数据改变时,会自动通知预定者。
Meta Data Delivvery
DataStage企业版允许通过报表和XML或HTML格式的查询结果对元数据进行动态的、面向批处理的和XSL-T的客户化发布。使hyper-link终端用户的访问和导航变得更加容易。这些可以自动发布到任何Web Site和门户。
当远端服务器明显从优势地方报告操作结果给DataStage企业版的时候,DataStage企业版元数据管理工具可以很有效率地收集到数据整合环境中发生的事件。管理者能够回顾作业并且预先识别瓶颈和处理中的错误。结果:更少的资源冲突和减少通过检查每个字段或执行状态报告来发现问题的时间。
业务用户现在可以使用友好的工具去直接查询他们的业务和技术元数据。在直接的管理控制下,管理员可以示例一个新的可用的通用数据主题域视图模型,如相同数据库结构中的一组正则化的关系表作为MetaStage的字典。这样使业务用户可以构建cross impact tool分析和在目标数据仓库、源系统表、商业智能工具、Olap cube和entity/OO模型工具中直接发现业务定义、名称、描述、表定义和cube纬度。
工具综述:
? Cognos Impromptu, PowerPlay ? Business Objects
? Hyperion Essbase Integration Server ? MicroStrategy ? IBM DB2 Cube Views ? ODBC ? DataStage ? ProfileStage ? QualityStage
? Embarcadero ER/Studio ? Oracle Designer
? CAAllFusion ERwin Data Modeler ? Cognos Impromptu, Power ? PowerDesigner
第12页
Datastage开发经验汇总 润信科技
? SilverRun * via UML ? Rational Rose * via UML ? OMG UML Class Diagrams ? Informatica PowerCenter ? SAP BW ? OMG CWM
? Information Builders’ WebFOCUS
2.1.7 附录A
DataStage企业版内嵌的扩展Stage 图标 Stage Transformer 描述 对任何需要转换的输入的数据集合进行转换,并将数据传输到其他活动的Stage中或一个将数据写入数据库或文件的Stage。 Sort 用来并行执行更复杂的排序操作。 Merge 将一个或多个排序的更新数据集合合并成一个排序的主数据集合。 Join 在一个或多个输入数据集合上执行连接操作并输出一个结果数据集,连接操作支持:inner、left outer、 External Filter Aggregator right outer和full outer。 允许指定一个作为处理数据过滤器的unix命令行。 对于单一的输入数据记录进行分组并且计算每一组的合计和总计。 第13页
Datastage开发经验汇总 润信科技
Make Vector 组合输入数据记录中指定的字段到一个具有相同类型的字段矢量。 Make Subrecord 组合指定的输入数据集合中的矢量到子记录的矢量,它的字段具有和原始矢量相同的名字和类型。 Split Vector Combine Records Compare Lookup Lookup File Set Funnel 拷贝多个输入数据集合到一个输出数据集合;对于将分开的数据集合合并成一个大的数据集合;支持持续 Copy 的读、排序、顺序输入数据集合。 拷贝一个输入数据集合到多个输出数据集合;输入数据集合中的每一条记录拷贝到每一个输入的数据集合中,而且不需要修改。 Sample 使用百分比或一段模式对输入的数据集合进行取样。 对两个分拣输入数据集合中的记录进行一个字段一个字段的检查。 对包含在lookup file set stage中的查找表进行查找操作。 允许建立一个查找文件集合或查找参考。 提升固定长度矢量的参数到一系列相似的命名顶级字段。 组合那些主键字段值被指定的记录到子记录矢量。 Peek 将记录字段值显示到作业日志或分开的output link,就象copy stage将输入的数据集合拷贝到一个或多个输出数据集合。 第14页
Datastage开发经验汇总 润信科技
Remove Duplicates 对输入的数据集合进行单一排序,删除重复的记录,并将结果写入一个输出的数据集合。 Modify 改变输入字段定义到输出数据集合(如类型转换或null处理/转换等);对于重新命名和类型转换使非常 Filter 有效率的。 基于用户指定的约束(“where子句”)将输入数据集合转换到不同的输出数据集合(link)。对于过滤记录使非常有效率的。 Switch 根据选择器字段的值,将一个输入记录分配到一个输出的link,支持128个output link和1个reject link。 Change Capture 抓取两个输入数据集合,表现为前和后,并且获取后面的数据路输出一个记录表现已经改变的数据集合到前数据集合。 Change Apply 抓取变化数据,包括前面或后面数据记录的变化,从change capture stage并应用编码改变操作到前面 Head 数据集合,计算一个后面数据集合。 从一个输入数据集合分区中选择第一个N条记录并且将选择的记录拷贝的输出数据集合中。 Tail 从一个输入数据集合分区中选择最后一个N条记录并且将选择的记录拷贝的输出数据集合中。 Write Range Map 将数据写入range map;抓取排序或排序产生的数据集合,并写入到一个文件用于范围分区方法。 Encode 使用支持的unix编码命令对一个数据集合进行编码;将一个顺序数据集合转换到没有处理过的二进制数 据流。 第15页