Datastage开发经验汇总 润信科技
Decode 使用支持的unix解码命令对一个数据集合进行解码;将一个没有处理过的二进制数据流转换到数据集合。 Compress 使用unix compress或GZIP工具压缩数据集合;将一个顺序数据集合转换到没有处理过的二进制数据 Expand 流。 使用unix uncompress或GZIP工具展开数据集合;将一个没有处理过的二进制数据流转换预先压缩的数 Difference 据集合到一个数许数据集合。 对两个输入的数据集合进行逐条的对比,相同数据集合的不同转换产生出前面和后面的数据集合。 Column Import 从一个字段导入数据并且输出到一个或多个字段。 Column Export 从多个不同类型的字段导出数据到一个字符类型或二进制类型的字段。 Column Generator 增加字段到输入数据并且为处理的数据行字段产生假数据;输出新的数据集合。 Row Generator Data Set 产生一组适合指定表定义的假数据;对于不使用真实可用数据对作业进行测试非常有用。 从一个数据集合读取数据或将数据写入一个数据集合;企业版隐藏了复杂的处理和在并行计算机上并行存储数据到磁盘。 File Set 从一个文件中读取数据或将数据写入文件;并行执行。 Sequential File 从一个flat file读取数据或将数据写入flat file;通常是并行执行和可以配置成顺序执行。 External Source 从一个或多个源程序读取数据。 第16页
Datastage开发经验汇总 润信科技
External Target 将数据写入一个或多个目标程序。 Parallel SAS Data Set SAS 从并行sas数据集合读取数据或将数据写入并行sas数据集合;用于同sas stage进行连接。 用于并行执行部分sas应用。 DB2 IBM DB2 UDB访问: ? 数据库; ? ? ? ? 读方法。 顺序执行或并行执行; 支持DB2的hash分区; 支持write、upsert和load的写方法; 支持表、自动产生SQL和用户定义SQL从DB2数据库读取数据或将数据写入DB2Oracle Oracle数据库访问: ? 从Oracle数据库读取数据或将数据写入Oracle数据库; ? ? ? Informix XPS 顺序执行或并行执行; 支持load和upsert写方法; 支持Table和Query读方法。 Informix XPS数据库访问: ? 从informix XPS数据库读取数据或将数据写入informix XPS数据库; ? Teradata 顺序执行和并行执行。 Teradata数据库访问: ? 支持从Teradata数据库读取数据和将数据写入Teradata数据库; ? FastExport:Table、Auto-generated SQL、User-generated SQL; 第17页
Datastage开发经验汇总 润信科技
? FastLoad:Create、Append、Replace、Truncate; ? ? ODBC (coming soon) 顺序执行和并行执行; 支持TUF6.1、TTU7.0。 使用ODBC访问数据库。
2.1.8 附录B
扩展连接,所有可用到DataStage Server(通过plug-in架构)的连接对于企业版也可用,但是有限制(查看DataStage Connectivity或联系Ascential获取完整的列表)。
图标 Stage Other database 描述 其他数据库接口,包括Sybase、Unidata等。 interfaces XML PACK 2.0 基于XML架构定义(XSD)读取和写XML数据;在DataStage作业中,基于XML Stylesheet(XSL-T)允许XML从一中架构直接转化的另一种架构。 WebSphere MQ 从MQ队列读或写,包括destructive读。 Web Services Client PACK Java PACK Enterprise Applications Ascential Connect 在作业设计中,允许设计者使用基于web service的资源作为一个源、目标或转换。 允许使用预先编译的java类来访问源或目标;建立和编译java类到转换中。 JD Edwards、PeopleSoft、SAL BW、SAP/R3、Siebil。 其他数据源,包括IDMS、NonStopSQL等。E-business源/目标,包括EDI-EDIFACT、HL7、HIPAA 等。 第18页
Datastage开发经验汇总 润信科技
2.2 DataStage client 介绍
四大部件:Administrator、Manager、Designer、Director 整体框架图:
? Designer(设计者):通过提供“拖放”界面设计平台,以此实现在创建执行数据集
成任务“JOB”的同时,对数据流和转换过程创建一个可视化的演示。
? Manage(管理者):对每个工程的各个单元,包括库表定义、集中的转换程序和元数
据连接等对象进行分类和组织。
? Director(指挥者):为启动、停止和监视作业提供交互式控制。
? Administrator(系统管理者):在服务器端管理datastage的工程和使用者权限的分
配。
? 服务器是数据集成的主要设备。在服务器上,你可以在运行时间内对几个并行的处
理过程进行控制,以便在多个不同的数据源和数据目标之间发送数据。服务器可以安装在NT或UNIX、LINUX环境中,同时通过调节来有效地利用多处理器和内存的优势。通过使用Datstage中包括的许多富有效率的功能,企业可以缩短学习周期、简化管理过程、最大限度地开发资源,从而缩短数据集成应用程序的开发和维护周期。
第19页
Datastage开发经验汇总 润信科技
2.3 Administrator
Administrator:用来执行管理任务,如建立DataStage用户、建立和删除
工程并且建立清洗标准,设置工程属性和使用者权限的分配等。
2.3.1 全局设置
Projects:可对工程进行添加修改。如下图:
Add:添加工程; Delete:删除工程; Properties:设置工程属性; NLS:设置工程的全局语言支持。
Project pathname:显示工程在服务器的目录。
2.3.2 工程属性设置
选中工程,然后点击“Properties”,便进入工程属性设置界面。如下图:
第20页