软件说明
数据抽取及加载:K-Fusion从多种数据源中抽取数据,并将经过数据转换之后的结果集加载到目标数据库中,支持的数据源包括关系型数据库(包括国产数据库)、多维数据库、平面文件和网络文件等共计40余种。 数据转换:对抽取的数据进行值映射,字段选择、拆分、计算,设置字段值,增加序列、常量、校验,添加XML与XSL转换,行扁平化、列规范化,行转列,去除重复行,行排序、分组等操作,实现对数据的预处理。 增量ETL:通过全表比对、基于数据源标识字段的CDC、基于触发器CDC和基于数据库日志分析的CDC等机制来定期识别出数据源的增量数据,对这些数据进行抽取、转换和加载,以减小服务器压力,提升数据处理速度。 关键特征 性能监控和提升机制:K-Fusion提供了流程和节点两个级别的性能监控日志功能,能够以不同的粒度记录每次流程执行过程中重要信息,例如读、写、输入、输出、更新、删除的数据行数,节点的每秒处理的数据行数、整个流程每秒处理的数据行数;并且对信息进行可视化以便用户快速定位性能瓶颈。实现了多种用于流程性能提升的机制,例如在流程处理过程中对数据进行分片处理,并通过设置流程处理节点的冗余实现对这些分片数据的并行处理和负载均衡;对大文本的读写实现并行化;对常用的关系型数据库目的端进行Bulk Insert方式的批量数据加载。通过以上机制,显著降低大数据量情况的抽取、转换和加载时间,提高了用户数据集成工作的效率。 流程控制能力和异常处理完善:K-Fusion支持对多个ETL流程间相对执行顺序的控制,除了提供了流程串行的方式外,提供了多流程的并行执行方式以获得执行效率的更大化,另外还可延迟或者中断指定节点或者子流程的执行。对流程执行过程中可能存在的异常,支持异常处理流程的自定义,例如定制“日志记录”、“邮件通知”或“异常数据归档”,以提高实际部署环境中,用户ETL流程的容错性。