产品优势
多源异构数据接入:支持结构化数据和非结构化数据的接入,其中包括关系型数据库、MPP型数据库、文件数据、消息中间件、FTP 等。
流批一体的数据处理能力:支持大容量高并发同步,包括全量、增量方式,并支持同步速率和异常数据管理;支持多种不同的异构存储系统数据。
自学习式数据探查:通过对数据的分布和理解,帮助用户快速评判数据集的质量与可用性,并根据数据集特点评估如何处理数据,为数据资源定义提供依据。
智能AI治理:基于治理好的知识模型,平台能够快速的实现实体发现,标签计算,对海量数据快速标注,整理,形成标准表,主题表,专题库等知识模块。知识发现的过程完全可以无代码化,方便业务人员操作。
功能描述
数据汇集
通过创建数据汇集任务,实现数据的“多源汇聚”,采用统一的数据接入模式,以标准化、模块化的方式进行多源异构数据的接入;提供采集全面、动态可配的数据接入机制,实现数据的获取分发、策略配置、任务配置、任务调度等数据接入功能;提供全量汇聚和增量汇聚两种数据汇聚模式。依托Flink分布式计算引擎,将任务提交到YARN上做资源管理,实现对海量数据的快速接入,快速构建企业级数据湖。
数据治理
中台提供一系列数据标准化的工具,引入多种深度学习方案,工作效率大幅提升,完成数据治理,数据统一的工作;这是后续各种数据库构建和分析,提供上层业务调用,保证数据准确性的基础。
实体工厂
是云从数据中台非常有特色的一个模块;使得云从数据中台具有了“知识发现”的功能;通过该模块,能够初步对数据进行画像、分析、标注、建立更加有信息价值的数据中间结果。
数据资产管理
提供数据编目,数据资产管理的功能;能够在海量数据中快速找到自己需要的资源。支持可视化界面进行数据编目;支持快速查询;支持全局检索。
数据血缘
基于调度系统,将数据加工和管理的各个节点记录、配置、管理;自动生成数据的血缘关系;形成数据地图。