智能制造热点词汇科普篇——数据湖

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

数据湖是一个基于廉价数据存储硬件的集中式数据存储和处理平台,主要包括存储层、处理层、分析层和应用层四个部分,能够进行多种数据处理、分析和应用,是大数据领域中的重要组成部分。

在数据湖架构中,存储层负责存储海量的数据,包括结构化数据、非结构化数据、流数据等。处理层则进行多种数据处理,包括批处理、流处理、图处理、机器学习等。分析层则进行数据分析和挖掘,提供可视化分析和查询功能。应用层则能够提供各种数据应用,包括数据科学、机器学习、业务分析等。

 

1. 存储层

存储海量的数据,包括结构化数据、非结构化数据、流数据等。

2. 处理层

进行多种数据处理,包括批处理、流处理、图处理、机器学习等。

3. 分析层

进行数据分析和挖掘,提供可视化分析和查询功能。

4. 应用层

能够提供各种数据应用,包括数据科学、机器学习、业务分析等。

 

数据湖架构面向多数据源的信息存储,包括物联网在内。在数据湖架构中,信息安全是一项重要挑战。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和下一年的数据进行比对,这将抵消其容量成本。如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以易于读取的格式存储,像是JPEG、PDF文件——如果你的数据湖架构不够安全,那么信息损失很容易。因此,在构建和运行数据湖时,必须高度重视并采取有效的措施来保障数据的安全性和可靠性。在构建数据湖时,需要考虑到数据的持久性和安全性。由于数据湖中的数据是长期存储的,因此需要选择可靠的存储设备和服务,以确保数据的持久性和完整性。同时,数据的安全性也需要得到充分的保障,防止未经授权的访问和泄露。在数据湖的构建和管理中,需要注重细节和优化。例如,需要对存储设备进行定期维护和检测,以确保数据的可靠性和完整性。同时,需要对数据进行备份和恢复,以防止意外情况的发生。

数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。

相关软件
智源制造运营管理HSMOM 作为一个详细定义并联接制造企业4大管理业务活动(生产、维护、质量、库存)的通用集成平台,融合新型IT技术与各业务系统,为客户提供从底层IT硬件架构、网络架构到上层制造运营系统的一站式整体解决方案。其以整体化的思路
相关阅读