一种基于生命周期管理的一体化大数据管理平台制造技术

技术编号:29286885 阅读:14 留言:0更新日期:2021-07-17 00:01
本发明专利技术公开了一种基于生命周期管理的一体化大数据管理平台,包括元数据管理子系统,用于对各类数据的元数据进行集中的存储、管理和维护;数据接入子系统,用于数据的接入;数据存储管理子系统,用于数据的持久化存储;数据检索子系统,用于数据的检索,根据用户所需查询的数据特征信息与所述元数据管理子系统交互,查找与数据特征信息一致的数据;运维管理子系统,用于数据的可视化管理,用于提供管理员所需的数据全貌及任务概况;消息层,用于消息中间件,用于提供数据传送的分布式环境;资源调度,用于各种资源进行合理有效的调节和测量及分析和使用;安全机制,用于数据的安全。有益效果:实现平台整体“高内聚、低耦合”的效果。的效果。的效果。

【技术实现步骤摘要】
一种基于生命周期管理的一体化大数据管理平台


[0001]本专利技术涉及大数据
,具体来说,涉及一种基于生命周期管理的一体化大数据管理平台。

技术介绍

[0002]大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性,大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。
[0003]随着社会的高速发展,数据迅速膨胀,量级不断扩大,并呈现出数据种类繁多、数据量大、价值密度低、速度快、时效高等特点,既有的技术架构和路线,已经无法高效处理如此海量的数据。如何实现海量数据高效的接入、存储、管理、检索,成为企业或组织业务发展转型过程中的极大技术挑战。因此,亟需一套基于数据生命周期、具备高效地“接、存、管、用”能力的一体化大数据管理平台。
[0004]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术的目的在于提供一种基于生命周期管理的一体化大数据管理平台,以解决上述
技术介绍
中提出的问题。
[0006]本专利技术的技术方案是这样实现的:
[0007]根据本专利技术的一方面,提供了一种基于生命周期管理的一体化大数据管理平台。
[0008]该基于生命周期管理的一体化大数据管理平台包括:
[0009]元数据管理子系统,用于对各类数据的元数据进行集中的存储、管理和维护;
[0010]数据接入子系统,用于数据的接入,结合元数据,对数据进行自动分区计算;
[0011]数据存储管理子系统,用于数据的持久化存储,并在数据落地后,对存储进行优化;
[0012]数据检索子系统,用于数据的检索,根据用户所需查询的数据特征信息与所述元数据管理子系统交互,查找与数据特征信息一致的数据;
[0013]运维管理子系统,用于数据的可视化管理,用于提供管理员所需的数据全貌及任务概况;
[0014]消息层,用于消息中间件,用于提供数据传送的分布式环境;
[0015]资源调度,用于各种资源进行合理有效的调节和测量及分析和使用;
[0016]安全机制,用于数据的安全,对管理员进行认证和鉴别。
[0017]其中,所述数据接入子系统包括数据加载子模块、消息队列子模块、数据持久化子模块和数据存储子模块,其中,数据加载子模块,用于支持了HTTP、TCP、FTP在内的常用网络协议,也支持消息层的Kafka、RocketMQ等消息中间件,可启动Http Server、Tcp Server、Ftp Server等,用于从不同的客户端接入数据;消息队列子模块,用于数据的高速缓冲和多
源汇聚;数据持久化子模块,用于从所述消息队列模块中指定主题消费数据,支持用户根据业务规则,将数据分拣入不同的通道中,还用于数据的最终落地;数据存储子模块,用于数据的存储。
[0018]其中,所述数据存储子模块包括分布式数据仓库、分布式KV库和分布式全文库。
[0019]其中,所述数据存储管理子系统包括小文件合并子模块、生命周期管理子模块和分级存储子模块,其中,小文件合并子模块,用于对小文件进行合并任务,使多个小文件合并产生大文件;生命周期管理子模块,用于对存储数据进行过期删除,支持对分布式数据仓库Hive和分布式全文库Elasticsearch进行数据自动删除;分级存储子模块,用于对数据进行分级存储。
[0020]其中,所述运维管理子系统包括部署子模块、配置子模块、管理子模块、监控子模块、数据全貌子模块和任务监控子模块,其中,部署子模块,用于服务部署;配置子模块,用于服务配置;管理子模块,用于对节点、服务进行管理,如在线添加、删除节点或服务,在线修改服务配置等;监控子模块,用于监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控,可对硬件服务器网络、内存、磁盘等进行实时监控,对服务的内存使用,活跃状态进行实时监控;数据全貌子模块,用于对数据全貌进行监控;任务监控子模块,用于对任务概况进行监控。
[0021]根据本专利技术的另一方面,提供了一种基于生命周期管理的一体化大数据管理方法,该基于生命周期管理的一体化大数据管理方法包括以下步骤:
[0022]数据接入子系统接受用户存储数据;
[0023]数据接入子系统对所述存储数据进行处理,确定所述存储数据的特征;
[0024]数据接入子系统依据所述存储数据特征落地存储;
[0025]根据预先设置的小文件阈值,数据存储管理子系统对处于阈值内的存储数据进行合并;
[0026]根据预先设置的存储数据的存储时间周期,数据管理子系统对过期的所述存储数据删除。
[0027]其中,在对数据接入子系统对所述存储数据进行处理,确定所述存储数据的特征时,可预先配置元数据的数据模式、分区规则、存储规则等信息,结合元数据,数据持久化子模块对存储数据进行自动分区计算知晓所述存储数据的目标分区。
[0028]其中,在根据预先设置的小文件阈值,数据存储管理子系统对处于阈值内的存储数据进行合并时,可设置小文件阈值,小文件合并子模块对所述存储数据进行判断,对低于阈值的所述存储数据进行合并任务,通过一个Spark作业完成存储数据的合并并最终会产生一个大文件,对原来所述存储数据进行延迟删除。
[0029]其中,在对根据预先设置的存储数据的存储时间周期,数据管理子系统对过期的所述存储数据删除时,在元数据中定义数据存储生命周期,对所述存储数据进行判断,对超出生命周期的所述存储数据,生命周期管理子模块进行自动删除操作。
[0030]与现有技术相比,本专利技术具有以下有益效果:
[0031](1)以元数据管理子系统为中心,定义各类业务数据的元数据、分区规则以及存储规则,数据接入子系统、数据存储管理子系统、数据检索子系统均以此为依据,聚焦子系统内部逻辑,“接、存、管、用”各子系统相互之间没有交互关系,实现平台整体“高内聚、低耦
合”的效果。
[0032](2)、多路并行数据接入,实现分区自动计算,合理的文件关闭策略,兼顾文件大小控制及数据及时性,并极大提升了数据接入的效率;小文件合并,有效地降低随机IO,提高检索效率,同时降低文件系统元数据管理的压力;数据分级存储,使得冷热数据的存储更加合理,兼顾线上业务的查询效率及数据存储成本;过期数据自动删除,在信息迅速膨胀的场景下,可有效降低存储的压力,使得海量数据的管理更加从容;基于自定义分区规则的透明分区裁剪,在大量的基于隐含分区字段的条件过滤场景下,有效降低了整表扫描量,提高检索效率,降低查询响应时间;通过可视化部署、配置及监控,降低管理员在大规模数据集群管理上的技术门槛,极大地提高了工作效率。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生命周期管理的一体化大数据管理平台,其特征在于,包括:元数据管理子系统,用于对各类数据的元数据进行集中的存储、管理和维护;数据接入子系统,用于数据的接入,结合元数据,对数据进行自动分区计算;数据存储管理子系统,用于数据的持久化存储,并在数据落地后,对存储进行优化;数据检索子系统,用于数据的检索,根据用户所需查询的数据特征信息与所述元数据管理子系统交互,查找与数据特征信息一致的数据;运维管理子系统,用于数据的可视化管理,用于提供管理员所需的数据全貌及任务概况;消息层,用于消息中间件,用于提供数据传送的分布式环境;资源调度,用于各种资源进行合理有效的调节和测量及分析和使用;安全机制,用于数据的安全,对管理员进行认证和鉴别。2.根据权利要求1所述的一种基于生命周期管理的一体化大数据管理平台,其特征在于,所述数据接入子系统包括数据加载子模块、消息队列子模块、数据持久化子模块和数据存储子模块,其中,数据加载子模块,负责支持了HTTP、TCP、FTP在内的常用网络协议,也支持消息层的Kafka、RocketMQ等消息中间件,可启动Http Server、Tcp Server、Ftp Server等,用于从不同的客户端接入数据;消息队列子模块,用于数据的高速缓冲和多源汇聚;数据持久化子模块,用于从所述消息队列模块中指定主题消费数据,支持用户根据业务规则,将数据分拣入不同的通道中,还用于数据的最终落地;数据存储子模块,用于数据的存储。3.根据权利要求2所述的一种基于生命周期管理的一体化大数据管理平台,其特征在于,所述数据存储子模块包括分布式数据仓库、分布式KV库和分布式全文库。4.根据权利要求3所述的一种基于生命周期管理的一体化大数据管理平台,其特征在于,所述数据存储管理子系统包括小文件合并子模块、生命周期管理子模块和分级存储子模块,其中,小文件合并子模块,用于对小文件进行合并任务,使多个小文件合并产生大文件;生命周期管理子模块,用于对存储数据进行过期删除,支持对分布式数据仓库Hive和分布式全文库Elasticsearch进行数据自动删除;分级存储子模块,负责对数据进行分级存储。5.根据权利要求4所述的一种基于生命周期管理的一体化大数据管理平台,...

【专利技术属性】
技术研发人员:苏志坚
申请(专利权)人:联洋国融北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1