大数据平台监控方法、装置及设备、介质制造方法及图纸

技术编号:24589653 阅读:41 留言:0更新日期:2020-06-21 02:26
本发明专利技术提供一种大数据平台监控方法、装置及设备、介质,所述大数据平台包括至少一个组件,该方法包括:采集第一组件的当前状态信息;获取所述第一组件的历史状态信息;依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况。

Big data platform monitoring methods, devices, equipment and media

【技术实现步骤摘要】
大数据平台监控方法、装置及设备、介质
本专利技术涉及大数据
,尤其涉及的是一种大数据平台监控方法、装置及设备、介质。
技术介绍
随着大数据时代的发展,各行各业每天都在产生数量巨大的数据碎片,大数据需要采用分布式计算架构的大数据平台来进行处理。大数据平台可实现海量数据的数据整合、数据处理、数据存储、数据分析、可视化等功能,大数据平台比如包括数据仓库平台、基于hadoop的大数据平台等。由于大数据平台中的组件在运行时,可能会出现异常情况,因而需要对运行中的大数据平台进行监控。相关的大数据平台监控方式中,通常是从大数据平台中获取某个组件的实时运行状态,依据单一的实时运行状态对该组件的运行状态进行监控,以Hadoop大数据平台为例,通过JMX接口组件拉取关于HBase组件的实时监控信息来监控HBase组件的运行状态。上述方式中,由于仅通过组件的实时运行状态信息来监控该组件的运行情况,而某个时刻下的运行状态正常并不能说明该组件是正常运行的,组件在已经出现一些隐患的情况下,也可以继续运行且从实时运行状态信息上看不出问题,如果不及时发现这些隐患问题,可能会造成严重的后果。
技术实现思路
有鉴于此,本专利技术提供一种大数据平台监控方法、装置及设备、介质,可及时监控出仅依靠组件的实时运行状态信息发现不了的异常情况。本专利技术第一方面提供一种大数据平台监控方法,所述大数据平台包括至少一个组件,该方法包括:采集第一组件的当前状态信息;获取所述第一组件的历史状态信息;依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况。根据本专利技术的一个实施例,所述第一组件为Kafka集群;所述当前状态信息包括:Kafka集群中指定主题的所有分区当前已消费的第一消费数据量,及Kafka集群中指定主题的所有分区当前的堆积数据量;所述历史状态信息包括:所述Kafka集群中指定主题的所有分区在之前的指定时间点的已消费的第二消费数据量;依据所述当前状态信息和历史状态信息监控所述指定组件当前是否产生异常情况,包括:计算第一消费数据量与第二消费数据量之差得到消费数据量差值;判断所述消费数据量差值是否小于第一设定值;若是,确定所述Kafka集群产生所述指定主题的消费回退异常情况;若否,若所述堆积数据量大于第二设定值,确定所述Kafka集群产生所述指定主题的数据堆积异常情况。根据本专利技术的一个实施例,该方法进一步包括:检查Kafka集群中指定主题是否已选举leader,若否,确定所述Kafka集群产生所述指定主题的主副本未选举的异常情况。根据本专利技术的一个实施例,所述第一组件为Kafka集群;该方法进一步包括:当未成功采集所述当前状态信息时,确定所述Kafka集群产生指定主题的分区无法消费的异常情况,并获取第二组件的连接参数,判断获取的所述连接参数是否大于第三设定值,若是,确定所述第二组件产生已连接端口数量过多的异常情况,其中,所述第二组件具有所述Kafka集群通信所需连接的端口,所述连接参数包括:第二组件当前处于连接状态的端口的数量,或者,之前的指定时刻处于连接状态的端口的数量;和/或,当接收到查询指令时,在第三组件中查找所述Kafka集群对应的监控文档中的目标状态信息;所述查询指令是用于指示查询所述Kafka集群对应的监控文档中记录的目标状态信息的指令;当未查找到时,确定所述第三组件产生未能正常查询的异常情况;当查找到时,从所述第三组件中获取关于所述第三组件的分片情况的分片参数,若所述分片参数指示分片异常,确定所述第三组件产生分片异常情况。根据本专利技术的一个实施例,所述第一组件为HBase集群;所述当前状态信息包括:所述HBase集群所有节点中当前的第一region数量、所有节点中region当前所存储数据的第一数据总量;所述历史状态信息包括:所述HBase集群所有节点中在之前的指定时间点的第二region数量、及所有节点中region在所述指定时间点所存储数据的第二数据总量;依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况,包括:计算所述第一region数量与第二region数量之差得到region数量差值,判断所述region数量差值是否大于第四设定值,若是,确定所述HBase集群产生region无限分裂的异常情况;和/或,计算所述第一数据总量与所述第二数据总量之差得到数据总量差值,判断所述数据总量差值是否小于第五设定值,若是,确定所述HBase集群产生region数据丢失的异常情况。根据本专利技术的一个实施例,该方法进一步包括:采集HBase集群各节点的当前region数量;计算当前region数量最多的节点与当前region数量最少的节点的region数量之差得到节点region数量差值;判断节点region数量差值是否大于第六设定值,若是,确定所述HBase集群产生数据倾斜的异常情况。根据本专利技术的一个实施例,所述第一组件为HBase集群;所述采集第一组件的当前状态信息之前,该方法还进一步包括:采集所述HBase集群当前的端口连接状态;若所述端口连接状态指示端口连接异常,确定所述HBase集群产生端口连接异常的异常情况,并获取第二组件的连接参数,判断获取的所述连接参数是否大于第三设定值,若是,确定所述第二组件产生已连接端口数量过多的异常情况,其中,所述第二组件具有所述HBase集群通信所需连接的端口,所述连接参数包括:第二组件当前处于连接状态的端口的数量,或者,之前的指定时刻处于连接状态的端口的数量;和/或,采集所述HBase集群的各服务器节点HRegionServer当前的节点状态参数,若所述节点状态参数指示存在失效的HRegionServer,确定所述HBase集群产生HRegionServer不可用的异常情况。根据本专利技术的一个实施例,所述第一组件为HBase集群;所述采集第一组件的当前状态信息进一步包括:采集所述HBase集群当前的region健康状态;若所述健康状态指示所述HBase集群中存在失效region,确定所述HBase集群产生region失效的异常情况;若所述健康状态指示所述HBase集群中不存在失效region,采集所述HBase集群的当前状态信息。本专利技术第二方面提供一种大数据平台监控装置,所述大数据平台包括至少一个组件,该装置包括:当前信息采集模块,用于采集第一组件的当前状态信息;历史信息获取模块,用于获取所述第一组件的历史状态信息;异常监控模块,用于依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况。根据本专利技术的一个实施例,所述第一组件为Kafka集群;所述当前状态信息包括:Kafka集群中指定主题的所有分区当前已消费的第一消费数据量,及本文档来自技高网...

【技术保护点】
1.一种大数据平台监控方法,所述大数据平台包括至少一个组件,其特征在于,该方法包括:/n采集第一组件的当前状态信息;/n获取所述第一组件的历史状态信息;/n依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况。/n

【技术特征摘要】
1.一种大数据平台监控方法,所述大数据平台包括至少一个组件,其特征在于,该方法包括:
采集第一组件的当前状态信息;
获取所述第一组件的历史状态信息;
依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况。


2.如权利要求1所述的大数据平台监控方法,其特征在于,所述第一组件为Kafka集群;
所述当前状态信息包括:Kafka集群中指定主题的所有分区当前已消费的第一消费数据量,及Kafka集群中指定主题的所有分区当前的堆积数据量;
所述历史状态信息包括:所述Kafka集群中指定主题的所有分区在之前的指定时间点的已消费的第二消费数据量;
依据所述当前状态信息和历史状态信息监控所述指定组件当前是否产生异常情况,包括:
计算第一消费数据量与第二消费数据量之差得到消费数据量差值;
判断所述消费数据量差值是否小于第一设定值;
若是,确定所述Kafka集群产生所述指定主题的消费回退异常情况;
若否,若所述堆积数据量大于第二设定值,确定所述Kafka集群产生所述指定主题的数据堆积异常情况。


3.如权利要求1所述的大数据平台监控方法,其特征在于,该方法进一步包括:
检查Kafka集群中指定主题是否已选举leader,若否,确定所述Kafka集群产生所述指定主题的主副本未选举的异常情况。


4.如权利要求1所述的大数据平台监控方法,其特征在于,所述第一组件为Kafka集群;该方法进一步包括:
当未成功采集所述当前状态信息时,确定所述Kafka集群产生指定主题的分区无法消费的异常情况,并获取第二组件的连接参数,判断获取的所述连接参数是否大于第三设定值,若是,确定所述第二组件产生已连接端口数量过多的异常情况,其中,所述第二组件具有所述Kafka集群通信所需连接的端口,所述连接参数包括:第二组件当前处于连接状态的端口的数量,或者,之前的指定时刻处于连接状态的端口的数量;
和/或,
当接收到查询指令时,在第三组件中查找所述Kafka集群对应的监控文档中的目标状态信息;所述查询指令是用于指示查询所述Kafka集群对应的监控文档中记录的目标状态信息的指令;当未查找到时,确定所述第三组件产生未能正常查询的异常情况;当查找到时,从所述第三组件中获取关于所述第三组件的分片情况的分片参数,若所述分片参数指示分片异常,确定所述第三组件产生分片异常情况。


5.如权利要求1所述的大数据平台监控方法,其特征在于,所述第一组件为HBase集群;
所述当前状态信息包括:所述HBase集群所有节点中当前的第一region数量、所有节点中region当前所存储数据的第一数据总量;
所述历史状态信息包括:所述HBase集群所有节点中在之前的指定时间点的第二region数量、及所有节点中region在所述指定时间点所存储数据的第二数据总量;
依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况,包括:
计算所述第一region数量与第二region数量之差得到region数量差值,判断所述region数量差值是否大于第四设定值,若是,确定所述HBase集群产生region无限分裂的异常情况;
和/或,
计算所述第一数据总量与所述第二数据总量之差得到数据总量差值,判断所述数据总量差值是否小于第五设定值,若是,确定所述HBase集群产生region数据丢失的异常情况。


6.如权利要求1所述的大数据平台监控方法,其特征在于,该方法进一步包括:
采集HBase集群各节点的当前region数量;
计算当前region数量最多的节点与当前region数量最少的节点的region数量之差得到节点region数量差值;
判断节点region数量差值是否大于第六设定值,若是,确定所述HBase集群产生数据倾斜的异常情况。


7.如权利要求1所述的大数据平台监控方法,其特征在于,所述第一组件为HBase集群;
所述采集第一组件的当前状态信息之前,该方法还进一步包括:
采集所述HBase集群当前的端口连接状态;若所述端口连接状态指示端口连接异常,确定所述HBase集群产生端口连接异常的异常情况,并获取第二组件的连接参数,判断获取的所述连接参数是否大于第三设定值,若是,确定所述第二组件产生已连接端口数量过多的异常情况,其中,所述第二组件具有所述HBase集群通信所需连接的端口,所述连接参数包括:第二组件当前处于连接状态的端口的数量,或者,之前的指定时刻处于连接状态的端口的数量;
和/或,
采集所述HBase集群的各服务器节点HRegionServer当前的节点状态参数,若所述节点状态参数指示存在失效的HRegionServer,确定所述HBase集群产生HRegionServer不可用的异常情况。


8.如权利要求1所述的大数据平台监控方法,其特征在于,所述第一组件为HBase集群;
所述采集第一组件的当前状态信息进一步包括:
采集所述HBase集群当前的region健康状态;
若所述健康状态指示所述HBase集群中存在失效region,确定所述HBase集群产生region失效的异常情况;
若所述健康状态指示所述HBase集群中不存在失效region,采集所述HBase集群的当前状态信息。


9.一种大数据平台监控装置,所述大数据平台包括至少一个组件,其特征在于,该装置包括:
当前信息采集模块,用于采集第一组件的当前状态信息;
历史信息获取模块,用于获取所述第一组件的历史状态信息;
异常监控模块,用于依据所述当前状态信息和历史状态信息监控所述第一组件当前是否产生异常情况。


10.如权利要求9所述的大数据...

【专利技术属性】
技术研发人员:刘文之
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1