大数据集群监控方法及相关设备技术

技术编号:24707599 阅读:23 留言:0更新日期:2020-06-30 23:55
本公开的实施方式提供了一种大数据集群监控方法及装置、计算机可读存储介质和电子设备,属于计算机和通信技术领域。所述方法包括:通过采集器采集大数据集群的监控指标;将所述监控指标写入时序数据库;将写入所述时序数据库的所述监控指标与报警规则进行比较;在所述监控指标达到所述报警规则时,进行报警;或在所述监控指标未达到所述报警规则时,继续进行监控。本公开实施方式的技术方案提供了一种大数据集群监控方法,能够实现大数据集群的监控,该方法易扩展易使用。

【技术实现步骤摘要】
大数据集群监控方法及相关设备
本公开涉及计算机和通信
,具体而言,涉及一种大数据集群监控方法及装置、计算机可读存储介质和电子设备。
技术介绍
在现有的大数据集群的运行中,现有技术的监控和报警方法的二次开发难度高,不易扩展。另外,现有技术的监控和报警方法的报警设置复杂,繁琐不易使用。随着大数据集群的发展应用,针对数量如此巨大的集群运维,需要一种新的技术方法协助运维人员保证大数据集群的健康运行,从而避免繁重的重复工作。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开实施例提供一种大数据集群监控方法及装置、计算机可读存储介质和电子设备,能够提高大数据集群处理的效率和准确性。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一个方面,提供一种大数据集群的监控方法,包括:通过采集器采集大数据集群的监控指标;将所述监控指标写入时序数据库;将写入所述时序数据库的所述监控指标与报警规则进行比较;在所述监控指标达到所述报警规则时,进行报警;或在所述监控指标未达到所述报警规则时,继续进行监控。在一个实施例中,所述采集器为客户端数据采集器,所述方法还包括:将所述客户端数据采集器安装至所述大数据集群的目标设备。在一个实施例中,还包括:通过所述目标设备的系统中的自带解释型编程语言解析器运行所述客户端数据采集器;其中,所述客户端数据采集器能够动态增加。在一个实施例中,所述时序数据库为分布式时间序列数据库,将所述监控指标写入时序数据库包括:通过所述客户端数据采集器以套接字方式将所述监控指标写入底层存储可扩展的所述分布式时间序列数据库;其中,所述分布式时间序列数据库使用分布式列式数据库集群进行后台存储。在一个实施例中,所述报警规则为所述监控指标大于等于最大值的90%的次数不得大于等于监控次数的二分之一,在所述监控指标达到所述报警规则时,进行报警包括:所述监控指标大于等于最大值的90%的次数大于等于特定数值的监控次数的二分之一时,进行报警;其中,所述特定数值为大于等于2的偶数。在一个实施例中,将所述监控指标写入时序数据库包括:将所述监控指标的名称、数值、采集时间、集群名称和地址写入所述时序数据库。在一个实施例中,通过采集器采集大数据集群的监控指标包括:通过所述客户端数据采集器以特定频率采集所述大数据集群的所述监控指标。根据本公开的一个方面,还提供一种大数据集群的监控装置,包括:采集模块,配置为通过采集器采集大数据集群的监控指标;写入模块,配置为将所述监控指标写入时序数据库;比较模块,配置为将写入所述时序数据库的所述监控指标与报警规则进行比较;以及报警模块,配置为在所述监控指标达到所述报警规则时,进行报警。根据本公开的一个方面,还提供一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任一项所述的方法。根据本公开的一个方面,还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。本申请的实施方式通过客户端数据采集大数据集群的监控指标;将所述监控指标写入时序数据库;将写入所述时序数据库的所述监控指标与报警规则进行比较;在所述监控指标达到所述报警规则时,进行报警;或在所述监控指标未达到所述报警规则时,继续进行监控。该实施方式的客户端数据采集器由解释型编程语言实现,使用系统自带的解释型编程语言解析器就可运行,对目标机器侵入小,并且可以动态的增加采集器,不用重启客户端数据采集器。该方式的客户端数据采集器通过套接字方式向分布式时间序列数据库写入采集到的监控指标,写入的数据包含了监控指标的名称和值、时间、集群名称和ip等。其中,分布式时间序列数据库后台存储使用的是分布式列式数据库集群,实现了底层存储可扩展。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示出了可以应用本公开实施方式的大数据集群的监控方法或大数据集群的监控装置的示例性系统架构的示意图;图2示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图;图3示意性示出了根据本公开的一实施方式的大数据集群监控方法的流程图;图4示意性示出了根据本公开的一实施方式的大数据集群监控装置的框图;图5示意性示出了根据本专利技术的另一个实施方式的大数据集群监控装置的方框图;图6示意性示出了根据本专利技术的另一个实施方式的大数据集群监控装置的方框图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。图1示出了可以应用本公开实施方式的大数据集群的监控方法或大数据集群的监控装置的示例性系统架构100的示意图。如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104是用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。应该理本文档来自技高网...

【技术保护点】
1.一种大数据集群的监控方法,其特征在于,包括:/n通过采集器采集大数据集群的监控指标;/n将所述监控指标写入时序数据库;/n将写入所述时序数据库的所述监控指标与报警规则进行比较;/n在所述监控指标达到所述报警规则时,进行报警;或/n在所述监控指标未达到所述报警规则时,继续进行监控。/n

【技术特征摘要】
1.一种大数据集群的监控方法,其特征在于,包括:
通过采集器采集大数据集群的监控指标;
将所述监控指标写入时序数据库;
将写入所述时序数据库的所述监控指标与报警规则进行比较;
在所述监控指标达到所述报警规则时,进行报警;或
在所述监控指标未达到所述报警规则时,继续进行监控。


2.根据权利要求1所述的方法,其特征在于,所述采集器为客户端数据采集器,所述方法还包括:
将所述客户端数据采集器安装至所述大数据集群的目标设备。


3.根据权利要求2所述的方法,其特征在于,还包括:
通过所述目标设备的系统中的自带解释型编程语言解析器运行所述客户端数据采集器;
其中,所述客户端数据采集器能够动态增加。


4.根据权利要求2所述的方法,其特征在于,所述时序数据库为分布式时间序列数据库,将所述监控指标写入时序数据库包括:
通过所述客户端数据采集器以套接字方式将所述监控指标写入底层存储可扩展的所述分布式时间序列数据库;
其中,所述分布式时间序列数据库使用分布式列式数据库集群进行后台存储。


5.根据权利要求2所述的方法,其特征在于,所述报警规则为所述监控指标大于等于最大值的90%的次数不得大于等于监控次数的二分之一,在所述监控指标达到所述报警规则时,进行报警包括:
所述监控指标大于等于...

【专利技术属性】
技术研发人员:佟铁
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1