实时计算平台的监控和报警方法、系统、设备及存储介质技术方案

技术编号:21513666 阅读:19 留言:0更新日期:2019-07-03 08:57
本发明专利技术提供了一种实时计算平台的监控和报警方法、系统、设备及存储介质,所述方法包括:获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,判断所述应用程序是否处于运行状态;如果所述应用程序处于运行状态,则根据预设的运行状态判断规则判断所述应用程序是否运行正常,以及则读取所述应用程序的埋点数据,根据设定的基准埋点数据判断所述应用程序是否运行正常。通过采用本发明专利技术的方案,提供了对实时计算平台的多维度监控,对实时计算平台的监控更为灵活。

Monitoring and Alarm Method, System, Equipment and Storage Media of Real-time Computing Platform

【技术实现步骤摘要】
实时计算平台的监控和报警方法、系统、设备及存储介质
本专利技术涉及计算机网络
,尤其涉及一种实时计算平台的监控和报警方法、系统、设备及存储介质。
技术介绍
随着互联网技术的快速发展,每天产生的数据正以指数级的速度增长,对这些大量数据的处理与分析具有巨大的应用价值,而实时数据的增多,传统的离线数据计算已经越来越难以满足分析的需求,因此流式计算应用越来越广泛。目前,实时计算任务的需求持续增长,关于实时计算任务的监控尚不完善,而实时计算具有很高的实时性以及稳定性的要求,如果不能进行有效的实时监控,及时的处理报错,经常会带来巨大损失。监控系统的全面建立能够及时监控任务的报错,数据的异常,缩短处理任务异常所需的时间,更好的保证程序的稳定运行。然而,现有技术中,针对于流式计算任务的报警系统却并不完善,并且尚没有一套成熟的方案。现有的实时任务的监控一般通过Grafana等可视化组件实现,Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询进行可视化的展示,并及时通知。用户通过配置信息到Grafana,检测到用户写到opentsdb信息,进行展示,并选择适当方式的报警。Opentsdb是基于Hbase的时序数据库,主要针对具有时间特性和需求的数据,如监控数据、温度变化数据等,opentsdb是在Hbase(一个分布式的、面向列的开源数据库)的基础上,进行数据结构的优化和处理,从而适合存储具有时间特性的数据,同时提供特定的工具进行查询等操作。然而现有的方法中,对任务运行具体状态,应用本身metrics(metrics是一个给JAVA服务的各项指标提供度量工具的包)信息等没有做到明确的监控。此外,采用该种方法,在出现异常后需要用户进一步登录YARN日志界面进行查看,YARN即YetAnotherResourceNegotiator,另一种资源协调者,是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,并且不支持电话告警等更加及时有效的配置方式。因此只适合用户监控看板,查看任务一段时间运行状态。而作为刚需的报警功能支持上并不灵活,亦不完善。并且由于是直接应用的系统,配置方式以及场景都比较固化,一些特殊需求并没有办法通过二次开发实现。
技术实现思路
针对现有技术中的问题,本专利技术的目的在于提供一种实时计算平台的监控和报警方法、系统、设备及存储介质,提供多维度监控方法。本专利技术实施例提供一种实时计算平台的监控方法,包括如下步骤:S100:获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,判断所述应用程序是否处于运行状态;S200:如果所述应用程序处于运行状态,则根据预设的运行状态判断规则判断所述应用程序是否运行正常;S300:如果所述应用程序处于运行状态,则读取所述应用程序的埋点数据,根据设定的基准埋点数据判断所述应用程序是否运行正常。可选地,所述读取应用程序的埋点数据,包括通过openTSDB应用程序编程接口读取应用程序中的埋点数据。可选地,所述方法还包括获取用户设定的监控的应用程序名称,并创建与应用程序名称关联的监控任务。可选地,所述监控方法还包括将所述监控任务注册到Zookeeper中,各个所述监控任务用于针对关联的应用程序执行所述步骤S100到步骤S300。可选地,所述运行状态判断规则包括应用程序所占用的各项资源的使用率的基准范围,如果应用程序对各项资源的使用率处于对应的基准范围之内,则应用程序运行正常,否则应用程序运行异常。可选地,所述方法还包括获取用户设定的应用程序对各项资源的使用率的基准范围以及用户设定的基准埋点数据。本专利技术实施例还提供一种实时计算平台的报警方法,基于所述的实时计算平台的监控方法实现,所述报警方法包括如下步骤:S400:如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;S500:根据应用程序的异常等级选择预设的报警方式进行报警。可选地,所述报警方法还包括获取用户设定的监控程序对应的报警信息,所述报警信息包括报警人联系方式、异常等级判定规则以及各个异常等级所对应的报警方式。本专利技术实施例还提供一种实时计算平台的报警系统,应用于所述的实时计算平台的监控方法,所述报警系统包括:数据采集模块,用于获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,以及读取应用程序的埋点数据;数据处理模块,用于根据应用程序的运行数据判断应用程序是否处于运行状态,如果应用程序处于运行状态,则根据预设的运行状态判断规则判断应用程序是否运行正常,并根据设定的基准埋点数据判断应用程序是否运行正常;异常分类模块,用于如果应用程序未处于运行状态或应用程序运行异常,根据预设的异常等级判定规则评定应用程序异常等级;异常报警模块,用于根据应用程序的异常等级选择预设的报警方式进行报警。本专利技术实施例还提供一种实时计算平台的报警设备,包括:处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的实时计算平台的报警方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的实时计算平台的报警方法的步骤。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。本专利技术所提供的实时计算平台的监控和报警方法、系统、设备及存储介质具有下列优点:本专利技术解决了现有技术中的问题,其中,监控方法提供了对实时计算平台的多维度监控,对实时计算平台的监控更为灵活;报警方法提供了更为灵活的报警方法,根据异常等级采用不同的报警方式,用户无需一直关注实时计算平台的监控状态,只需要在接收到报警信息时去查看异常状态即可,并且便于用户快速发现和处理异常。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。图1是本专利技术一实施例的实时计算平台的监控方法的流程图;图2是本专利技术一实施例的实时计算平台的报警方法的流程图;图3是本专利技术一实施例的实时计算平台的报警系统的结构示意图;图4是本专利技术一实施例的实时计算平台的报警系统的架构图;图5是本专利技术一实施例的实时计算平台的报警设备的示意图;图6是本专利技术一实施例的计算机可读存储介质的示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。如图1所示,本专利技术实施例提供本文档来自技高网
...

【技术保护点】
1.一种实时计算平台的监控方法,其特征在于,包括如下步骤:S100:获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,判断所述应用程序是否处于运行状态;S200:如果所述应用程序处于运行状态,则根据预设的运行状态判断规则判断所述应用程序是否运行正常;S300:如果所述应用程序处于运行状态,则读取所述应用程序的埋点数据,根据设定的基准埋点数据判断所述应用程序是否运行正常。

【技术特征摘要】
1.一种实时计算平台的监控方法,其特征在于,包括如下步骤:S100:获取另一种资源协调器的metrics信息,采用监控的应用程序的名称进行匹配,匹配到监控的应用程序的运行数据,判断所述应用程序是否处于运行状态;S200:如果所述应用程序处于运行状态,则根据预设的运行状态判断规则判断所述应用程序是否运行正常;S300:如果所述应用程序处于运行状态,则读取所述应用程序的埋点数据,根据设定的基准埋点数据判断所述应用程序是否运行正常。2.根据权利要求1所述的实时计算平台的监控方法,其特征在于,所述读取应用程序的埋点数据,包括通过openTSDB应用程序编程接口读取应用程序中的埋点数据。3.根据权利要求1所述的实时计算平台的监控方法,其特征在于,所述方法还包括获取用户设定的监控的应用程序名称,并创建与所述应用程序名称关联的监控任务。4.根据权利要求3所述的实时计算平台的监控方法,其特征在于,所述监控方法还包括将所述监控任务注册到Zookeeper中,各个所述监控任务用于针对关联的应用程序执行所述步骤S100到步骤S300。5.根据权利要求1所述的实时计算平台的监控方法,其特征在于,所述运行状态判断规则包括应用程序所占用的各项资源的使用率的基准范围,如果应用程序对各项资源的使用率处于对应的基准范围之内,则应用程序运行正常,否则应用程序运行异常。6.根据权利要求5所述的实时计算平台的监控方法,其特征在于,所述方法还包括获取用户设定的应用程序对各项资源的使用率的基准范围以及用户设定的基准埋点数据。7.一种实时计算平台的报警方法,其特征在于,基于权利要求1至6中任一项所述的实时计...

【专利技术属性】
技术研发人员:张宁董延峰
申请(专利权)人:江苏满运软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1