【技术实现步骤摘要】
监控方法、装置、设备及计算机可读存储介质
本专利技术涉及数据处理领域,尤其涉及一种监控方法、装置、设备及计算机可读存储介质。
技术介绍
随着科技的发展,电子商务逐渐走进用户的生活,为了支撑众多用户的业务需求,现有的电商网站一般都采用多个分布式系统对业务进行支撑,不同的分布式系统分别处理不同的业务。但是,由于不同的分布式系统处理的业务有所不同,也就导致不同的分布式系统的业务处理时间不同。以实际应用举例来说,可以采用Kubernetes系统承担用户在线购物的主营业务,采用Hadoop系统对海量数据进行清洗、转换、加工等操作,生成搜索推荐、人工智能、无界零售、人脸识别等系统所需的基础数据,但是,由于用户的购物习惯,Kubernetes系统的主要压力是在白天的9点至24点之间。凌晨0至8点,Kubernetes系统80%的资源处于闲置状态,而Hadoop系统则需要提供每天24小时的数据服务。但随着业务的高速发展与快速扩张,大数据的Hadoop系统需要处理的数据越来越多,每年花费巨额资金对现有大数据的计算、存储能力进行扩容,从而造成资源浪费。为了解决上述技术问题,现有技术中提出一种将Hadoop系统的业务转移到Kubernetes系统上进行处理,以实现资源共享的方法。但是,采用上述方法进行业务处理时,往往无法实现对两个系统的业务以及硬件情况进行监控,从而无法对系统当前的健康状况进行实时监测。
技术实现思路
本专利技术提供一种监控方法、装置、设备及计算机可读存储介质,用于解决现有的资源共享方法 ...
【技术保护点】
1.一种监控方法,其特征在于,包括:/n分别获取进行资源共享的第一系统以及第二系统的运行数据;/n根据预设的判断规则对所述运行数据进行判断,以确定所述第一系统以及所述第二系统是否发生故障;/n根据判断结果采取相应地措施,以使所述第一系统以及所述第二系统正常运行。/n
【技术特征摘要】
1.一种监控方法,其特征在于,包括:
分别获取进行资源共享的第一系统以及第二系统的运行数据;
根据预设的判断规则对所述运行数据进行判断,以确定所述第一系统以及所述第二系统是否发生故障;
根据判断结果采取相应地措施,以使所述第一系统以及所述第二系统正常运行。
2.根据权利要求1所述的方法,其特征在于,所述分别获取进行资源共享的第一系统以及第二系统的运行数据,包括:
通过所述第一系统与所述第二系统中预设的调用接口分别获取进行资源共享的第一系统以及第二系统的运行数据。
3.根据权利要求1所述的方法,其特征在于,所述分别获取进行资源共享的第一系统以及第二系统的运行数据,包括:
分别获取进行资源共享的第一系统以及第二系统的硬件运行数据。
4.根据权利要求1所述的方法,其特征在于,所述分别获取进行资源共享的第一系统以及第二系统的运行数据,包括:
分别获取进行资源共享的第一系统以及第二系统的任务运行数据。
5.根据权利要求1所述的方法,其特征在于,所述根据预设的判断规则对所述运行数据进行判断,包括:
按照预设的周期根据预设的判断规则对所述运行数据进行判断。
6.根据权利要求3所述的方法,其特征在于,所述根据预设的判断规则对所述运行数据进行判断,包括:
根据所述第一系统以及第二系统的硬件运行数据计算所述第一系统以及所述第二系统的存储资源占用率;
根据预设的判断规则对所述存储资源占用率进行判断,确定所述第一系统以及第二系统存储资源占用率连续超过预设的比例阈值的次数是否超过预设的第一阈值。
7.根据权利要求4所述的方法,其特征在于,所述根据预设的判断规则对所述运行数据进行判断,包括:
根据所述任务运行数据确定所述第一系统以及第二系统的任务完成率;
根据预设的判断规则对所述任务完成率进行判断,确定所述第一系统以及第二系统的任务完成率是否低于预设的第二阈值;和/或,
根据所述任务运行数据确定所述第一系统以及第二系统的任务完成时间;
根据预设的判断规则对所述任务完成时间行判断,确定所述第一系统以及第二系统的任务完成时间是否超过预设的第三阈值。
8.根据权利要求6所述的方法,其特征在于,所述根据判断结果采取相应地措施,包括:
若所述第一系统以及第二系统存储资源占用率连续超过预设的比例阈值的次数超过预设的第一阈值,则确定所述第一系统以及所述第二系统中当前空闲的集群节点;
通过所述第一系统以及所述第二系统中当前运行的集群节点以及所述空闲的集群节点对当前的任务进行处理。
9.根据权利要求7所述的方法,其特征在于,所述根据判断结果采取相应地措施,包括:
若第一系统以及第二系统的任务完成率低于预设的第二阈值,则向运维人员发送提示信息,以使运维人员根据所述提示信息以及所述运行数据进行人工运维;和/或,
若第一系统以及第二系统的任务完成时间超过预设的第三阈值,则向运维人员发送提示信息,以使运维人员根据所述提示信息以及所述运行数据进行人工运维。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述分别获取进行资源共享的第一系统以及第二系统的运行数据之后,还包括:
根据所述运行数据以及预设的统计模板生成集群状态图,以使所述运维人员根据所述集群状态图对所述第一系统以及第二系统的运行状态进行及时了解。
11.一种监控装置,其特征在于,包括:
获取模块,用于分别获取进行资源共享的第一系统以及第二系统的运行数据;
判断模块,用于根据预设的判断规则对所述运行数据进行判断,以确定所述第一系统以...
【专利技术属性】
技术研发人员:李冬峰,李彦良,刘荣明,王哲涵,
申请(专利权)人:北京沃东天骏信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。