一种数据采集监控方法及装置制造方法及图纸

技术编号:15749736 阅读:73 留言:0更新日期:2017-07-03 14:44
本发明专利技术实施例中公开了一种数据采集监控方法及装置,获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,当所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。基于心跳数据,能够对业务日志数据进行分布式采集过程中发生的故障快速发现并准确定位。

【技术实现步骤摘要】
一种数据采集监控方法及装置
本专利技术涉及数据采集
,具体涉及一种数据采集监控方法及装置。
技术介绍
随着互联网的发展,业务量急剧增长,提供服务的服务器集群规模越来越庞大,提供的服务类型也越来越复杂。这种大数据背景下的业务日志数据采集的可靠性显得越来越重要。目前主流的业务日志数据采集系统是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的Flume系统。目前,基于Flume系统的业务日志数据采集流程具体如下:首先,采用Flume系统对业务日志数据进行分布式采集,然后,将采集的业务日志数据汇聚到Kafka中,最后,将采集的业务日志数据持久化存储到HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)中。但是,在大数据背景下,需要采集的业务日志数据分布于众多服务器上,单台服务器又有多种业务日志数据需要分别采集,导致采集任务数量多。而采用Flume系统对业务日志数据进行分布式采集过程中,由于Flume系统缺乏可靠的数据采集监控技术,导致对业务日志数据进行分布式采集过程中发生的故障无法快速发现并准确定位。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据采集监控方法及装置,能够对业务日志数据进行分布式采集过程中发生的故障快速发现并准确定位。为实现上述目的,本专利技术实施例提供如下技术方案:一种数据采集监控方法,包括:获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。优选的,所述根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,包括:当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。优选的,所述方法还包括:获取所述第一类型的从属服务器最后一次上报心跳数据的时间;判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。优选的,所述方法还包括:获取所述第二类型的从属服务器最后一次上报心跳数据的时间;判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。优选的,所述方法还包括:获取所述第一类型的从属服务器上报的第一采集数据条数;获取所述第二类型的从属服务器上报的第二采集数据条数;根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。优选的,所述根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,包括:当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。一种数据采集监控装置,包括:第一获取模块,用于获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;第一判断模块,用于根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;故障定位模块,用于当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。优选的,所述第一判断模块具体用于:当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。优选的,所述装置还包括:第二获取模块,用于获取所述第一类型的从属服务器最后一次上报心跳数据的时间;第二判断模块,用于判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;第一状态确定模块,用于当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。优选的,所述装置还包括:第三获取模块,用于获取所述第二类型的从属服务器最后一次上报心跳数据的时间;第三判断模块,用于判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;第二状态确定模块,用于当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。优选的,所述装置还包括:第四获取模块,用于获取所述第一类型的从属服务器上报的第一采集数据条数,以及,获取所述第二类型的从属服务器上报的第二采集数据条数;第四判断模块,用于根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;报警模块,用于当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。优选的,所述第四判断模块具体用于:当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。基于上述技术方案,本专利技术实施例中公开了一种数据采集监控方法及装置,获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型本文档来自技高网...
一种数据采集监控方法及装置

【技术保护点】
一种数据采集监控方法,其特征在于,包括:获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。

【技术特征摘要】
1.一种数据采集监控方法,其特征在于,包括:获取第一类型的从属服务器上报的心跳数据,所述心跳数据包括所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息;根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,得到第一判断结果;当所述第一判断结果表示所述第一类型的从属服务器对于所述文件的采集过程发生故障时,定位所述故障在所述文件中的位置为所述文件已采集完成的最后一个数据之后的数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一类型的从属服务器应当采集的文件的数据量信息以及所述文件已采集完成的数据量信息判断所述第一类型的从属服务器对于所述文件的采集过程是否发生故障,包括:当达到预设采集时间阈值时,所述文件已采集完成的数据量信息小于所述第一类型的从属服务器应当采集的文件的数据量信息,则判断所述第一类型的从属服务器对于所述文件的采集过程发生故障。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取所述第一类型的从属服务器最后一次上报心跳数据的时间;判断在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第一类型的从属服务器上报的注销请求或所述第一类型的从属服务器上报的心跳数据;当在所述第一类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第一类型的从属服务器上报的心跳数据,则确定所述第一类型的从属服务器处于异常状态。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述第二类型的从属服务器最后一次上报心跳数据的时间;判断在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,是否接收到所述第二类型的从属服务器上报的注销请求或所述第二类型的从属服务器上报的心跳数据;当在所述第二类型的从属服务器最后一次上报心跳数据的时间开始的预设时间阈值内,未接收到所述第一类型的从属服务器上报的注销请求且未接收到所述第二类型的从属服务器上报的心跳数据,则确定所述第二类型的从属服务器处于异常状态。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:获取所述第一类型的从属服务器上报的第一采集数据条数;获取所述第二类型的从属服务器上报的第二采集数据条数;根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,得到第二判断结果;当所述第二判断结果表示所述第二类型的从属服务器的数据持久化存储操作发生故障时,进行报警。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一采集数据条数以及所述第二采集数据条数判断所述第二类型的从属服务器的数据持久化存储操作是否发生故障,包括:当所述第一采集数据条数与所述第二采集数据条数不相等时,则判断所述第二类型的从属服务器的数据持久化存储操作发生故障。7...

【专利技术属性】
技术研发人员:赵剑雄邵位潘子凡
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1