一种数据处理方法及系统技术方案

技术编号:22237933 阅读:24 留言:0更新日期:2019-10-09 17:52
本申请提供一种数据处理方法及系统,该方法利用开源采集软件FLUME采集服务器中各个服务实例的业务日志信息,对采集到的每个业务日志信息分别进行标准化处理,得到对应的标准日志数据,并将标准日志数据放入KAFKA消息队列中,然后利用SPARK从KAFKA消息队列中读取标准日志数据,并对读取到的标准日志数据进行异常调用统计得到异常调用结果。由于对各个服务实例中的业务日志信息统一汇总后的数据进行异常调用统计,因此可以实现确定业务调用中存在的服务异常调用情况的目的。

A Data Processing Method and System

【技术实现步骤摘要】
一种数据处理方法及系统
本申请属于数据处理
,尤其涉及一种数据处理方法及系统。
技术介绍
在分布式系统中,业务需要调用不同服务实例中的服务,导致该业务没有统一的业务日志信息,从而无法根据该业务的业务日志信息确定异常调用。
技术实现思路
有鉴于此,本申请的目的在于提供一种数据处理方法及系统,用于解决现有技术中无法确定异常调用的问题。技术方案如下:本申请提供一种数据处理方法,包括:在每个服务器中分别启动开源采集软件FLUME,并利用开源采集软件FLUME采集该服务器中各个服务实例的业务日志信息;对采集到的每个业务日志信息分别进行标准化处理,得到对应的标准日志数据;并将所述标准日志数据放入KAFKA消息队列;利用SPARK从KAFKA消息队列中读取标准日志数据;对读取到的标准日志数据进行异常调用统计得到异常调用结果。优选地,所述标准日志数据包括:用户标识、企业标识、实例标识、服务标识、发起端IP、开始时间、结束时间以及调用结果;则所述对读取到的标准日志数据进行异常调用统计得到异常调用结果包括:根据所述调用结果,确定调用服务失败的标准日志数据;从全部调用服务失败的标准日志数据中,确定在预设时间内的每项服务的调用总次数和每项服务的调用总时长;针对每项服务,确定该服务的调用总次数是否超过该服务的平均调用次数,且该服务的调用总时长是否超过该服务的平均调用时长;若确定该服务的调用总次数超过该服务的平均调用次数且该服务的调用总时长超过该服务的平均调用时长,则确定该服务出现异常调用。优选地,还包括:从全部标准日志数据中,确定在预设时间内每项服务的调用频率;确定所述调用频率是否超过平均调用频率;若确定所述调用频率超过平均调用频率,则确定该服务出现异常调用。优选地,还包括:利用开源采集软件FLUME采集该服务器的性能日志信息;根据所述服务器的性能日志信息,确定各个服务实例中服务器资源利用率超过预设阈值的服务实例;对服务器资源利用率超过预设阈值的服务实例中,按照服务实例的调用次数按照由多到少的顺序进行排列,并按照顺序选择预设位数的服务实例;确定选择的服务实例为异常调用的服务。优选地,还包括:根据所述用户标识、所述服务标识和所述开始时间,确定同一用户标识在预设时间段内调用各个服务的顺序;建立与该用户标识对应用户的调用服务的关系日志信息。本申请还提供了一种数据处理系统,包括:采集单元,用于在每个服务器中分别启动开源采集软件FLUME,并利用开源采集软件FLUME采集该服务器中各个服务实例的业务日志信息;处理单元,用于对采集到的每个业务日志信息分别进行标准化处理,得到对应的标准日志数据;并将所述标准日志数据放入KAFKA消息队列;读取单元,用于利用SPARK从KAFKA消息队列中读取标准日志数据;统计单元,用于对读取到的标准日志数据进行异常调用统计得到异常调用结果。优选地,所述标准日志数据包括:用户标识、企业标识、实例标识、服务标识、发起端IP、开始时间、结束时间以及调用结果;则所述统计单元包括:确定子单元,用于根据所述调用结果,确定调用服务失败的标准日志数据;并从全部调用服务失败的标准日志数据中,确定在预设时间内的每项服务的调用总次数和每项服务的调用总时长;针对每项服务,确定该服务的调用总次数是否超过该服务的平均调用次数,且该服务的调用总时长是否超过该服务的平均调用时长;若确定该服务的调用总次数超过该服务的平均调用次数且该服务的调用总时长超过该服务的平均调用时长,则确定该服务出现异常调用。优选地,所述确定子单元,还用于从全部标准日志数据中,确定在预设时间内每项服务的调用频率;确定所述调用频率是否超过平均调用频率;若确定所述调用频率超过平均调用频率,则确定该服务出现异常调用。优选地,所述统计单元还包括:排列选择子单元;其中,所述采集单元,还用于利用开源采集软件FLUME采集该服务器的性能日志信息;所述确定子单元,还用于根据所述服务器的性能日志信息,确定各个服务实例中服务器资源利用率超过预设阈值的服务实例;所述排列选择子单元,用于对服务器资源利用率超过预设阈值的服务实例中,按照服务实例的调用次数按照由多到少的顺序进行排列,并按照顺序选择预设位数的服务实例;所述确定子单元,还用于确定选择的服务实例为异常调用的服务。优选地,所述统计单元,还包括:建立子单元;其中,所述确定子单元,还用于根据所述用户标识、所述服务标识和所述开始时间,确定同一用户标识在预设时间段内调用各个服务的顺序;所述建立子单元,用于建立与该用户标识对应用户的调用服务的关系日志信息。与现有技术相比,本申请提供的上述技术方案具有如下优点:从上述技术方案可知,本申请中利用开源采集软件FLUME采集服务器中各个服务实例的业务日志信息,对采集到的每个业务日志信息分别进行标准化处理,得到对应的标准日志数据,并将标准日志数据放入KAFKA消息队列中,然后利用SPARK从KAFKA消息队列中读取标准日志数据,并对读取到的标准日志数据进行异常调用统计得到异常调用结果。由于对各个服务实例中的业务日志信息统一汇总后的数据进行异常调用统计,因此可以实现确定业务调用中存在的服务异常调用情况的目的。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请公开的一种数据处理方法的流程图;图2是本申请公开的大数据系统的架构示意图;图3是本申请公开的离线分析时进行异常调用统计的流程图;图4是本申请公开的在线分析时进行异常调用统计的流程图;图5是本申请公开的一种数据处理系统的结构示意图。具体实施方式为了便于对本申请方案的理解,对技术名词进行相应解释:FLUME:开源数据采集工具软件,支持文件系统、消息队列、网络连接等各种方式收集数据,根据预定义规则处理采集到的数据,支持各种数据保存方式,例如文件、消息队列、网络连接。KAFKA:开源消息队列软件,支持高性能并发收发消息。HADOOPHDFS:开源大数据文件系统。HADOOPYARN:开源大数据调度系统。SPARK:开源大数据分析平台,支持实时、批量大数据分析,支持机器学习、SQL分析、图分析。HBASE:一个构建在HADOOPHDFS上的开源分布式列存储数据库。HIVE:在HADOOPHDFS上的开源数据仓库,支持SQL分析和查询。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请提供了一种数据处理方法,应用于大数据系统,用于解决由于各服务分散到不同的服务实例中,业务需要调用不同服务实例中的服务,导致业务没有统一的业务日志信息,对于服务调用和服务异常调用没有统一的视图的问题。本申请中通过使用大数据技术将分散到各个服务实例中的业务日志信息以及服务器的性能日志信息,统一汇总到一个本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:在每个服务器中分别启动开源采集软件FLUME,并利用开源采集软件FLUME采集该服务器中各个服务实例的业务日志信息;对采集到的每个业务日志信息分别进行标准化处理,得到对应的标准日志数据;并将所述标准日志数据放入KAFKA消息队列;利用SPARK从KAFKA消息队列中读取标准日志数据;对读取到的标准日志数据进行异常调用统计得到异常调用结果。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:在每个服务器中分别启动开源采集软件FLUME,并利用开源采集软件FLUME采集该服务器中各个服务实例的业务日志信息;对采集到的每个业务日志信息分别进行标准化处理,得到对应的标准日志数据;并将所述标准日志数据放入KAFKA消息队列;利用SPARK从KAFKA消息队列中读取标准日志数据;对读取到的标准日志数据进行异常调用统计得到异常调用结果。2.根据权利要求1所述的方法,其特征在于,所述标准日志数据包括:用户标识、企业标识、实例标识、服务标识、发起端IP、开始时间、结束时间以及调用结果;则所述对读取到的标准日志数据进行异常调用统计得到异常调用结果包括:根据所述调用结果,确定调用服务失败的标准日志数据;从全部调用服务失败的标准日志数据中,确定在预设时间内的每项服务的调用总次数和每项服务的调用总时长;针对每项服务,确定该服务的调用总次数是否超过该服务的平均调用次数,且该服务的调用总时长是否超过该服务的平均调用时长;若确定该服务的调用总次数超过该服务的平均调用次数且该服务的调用总时长超过该服务的平均调用时长,则确定该服务出现异常调用。3.根据权利要求2所述的方法,其特征在于,还包括:从全部标准日志数据中,确定在预设时间内每项服务的调用频率;确定所述调用频率是否超过平均调用频率;若确定所述调用频率超过平均调用频率,则确定该服务出现异常调用。4.根据权利要求2或3所述的方法,其特征在于,还包括:利用开源采集软件FLUME采集该服务器的性能日志信息;根据所述服务器的性能日志信息,确定各个服务实例中服务器资源利用率超过预设阈值的服务实例;对服务器资源利用率超过预设阈值的服务实例中,按照服务实例的调用次数按照由多到少的顺序进行排列,并按照顺序选择预设位数的服务实例;确定选择的服务实例为异常调用的服务。5.根据权利要求4所述的方法,其特征在于,还包括:根据所述用户标识、所述服务标识和所述开始时间,确定同一用户标识在预设时间段内调用各个服务的顺序;建立与该用户标识对应用户的调用服务的关系日志信息。6.一种数据处理系统,其特征在于,包括:采集单元,用于在每个服务器中分别启动开源采集软件FLUME,并利用开源采集软件F...

【专利技术属性】
技术研发人员:马长青
申请(专利权)人:北京慧眼智行科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1