一种用于处理日志的方法及其系统,所述方法包括:收集步骤:收集由服务器针对用户操作而产生的异构日志,其中,基于用户操作在各个服务器上引起的动作项目来产生异构日志,使得异构日志包括指示动作项目的项目标识符字段;格式转换步骤:将收集的异构日志转换为具有统一格式的日志,其中,统一格式包括项目标识符字段;组合步骤:通过组合具有统一格式的日志来产生中间日志文件,并将中间日志文件存储在不同于所述各个服务器的中间服务器上;统计步骤:基于指示期望统计的动作项目的项目标识符字段来配置日志规格文档,以利用日志规格文档从中间日志文件所包括的各个日志中自动统计期望统计的动作项目,从而以规范化的方式来处理海量日志。
【技术实现步骤摘要】
【专利摘要】一种用于处理日志的方法及其系统,所述方法包括:收集步骤:收集由服务器针对用户操作而产生的异构日志,其中,基于用户操作在各个服务器上引起的动作项目来产生异构日志,使得异构日志包括指示动作项目的项目标识符字段;格式转换步骤:将收集的异构日志转换为具有统一格式的日志,其中,统一格式包括项目标识符字段;组合步骤:通过组合具有统一格式的日志来产生中间日志文件,并将中间日志文件存储在不同于所述各个服务器的中间服务器上;统计步骤:基于指示期望统计的动作项目的项目标识符字段来配置日志规格文档,以利用日志规格文档从中间日志文件所包括的各个日志中自动统计期望统计的动作项目,从而以规范化的方式来处理海量日志。【专利说明】用于处理日志的方法及其系统
本申请涉及网络日志服务系统领域,更具体地说,涉及一种以规范化的方式来处理日志的方法和系统。
技术介绍
随着互联网技术和信息处理技术的发展,越来越多的终端用户已经接入网络,并在日常工作、学习和生活中将大量的时间用来上网。针对每个用户的每次操作行为,网络上的诸多环节都将会产生相应的网络日志。在提供各种服务的服务器端产生的各种网络日志反映出各个服务的运行情况,也有助于服务提供商了解用户的上网行为,从而给出技术上的保障或改进。然而,网络日志的数量巨大,常常需要对百亿条日志进行处理。此外,这些日志很可能因为产生的来源不同而具有不同的格式。例如,当某个用户作出网页浏览的相关动作(诸如点击)时,涉及页面变化、数据提取和处理、内容展示等各个方面的网络日志均会相应地被产生,其中,前端的页面设计美工人员与后端的数据处理程序员通常会得到不同格式的相应日志。此外,针对同一个用户动作,网页中的不同模块也将分别产生各自的日志。由此可见,网络日志数量巨大,内容繁杂,且其在产生来源上的差异还可能导致得到的日志具有异构性,因此,很难有效地处理产生的海量日志。另外,对网络日志进行处理是服务提供商维护网络的重要一环,在现有技术中,为了统计这些日志,常常需要将网络日志存储为表格形式,此后,针对想要统计的内容来设置相应的处理过程,这种方式存在一定的弊端,具体说来,利用表格来存储海量日志数据会大大降低数据的处理速度,而且在统计日志时也受限于表格这种形式,并且为了统计特定的统计项目,需要反复地筛选表格中的海量日志,由于网络日志数据的庞大,这种统计方式将耗费大量的时间,且欠缺灵活性。因此,现有的日志服务系统在处理海量日志时,其巨大的数据量给日志数据的存储和统计带来很大的不便。此外,当日志因为产生来源不同而具有不同的格式时,也难以对这些异构日志进行统计等处理。
技术实现思路
本专利技术的目的在于提供一种能够以规范化的方式来处理海量日志的方法和系统。根据本专利技术的一方面,提供一种用于处理日志的方法,包括:收集步骤:收集由网络上的各个服务器针对用户操作而产生的异构日志,其中,基于用户操作在各个服务器上引起的动作项目来产生异构日志,使得异构日志包括指示动作项目的项目标识符字段;格式转换步骤:将收集的异构日志转换为具有统一格式的日志,其中,所述统一格式包括项目标识符字段;组合步骤:通过组合具有统一格式的日志来产生中间日志文件,并将中间日志文件存储在不同于所述各个服务器的中间服务器上;统计步骤:基于指示期望统计的动作项目的项目标识符字段来配置日志规格文档,以利用日志规格文档从中间日志文件所包括的各个日志中自动统计期望统计的动作项目。所述网络上的各个服务器可以是前端服务器或后端服务器。所述统一格式还可包括以下字段中的至少一个:用户标识符字段、日志标识符字段、日志产生时间字段、日志来源字段、用户行为描述字段。格式转换步骤可包括:解析步骤:基于统一格式中的各个字段来解析收集的异构日志;字段排列步骤:排列解析出的各个字段,以得到具有统一格式的日志。日志规格文档可按照XML来配置,从而以项目标识符为搜索条件来统计期望统计的动作项目。搜索条件可包括以下字段中的至少一个与项目标识符的结合:日志产生时间字段、日志来源字段、用户行为描述字段。解析步骤可包括:提取步骤:基于统一格式中的各个字段来提取异构日志中的字段;修正步骤:对提取的字段进行修正以与统一格式中的相应字段完全一致。在组合步骤中,特定时间段内产生的具有相同用户标识符字段、日志标识符字段或相同用户行为描述字段的日志可被合并为一条日志。根据本专利技术的另一方面,提供一种用于处理日志的系统,包括:收集装置:收集由网络上的各个服务器针对用户操作而产生的异构日志,其中,基于用户操作在各个服务器上引起的动作项目来产生异构日志,使得异构日志包括指示动作项目的项目标识符字段;格式转换装置:将收集的异构日志转换为具有统一格式的日志,其中,所述统一格式包括项目标识符字段;组合装置:通过组合具有统一格式的日志来产生中间日志文件,并将中间日志文件存储在不同于所述各个服务器的中间服务器上;统计装置:基于指示期望统计的动作项目的项目标识符字段来配置日志规格文档,以利用日志规格文档从中间日志文件所包括的各个日志中自动统计期望统计的动作项目。格式转换装置可包括:解析装置:基于统一格式中的各个字段来解析收集的异构日志;字段排列装置:排列解析出的各个字段,以得到具有统一格式的日志。解析装置可包括:提取装置:基于统一格式中的各个字段来提取异构日志中的字段;修正装置:对提取的字段进行修正以与统一格式中的相应字段完全一致。根据本专利技术的另一方面,提供一种用于处理日志的方法,包括:收集步骤:收集由网络上的各个服务器针对用户操作而产生的具有统一格式的日志,其中,基于用户操作在各个服务器上引起的动作项目来产生所述日志,使得所述日志包括指示动作项目的项目标识符字段;组合步骤:通过组合所述日志来产生中间日志文件,并将中间日志文件存储在不同于所述各个服务器的中间服务器上;统计步骤:基于指示期望统计的动作项目的项目标识符字段来配置日志规格文档,以利用日志规格文档从中间日志文件所包括的各个日志中自动统计期望统计的动作项目。根据本专利技术的另一方面,提供一种用于处理日志的系统,包括:收集装置:收集由网络上的各个服务器针对用户操作而产生的具有统一格式的日志,其中,基于用户操作在各个服务器上引起的动作项目来产生所述日志,使得所述日志包括指示动作项目的项目标识符字段;组合装置:通过组合所述日志来产生中间日志文件,并将中间日志文件存储在不同于所述各个服务器的中间服务器上;统计装置:基于指示期望统计的动作项目的项目标识符字段来配置日志规格文档,以利用日志规格文档从中间日志文件所包括的各个日志中自动统计期望统计的动作项目。根据本专利技术的示例性实施例,可规范地处理网络上收集的海量日志,这些海量日志组合成统一的中间日志文件并存储于额外设置的中间服务器上,从而可进行快速的处理。此外,可通过基于动作项目产生日志来利用日志规格文档自动地统计日志,从而提高了日志处理的效率。【专利附图】【附图说明】通过下面结合附图对本专利技术示例性实施例的描述,本专利技术的上述和其它目的和特点将会变得更加清楚,其中:图1是示出根据本专利技术示例性实施例进行网络日志处理的网络组成示意图;图2是示出根据本专利技术示例性实施例的日志处理方法的流程图;图3是示出根据本专利技术示例性实施例的日志处理方法中的格本文档来自技高网...
【技术保护点】
一种用于处理日志的方法,包括:收集步骤:收集由网络上的各个服务器针对用户操作而产生的异构日志,其中,基于用户操作在各个服务器上引起的动作项目来产生异构日志,使得异构日志包括指示动作项目的项目标识符字段;格式转换步骤:将收集的异构日志转换为具有统一格式的日志,其中,所述统一格式包括项目标识符字段;组合步骤:通过组合具有统一格式的日志来产生中间日志文件,并将中间日志文件存储在不同于所述各个服务器的中间服务器上;统计步骤:基于指示期望统计的动作项目的项目标识符字段来配置日志规格文档,以利用日志规格文档从中间日志文件所包括的各个日志中自动统计期望统计的动作项目。
【技术特征摘要】
【专利技术属性】
技术研发人员:宋欢,李鹏,何威,曹晓冬,廖迪青,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。