一种基于规则的用户行为日志采集、分析的方法和系统技术方案

技术编号:24330875 阅读:49 留言:0更新日期:2020-05-29 19:33
本发明专利技术公开了一种基于规则的用户行为日志采集、分析的方法和系统,其方法包括以下步骤:在业务应用服务程序启动时加载预设的日志采集规则,通过字节码手段实现无侵入的埋点,对用户行为产生的日志进行分类匹配,再对埋点的上下文信息和应用环境参数筛选收集,最后交由双队列发送日志数据;将采集到的用户行为日志汇总到日志预处理中心进行预处理,过滤,推送到消息通道中;通过消息通道实现业务分析器的注册和日志数据的汇集分发,由分析器根据业务需求,对日志进行处理,产生业务数据并存储。本发明专利技术通过一系列的预设规则对用户行为日志进行多层筛选,过滤分类,能够缓解数据存储和处理的压力,提升了分析的效率以及分析结果的全面性和准确性。

【技术实现步骤摘要】
一种基于规则的用户行为日志采集、分析的方法和系统
本专利技术涉及数据分析与处理领域,具体涉及一种基于规则的用户行为日志采集、分析的方法和系统。
技术介绍
随着互联网信息服务的发展,平台上用户访问和交互的频率越来越多,时间越来越长,所产生的日志量在指数级增加。为了能更好的观察平台的运行情况,了解用户使用习惯,从而优化自身处理性能、调整功能模块,又需要对海量日志进行存储,然后结合业务需求进行分析。目前现有的日志分析技术大都对日志进行混合存储,并没有对日志的种类和有效性进行过滤,这对数据存储和处理方法有极大的要求,并且会导致分析的结果失准。
技术实现思路
针对上述现有技术中存在的不足,本专利技术所要解决的技术问题是提供一种基于规则的用户行为日志采集、分析的方法和系统,该方法通过预设的规则对用户的日志进行过滤归类,根据用户不同行为产生的日志采取相应的预处理,然后再推送给相应的分析器进行业务分析,能够解决现有技术中没有对日志的种类和有效性进行过滤,混合存储的问题,极大的缓解数据存储和处理的压力。为了解决上述技术问题,本专利技术采用的技术方案为:一种基于规则的用户行为日志采集、分析的方法,包括以下步骤:1)在业务应用服务程序启动时加载预设的日志采集规则,通过字节码手段实现无侵入的埋点,对用户行为产生的日志进行分类匹配,再对埋点的上下文信息和应用环境参数筛选收集,最后通过高性能的双队列缓存日志数据,再由应用程序与日志预处理中心的连接池完成发送;2)将步骤1)所采集到的用户行为日志统一汇总到日志预处理中心进行预处理,过滤,推送到消息通道中;具体为:定义路由规则,根据用户行为的分类配置对应的分析器以及分析器对应的检查程式;预处理中对接收的日志数据匹配其路由规则,获取对应的目标分析器,运行检查程式,过滤无效日志;最后将通过校验的日志推送给消息通道;3)消息通道负责业务分析器的注册和日志数据的汇集分发,将不同种类的日志数据分发给对应分析器,由分析器根据业务需求,对日志进行处理,产生业务数据并存储。一种基于规则的用户行为日志采集、分析的系统,包括:日志采集模块、日志预处理中心、日志分析模块;日志采集模块负责基于预设的采集规则,初始化埋点,施行用户行为的匹配、参数收集、日志发送至日志预处理中心;日志预处理中心根据路由规则,进行日志的预处理,过滤,推送到消息通道中;日志分析模块通过消息通道交给在分析中心注册的分析器对日志进行处理,生成业务数据。所述参数收集,包括用户行为的特征参数、日志的采集方式、运行环境的参数筛选收集方式;其中,所述用户行为的特征参数包括HTTP请求路径、请求类型和请求参数。所述采集规则,通过应用程序匹配的采集插件进行采集规则的解析、装载、执行。所述初始化埋点的方式,是无侵入式的,通过字节码手段在应用程序需要埋点的地方进行嵌入式编程;所述日志发送,是通过高性能的双队列缓存日志数据,再由应用程序与日志预处理中心的连接池完成发送。所述的双队列缓存,是在第一个队列中进行首次发送尝试,如果发送失败,则进入另外一个队列进行重发,两次发送均失败,就会对日志数据进行标记,不再发送;所述的连接池,初始化时会创建固定数量的TCP/IP协议的连接,负责从双队列中获取日志数据进行发送,在连接池出现故障时,自动进行本地硬盘备份,在连接池恢复时会从备份加载数据,重新进行日志发送。所述日志预处理中心根据路由规则,进行日志的预处理,过滤,推送到消息通道中,包括:定义路由规则,根据用户行为的分类配置对应的分析器以及分析器对应的检查程式;预处理中对接收的日志数据匹配其路由规则,获取对应的目标分析器,运行检查程式,过滤无效日志;最后将通过校验的日志推送给消息通道。所述采集规则与所述路由规则的动态更新为应用程序通过TCP/IP协议与规则配置中心建立连接,并维持心跳,通过心跳检测实时同步。所述日志分析模块是分布式结构,由不同独立运行的业务分析模块组成,每个业务分析模块是一个应用程序集群,由相同业务逻辑的分析器组合成一个专门的负载集群,所述相同业务逻辑的分析器之间维持心跳,并推选leader。所述日志分析模块构建在一个消息通道上,由所述消息通道负责业务分析器的注册和日志数据的汇集分发;所述不同独立运行的业务分析模块各自包含一个消息监听器,负责将消息通道中的日志数据转发给分析器集群中的leader,再由leader根据集群的负载情况分发日志数据;分析器先对接收的日志数据进行完整性校验,再执行其分析逻辑,生成业务数据,最后不同业务需求,以不同方式存储分析结果。有益效果:与现有技术相比,本专利技术具有以下技术优势:解决了现有的用户行为日志分析技术的混合存储问题,通过一系列的预设规则对用户行为日志进行多层筛选,过滤分类,提升了对用户行为日志分析的效率和实用性,提升了分析结果的全面性和准确性。附图说明图1为本专利技术的一种基于规则的用户行为日志采集、分析的方法和系统的执行流程图;图2为本专利技术的一种基于规则的用户行为日志采集、分析的方法和系统的总体功能图;图3为本专利技术的一种基于规则的用户行为日志采集、分析的方法和系统的分析器集群原理图。具体实施方式下面结合具体实施例进一步说明本专利技术,但这些实施例并不用来限制本专利技术。实施例1如图1所示本专利技术的执行流程图,一种基于规则的用户行为日志采集、分析的方法,包括以下步骤:1)在业务应用服务程序启动时加载预设的日志采集规则,通过字节码手段实现无侵入的埋点,对用户行为产生的日志进行分类匹配,再对埋点的上下文信息和应用环境参数筛选收集(包括用户行为的特征参数、日志的采集方式、运行环境的参数筛选收集;其中,用户行为的特征参数包括HTTP请求路径、请求类型和请求参数),最后交由双队列发送日志数据;2)将采集到的用户行为日志统一汇总到日志预处理中心进行预处理,过滤,推送到消息通道中;3)消息通道负责业务分析器的注册和日志数据的汇集分发,将不同种类的日志数据分发给对应分析器,由分析器根据业务需求,对日志进行处理,产生业务数据并存储。实施例2如图2所示,本专利技术提供的这种基于规则的用户行为日志采集、分析的系统包括:日志采集模块、日志预处理中心、日志分析模块。日志采集模块负责基于预设的采集规则,初始化埋点,施行用户行为的匹配、参数收集、日志发送至日志预处理中心;日志预处理中心根据路由规则,进行日志的预处理,过滤,推送到消息通道中;日志分析模块通过消息通道交给在分析中心注册的分析器对日志进行处理,生成业务数据。1)整个模块运行在各个业务应用服务程序上,根据其应用程序的开发语言,技术架构不同,其中日志采集模块负责基于定义的采集规则,施行用户行为的匹配、参数收集、日志发送至日志预处理中心。日志采集模块通过不同的技术实现采集模块的嵌入插件,其主体功能包括:步骤1、定义采集的规则,包含用户行为的特征参数、日志的采集方式、运行环境的参数筛本文档来自技高网...

【技术保护点】
1.一种基于规则的用户行为日志采集、分析的方法,其特征在于,所述方法包括以下步骤:/n1)在业务应用服务程序启动时加载预设的日志采集规则,通过字节码手段实现无侵入的埋点,对用户行为产生的日志进行分类匹配,再对埋点的上下文信息和应用环境参数筛选收集,最后通过高性能的双队列缓存日志数据,再由应用程序与日志预处理中心的连接池完成发送;/n2)将步骤1)所采集到的用户行为日志统一汇总到日志预处理中心进行预处理,过滤,推送到消息通道中;具体为:定义路由规则,根据用户行为的分类配置对应的分析器以及分析器对应的检查程式;预处理中对接收的日志数据匹配其路由规则,获取对应的目标分析器,运行检查程式,过滤无效日志;最后将通过校验的日志推送给消息通道;/n3)消息通道负责业务分析器的注册和日志数据的汇集分发,将不同种类的日志数据分发给对应分析器,由分析器根据业务需求,对日志进行处理,产生业务数据并存储。/n

【技术特征摘要】
1.一种基于规则的用户行为日志采集、分析的方法,其特征在于,所述方法包括以下步骤:
1)在业务应用服务程序启动时加载预设的日志采集规则,通过字节码手段实现无侵入的埋点,对用户行为产生的日志进行分类匹配,再对埋点的上下文信息和应用环境参数筛选收集,最后通过高性能的双队列缓存日志数据,再由应用程序与日志预处理中心的连接池完成发送;
2)将步骤1)所采集到的用户行为日志统一汇总到日志预处理中心进行预处理,过滤,推送到消息通道中;具体为:定义路由规则,根据用户行为的分类配置对应的分析器以及分析器对应的检查程式;预处理中对接收的日志数据匹配其路由规则,获取对应的目标分析器,运行检查程式,过滤无效日志;最后将通过校验的日志推送给消息通道;
3)消息通道负责业务分析器的注册和日志数据的汇集分发,将不同种类的日志数据分发给对应分析器,由分析器根据业务需求,对日志进行处理,产生业务数据并存储。


2.一种实现权利要求1所述方法的系统,其特征在于,所述系统包括:日志采集模块、日志预处理中心、日志分析模块;日志采集模块负责基于预设的采集规则,初始化埋点,施行用户行为的匹配、参数收集、日志发送至日志预处理中心;日志预处理中心根据路由规则,进行日志的预处理,过滤,推送到消息通道中;日志分析模块通过消息通道交给在分析中心注册的分析器对日志进行处理,生成业务数据。


3.根据权利要求2所述的系统,其特征在于,所述参数收集,包括用户行为的特征参数、日志的采集方式、运行环境的参数筛选收集方式;其中,所述用户行为的特征参数包括HTTP请求路径、请求类型和请求参数。


4.根据权利要求2所述的系统,其特征在于,所述采集规则,通过应用程序匹配的采集插件进行采集规则的解析、装载、执行。


5.根据权利要求2所述的系统,其特征在于,所述初始化埋点的方式,是无侵入式的,通过字节码手段在应用程序需要埋点的地方进行嵌入式编程;所述日志发送,是通...

【专利技术属性】
技术研发人员:谢智谢乾王吉龚彬於晓荻蒋余欢沈妍
申请(专利权)人:江苏卓易信息科技股份有限公司南京百敖软件有限公司昆山百敖电子科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1