【技术实现步骤摘要】
一种分析网络访问日志的方法、系统、装置和存储介质
本专利技术涉及计算机数据处理技术,尤其涉及一种分析网络访问日志的方法、系统、装置和存储介质。
技术介绍
在hadoop的环境下,每天有大量的网络访问日志记录,日志记录了不同用户访问不同应用(包括网站和app等)的url、访问时间、ip及user-agent等信息,系统通过记录的目的是分析用户每个时间段访问了哪些应用,实现原理是根据用户访问的url、user-agent等特征,从而得到用户使用了什么应用,以及在应用里的操作。由于url等信息是字符串类型,每天的数据量较大,需要尽可能压缩信息,系统要将用户标记信息、命中的应用标记等进行编码。要完成对用户访问的应用记录进行编号,现在主要方案有:1、直接利用hql使用正则命令去逐个匹配;2、使用MapReduce脚本。在大量应用需要匹配的情况下,第一种方案不可取,而第二种方案通常方法是逐个规则,使用java自带的正则类来轮循去匹配,加上匹配规则的多样性还有java的正则类使用时回溯的原因,匹配速度会不稳定。专利 ...
【技术保护点】
1.一种分析网络访问日志的方法,其特征在于,包括以下步骤:/n获取日志记录中的url信息,根据url信息获取host字符串;/n采用倒序查询的字典树对host字符串进行轮询匹配,根据匹配结果获取对应的应用信息。/n
【技术特征摘要】
1.一种分析网络访问日志的方法,其特征在于,包括以下步骤:
获取日志记录中的url信息,根据url信息获取host字符串;
采用倒序查询的字典树对host字符串进行轮询匹配,根据匹配结果获取对应的应用信息。
2.根据权利要求1所述的一种分析网络访问日志的方法,其特征在于,所述获取日志记录中的url信息,根据url信息获取host字符串这一步骤,具体为:
通过运行MapReduce,以读取日志记录中的url信息,根据url信息获取host字符串。
3.根据权利要求1所述的一种分析网络访问日志的方法,其特征在于,所述采用倒序查询的字典树对host字符串进行匹配查询,根据匹配查询结果获取对应的应用信息这一步骤,具体包括以下步骤:
采用字典树从host字符串的尾部字母开始进行匹配查询;
根据预设的规则匹配配置文件识别到host字符串的标志后,从host字符串获得目的编号;
根据目的编号将host字符串发送至对应的匹配编号列表中进行轮询后,获得host字符串对应的应用信息。
4.根据权利要求3所述的一种分析网络访问日志的方法,其特征在于,所述字典树的数据结构包括子节点数组。
5.根据权利要求1所述的一种分析网络访问日志的方法,其特征在于,所述url信息还包括uri路径特征、请求参数特征和user-agent特征。
6.一种分析网络访问日志...
【专利技术属性】
技术研发人员:张毅,符伟彬,
申请(专利权)人:广州艾媒数聚信息咨询股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。