一种非人为访问日志的过滤方法及装置制造方法及图纸

技术编号:16819128 阅读:54 留言:0更新日期:2017-12-16 12:34
本发明专利技术公开了一种非人为访问日志的过滤方法及装置,方法包括:过滤掉符合预设条件的访问日志,得到第一标准日志;基于标准日志过滤掉预定时间段内的访问日志,得到第二标准日志;从第一标准日志获取日志中URL前缀,得到前缀集合;依据前缀集合对第二标准日志进行过滤,得到过滤结果日志;本发明专利技术的方法及装置,可以快速有效地过滤高频的非人为访问,对提升日志挖掘效率、分析用户行为乃至检测内部安全威胁均具有重要意义。

A nonhuman filtering method and device for access log

The invention discloses a non-human and device, filtering method access log method comprises the following steps: filtering with access log premise, the first standard access log log log; standard filter within a predetermined period of time based on the second standard access log; log URL prefix from the standard log, get the prefix on the basis of set; prefix sets to filter second standard log log filtered results; the method and device of the invention can effectively filter the high frequency of the non-human access, to enhance the efficiency of log mining, have important significance in the analysis of user behavior and detection of internal security threats.

【技术实现步骤摘要】
一种非人为访问日志的过滤方法及装置
本专利技术涉及访问日志过滤领域,尤其涉及一种非人为访问日志的过滤方法及装置。
技术介绍
网关,位置上介于客户端和服务器中间,具有日志丰富、用户和网页众多的特点。这个位置特点决定了它包含了大量人员和访问的网页信息。因而为研究大规模用户访问行为、网页分类任务、挖掘用户点击数据提供了十分便利的条件。然而,网关日志复杂多变,网页数目众多,所以需要区分人为访问和非人为访问。所谓非人为访问,即不是由人主动产生的访问行为,非人为访问包括软件自动更新、广告自动弹出等行为。因为非人为访问本身分析价值低,但其规模巨大,因此,可能会对正常的网络日志挖掘和用户行为分析产生不必要的干扰。所以如何快速有效地过滤网关侧的高频的非人为访问,对提升日志挖掘效率、分析用户行为乃至检测内部安全威胁具有重要意义。
技术实现思路
本专利技术的主要目的在于提出一种非人为访问日志的过滤方法及装置,可以快速有效地过滤高频的非人为访问,对提升日志挖掘效率、分析用户行为乃至检测内部安全威胁均具有重要意义。根据本专利技术的一个方面,提供了一种非人为访问日志的过滤方法,所述方法包括:过滤掉符合预设条件的访问本文档来自技高网...
一种非人为访问日志的过滤方法及装置

【技术保护点】
一种非人为访问日志的过滤方法,其特征在于,所述方法包括:过滤掉符合预设条件的访问日志,得到第一标准日志;基于所述第一标准日志过滤掉预定时间段内的访问日志,得到第二标准日志;从所述第一标准日志获取日志中URL前缀,得到前缀集合;依据所述前缀集合对所述第二标准日志进行过滤,得到过滤结果日志。

【技术特征摘要】
1.一种非人为访问日志的过滤方法,其特征在于,所述方法包括:过滤掉符合预设条件的访问日志,得到第一标准日志;基于所述第一标准日志过滤掉预定时间段内的访问日志,得到第二标准日志;从所述第一标准日志获取日志中URL前缀,得到前缀集合;依据所述前缀集合对所述第二标准日志进行过滤,得到过滤结果日志。2.根据权利要求1所述的方法,其特征在于,所述依据所述前缀集合对所述第二标准日志进行过滤,得到过滤结果日志,包括:采用hash表遍历所述前缀集合的每个日志中URL前缀,并采用经典链列表方法解决hash冲突问题;在所述第二标准日志中具有相同的所述日志中URL前缀的访问日志所占比例大于预设阈值的情况下,过滤掉具有相同的所述日志中URL前缀的访问日志。3.根据权利要求1或2所述的方法,其特征在于,所述日志中URL前缀为URL最后一个斜杠前的部分。4.根据权利要求1或2所述的方法,其特征在于,所述符合所述预设条件的访问日志为:“jpg”、“jpeg”以及“avi”作为结尾的访问URL、不使用GET方式请求的URL及HTTP状态码为400的访问日志。5.根据权利要求1或2所述的方法,其特征在于,所述预定时间段为22:00至8:00之间。6.一种非人为访问日志的过滤装置,其特征在于,所述装置包括:第一过滤模块,用于过滤掉符合预设条件的访问日志,得到第一标准日志;第二过滤模块,用于基于所述第一标准日志过滤掉预定时间段内的访问日志,得到第...

【专利技术属性】
技术研发人员:李鹏霄杜翠兰任彦刘晓辉查奇文易立柳毅李睿程光
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1