一种基于流量日志匹配地址处理数据方法技术

技术编号:36073699 阅读:27 留言:0更新日期:2022-12-24 10:44
本发明专利技术提供了一种基于流量日志匹配地址处理数据方法,包括:利用日志采集器获取日志,并对日志进行格式化处理;利用日志处理模块对格式化日志做分析,得到格式化日志中的日志地址ip;启动定时spark任务,获取本地地址库数据,将本地地址库数据中的目的ip,按目的ip的前n位,将目的ip分成有限类,并将有限类的值按大小顺序存储于ehcahe缓存中;将日志地址ip与有限个目的ip进行地址碰撞,得到与日志地址ip相对应的匹配结果;根据匹配结果,对日志进行属性增强。本发明专利技术采用大数据组件并结合缓存实现数据切分,并采用二分查找等算法进行数据检索的方式能大大提升日志分析领域的效能,解决地址数据大规模匹配的瓶颈。地址数据大规模匹配的瓶颈。地址数据大规模匹配的瓶颈。

【技术实现步骤摘要】
一种基于流量日志匹配地址处理数据方法


[0001]本专利技术涉及数据处理领域,尤其涉及一种基于流量日志匹配地址处理数据方法。

技术介绍

[0002]目前,大数据量日志处理方面的技术竞争越发复杂和激烈,越来越多的安全监控设备和技术的出现为网络安全提供安全保障,来自各种设备的网络日志数据采用不同格式和属性来记录网络行为各个方面。也因此程序处理的日志数据也逐渐增大,对程序的处理性能要求也越来越高,而匹配地址作为网络日志分析的一环,因为需要跟地址库数据做匹配,通常是日志中的ip地址跟百万级的数据做碰撞来获取国家地址、编码、经度纬度等信息,现有的日志解析系统通常会把地址库数据保存在pg mysql等传统数据库中,在通过查询匹配地址数据,但这样的方法再小量级的日志数据环境下才能考虑,在处理日志数据量大时会消耗过长的时间来处理数据,同时对数据库资源产生较大的压力。这种时候优化地址匹配代码的速度就能大幅提升日志分析系统的性能。

技术实现思路

[0003]有鉴于此,针对现有的匹配ip地址的算法,应用在大数据领域的spark任务的大数据量级ip地址本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于流量日志匹配地址处理数据方法,其特征在于:包括:以下步骤:S1、利用日志采集器获取日志,并对日志进行格式化处理,得到格式化日志;S2、利用日志处理模块对格式化日志做分析,得到格式化日志中的日志地址ip;S3、启动定时spark任务,获取本地地址库数据,将本地地址库数据中的目的ip,按目的ip的前n位,将目的ip分成有限类,并将有限类的值按大小顺序存储于ehcahe缓存中;有限类的值组成的集合为V...

【专利技术属性】
技术研发人员:朱琪陈铭
申请(专利权)人:智网安云武汉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1