一种针对网络行为数据的图存储方法及系统技术方案

技术编号:39159442 阅读:10 留言:0更新日期:2023-10-23 15:02
本发明专利技术公开一种针对网络行为数据的图存储方法及系统,涉及计算机网络安全领域。本发明专利技术对网络流量日志进行归一化处理,以图的模式将所有类型数据进行存储,以便于快速提取网络之间的关联关系,并根据JanusGraph分布式图数据库的查询原理多角度优化了网络关联关系查询效率。本发明专利技术通过使用加入了算子行动校验的SDDQN模型对算子链形成状态步骤进行增强学习,以查询时间作为反馈值对形成步骤进行调整,在查询缓存策略上创建了IDRC缓存策略,实现内存与数据库同步更新。本发明专利技术解决了海量、多维、异构的网络态势行为数据的内部关联数据低效查询问题,通过可视化界面帮助用户更好地观察数据和理解数据。观察数据和理解数据。观察数据和理解数据。

【技术实现步骤摘要】
一种针对网络行为数据的图存储方法及系统


[0001]本专利技术提出了一种针对网络行为数据的图存储方法,结合图模型对网络数据中的关联模式和通信规律进行捕捉,并构建了一个面向海量、多维、异构的网络行为数据的存储系统。本专利技术涉及计算机网络安全领域,用于解决异构性网络数据的行为监控问题。

技术介绍

[0002]近年来,互联网逐渐普及,网络规模不断增大。随着网络规模和业务的扩展,网络的异构性特点越发突出,如何存储网络数据以监控网络行为成为了首先要解决的难点。目前,已有许多网络安全厂商关注到了网络数据存储的问题,并开发了网络行为数据采集和存储系统,形成了自己的技术壁垒。但各厂商所收集的多设备网络数据具有大规模、多维度、多样性、格式不一、碎片化等特点,难以通过这些数据来了解网络的运行情况、提取相关数据、分析事件轨迹等,对操作人员的先验知识和对数据的掌握能力具有很高的要求。另外,随着网络流量与日志数据的日益增多,要同时达到保留数据时长的要求和满足大数据量下关联数据的高效查询、低延迟性的要求,需要数据库具有更加高效的信息处理能力。
[0003]在存储方面,从网络中监测得到的流量和日志往往是非结构化数据。为了对网络态势行为数据进行详细分析和关联追踪,安全厂商们开发了多种流量、日志分析平台,将数据拆分为字段存储,便于分析人员进行深层信息挖掘。一般来说,结构化数据多存储在关系型数据库(常见的有Oracle、MySQL等)中。关系型数据库具有十几年的技术支持,且社区丰富、文档全面,符合多数安全厂商应用的开发需要。但随着应用业务类型的需求愈加丰富,关系型存储也暴露出了一些缺陷,例如只支持固定表格模式、属性的可扩展性较差、应用期间不能随时更新字段数据、每次进行关联关系查询时都要执行一次SQL的JOIN操作、对海量数据的存储不友好等。NoSQL(Not Only SQL)数据库的兴起,很好地解决了海量异构化数据的存放问题。
[0004]NoSQL数据库拥有文档格式、图格式、对象格式、xml格式等多种数据存储方式,具有强大的横向扩展能力,支持分布式集群存储、自动备份、容错,能够克服存储空间不足、服务器压力较大的问题。如果说关系型数据库更适用于面向用户的前台型业务系统,那么非关系型数据库更适用于数据管理、数据分析等后台型业务系统。其中,图数据库作为NoSQL数据库的一种,是一种面向“图”数据结构的存储方式,它的存储结构更符合网络态势行为数据高度关联的特点,具有更强的关联性数据提取能力。因此,以图模型的方法往往能够更快速地捕获并展现网络数据中的关联模式和通信规律。
[0005]对于网络态势行为数据的存储,安全分析部门目前最关注的是能否存储海量数据,以及能否快速提取网络行为实体和关联数据两大问题。如果能将网络态势行为数据内部关联结构映射到可分布式的图数据库进行存储,将是兼顾解决上述两个网络行为存取问题的一个重要思路。尽管当前学术界和工业界已开发出大量图数据系统,然而各个系统都有其优劣和使用场景。例如使用率最高的Neo4j图数据库无法解决大数据量存储问题;具有存储海量数据能力的原生图存储的新生TigerGraph完全闭源和商业化,无法根据需求调整
源码;还有一些图数据库虽然具有分布式查询能力,却没有原生图查询速度快等。因此,根据业务需求选择合适图数据库,并在其相应缺陷方面进行改进,对于解决网络数据的存储问题,以及对网络空间安全的大数据分析挑战具有重要意义。

技术实现思路

[0006]本专利技术的目的是提出了一种针对网络行为数据的图存储方法及系统,为解决海量、多维、异构的网络态势行为数据的内部关联数据低效查询问题,本专利技术对网络流量日志进行归一化处理,以图的模式将所有类型数据进行存储,以便于快速提取网络之间的关联关系,并根据JanusGraph分布式图数据库的查询原理多角度优化了网络关联关系查询效率。
[0007]为达到上述目的,本专利技术采用的具体技术方案是:
[0008]一种针对网络行为数据的图存储方法,包括以下步骤:
[0009]1)数据采集:从安全厂商收集流量和日志数据,经由安全厂商完成数据的初步整合和结构化解析,发送到消息队列;
[0010]2)数据转储:从消息队列中获取数据并进行数据预处理,对预处理后的数据进行持久化存储并建立索引;
[0011]3)图数据库存储:将步骤2)存储的数据按照单机行为、网络流、网络基础应用、网络安全应用这四种类型,制定四类图模式存储结构,并存入JanusGraph分布式图数据库;
[0012]4)后端数据处理:针对JanusGraph分布式图数据库,首先嵌入基于SDDQN的图数据库查询执行策略和基于ID置换的查询缓存匹配策略,其中基于SDDQN的图数据库查询执行策略是指基于JanusGraph

Server检索引擎,构建面向查询算子Step链的DDQN查询链调优算法SDDQN,以该SDDQN作为查询执行策略;基于ID置换的查询缓存匹配策略是指针对JanusGraph分布式图数据库的数据库级别缓存,根据其邻接链表物理存储时节点、边、属性具有唯一ID标记,构建使用ID代替邻接链表中的节点和边的查询缓存匹配存储策略IDRC;然后通过缓存置换策略置换低频缓存,进行缓存优化;最后针对所述四类图模式存储结构,进行基础查询、复杂查询和图计算查询的规范化语句查询接口封装,并提取用于网络行为描述的图计算参数并封装为网络图调用接口;
[0013]5)用户服务:创建面向用户的动态交互可视化界面,调用所述查询接口和网络图调用接口,为用户提供网络行为数据关联关系查询和网络行为特征查询。
[0014]优选地,步骤1)中以JSON格式通过厂商数据的代理接口推入Kafka通道中,发送到消息队列。
[0015]优选地,步骤2)中数据预处理包括字段归一化、重复日志去除和无意义数据剔除三个步骤。
[0016]优选地,步骤2)中对预处理后的数据进行持久化存储并建立索引的方法为:以Hadoop的HDFS作为分布式存储持久化层,以Hbase作为数据管理层,嵌入Elasticsearch作为索引工具用以为上层JanusGraph提供全文索引功能,使用Zookeeper集群保障数据一致性调度。
[0017]优选地,步骤4)中SDDQN通过拦截JanusGraph

Server检索引擎的解析算子Step链,以查询时间作为反馈,通过训练数据属性和算子多组合状态下的动作价值逼近函数,学
习长执行算子Step链中Steps间的最佳组合策略,以减小关联查询时中间节点命中数量规模,提升查询速度。
[0018]优选地,步骤4)中SDDQN包括以下四个算法模块:
[0019]算子Step链切割模块,用于针对含有执行作用域的子算子Step链进行分割标记,提醒算子状态转移时不可跨标记转移;
[0020]算子特征提取模块,用于将每个算子规范化为由当前算子的序号、算子函数名、参数名、参数值与限定范围组成的五元组;
[0021本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对网络行为数据的图存储方法,其特征在于,包括以下步骤:1)数据采集:从安全厂商收集流量和日志数据,经由安全厂商完成数据的初步整合和结构化解析,发送到消息队列;2)数据转储:从消息队列中获取数据并进行数据预处理,对预处理后的数据进行持久化存储并建立索引;3)图数据库存储:将步骤2)存储的数据按照单机行为、网络流、网络基础应用、网络安全应用这四种类型,制定四类图模式存储结构,并存入JanusGraph分布式图数据库;4)后端数据处理:针对JanusGraph分布式图数据库,首先嵌入基于SDDQN的图数据库查询执行策略和基于ID置换的查询缓存匹配策略,其中基于SDDQN的图数据库查询执行策略是指基于JanusGraph

Server检索引擎,构建面向查询算子Step链的DDQN查询链调优算法SDDQN,以该SDDQN作为查询执行策略;基于ID置换的查询缓存匹配策略是指针对JanusGraph分布式图数据库的数据库级别缓存,根据其邻接链表物理存储时节点、边、属性具有唯一ID标记,构建使用ID代替邻接链表中的节点和边的查询缓存匹配存储策略IDRC;然后通过缓存置换策略置换低频缓存,进行缓存优化;最后针对所述四类图模式存储结构,进行基础查询、复杂查询和图计算查询的规范化语句查询接口封装,并提取用于网络行为描述的图计算参数并封装为网络图调用接口;5)用户服务:创建面向用户的动态交互可视化界面,调用所述查询接口和网络图调用接口,为用户提供网络行为数据关联关系查询和网络行为特征查询。2.如权利要求1所述的方法,其特征在于,步骤2)中数据预处理包括字段归一化、重复日志去除和无意义数据剔除三个步骤。3.如权利要求1所述的方法,其特征在于,步骤2)中对预处理后的数据进行持久化存储并建立索引的方法为:以Hadoop的HDFS作为分布式存储持久化层,以Hbase作为数据管理层,嵌入Elasticsearch作为索引工具用以为上层JanusGraph提供全文索引功能,使用Zookeeper集群保障数据一致性调度。4.如权利要求1所述的方法,其特征在于,步骤4)中SDDQN通过拦截JanusGraph

Server检索引擎的解析算子Step链,以查询时间作为反馈,通过训练数据属性和算子多组合状态下的动作价值逼近函数,学习长执行算子Step链中Steps间的最佳组合策略,以减小关联查询时中间节点命中数量规模,提升查询速度。5.如权利要求1所述的方法,其特征在于,步骤4)中SDDQN包括以下四个算法模块:算子Step链切割模块,用于针对含有执行作用域的子算子Step链进行分割标记,提醒算子状态转移时不可跨标记转移;算子特征提取模块,用于将每个算子规范化为由当前算子的序号、算子函数名、参数名、参数值与限定范围组成的五元组;DDQN决策器模块,用于DDQN训练和决策,通过构建经验回放池,并存储算子Step链与JanusGraph

Server交互的当前和历史样本;通过经验池随机抽样训练,将动作价值选择与行为评价分别用DDQN的两个神经网络结构进行配合训练;使用ε

贪婪算法提升收敛速度;算子逻辑还原与校验模块,用于在DDQN中每步Action选择完毕后执行行动校验,在全部决策执行完毕后执行基于JanusGraph

Server的Standard Verification Strategy策略的算子Step链校验,校验完毕后在算子Step链尾部加上finalEndStep并lock算子Step链遍
历数据库节点,最后针对不同算子进行过滤运算与数据库查询。6.如权利要求5所述的方法,其特征在于,DDQN决策器模块的具体功能如下:在对DDQN训练之前,先设置一个初始状态,令该初始状态包含空列表L
new
和查询语句中所有算子构成的列表L
steps
;当每次执行一个动作a
t
时,从L
steps
选择一个算子加入到L
new
列表中,该L
new
列表中已选算子构成的列表作为一种状态s
t
,所有状态构成状态集合S,当L
new
、L
steps
这两个列表长度相同时,s
t
到达中止状态;当每次状态转移时,将下一个选中的算子的行动作为一次动作a
t
,并根据状态
...

【专利技术属性】
技术研发人员:卢志刚龚逸儒姜波刘松刘俊荣张辰
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1