【技术实现步骤摘要】
一种非结构化海量网络安全数据的关联及查询方法
本专利技术属于大数据
,主要用于不同来源的非结构化海量数据的信息关联及查询。属于一种大数据的处理分析方法。尤其涉及互联网信息中非结构化网络安全海量网络安全数据的处理分析、查询方法。
技术介绍
随着互联网技术的不断发展,数据量呈指数级快速增长,海量的不同来源的非结构化的数据中蕴藏中巨大的价值信息,如何快速高效的提取、关联和挖掘出海量数据价值,是当前大数据领域研究的重要课题。大数据挖掘分析技术中的关键一环是数据关联技术,将海量的数据进行有效的数据关联,能够获取数据之间的规律,从而为技术创新或商业应用创造价值。大数据关联技术是一项研究海量数据之间存在的直接关系或潜在关系的技术。当前,主流的关联规则算法有Apriori算法、F-P算法和Eclat算法等,上述算法的主要功能是研究数据之间潜在的某种规律或联系,或者称之为间接关系。本专利技术的主要研究对象为对于海量互联网网络安全数据。在网络安全中,识别用户(比如黑客或者网络攻击源用户)的准确身份对于网络安全的保护、追踪以 ...
【技术保护点】
1.一种非结构化海量网络安全数据的关联及查询方法,基于实现非结构化海量数据的关联及查询方法的系统实现该方法,所述系统包括自底向上、相互通信的硬件层、数据层、处理层、应用层;所述硬件层包括管理服务器和N个计算存储服务器,其中N>1,用于计算海量网络安全数据及存储相应的计算结果;所述数据层包括网络安全数据库,用于存储网络安全数据;其特征在于,所述方法包括如下步骤:/n步骤S201:建立二级索引并基于二级索引进行海量网络安全数据快速查询,完成网络安全数据的初次关联;/n步骤S202:基于网络安全数据可信度值进行迭代计算,实现所述网络安全数据的关联;/n步骤S203:对实现了 ...
【技术特征摘要】
1.一种非结构化海量网络安全数据的关联及查询方法,基于实现非结构化海量数据的关联及查询方法的系统实现该方法,所述系统包括自底向上、相互通信的硬件层、数据层、处理层、应用层;所述硬件层包括管理服务器和N个计算存储服务器,其中N>1,用于计算海量网络安全数据及存储相应的计算结果;所述数据层包括网络安全数据库,用于存储网络安全数据;其特征在于,所述方法包括如下步骤:
步骤S201:建立二级索引并基于二级索引进行海量网络安全数据快速查询,完成网络安全数据的初次关联;
步骤S202:基于网络安全数据可信度值进行迭代计算,实现所述网络安全数据的关联;
步骤S203:对实现了关联的所述网络安全数据进行有效性判定,对于不符合要求的所述实现了关联的网络安全数据,从网络安全数据库中删除该网络安全数据及其关联数据;
步骤S204:用户通过数据查询接口提交数据查询任务,查询已经建立的所述二级索引数据,获取所述数据关联任务对应的数据主键值,通过该数据主键值查询所述网络安全数据库的关联数据表,获取对应的网络安全数据及其关联数据。
2.如权利要求1所述的一种非结构化海量网络安全数据的关联及查询方法,其特征在于,所述步骤S201:建立二级索引并基于二级索引进行海量网络安全数据快速查询,完成网络安全数据的初次关联;包括:
步骤S301:分析更新或新增的非结构化网络安全数据特点,提取能够表征该网络安全数据的安全属性字段对应的数据为安全属性特征字段数据,并存入网络安全数据库;所述网络安全数据的安全属性字段个数大于或等于1;
步骤S302:将所述安全属性特征字段对应的数据与该网络安全数据的主键值建立映射关系,形成二级索引数据,并存入网络安全数据库;
步骤S303:定期进行网络安全数据扫描,获知具有更新或新增的网络安全数据,依据所述安全属性特征字段对应的数据在所述二级索引数据中查找对应的主键值;
步骤S304:依据查找到的所述主键值,快速定位网络安全数据库中的数据,完成网络安全数据的初次关联操作,对完成初次关联的所述网络安全数据设置标记。
3.如权利要求1所述的一种非结构化海量网络安全数据的关联及查询方法,其特征在于,步骤S202:基于网络安全数据可信度值进行迭代计算,实现所述网络安全数据的关联,包括:
步骤S401:查找已经完成初次关联的网络安全数据或从用户发送的数据关联任务获取的网络安全数据作为需关联的网络安全数据;
步骤S402:依据该网络安全数据的特点,将该网络安全数据字段内容分为三类:唯一表征类数据、概率表征类数据和无效表征类数据;
步骤S403:对于第一类数据,即唯一表征类数据,依据该字段的内容进行查询操作,...
【专利技术属性】
技术研发人员:潘祖烈,张旻,王文浩,陈加根,宁剑,许成喜,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。