一种基于知识图谱的漏洞类型关联分析方法技术

技术编号:37508484 阅读:11 留言:0更新日期:2023-05-07 09:47
本发明专利技术公开了一种基于知识图谱的漏洞类型关联分析方法,包括如下步骤:步骤一、知识图谱总库构建:预先将美国通用漏洞和披露平台(CVE)、美国国家信息安全漏洞库(NVE)、日本信息安全漏洞库(JVN)按照实体节点和实体之间的语义关系构成边,汇总成整体的知识图谱化总库,通过流程配合,对美国通用漏洞和披露平台(CVE)、美国国家信息安全漏洞库(NVE)、日本信息安全漏洞库(JVN)中的海量数据采用先构建知识图谱总库,再分类筛分漏洞子集,后经过一级验证和二级复验的方式,实现海量数据中的漏洞数据进行全面、细化和高精度类型关联性分析处理的效果,降低漏洞数据关联系分析局限性大,降低漏洞数据关联系的容错率。降低漏洞数据关联系的容错率。降低漏洞数据关联系的容错率。

【技术实现步骤摘要】
一种基于知识图谱的漏洞类型关联分析方法


[0001]本专利技术涉及基于知识图谱的漏洞类型关联分析
,具体为一种基于知识图谱的漏洞类型关联分析方法。

技术介绍

[0002]知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
[0003]随着现在互联网和大数据的技术发展,各个行业中都会产生海量数据,为了对海量数据中的漏洞数据更好的分析处理,需要开发基于知识图谱的漏洞类型关联分析方法,而目前采用的知识图谱漏洞类型关联分析方法,大多只局限于小区域数据的漏洞分析,不能对海量数据采用先构建知识图谱总库,再分类筛分漏洞子集,后经过一级验证和二级复验的方式,对海量数据中的漏洞数据进行全面、细化和高精度类型关联性分析处理,不仅局限性大,而且容错率也较高,满足不了当下互联网和大数据技术的发展需求,为此,提出基于知识图谱的漏洞类型关联分析方法。

技术实现思路

[0004]本专利技术的目的在于提供基于知识图谱的漏洞类型关联分析方法,以解决上述
技术介绍
中提出的目前采用的知识图谱漏洞类型关联分析方法,大多只局限于小区域数据的漏洞分析,不能对海量数据采用先构建知识图谱总库,再分类筛分漏洞子集,后经过一级验证和二级复验的方式,对海量数据中的漏洞数据进行全面、细化和高精度类型关联性分析处理,不仅局限性大,而且容错率也较高,满足不了当下互联网和大数据技术的发展需求的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于知识图谱的漏洞类型关联分析方法,包括如下步骤:
[0006]步骤一、知识图谱总库构建:预先将美国通用漏洞和披露平台(CVE)、美国国家信息安全漏洞库(NVE)、日本信息安全漏洞库(JVN)按照实体节点和实体之间的语义关系构成边,汇总成整体的知识图谱化总库;
[0007]步骤二、分类筛分模块:再将构建知识图谱化总库中的各类漏洞数据基于SVM分类筛分法通过分类筛分模块按照语义特征关系、关键词特征和背景语料特征划分为数据漏洞集1、数据漏洞集2至数据漏洞集N的漏洞数据子集,且N代表漏洞数据子集的总数;
[0008]步骤三、概念化特征一级验证:接着将分类筛分后的各个漏洞数据子集按照实例概念化法处理,并采用P(c/i)、P(i/c)、互信息、点互信息、标准化的点互信息以及概念化特
征算法对分类筛分后的各个漏洞数据子集按照实例和概念之间的关联度进行一级验证,若各个漏洞数据子集未通过一级验证时,则对应将未通过一级验证的漏洞数据子集返回步骤一和步骤二进行重新知识图谱构建和分类筛分处理,循环三次,在三次循环后,仍存在未通过一级验证的漏洞数据子集直接存入一级验证未通过数据库,等待人工复核;
[0009]步骤四、分类评估二级复验:若各个漏洞数据子集直接通过一级验证以及三次循环后的问题漏洞数据子集通过一级验证后,再将通过一级验证后的各个漏洞数据子集按照得到的概念词作为扩展特征加入原始特征集,得到各个漏洞数据子集的语义加入语义特征集,并采用分类评估算法对通过一级验证后的各个漏洞数据子集进行复验,并将通过一级验证后的各个漏洞数据子集的原始漏洞数据设为K,分类评估算法对复验的各个漏洞数据子集的扩展数量设置为T,且设定复验的各个漏洞数据子集的实例集为X,通过一级验证后的各个漏洞数据子集的概念化特征扩展后的复验集设为K*,并将分类评估算法对通过一级验证后的各个漏洞数据子集复验得到的特征词集和关联性语义集分别设为(S1、S2
……
,Si)和主题(C1、C2
……
,Cj),则K*={S1C1、S2C2
……
,SiCj},其中i为特征词集总数,j为关联性语义集总数,若二级复验后的各个漏洞数据子集未通过分类评估算法复验时,则对应将未通过二级复验的漏洞数据子集返回步骤一、步骤二和步骤三进行重新知识图谱构建、分类筛分以及一级概念化特征算法验证处理,循环三次,在三次循环后,仍存在未通过二级复验的漏洞数据子集直接存入二级复验未通过数据库,等待人工复核;
[0010]步骤五、数据漏洞决策表构建:若各个漏洞数据子集直接通过二级复验以及三次循环后的问题漏洞数据子集通过二级复验后,直接汇总至数据漏洞决策表。
[0011]优选的,所述在步骤二分类筛分模块中,对由知识图谱化总库中的各个漏洞数据子集利用WordXet进行语义消歧、关键词提取和各个环境下的背景语料进行细化分类,再借助贝叶斯分类器对细化分类后的各个漏洞数据子集进行再次分类筛分。
[0012]优选的,所述在步骤三概念化特征一级验证中,P(c/i)代表当前实例i所对应的概念为c的概率,P(i/c)代表当前概念c所对应的实例为i的概率,则P(c/i)的计算公式为:
[0013]P(c/i)=n(c,i)/∑
i∈c
n(c
j
,i);
[0014]P(i/c)=n(c,i)/∑
i∈c
n(c,i
j
),式中,n(c,i)为实例i和概念c同时段出现的次数,∑
i∈c
n(c
j
,i)为实例i和实例i包含的所有概念同时段出现的次数,∑
i∈c
n(c,i
j
)为概念c和概念c包含的所有实例同时段出现的次数。
[0015]优选的,所述在步骤三概念化特征一级验证中,互信息W验证的是各个漏洞数据子集变量之间的关联性,为各个漏洞数据子集变量中涵盖的另一个变量的关联性信息量,且计算公式为:
[0016]W(i/c)=∑P(i/c)log{(Pi/c)/P(i)P(c)},式中,P(i/c)为实例i和概念c同时段出现的联合概率。
[0017]优选的,所述在步骤三概念化特征一级验证中,点互信息验证的是各个漏洞数据子集中实例和概念的关联性,且计算公式为:
[0018]PW(i/c)=log{(Pi/c)/P(i)P(c)}=logP(i/c)

logP(i),式中,logP(i)为各个漏洞数据子集中实例和概念关联性的常数,且PW(i/c)值取决于logP(i/c)。
[0019]优选的,所述在步骤三概念化特征一级验证中,标准化的点互信息验证的是各个漏洞数据子集中实例和概念的关联性评分等级,且计算公式为:
[0020]NPW(i/c)=PW(i/c)/

logP(i/c)={logP(i/c)

logP(i)}/

logP(i/c);
[0021]再用PW的X次方进行对比论证,且论证公式为:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的漏洞类型关联分析方法,其特征在于:包括如下步骤:步骤一、知识图谱总库构建:预先将美国通用漏洞和披露平台(CVE)、美国国家信息安全漏洞库(NVE)、日本信息安全漏洞库(JVN)按照实体节点和实体之间的语义关系构成边,汇总成整体的知识图谱化总库;步骤二、分类筛分模块:再将构建知识图谱化总库中的各类漏洞数据基于SVM分类筛分法通过分类筛分模块按照语义特征关系、关键词特征和背景语料特征划分为数据漏洞集1、数据漏洞集2至数据漏洞集N的漏洞数据子集,且N代表漏洞数据子集的总数;步骤三、概念化特征一级验证:接着将分类筛分后的各个漏洞数据子集按照实例概念化法处理,并采用P(c/i)、P(i/c)、互信息、点互信息、标准化的点互信息以及概念化特征算法对分类筛分后的各个漏洞数据子集按照实例和概念之间的关联度进行一级验证,若各个漏洞数据子集未通过一级验证时,则对应将未通过一级验证的漏洞数据子集返回步骤一和步骤二进行重新知识图谱构建和分类筛分处理,循环三次,在三次循环后,仍存在未通过一级验证的漏洞数据子集直接存入一级验证未通过数据库,等待人工复核;步骤四、分类评估二级复验:若各个漏洞数据子集直接通过一级验证以及三次循环后的问题漏洞数据子集通过一级验证后,再将通过一级验证后的各个漏洞数据子集按照得到的概念词作为扩展特征加入原始特征集,得到各个漏洞数据子集的语义加入语义特征集,并采用分类评估算法对通过一级验证后的各个漏洞数据子集进行复验,并将通过一级验证后的各个漏洞数据子集的原始漏洞数据设为K,分类评估算法对复验的各个漏洞数据子集的扩展数量设置为T,且设定复验的各个漏洞数据子集的实例集为X,通过一级验证后的各个漏洞数据子集的概念化特征扩展后的复验集设为K*,并将分类评估算法对通过一级验证后的各个漏洞数据子集复验得到的特征词集和关联性语义集分别设为(S1、S2
……
,Si)和主题(C1、C2
……
,Cj),则K*={S1C1、S2C2
……
,SiCj},其中i为特征词集总数,j为关联性语义集总数,若二级复验后的各个漏洞数据子集未通过分类评估算法复验时,则对应将未通过二级复验的漏洞数据子集返回步骤一、步骤二和步骤三进行重新知识图谱构建、分类筛分以及一级概念化特征算法验证处理,循环三次,在三次循环后,仍存在未通过二级复验的漏洞数据子集直接存入二级复验未通过数据库,等待人工复核;步骤五、数据漏洞决策表构建:若各个漏洞数据子集直接通过二级复验以及三次循环后的问题漏洞数据子集通过二级复验后,直接汇总至数据漏洞决策表。2.根据权利要求1所述的一种基于知识图谱的漏洞类型关联分析方法,其特征在于:所述在步骤二分类筛分模块中,对由知识图谱化总库中的各个漏洞数据子集利用WordXet进行语义消歧、关键词提取和各个环境下的背景语料进行细化分类,再借助贝叶斯分类器对细化分类后的各个漏洞数据子集进行再次分类筛分。3.根据权利要求1所述的一种基于知识图谱的漏洞类型关联分析方法,其特征在于:所述在步骤三概念化特征一级验证中,P(c/i)代表当前实例i所对应的概念为c...

【专利技术属性】
技术研发人员:倪卿邵佳炜方晓蓉刘赛吴金龙顾荣斌陆玉琪吴媛欣杨勰
申请(专利权)人:南京南瑞信息通信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1